Självorganiserade kartor: We have just folded space from Ix... Many machines on Ix.

2016-07-29

Grundalgoritm (en anpassning av Kohonens självorganiserade kort) hittas via SOM med grundtänk i Att bygga den relativa korrelationen (den icke-linjära komponenter) under träning av självorganiserade kartor. Den problematik (eller kanske möjlighet) relaterad SEO diskuterad senare berörs kort där och har även kommenterats vidare i ett par till inlägg i SOM-kategorin (första länken, och bl.a. det kryptografi- och IDS-relaterade inlägget).


Ett alternativt - i riktighet beroende av hur vi har fördel att betrakta resonerande - sätt att se på den icke-linjära komponenten i SOM-algoritmen diskuterad i Att bygga den relativa korrelationen (den icke-linjära komponenter) under träning av självorganiserade kartor (med utgångspunkt bl.a. PCA - och även om jag kommit att förstå att många använder grund-algoritmen data-dumt på nivå att man ej naturligt får ut ex. bra representationer bilder - tvärtom ännu mer udda är det ganska vanligt med standard-applikationer att skapa helt topologiskt obegripliga representationer av ämnen - gäller att det är i den visuella enkla skepnaden vi enklast förstår såväl organisationen övergripande via inte minst meningsfullheten i distansen mellan tränade tillstånd, förändringen mellan tränade tillstånd lokalt, och när applicerat - och delvis tränat - på många skepnader ritade eller fotograferade av objektet det gemensamma i helheten som gör ex. klassificering såväl görlig som förvånande snabb när just det mest "talande" organisation och delarnas förändring sammanfattats ner) är att se vad som uttrycks (uttrycks därför att det ej är givet att vi behöver se det uttryckt för att detta ska existera lika riktigt) i vad populärt bland "tillämpade matematiker" (inkluderande fysiker, vissa datavetare m.m.) önskas se som bas-algoritmen i Kohonen-nät viker rymden (ex. Topology Preservation in Self-Organizing Maps, K Kiviluoto - 1995 - cis.legacy.ics.tkk.fi).


Praktiskt vad jag tycker vi beskriver som ett "avbrott" i hos annars förväntad "rakhet" (avbrott och rakhet tycker jag läsaren kan förstå som ett uttryck för den folkliga svenskhet jag tycker är mycket viktigare än den matematiska subkulturens senaste buzz-word för egentligen samma sak vi svärdat och kolmilat i Sverige sedan vikingatidens enforced-trading utan en massa onödigt strunt må det vara EU eller särskilda ord för hur vi hugger huvudet av problemet så länge det dör, kvinnorna beundras av metoden och munken har något av data-värde - skattkarta? - envorded out innan "terminated" att ta med sig). Något jag tror mina läsare jag genom åren förstått har mycket sämre ordförråd än jag har uppskattar ) i en topologi där en distans som uttrycks också blir en distans som är "rak" linje. D.v.s. avbrott där distansen säg mellan position 1 och 2 och 3 är lokalt sorterad riktigt men vi kan ha distanserat utanför det omedelbara lokala som avviker i att närhet till position kan skilja sig från positionen omedelbart bredvid där brytande topologi (om jag nu rätt uttrycker i ord vad jag praktiskt får ut i tabeller). Givetvis utan annan särskilj hantering än att träna mot närmaste är det ytterst rimligt att detta med slumpmässigt initierade vektorer ej uttrycker något i indata högre-dimensionellt men rätt gjort gör de det. Meningsfull distans existerar likväl men i värld med fler dimensioner än vi laborerar med direkt i tillståndens ordning.


Just begreppet av att se det veckat känns ej naturligt för mig. Hellre känns det närmare tillhands för mig att se det från några vanliga begrepp möjliga räkna på under träningen.


1. Sannolikhet, mängd, exakthet, och fler nära besläktade koncept för en arketypisk ex. ordtyp. Lokalt för mängden av dessa ord (enklast beskrivande med alla ord lika sannolika) kan vi hanterande grannskap få dem sorterade uttryckande linjärt exaktheten bestämning till närmaste dimension ger oss. D.v.s. här ligger också en koppling mellan sannolikhet att dra resp. träningsdata och exaktheten. Såväl som "andelen tränade" tillstånd vi träffar i mening av likheten till resp. med ett ord när tillstånden tränats färdigt till ordets globala allmänna sannolikhet (om det nu var denna sannolikhet som utnyttjades under träning: Havande själv ordentligt stor statistik sannolikhet är en faktor mer påverkande när tydligt den exakthet jag önskar för olika koncept-typer - Praktiskt egentligen nästan helt ingrepp av typen att se till att enorma mängder personer förekommande offentliga corpus ej för alla system som tränas upp ockuperar överdrivet många tillstånd).


2. Komplexiteten från en kanske egentligen utopisk eller lokalt praktiskt för en tillämpning för enklast en typ av ord till hur det via uttrycken språk i corpus till för de samplings-vektorer (säg via HAL, eller gruppen LDA-lamda-eigen-value-linje-skattningar-algoritmer) och slutligen möjlighet funktion beräkning distans.


Ett upplevt av typisk person komplext ex. ämne kan mycket väl ha låg komplexitet - lätt att sampla och ger mycket korrekta representationer hela vägen - vilket är fallet inte minst för medicinska områden (jag ser detta såväl egna corpus från bl.a. medicinska journaler, ontologier (inkl. biologi) som GO m.m., och referensböcker, såväl som också några färdiga vektor distributioner jag prövat: Men emedan jag vet att det går relativt bra att utnyttja Wikipedia corpus åtminstone efterföljande deras kvalitetsprojekt medicin med sampling journaler, ontologier o.s.v. har jag även noterat en hel kvalitetsproblem i halvfabrikatet Yago såväl som - kanske del-förklaring Yago-problem - Wordnet där också den senare har en viss ytlighet som heller inte motsvarar en funktionell ytlighet i mening likt en vanlig persons ytlighet jämfört med en specialist som håller sig uppdaterad ny forskning).


Hög komplexitet gäller emellertid bl.a. allt gambling relaterat när utgångspunkt är internet-corpus p.g.a. SEO. Trots nästan pinsam nedsmittning egentligen alla färdiga distributioner jag tittat på oavsett typ (inkl. två från ett par sökmotor-aktörer: Emellertid vet jag föga om koppling till praktiska sökresultat där lika lite som jag ser någon koppling här till vad man diskuterat när publicerande artiklar d.v.s. det kanske inte är vad man brytt sig i eller heller ev. är vad man vill korrigera för och därmed bäst för att ej verka ytlig i artikeln avstå från att diskutera ordentligt) är det ej svårt att hantera oavsett utgångsdata eller som jag hellre över-tiden vill betrakta detta hörande till operationer som ej hanteras indata eller tidiga steg utan efter att de första ordvektorerna skapats (vilket ev. kan upplevas lite svårare att göra om ej någonsin tränat dem vidare till ex. SOM-representationer där man får en representation enklare att förstå via en mer "begripligt sorterad" natur). Att ha samplat en av sökmotorernas sökresultat (egentligen många - ett tag närmast ätande sådant data lite tvångsmässigt - fler men en av the big dit vi ej skulle räkna ex. Lycos och jämförbart) medan den fortfarande hade ordentligt med spam-lokaliteter har jag också vissa kvantifieringar av hur det kan se ut (vilket mer är vad upplevde naturligt att använda hitta mönster snarare än direkt till någon sannolikhets-driven-funktion förekomst kombinationer även om mängden associerade ämnes-gruppen är vad som enkelt översätter tid eller beräkning att investera så är det i övrigt ej ovanligt vilka kombinationer som helst relevanta eller ej så).


I kontrast kan man dock bara manuellt surfa normalt av och till detektera egenheter utan tvivel relaterade viss abnormitet i vektor-representationer koncept. Jag har givit några exempel sista åren av och till och även om jag kanske inte uttryckte det ämnes-specifikt här så beskrev jag dem tämligen noga och åtminstone för en där jag upplevde att den stora valen införde något nytt jag upplevde likhet från till vissa diskussioner publicerade av en av deras experter med några uppföljningar upp till kanske 1.5 år (när jag råkade på rest-effekter fortfarande: Har ej reagerat därefter på länge så troligen inarbetat nu). Området här i perspektiv konvertering av sökmotortrafik ligger givet förutsättningar givet ett enormt internet-corpus att detektera problematik indatat föregripande träning mer i att detektera existerande promiskuösa kombinationer av ord för normalt (tar jag som givet här men har ej gjort mer än så) topic en lokaliserad avgränsning exakt som eller jämförbart hanterad med en sida på en sajt i ämne självklar relativt omgivning sajt p.s.s. som en Wikipedia-sida och mindre topic-styrd som för nyheter d.v.s. jämförbart med det lokala kontext som title och / eller kategorierna (utlänkar sida till dessa) ger för övergripande tolkning topic, medan jag är mer osäker hur motsvarande inlänkar mellan sidor på sajten påverkar här.


Flera algoritmer skapande ordvektorerna blir promiskuösa i likhet till andra ord av spam påverkad sampling. Ej olikt (delvis med säkerhet relaterat auto-skapat innehåll ex. där det går att skriva till, ändra, eller skapa sidor, något på internet där ord-uppräkning kan förekomma jämförbart) samma promiskuösa egenskap diskuterad med ex. svampar påverkade av vissa typer av Wikipedia-sidor (ej 100% att svamp-exemplen kom från dem eller dessa ev. var vad jag bedömde hade historik internet sample från stora biologiska art-organisations-sajter ev. för dessa något auto-skapat mot robot tänkbart eller om det var något annat likartat jag sökte orsaken till) diskuterat tidigare i Att bygga den relativa korrelationen (den icke-linjära komponenter) under träning av självorganiserade kartor (se även första stycke detta inlägg).


Tänkbart gäller här att speciell kunskap jag hade innan gav mycket större förutsättningar att detektera och hantera problemet. Det är föga om alls detekterat när representationer publiceras eller algoritmer diskuteras. Och ännu har jag ej sett att hantering publicerats. Just att expandera runt ord innan ej existerande efterföljande från skapade vektorer andra ord man vet förekommer med okänt ord är tror jag den närmaste för något funktionella operationer som kommer närmast att beskriva den skada som mer SEO-text-uppradande sample orsakar (medelvärde av för brett område och trots normalt tämligen promiskuöst språk när SEO-text ger skadande indata vilket ej alltid gäller viss meningsfullhet i kombinationerna resulterande i ett fält som kan visa likhet med allt möjligt). Trivial operation ibland användbar inom allt möjligt att subtrahera bort vektorer från vektorer, eller resp. "medelvärden" av dem, är helt icke-funktionellt för alla typer av representationer jag sett. Däremot under organisation vidare där såväl linjära-egenskaper som icke-linjära utnyttjas går det desto enklare (även om visst mått av helt annat data ej i vektorerna för SEO troligen underlättar väldigt: Liksom viss erfarenhet av hela SEO-affären):


Och med den diskussionen önskade jag uttrycka att komplexiteten ligger i försvarlig andel mer i vad vi kanske korrekt kallar för den algoritmiska komplexiteten träning resp. tillämpning. Medan åtminstone för ord och flergram-koncept komplexitet data i mening av svårighet att få det vettigt sorterat m.m. när vettigt indata finns egentligen ej varierar i magnitud i sammanhang av samlat tämligen tidsödande träning när vi laborerar språk allmänt med några miljoner eller fler koncept. Det kan kräva många fler av samma grundläggande operation men antalet operationer samlat är ändå väldigt väldigt många.


Slutligen ligger emellertid en fråga vi kanske ska sortera med komplexitet när det kommer till kunskap som uttrycker upparbetat värde som är komplext att skapa men som naturligt språk dåligt levererar samma värde för. Ex. ontologier över expertområden (DNA, arter, kemi, politik, geografi o.s.v. Mängder av exempel på sådana system hittas genom åren bakåt från när jag byggde Bluelight från många tusen - snarare tiotusentals när thesaurus, stora system av kategorier m.m. räknas in - sådana där viktiga eller intressanta diskuterades av och till). Enormt kompletterande värde ges när man börjar med samma ordvektorer och för koncept gör representation SOM från ex. orden i namnet och samutnyttjar det med SOM som skapas upp från relationerna till konceptet i ontologin (för mig Bluelight). Övergripande förståelse är för språk uttryckt i text (betrakta gärna ämnes-komplexitet krav läsare i nivå med vad som kräver hög grundkunskap för att vara begripligt att läsa) förväntad hos läsaren och adderar när gjord explicit (i för mig approximation som beskrivit) ibland enormt större beskrivning och exakthet jämförelser och rangordning.


Metoder som för in hierarkier eller uttrycker sense, kategorier m.m. för entiteter hittad i en text prövade jag ej. De känns problematiska genom att de adderar för sammanhanget onödig beräkningskostnad hanterade varje stycke indata. Vektorrepresentationerna i resp. steg klarar att hålla nog information i resultatet för ex. aspekter som sense finns med där och utnyttjande slutligen ex. för mig SOM-representationerna kan de tas ut där som önskat. Grundkonceptet utnyttjade jag dock för flera år sedan för prediktion nyhetsämnen (som ex. via exakt vad svårt eller omöjligt att bedöma görlig tid väderfenomen resulterande i omfattande skada någon del av östra USA och ej enormt utsträckt fenomen som detekterats på väg utan jag var helt ställd vad som i någon kombination av nyheterna i data som givit prediktionen vilket spoked med för ända gången någonsin relaterat dataanalys, datorer o.s.v. - en del mer fredliga demokrati-protester från mer begripliga ämnen månaderna föregripande m.m. - och om jag minns rätt här med en luddig tid ungefär normalfördelad med femte dagen framåt i tiden som topp och nere väldigt lågt fem dagar därefter - och om ej så ej givande alls korrekt prediktion för något styrd av metoden förändrande indatat i nyheter indikerad) genom att för varje koncept (fler-gram) förekommande i varje nyhet expandera det med alla dess relationer i Bluelight förutom konceptet själv d.v.s. för aktuell-version Bluelight (ej inkluderande annat än fåtal - upp till tiotusen kanske - personer, och ej småorter bromsande en bit ovanför kanske ej långt under 1/2 miljon personer om ej känd ort av andra orsaker) 20 upp till några tusen relationer (länder var för denna version ej lika gigantiska som de är idag). Mycket kostsam metod för mina dataresurser oavsett hur egentligen trivial. Interferens ges när stabilt nät representerande samlad vetskap från bl.a. samma koncept och deras BL-relationer (såväl som andra typer av relationer som samförekomst under olika tidsperspektiv bakåt upparbetat för systemet externa system) får statistiska värden av nyheterna uppbearbetande per för mig varje dygn (och görande väder-prediktionen med liknande efterföljande försökande demonstrerande för mig själv att den var en slump - stör mig fortfarande idag flera gånger per år när något får mig att tänka på det: Jag kände inte att världen ska fungera så här att det är bortom mig att se vad som indikerar det i fullt läsbara för människa skrivna nyheter ännu lite underligare eller i alla fall indikerande något om tids-komponentens exakthet ej fullt korrekt hanterande tidszonerna från RSS-sampling nyhetssajter: Faktiskt hälften av tester kastades all information förutom datumet d.v.s. ej räknande om till samma faktiska datum - Ingen sampling mot väderprognoser alls heller utan stora nyhetssajter cirka 10 000 - 15 000 motsvarande tidningar runt om i världen plus cirka 100 000 andra RSS-producerande lite tyngre sajter med ej intelligent då hantering fel-uttryck, om resp. nyhet ges i sin helhet eller sammandrag, om reklam eller motsvarande stoppats in). För löpande nyhetshändelser (ex. för en längre hela dynamiken för Arabiska våren, Sydsudan-konflikterna ej inkluderande sista två åren m.m.) ger som förväntat viss skattning framåt i tiden om än naturligt som vi vill ha världen påverkat av sådant som att en stridande part försöker överraska sin fiende vilket är oftare passerar förbi som en förändring intensitet m.m. ej förutsätt korrekt.


För resp. expansion gjordes ingen föregripande sense-bestämning för försöken ovan (även om jag gör det ibland annars). Däremot skedde det implicit i mening av att inget sense eller motsvarande någonsin antas ej gälla eller verka men att hela texten sammantaget (och ev. underliggande rubriker och stycken: Minns ej hur jag gjorde exemplet vilket var nu många år sedan. För optimerad snabb bearbetning nyheter kan det vara vettigt att göra bearbetning titel, ingress och ev. kategorier eller liknande, medan något likt en Wikipedia-sida kan vinna oerhört på djup analys med hänsyn organisation av sidan) bygger ett uttryck för interferens där implicit en skattning sense ligger (vi skulle åtminstone under antagande ett hanterbart sense resp. koncept - en del koncept kan ha relationer vilka ej uttrycker ännu alla sense eller kunskaps-områden konceptet förekommer i - för nyheten, samt om endast en representation utan hänsyn nyhetens organisation görs kan förvisso resp. sense uttryckas men ej vilket uttryck i nyheten det handlar om) möjlig att räkna fram från den (eller när önskat bättre räkna jämförbart men exaktare och snabbare direkt om samma typ av grundmetod ska användas). D.v.s. förekomsten av relationer samlat där gemensamma mönster uttrycks kan indikera sådant som att ett ämne är troligare än ett annat. Trivial algoritmen mest omedelbar (men tämligen begränsad om än ganska snabb) är att betrakta koncept förekommande samman i nyheten och p.s.s. relationerna samman nyheten, kombinerat statistik lokal detta (ex. hela nyheten och/eller lokalt stycken, rubriker m.m.) med global stabil statistik (ex. internet-corpus), med tidslokaliserad system-global-statistik, och som jag gjorde det ej begränsande detta till frekvens och sannolikhet utan utnyttjande vid tiden tror jag 15 - 25 st viktsystem (bl.a. systemet som föregrep emotionell intensitet (inkl. det isomorfologiska viktsystemet jag här använde parallellt EMI: Ev. finns den här och om inte publicerad annan plats), tidig version bluelight intensitet / BLI ett av några exempel värden publicerade i samband med nya beräkningar vikter), några entropi-vikter, "flödes-hastighet" lokalt i tiden (några dagar, en vecka, månad och sist kvartal) rörande hur ordet växer eller minskar i ytan över de koncept det förekommer med i nyheter.