Att bygga den relativa korrelationen (den icke-linjära komponenter) under träning av självorganiserade kartor

2016-07-17

Betraktar vi våra självorganiserade kartor (sista inlägg innan denna med länkar bakåt till de färska inläggen men mer några år bakåt i tiden bör finnas) uteslutande eller primärt som en metod för clustering (och såväl min anpassade algoritm av Kohonen liksom alla uppenbara varianter av Kohonen presterar ungefär som andra vanliga algoritmer som K-means i denna del) finns föga anledning att ha särskilt fokus på grannskap annat än för ev. behov visualisering eller önskan inbördes-sortering förutom den som jag upplever större fördelen här att mycket enkelt utan engagemang slippa hela frågan om out-liers som ockuperar cluster ensamma eller nära så. Den sista fördelen out-liers bör normalt alltid lösa sig väl av ganska begränsad grannskaps-effekt tidigt varefter kanske ofta egentligen föga anledning finns till att alls bibehålla grannskapet.


Emellertid etablerar vi en kodbok (en relevant namnlikhet använd traditionellt speech-processing såväl kryptologin för ECB-mode kanske först namngiven i DES-standarden - electronic code book där feedback och annan påverkan mellan block som krypteras helt saknas: samma indata och samma nyckel krypterar alltid tillsamma data oberoende av föregående och framförvarande klar- eller chiffertext vilket etablerar lägre säkerhet genom att vi kan bygga upp look-up-tabeller färdiga förslagsvis som man gärna gör det lagringseffektivt vanliga filstarter med vanliga lösenord - eller dyrare men ej brutalt för DES 56-bitar alla nycklar - mode d.v.s. praktiskt vad vi här önskar göra) där vi önskar att resp. flergrams-koncept (ex. Hans Husman och/eller ord får en meningsfull positionering i rymden är den korrelation den icke-linjära komponenten i SOM-näten skapar (d.v.s. från spreading activation i rent topologiskt - "fysiskt" - grannskap av vinnande nod mycket intressant.


Vi ökar mängden information positionerna i representationen (för mig 300 decimal-tal för varje resp. träningssystem eller totalt före dim-reduktion 1200 decimal-tal kompletterat 300 st för icke-normaliserad träning approximerande "vanligheten" vilka förväntat bör naturligt gå igenom en egen liten reduktion till färre dimensioner enkelt) genom att sambanden mellan varje position bär större vetande.


Arbetande på en disk 2D kan vi se att bandbredden (mängden samband mellan positionerna som passerar från en modifikation) till priset av fler operationer (motsvarande mindre data som kan läggas ut på bandbredden per tidsenhet) ökar. 1D som jag arbetar kan man märka att det går att råka ut för relaterade grupperingar i början och slutet av dimensionen.


Vi kan betrakta tror jag hela fördelningen av grannskaps-effekten som att gå mot normalfördelning från en approximativ summering av diverse fördelningar för varje position med dess grannskapseffekt. Populärt ger det en approximation av informationen beräkningsbar ganska enkelt för normalfördelningen. Emellertid är denna skattning mindre eller lika med faktisk information. Det är praktiskt korrekt att se det som att vi gör antagande om normalfördelning på mer eller mindre väl normalfördelat och efter samma beräkningsrelation tappar vetande i ungefär samma takt som skattningen hade riskerat att komma fel (eller så har det alltid tycks visa sig för mig när jag prövat det på kontinuerliga fördelningar med olika skattningsmetoder ex. område som upplösning på histogram o.s.v.).


Så såväl defekten skattningen informationen som praktiskt vetandet en nod har om en annan nod reduceras med det topologiska avståndet. Ett sätt att uttrycka orsaken till varför man kan få dessa klumpar. Emellertid visar det också att ordnad sortering av information som när har baserad similarity på 400-dimensions-data för ord (eller flergram) kan uttrycka vettig sortering hela tiden i dess lokaliserade mening. Men jämför vi korrekt väl-sorterat i ett område med ett tillstånd långt bort kan ordningen ej garanteras bibehållas.


För sådan garanti skulle vi behöva låta det hela självorganiserat utifrån aspekt av tillståndet långt bort (eller något koncept eller grupp av koncept kanske) eller möjligen (lätt osäker på om garanti finns här och praktiskt utan tvivel extremt tidsödande att etablera hela vägen för flera miljoner koncept) totalt grannskap alltid. Något egentligt värde av det tvivlar jag på finns då vi ändå kan få ut den icke-linjära information samband mellan tillstånden i den nivå vi önskar (i all praktisk ej otrolig användning, tid- och hårdvara tillgänglig) genom att ha grannskap mer normala för sammanhanget: När jag tar ner träningskonstanten ökar jag upp grannskapet för att minska risk för att icke-linjär information tappas (för användning uteslutande clustering får man dock renare cluster och färre fel reducerande grannskapet men påverkan grannskapet minskar givetvis också när träningskonstant tas ner och stora delar ökat grannskap är troligen ren avrundning nära slutet körning) vilket är omvänt mot ofta beskrivet som normalt (en känsla jag har är dock att användning man tänker sig typiskt är clustering när språk är användning resp. avbildning fmri. EEG eller andra bilder medan mindre och mer i forskningen sista åren fokuserat på etablering korrelation - delvis troligen format av hur väl lösta vanliga data-alg. områden upplevs vara / hur färskt coola en grund metod är - såväl som ej att underskatta utvecklingen av hårdvara ty större grannskap kostar beräkning: Ett exempel på den senare forskningen har vi i Data mining and Knowledge Discovery with Emergen Self-Organizing Feature Maps för Multivariate Time Series även om jag fattade det rätt tror att man ej effektivt utnyttjar korrelation etablerad eller emergence i artikelns termonologi möjlig för språk särskilt när vi ej ser möjlighet att visualisera - vilket kan vara lätt begränsande när det gäller samband data - som det primära).


Därav efter egentligen relativt ändra algoritm ändringar begränsade tester att jag "öppnat upp arrayen" och gjort "linjen" till en cirkel. Jag kan inte se det som troligt praktisk att någon form av instabilitet kommer visa sig. Tvärtom har jag valt att ta upp en tränings-processerna som går till den högre nivån av 0.10 från 0.05 i träningskonstant (grannskap 44 på resp. sida expanderat till vid 0.05 fick kvarstå) just för att inducera förändring topologisk-sortering (självorganiserat snarare än annan hantering för att få 3 - 6 tillstånd någonstans ganska samlat 200 - 299 upplevda åtminstone projiserat ord (snarare än flergram som tränat) d.v.s. de ord mest lika genereras för resp. tillstånden sorterat - geo-relaterade vilka i övrigt alla (förutom av och till personer och händelser geo-taggade i konceptet vilka normalt som önskat sorterar med namn) ligger 0 - 100. Skillnaden är att distansen topologiskt för tillstånd 0 och tillstånd 299 förändras från 299 till 1. Vi kan (eller jag kunde så) lätt tänka oss att man kanske kan hamna i träning där tillstånden har svårt att stanna och kanske vandrar runt men som sagt ser jag det som helt otroligt praktiskt.


Och värdet förutom lokaliserat trevligare sortering mellan geo-koncepten som hamnar mot slutet av arrayen anslutande till övriga och där påverkar och påverkas vidare av dessa hamnade mer upplevt sunt sorterade får vi nu information samband koncept också effektivt byggda i början av slutet av arrayen (i det värdet spelar det heller ingen roll om det skulle börja röra sig cirkulärt) ersättande dyrare effekt över större avstånd genom den större bandbredd som två eller fler topologiska dimensioner lättare givit (möjligen ges samma effekt vid samma antal operationer: Det brukar vanligen ungefär vara så upplever jag mig visa sig vara så med vettig kod men jag har ej försökt - och vill som utanför information science lidande av matematik-PTSD inte - räkna på det).


Approximerar och generaliserar Hotelling-transformationen

Det tycks etablerat i matematik att Kohonens algoritm åtminstone under viss konfiguration approximerar eller har förutsättning att ta ut principal komponenter (Hotelling-transformationen / PCA) men jag har smärtat mig genom att försöka förstå etableringen av korrelationen den vägen utan använt verktyg och metoder jag är van att använda (PCA gillar jag som verktyg medan jag utgår utan att gått längre än sammanfattningen att det ej är effektiv tid att läsa hur matematiker förklarar vad det teoretiskt kommer in i Kohonen. Rent praktiskt är det emellertid självklart i topologisk 2D-mening:


  • Betänker vi oss en figur - säg en streckgubbe för enkelheten - har vi maximal varians d.v.s. här också maximal information om figurer där den största förändringen sker.
  • När vi går från vår streckgubbe över till den vita bakgrunden.
  • Med PCA kan vi ta ut just denna del av informationen och ex. för figur med mer än bara en streckgubbe få data vi kan automatiskt rita upp en streckgubbe med.

Kör vi Kohonen två dimensionellt på bilddata och har en similarity (eller avstånds-operation) som fångar samma typ av data får vi (utifrån vald upplösning via antal tillstånd - antagligen just p.g.a. detta möjligen delvis som man uttrycker att Kohonen näten generaliserar PCA) får vi just en dimensionsreducerad förenklad representation av bilden exempelvis mest trivialt just en streckgubbe.


Utnyttjande korrelationen (och användande det i metod-bredd lite mer begränsande från Data mining and Knowledge Discovery with Emergen Self-Organizing Feature Maps för Multivariate Time Series än jag gör för flergrammens tillstånd) kan vi också betrakta förändringen - i någon mening hastigheten eller koncentrationen / tätheten av streckgubben). Görande ungefär detta kanske 2009 eller 2010 på en bild (med största sannolikhet från Google's karttjänst: Kan ej tänka mig vad det annars skulle varit - Möjligen annan kanal GeoEye och i så fall bör det ej varit platt: Det gick i alla fall att få lite strö tid gratis utvärdering vilket jag ev. gjorde vid den här tiden: Minns ej men finns säkert att hitta bakåt här och förövrigt kanske med korrektare - jag tänker lätt fel kring sådant - års-indikation än här) klarar på villaområde Bergsbrunna, Uppsala, trots då fortfarande den sämre plattare fototypen få en grov indikation via detta på hur höga träden här (mor har ett av de högsta träden: Trädet står på tomt i nedåt lutning och betraktar vi trädet från vägen ovanför håller det samma höjd "över-havet" som träd på tomter ovanför i lutet d.v.s. ej helt trivialt). Det imponerade storligen på mig då och var inte något jag sökte när jag satte det att arbeta på bilden (körde om jag minns rätt på kanske 20 olika typer av bilder för att se vad det skulle bli) men illustrerar väl värdet av korrelationen mellan tillstånden.


Jämförelse med PCA: Principal Component Analysis and Self-Organizing Map för Visualizing and Classifying Fire Risks in Forst Regions.


Kanske kan vi se möjligheten med Kohonens nät i min och andra varianter som att cluster delen ger oss K-mean (utan grannskap får man i praktiken samma varken bättre eller sämre men kanske med mindre besvär) medan vi därefter först har vad vi kanske enklast (tyckte jag själv) ser som den första representationen av variansen i form av ordningen (motsvarande streckgubben) och därefter över dessa tillsammans en eller flera till (beroende på hur vi vill tänka oss detta vilket mer än att mena att inte en mängd vägar att uttrycka detta här är vad jag försöker mig på) lager med motsvarande principal komponenter uttryckande varians i data (ex. motsvarande det mest omedelbara att se förändringen av likhet mellan resp. tillstånd och/eller - beroende på hur man gör det - som tätheten på kartan).


Följande artikel har jag ej läst (Google visar också resultat från Finland GZ-komprimerad PS som jag ej läst) ännu: Emergence of invariant-feature detectors in the adaptive-subspace self-organizing map, Teuvo Kohonen, Biological Cybernetics. 1996.