Självorganiserade kartor: Information, entropi och fördelning indata resp. tillstånd kartor

I fortsättning tidigare inlägg relaterat själv-organiserade kartor där förra inlägget också har många av de tidigare länkade överst:

Vektorer för n-gram, entiteter och fraser skapade ad-hoc från vektorer ord

Jag läste en del idag om sambandet fördelning indata resp. skapad självorganiserad karta som särskilt under några år genererande en hel del publicerat som ex. Kohonen maps versus vector quantization for data analysis vilka en del sett som något man kan försöka arbeta bort för att få en mer direkt 1-1 avspegling av distributionen indata i tränat nät.

Nu är det mycket möjligt att jag tar fel här därför att jag brydde mig inte om att göra det här noggrant på något sätt. Snarare har jag förutsatt detta resonemang. Samma natur vi diskuterar här för resulterande SOM ser vi förövrigt jämförbart (men följande sin effekt självklart) vid skapande av distribuerade representationer för ord med de vanliga algoritmen. Vi kan ex. (och enklast normalt tror jag) se det mellan två stycken ord med sin representation när vi relaterar dem via en också existerande gemensam skapelse gällande som ord så som en bit av url ord_1/ord_2 eller som ett sammansatt ord av typen ord_1-ord_2 (vilket jag experimenterat lite lätt med för att ta ut en del vikter från som nämnt nyligen i Vektorer för n-gram, entiteter och fraser skapade ad-hoc från vektorer ord för ett test där man kan hitta det genom att söka på 0.4).

I resonemanget ligger ju också just att vi försöker tillför ett särskilt värde via algoritmen vilket oavsett riktighet rörande resonemang resp. typ av entropi behöver komma med sin information i resulterande data (om ej istället ligga i algoritmer som skapar samma värde vid resp. tillfälle data används).

1. Vi måste inse att den topologiska sorteringen inte fanns i indata. Det är en sortering som argumenterat i den mån vi får en sådan vi är nöjd kan sägas existera potentiellt.

2. En tillförs av vetande avspeglande "slutsats" byggd från data enligt algoritm sker. Vi kan om vi vill kanske kalla det emergence även om jag inte är helt nöjd med termen här som jag brukar använda den.

"In philosophy, systems theory, science, and art, emergence is a process whereby larger entities arise through interactions among smaller or simpler entities such that the larger entities exhibit properties the smaller/simpler entities do not exhibit.

Emergence is central in theories of integrative levels and of complex systems. For instance, the phenomenon of life as studied in biology is an emergent property of chemistry and psychological phenomena emerge from the neurobiological phenomena of living things. Likewise, economic and legal phenomena emerge from psychology."

Från: Emergence | Wikipedia

3. Snarare vill jag kan se det som att vi via "samarbetet" mellan neuronerna bygger upp information på en högre struktur.

Emellertid innebär nu 3. också att vi ej längre kan utgå från att entropi i mening av den vanligaste formeln här p(i) * log ( 1 / p(i) ) är direkt möjlig att addera mellan två sådana i (där i är något i det resulterande nätet direkt topologiskt adresserat via numret i har men som jag ogärna vill ge mig på att direkt uttrycka här innan jag behövt göra det i kod). Följande gäller ej självklart:

E = p(i) * log ( 1 / p(i) )

E ( i + (i + j) ) = E ( i ) + E (i + j)

Och för detta finns Tsallis entropy även om jag får erkänna att jag aldrig riktigt insett poängen med den. I mån av behov för sådant data jag möter känns det mer naturligt att omvandla värdena (typiskt möjligt för mig) till något där praktiskt funktionella indikationer entropi och information finns till vilka jag ej brukar räkna exponenter på sannolikheten.

Hur som helst gäller att den exponent vi har för Tsallis entropy på sannolikheten är vad vi kan välja att se som ett uttryck för den magnitud systemet eller systemet av system avviker från den möjlighet att addera vi ej kan sägas ha med utgångspunkt från sannolikheten i ett indata när organiserad information har tillförts data oavsett om nu informationen kommer från annat data eller för självorganiserade kartor själva algoritmen som sådan (vännerna med antal är information + algoritmen).

Hade vi nu haft p log (1/p) som funktionellt hade ingen information i form av nu organisation tillförts i mening av något som ej direkt fås från sannolikheterna i indatat (här ofta för språk semantiskt distribuerade representationer) så som ex. när vi bygger SOM utan några vänner / grannskap alls och representationen endast är i princip en medelvärdesbildning av några entiteter i indatat med sina sannolikheter.

Och vännerna / grannskapet lär för språk åtminstone ge oss ett antal normalfördelningar "ovanpå" varandra vilket jag tänker kommer uttrycka men ej blev på det klara läsande ytligt en del om det kommer stämma. Så eventuellt om ej fel i det ena eller andra har vi något av den relation mellan resp. jag dock lyckades hitta uttryckt (konkret i matematisk mening: jag ser sådant här mer visuellt ofta hellre) i (sidan 8. Enklast att se samband här som skrivet i 2.8).

Säg här att vi för att antar att alla vara distribuerade representationer i indatat har lika god kvalitet (d.v.s. ej som rimligt är anta att de för mindre vanliga ord är sämre) och vi endast önskar organisera i vår själv-organiserade karta orden utan deras relationer. Mest effektivt om allt går av sig själv (medan det praktiskt egentligen ger mycket större värde resultat om man adderar mänsklig intelligens under processen) är att varje ord är lika sannolikt i indata (förutsättande också att alla är lika viktiga att koda). Vi slumpar dem så de blir oberoende av varandra. I "sorteringen" topologiskt blir de dock (för att typiskt för domänen informationsteori låna in ett begrepp från ett annat område) entangled:

"To tangle; to twist or interweave in such a manner as not to be easily separated; to make confused and intricate; as, to entangle yarn or the hair.

To involve in such complications as to render extrication difficult; hence, metaphorically, to ensnare; to perplex; to bewilder; to puzzle; as, to entangle the feet in a net, or in briers.

To involve in difficulties or embarrassments; to embarrass, puzzle, or distract by adverse or perplexing circumstances, interests, demands, etc.; to hamper; to bewilder."

Från: Entangle | Wiktionary

De får samband med varandra på sådant sätt som ej är meningsfullt utan similarity-funktionen eller förståelse av grannskapet. För just ord gäller ju att vi rent mänskligt kan se meningsfullheten i vad det sorterat till som normalt gjort semantiskt. Så den första delen här upplever jag hör hemma i Rényi entropy medan vi för den senare "förståelsen" är i Tsallis entropy.

I den mån en dimensionsreduktion skett i skapandet SOM. Eller vi på annat sätt komprimerar data vi får ska vi också i allt normalt tror jag få en något bättre komprimering i det färdiga tillståndet. Det rent visuella värdet (ett värde också möjligt att p.s.s. ta fram för annat som tidigare diskuterat från mitt perspektiv) tenderar i detta sammanhang vara redundant information: Information vi lätt komprimerar men information som praktiskt gör användning av datat lättare. Information skapad med ett konkret värde.