Att söka rätt på ett hemligt dokument med okänt innehåll

2013-09-09

Adderande antal för samförekomster mellan ngram för närvande tittade jag över referenslitteratur särskilt rörande adderande stora samples tillsammans. Det är inte helt trivialt genom att vi behöver hantera informationsmängden i vanliga resp. mycket ovanliga koncept när storlek skiljer sig åt (av samma anledning som zipf-lag ger en ungefärlig approximation): tycks förenkla sig bra över några hundra tusen typer i alla fall (med varje ngram till ngram förekomst varande en typ).


Praktiskt för att göra något med den formen av data mer potent lösande problem är kan jag se genomgående vanligt fel att tro att det går att använda mer eller mindre direkt oavsett i LSA eller annat.


Det går dock inte utan att man får mycket sämre bitvis i alla fall när vi rör oss i mer krävande områden om än säkert helt funktionellt kring allt "väldigt vanligt". Mest uppenbara problemet (och egentligen inledning till en hel grupp likartade problem) är att det inte är bra alls att approximera med normalfördelning alls dels först i vad vi räknar och sedan ganska ofta tror jag i olika koncept vanliga för att antingen minimera eller maximera varians.


Den matematiska begränsningen tror jag är den jag har i särsklass mer utstuderad djup överträning i börjande min informationsmodell i ren wave-värld sökande föra samman människor kollektivt med koncept bl.a. från neuroscience. Det tråkiga med den modellen är att det antingen är ytterst beräkningsdyrt alternativt inte alls särskilt dyrt utan tvärtom väldigt effektivt men antagande enormt förenklade ex. fördelningar eller kurv-former o.s.v.


Tagande den till Blue light och Brain världen och Drifting thoughts ger just trevligt utvecklande tror jag säkert och ibland smärtsamma möten mellan diskret och kontinuerligt i språket.


Däremot kan jag ju och för allt praktiskt här självklart beräkna samförekomsterna och om praktiskt skatta till någon lämplig representation för den. Men att börja laborera med dom sedan för att uttrycka värden och skattningar mellan dokument, sökord m.m. som vanligt och bland det enklare, eller ännu mer problematiskt men mer komplicerat (bärande modell-galenskaper som kommer smygande i skattningar och prediktioner inte alltid uppenbara) globala tillstånd för världen mellan våra språk-koncept och idé (där är vi ju mycket nära våg-världen och den kontinuerliga verkligheten).


Låt oss illustrera med ett extrem-exempel. Antag, att jag önskar söka efter ett hemligt dokument jag ej vet vad det innehåller. Men jag kanske vet att det kommer från NSA på en PC någon medarbetare tog hem till barnen eller kanske ett stycke terrorist-plan - i båda fallen mycket möjligt prospekterande d.v.s. vi behöver inte veta att det faktiskt är verlighet.


Är dokumentets språkmodell med ngram antal o.s.v. känd är det en sämre approximation direkt använd men fortfarande mycket funktionell. Den är sämre därför att vi ej viktar eller uttrycker vad antalen i resp. förekomst egentligen betyder.


Jämför först förenklat och mycket lättare att hantera med skillnaden mellan en webbsida handlande om secret. Kanske en Wikipedia-sida eller liknande hamnar högt upp. En sida överuttryckande en massa koncept direkt på eller runt associerat secret över allt språk som dåligt översatt får vi hoppas (eller för ex. välja att anta elleer kanske tänkande oss dokument från ett företag vaktande sina affärshemligheter snarare än militär-strategi) från vad som egentligen är typiskt för aktuella dokument.


Snarare vill vi dock fånga själva uttrycket i dokumentet för att det är hemlig-stämplat. Och vad gör vi? Vi adderar den vikt och mening av vad Secret där betyder. Det kan enklast kanske mining något lämpligt där hanteras mer regelartat men vi kan självklart också generalisera till en vikt. Just för secret minns jag ej att jag kontrollerat mina koncept-associationer (och de natural language model jag delvis byggt system för att ge en del liknande men mer vardags-nära funktioner är ej heller riktigt prövade) men ex. known och unknown dimensionerna med relativ-makt (tillsammans med ett antal andra fångar det.


Vad vi kallar vikterna eller vad de uttrycker är ju dock mindre viktigt. Det viktigare är att antalet bygger på idéen att det approximerar för fritt skärande information som ej ryms bara i motsvarande ex. ett medelvärde och varians för enklast tänkbara tänket med normalfördelningen som implicit-antagande.


Återvänder vi till vår black-box sökning av dokument räcker det ju faktiskt bra om vi ej har en "ideal" sida i huvudet med en bunt ngram vi vill hitta att skatta själva vikterna sammantaget utan att vi nödvändigtvis behöver känna orden. D.v.s. möjligt som funktion av vad jag föreställer mig är aktuellt implicit (lite som LSA men praktiskt och teoretiskt närmare cue inom ognitive science) resp. vad det uttrycker aktivt riktat mot läsare i vikter vi värderar.


Hat? Gömda perverterade sexuell kärlek vi kan utnyttja? Indikerar det att den kritiska chefen för valutan som skakar börjar närma sig självmord? Eller är det rent av så att vi ganska ofta möjligt vanligare för nyheter, Tweets m.m. kan vara till stordel normalt styrda av de mer vikt-nära naturen än just exakt vad vi säger. Motivationen och syftet med planen snarare än vad planen konkret innebär? Därmed inte sagt att man vinner mycket tidigare på att komma ifrån räkna antals-världen. Särskilt över stora språk blir det utsmetat, lite trivialt, får underliga fel för ovanliga kombinationer o.s.v. Självförtroende, trygghet, känsla och allt annat är också så kontextuellt styrt.


Ganska grundläggande där och utmärkt avslutande relaterat kommentaren i första stycket om zipf-lag är ju att klara att särskilja mellan etablerat inlärda relationer oc andra tids-spektrum aktuella för samband. Vad vi lär oss i skolan är inlärt med etablerat reducerad närhet. Det behöver inte repeteras pågående i vuxet språk för att ha relevans. När det uttrycks mer sällan bär det ändå betydelse. Omvänt har vi ju in, of m.m. vars information egentligen är högre än vad skattningar med antal ger sken av. Genom att de modifierar menng och samband för omliggande koncept bär de mer information och ej konstant annat än i ett fryst kontext.


Därmed är zipf-lag mindre en lag och mer en hygglig approximation. Vi lägger dock närmare med sambanden Mandelbrot (mer känd för fraktalerna) skattade fram. Vi får visst annorlunda beteende tidigt resp. sent - ovan vad vi väljer att förklara med information som funktion av kontext (ex. is m.fl. mycket vanliga ord i alla möjliga kontext vars existens kanske inte förvånar oss men utbytta kan förvanska meningen ganska ordentligt) resp. samband mellan koncept sällan uttryckta men därmed inte sagt förvånande i sig varande etablerad inlärning (ökande token-antalet brukar de komma fram i växande antal vilket man praktiskt kanske enklast skattar kompensation för så att man kan kombinera olika stora samplings-rymder jfr kanske alla Reuters nyheter för 2011 vs några miljoner nyheter från mindre lokala tidningar: tagande ett exempel ur luften ej relaterat vad just jag kombinerar).


Precis som för reward prediction får viförövrigt en hyperbol form. Och egentligen är det såklart samma sak även om beräkningsvärlden för språj är en aning mer krävande på räkne-sidan även om jag är mindre säker om det är lättare eller svårare med stora datamängder att räkna jämfört med apor man ger juice-belöningar när de klarar av något.