HANS HUSMAN OM MEDIA

Självorganiserade kartor: Information, entropi och fördelning indata resp. tillstånd kartor

I fortsättning tidigare inlägg relaterat själv-organiserade kartor där förra inlägget också har många av de tidigare länkade överst:

Vektorer för n-gram, entiteter och fraser skapade ad-hoc från vektorer ord

Jag läste en del idag om sambandet fördelning indata resp. skapad självorganiserad karta som särskilt under några år genererande en hel del publicerat som ex. Kohonen maps versus vector quantization for data analysis vilka en del sett som något man kan försöka arbeta bort för att få en mer direkt 1-1 avspegling av distributionen indata i tränat nät.

Nu är det mycket möjligt att jag tar fel här därför att jag brydde mig inte om att göra det här noggrant på något sätt. Snarare har jag förutsatt detta resonemang. Samma natur vi diskuterar här för resulterande SOM ser vi förövrigt jämförbart (men följande sin effekt självklart) vid skapande av distribuerade representationer för ord med de vanliga algoritmen. Vi kan ex. (och enklast normalt tror jag) se det mellan två stycken ord med sin representation när vi relaterar dem via en också existerande gemensam skapelse gällande som ord så som en bit av url ord_1/ord_2 eller som ett sammansatt ord av typen ord_1-ord_2 (vilket jag experimenterat lite lätt med för att ta ut en del vikter från som nämnt nyligen i Vektorer för n-gram, entiteter och fraser skapade ad-hoc från vektorer ord för ett test där man kan hitta det genom att söka på 0.4).

I resonemanget ligger ju också just att vi försöker tillför ett särskilt värde via algoritmen vilket oavsett riktighet rörande resonemang resp. typ av entropi behöver komma med sin information i resulterande data (om ej istället ligga i algoritmer som skapar samma värde vid resp. tillfälle data används).

1. Vi måste inse att den topologiska sorteringen inte fanns i indata. Det är en sortering som argumenterat i den mån vi får en sådan vi är nöjd kan sägas existera potentiellt.

2. En tillförs av vetande avspeglande "slutsats" byggd från data enligt algoritm sker. Vi kan om vi vill kanske kalla det emergence även om jag inte är helt nöjd med termen här som jag brukar använda den.

"In philosophy, systems theory, science, and art, emergence is a process whereby larger entities arise through interactions among smaller or simpler entities such that the larger entities exhibit properties the smaller/simpler entities do not exhibit.

Emergence is central in theories of integrative levels and of complex systems. For instance, the phenomenon of life as studied in biology is an emergent property of chemistry and psychological phenomena emerge from the neurobiological phenomena of living things. Likewise, economic and legal phenomena emerge from psychology."

Från: Emergence | Wikipedia

3. Snarare vill jag kan se det som att vi via "samarbetet" mellan neuronerna bygger upp information på en högre struktur.

Emellertid innebär nu 3. också att vi ej längre kan utgå från att entropi i mening av den vanligaste formeln här p(i) * log ( 1 / p(i) ) är direkt möjlig att addera mellan två sådana i (där i är något i det resulterande nätet direkt topologiskt adresserat via numret i har men som jag ogärna vill ge mig på att direkt uttrycka här innan jag behövt göra det i kod). Följande gäller ej självklart:

E = p(i) * log ( 1 / p(i) )

E ( i + (i + j) ) = E ( i ) + E (i + j)

Och för detta finns Tsallis entropy även om jag får erkänna att jag aldrig riktigt insett poängen med den. I mån av behov för sådant data jag möter känns det mer naturligt att omvandla värdena (typiskt möjligt för mig) till något där praktiskt funktionella indikationer entropi och information finns till vilka jag ej brukar räkna exponenter på sannolikheten.

Hur som helst gäller att den exponent vi har för Tsallis entropy på sannolikheten är vad vi kan välja att se som ett uttryck för den magnitud systemet eller systemet av system avviker från den möjlighet att addera vi ej kan sägas ha med utgångspunkt från sannolikheten i ett indata när organiserad information har tillförts data oavsett om nu informationen kommer från annat data eller för självorganiserade kartor själva algoritmen som sådan (vännerna med antal är information + algoritmen).

Hade vi nu haft p log (1/p) som funktionellt hade ingen information i form av nu organisation tillförts i mening av något som ej direkt fås från sannolikheterna i indatat (här ofta för språk semantiskt distribuerade representationer) så som ex. när vi bygger SOM utan några vänner / grannskap alls och representationen endast är i princip en medelvärdesbildning av några entiteter i indatat med sina sannolikheter.

Och vännerna / grannskapet lär för språk åtminstone ge oss ett antal normalfördelningar "ovanpå" varandra vilket jag tänker kommer uttrycka men ej blev på det klara läsande ytligt en del om det kommer stämma. Så eventuellt om ej fel i det ena eller andra har vi något av den relation mellan resp. jag dock lyckades hitta uttryckt (konkret i matematisk mening: jag ser sådant här mer visuellt ofta hellre) i (sidan 8. Enklast att se samband här som skrivet i 2.8).

Säg här att vi för att antar att alla vara distribuerade representationer i indatat har lika god kvalitet (d.v.s. ej som rimligt är anta att de för mindre vanliga ord är sämre) och vi endast önskar organisera i vår själv-organiserade karta orden utan deras relationer. Mest effektivt om allt går av sig själv (medan det praktiskt egentligen ger mycket större värde resultat om man adderar mänsklig intelligens under processen) är att varje ord är lika sannolikt i indata (förutsättande också att alla är lika viktiga att koda). Vi slumpar dem så de blir oberoende av varandra. I "sorteringen" topologiskt blir de dock (för att typiskt för domänen informationsteori låna in ett begrepp från ett annat område) entangled:

"To tangle; to twist or interweave in such a manner as not to be easily separated; to make confused and intricate; as, to entangle yarn or the hair.

To involve in such complications as to render extrication difficult; hence, metaphorically, to ensnare; to perplex; to bewilder; to puzzle; as, to entangle the feet in a net, or in briers.

To involve in difficulties or embarrassments; to embarrass, puzzle, or distract by adverse or perplexing circumstances, interests, demands, etc.; to hamper; to bewilder."

Från: Entangle | Wiktionary

De får samband med varandra på sådant sätt som ej är meningsfullt utan similarity-funktionen eller förståelse av grannskapet. För just ord gäller ju att vi rent mänskligt kan se meningsfullheten i vad det sorterat till som normalt gjort semantiskt. Så den första delen här upplever jag hör hemma i Rényi entropy medan vi för den senare "förståelsen" är i Tsallis entropy.

I den mån en dimensionsreduktion skett i skapandet SOM. Eller vi på annat sätt komprimerar data vi får ska vi också i allt normalt tror jag få en något bättre komprimering i det färdiga tillståndet. Det rent visuella värdet (ett värde också möjligt att p.s.s. ta fram för annat som tidigare diskuterat från mitt perspektiv) tenderar i detta sammanhang vara redundant information: Information vi lätt komprimerar men information som praktiskt gör användning av datat lättare. Information skapad med ett konkret värde.

Snowden-filerna: Att detektera manipulerad information

Antar vi att de flesta (inte alls otroligt alla ännu) filer stämer med som tagna (piratkopierade? spionerade?) från SSA's bygger det givetvis upp stort förtroende över tiden.

Vi kan här leka på antagandet att filer vid någon punkt kan innehålla enskilda delar manipulerade eller ändrade. Kanske endast en rad. Problematiken relaterat att detektera det är intressant bredare och Snowden-filerna kan passa som utgångspunkt för att diskutera det.

En möjlighet här är att om rimlig korrekt finns upparbetad i att ej förneka filer korrekta (åtminstone i meningen att man ej heller bekräftar dem) hos NSA kan det delvis vara funktionellt för att begränsa ev. skadeverkan på godtyckligt företag eller annan aktör.

Under förutsättning att NSA kan spåra publicerade filer till deras motsvarighet hos dem och noterar enskilda manipulationer av data (det tycks troligt).

Om den möjligheten saknas behöver vi först konstatera vår större utmaning i detektionen:

Vi kan ej anta att vi kan verifera fakta givet som korrekt eller inte på rimlig tid (istället kan det ta många år innan det klarar).
Manipulaton av enskild text rörande detaljer (ex. ersättande hypotetiskt och ej troligt något relaterat avlyssning Google's datacenter med något spelkonsol-leverantör Microsoft eller Playstation) kan vi heller inte detektera vi språkmodeller.

Några pdf-filer publicerade av Guardian jag tittade lite närmare på (utan något liknande god vetskap om pdf-formatet) tycks vara skapade av ett antal bildfiler efter varandra. Om så redan i NSA databas (eller ev. om kontorsdatorer om nu Snowden kopierade upp dem från sådana korrigerande problem eller installerade program) är det tror jag bättre här än om skapat mer direkt i relevant program för att göra sådant här genom att test, linjer m.m. då är uttryckt i meta-språk för pdf (om jag försår konceptet rätt).

Ändå för så begränsad manipulation betvivlar jag att det alls detekteras givet att mycket annat varit tycks det genomtänkt i detaljer i mycket kring det här. Det går ju enkelt via gissar jag räcker bra ex. Gump att utmärkt ta bort det som nu märks med lite filter m.m.

Så återstår möjligheter för detektion? Nja. På nivån vi anagit ovan är det nog tror svårt via andra metoder också. Men skillnad finns trots allt ändå mellan vad vi ser och hur något uttrycks. Ju mer "komponent-överskrivande" eller strukturellt det ändras (där det lär bli troligare förändrande om man mer försöker föra in saker och ting eller ändra struktur - d.v.s. manipulativt på störr nivåer och potentiellt farligare i skadeverkan ex. på företag eller liknande) desto ("eventuellt" läggs bäst för jag har aldrig prövat det pdf) blir en till metod möjlig (och möjligt när den är funktionell är övriga metoder vi antog ej möjliga minst lika effektiva samtidiga).

Vi förstår metoden från vad som kanske gör pdf känsligare än mycket annat:

"A PDF file consists primarily of objects, of which there are eight types:[38]
[...]
Objects may be either direct (embedded in another object) or indirect. Indirect objects are numbered with an object number and a generation number. An index table called the xref table gives the byte offset of each indirect object from the start of the file.[39] This design allows for efficient random access to the objects in the file, and also allows for small changes to be made without rewriting the entire file (incremental update). Beginning with PDF version 1.5, indirect objects may also be located in special streams known as object streams. This technique reduces the size of files that have large numbers of small indirect objects and is especially useful for Tagged PDF."

Från: PDF | Wikipedia

D.v.s. tänkbart kan vi etablera språkmodell ej för innehållet utan själva språket dokumentet uttrycks med. Där distansiering över tiden med relativt små-förändringar i klientprogram, personliga preferens hos användare m.m. kan bli märkbart.

Kan det hindras att detekteras genom medvetenhet om detta? Kanske. Det beror nog på hur mycket data Snowden egentligen har. Jag misstänker nog att PDF-filerna inte innehåller genomgående särskilt komplett information hur konfiguration sett ut ev. inverkande här (även om det nog kan förenklas till ett fåtal enkla grupper möjligt) medan jag mer tydligt kan tänka mig att corpus för användare nog här saknas.

Det räcker inte för att bevisa något men kanske kan ge en och annan out-lier via en kompletternade metod om jämförelse corpus kan påvisas personer. Detta är en helt annan fråga där en del alternativa lösningar kan existera men ligger utanför vad möjöigt att få med här vettigt begränsat och meningsfullt vad jag vet om representativt.

Artikel nedan från The Royal Society's journal Proceedings of the Royal Society B (B är mer hard-science och matematik närmare ingenjörs-tillämpning och A biologi och neuro science, bioinformation m.m.) ger illustration hur detektion meta-språk fungerar:

"Many prehistoric societies have left a wealth of inscribed symbols for which the meanings are lost. For example, the Picts, a Scottish, Iron Age culture, left a few hundred stones expertly carved with highly stylized petroglyph symbols. Although the symbol scripts are assumed to convey information, owing to the short (one to three symbols), small (less than 1000 symbols) and often fragmented nature of many symbol sets, it has been impossible to conclude whether they represent forms of written language."

"This paper reports on a two-parameter decision-tree technique that distinguishes between the different character sets of human communication systems when sample sizes are small, thus enabling the type of communication expressed by these small symbol corpuses to be determined. Using the technique on the Pictish symbols established that it is unlikely that they are random or sematographic (heraldic) characters, but that they exhibit the characteristics of written languages."

Från: Pictish symbols revealed as a written language through application of Shannon entropy
Rob Lee1, Philip Jonathan och Pauline Ziman,
Mars 2010 doi: 10.1098/rspa.2010.0041
Proc. R. Soc. A rspa20100041

Pressmeddelande: Unlocking the mysteries of the Picts | The Royal Society

Specifika algoritmer i artikel för bildspråk är dock något för förenklade här där från det mer begränsade jag sett för PDF-filerna istället graf-relaterade informationsmått (Entropy and Graphs, Seyed Saeed Changiz Rezaei (University of Waterloo, Kanada), 2013 är en diskussion men flera mått relaterat graf-entropier finns flera är nog vad som normalt oavsett tillämpning man prövar praktiskt hellre än att försenare för mycket kring resp. teori- se kompletterande att globala distributioner finns såväl som lokala ev- uttryckt i flera dimensioner per användare, miljö, tidpunkt, organisation i IT-mening fil passerade relaterat i samband med skapad och presenterad) är aktuella (PDF gör åtminstone för delar jag såg i standarder och från data extraherad från ett apr test-filer Snowden just vad som skapar vad vi kan se som graf inkl. vad vi programmatiskt kan se som rekursiva förhållanden - men mindre av det senare i aktuella filer vilket dock kan vara relaterat angvet sist här).

Motsvarande en värld där vi definierar meningsfullt språk som nivå med hur näraliggande "vanligt" som förväntad för skapare A, på plattform B, för event C där filen tas och sparas om för gemensam presentation (exempelvis) o.s.v.

Flera exempel på bildspråket finns i Wikipedia Pictish stones (artikel refererad längre upp har endast en bild).

Meningsfullhet i att koncept går igen med liknande betydelse är möjligt. Samband kan också tänkas uppstå från att de förekommer tillsammans meningsfullt utan att vara riktigt språk som vi oftare kanske tänker oss det nu.

Något jag minns mig uppleva när jag tittade på ett antal bilder av stenar i samband med att läste artikeln var kontrakts-liknande övrrenskommelser relaterade mark, giftemål, bokskap m.m. Att hugga det i sten ger det ju väldokumenterat och trovärdigt en tid i alla fall. Passande storbönder när de gifter sig samman med en näraliggande för tiden kraftfull aktör med många djur, betesmarker, gårdsfolk inkl. vapen till dem kanske mycket tiotal eller rent av hundra st även om det spontant utan att veta mycket alls om kulturen låter ovanligt stort under normala tider).

Där får vi ju statistiskt återkommande mönster meningsfulla med viss kontext runt stnen (kontrakt rörande giftemål ex.) men utan riktigt ren återkommande betydelse. Att storbonde eller motsvarande uttrycker relativ storlek till häst. Och ev. kontrakts-relaterat djur uttrycks relaterat det med djur eller jämförbart (jag minns ej exakt hur det brukade se ut).

Från den tanken kanske vi överst har et avtal relaterat jaktmark eller jämförbart.

Ett av många tänkbara ex. där dom statistiska relationerna ger mönster av språk men utan att vi enkelt förstår språket utan att veta en del av två kkonkurrerande storbönders historia några år tillbaka och giftmålet man önskade ha detaljerna huggna i sten kring rörande betesmarker o.s.v.

Relaterat

Intrusion detection: Snowden-sensorer

PDF-begränsning

Att understryka: PDF från sajt Guardian refererar är med säkerhet ändrade efter NSA och antagligen just relaterat denna. Vad av ursprunlgit data som kvarstår oföänrdrat för de få jag tittat på är inte helt trivialt att veta. Men en möjlighet att förutom webb-program för att hantera pdf'er där är det samma. Datum för event tycks stämma med geo och händelse konret visad som jag såg som möjligt stämmande med en presentation för data identifierad genom att med hjälp av Google.com's sökoperator site:gov sökande diverse sidor i och runt aktuella datum. Så möjligen stämmer det. Samtidigt är datum relaterat webb-api-pdf-grunkan för uardian's lagringstjänst också angiven relaterat den. Men det kan nog om alls riktigt variera "binärt" mellan filerna.

Möjligt gör samma mjukvara (ganska standardartad sådan och taggad i filerna så det går antagligen att kontrollera) filerna optimerade för snabbare nedladdning samtidigt som information från nod-relationerna vi här önskar analysera reduceras.