Semantiska nätverk intressant nära mitt underliggande nät

Neurally Implementable Semantic Networks (Mars 18, 2013) är konceptuellt mycket nära Blue light tidigt och troligt nära unikt så. Förutom grundprinciperna fann jag perspektivet man kort också tog från några principer kända från djurmodeller baserade på zebrafinkorna intressant om än här tyckte jag särskilt bidragande (även om jag tycker att egentligen annat där var mer intressant när jag tittade på det för ett par år sedan).

Vad jag både upplevde irriterade och lugnande är att hela konceptet som uttryckt i artikeln är före praktisk verklighet. Normalt när något kommer nära ett koncept jag har etablerat får jag ut åtminstone något från artikeln när så noggrann och ganska omfattande som denna men ej så här. Det gav viss irritation men är antar jag naturligt för ett av mina äldsta mest grundläggande koncept.

P.s.s. var det lätt lugnande därför segmentet där man troligare kan få ut något ligger i det mer komplexa praktiska. Konceptet är ju så elegant tilltalande i dess grundprincip uteslutande föga samtidigt som det mesta är möjligt. I princip. Svårigheterna - väldigt mycket större - ligger praktiskt i att:

Etablera matematik i form av operatorer för att kunna utnyttja nätverken till dra slutsatser.
Beräkningseffektivt ta fram den statistik som krävs för att driva operatorerna.
Hantera överföringen från relationer i ögonblicket - ex. så precis som i deras exempel för en enskild scen i något tänkt pågående - till etablerad långsiktig inlärning d.v.s. vad jag ser som Blue light relativt inlärningen pågående i Symbol mind (vilken förövrigt fodrar sina operatorer därför att vad vi lär från är verklighet också väsentlig för analys jfr ex. Egypten: Att tala tydligt igen nyligen).

Just den binära principen för förekommande noder anslutna ett koncept etablerande vedertagen inlärning (jfr Blue light) tillsammans med situationen just nu illustrerar den enorma skillnaden mellan idé och verklighet. När en Blue light är etablerad med mycket hög kvalitet i relationer (och där ligger mina koncept beroende på hur en Blue light tagits ut utifrån krav minnesåtkomst o.s.v. inte sällan på ett antal relationer varande flera tusen upp till om jag minns rätt som mest på nuvarande hårt optimerade cirka 24 000 på en av de största). Där är ex. similarity helt oviktat förvånandsvärt funktionellt även om jag normalt inte på flera år gör similarity riktigt på det sättet eller sedan cirka två utan också vikter per noder och staitstik på co-occurences.

Steget att uttrycka Blue light som expanderande och lärande från situationer i ögonblicket är vidare vad man visst gärna vill tro ska gå att göra via enkel förekomst som byggs över tiden. Men åtminstone när vi ser vår värld i ögonblicket som "alla" nyheter på engelska har vi fenomenen kring emergence (kort diskuterat igår i Egypten och Markov: Vi står där vi faller men en hel del längre bak över sista åren finns även omag avpublicerat en del) och hur värderingen av intensitet i ögonblicket hos människor ej direkt översätter till påverkan på befintlig inlärning. Vidare besläktat gäller att vi etablerar enorma kunskapsmängder via skola, universitet, utbildningar av andra slag m.m. som tas för given och ej uttrycks statistiskt jämförbart dess implicita inverkan på koncept och deras relationer som uttryckta i nyheter såväl som ex. fullt corpus av allt Plos givit ut.

Värt att peka på är att jag kompletterat Blue light med ett antal semantiska nät ovanför inkl. nät med konkreta named relations och kategorisystem för att förklara vad ett mindre antal koncept (cirka 300 MB koncept med deras relationer och kategorisering) är i en förenklad mening. Jag ser dessa huvudsakligen som en presentationsfråga där dom underlättar och optimerar när det kommer till att förklara en del relationer tämligen vanliga. Inte minst för att enkelt kunna göra meningsfulla och lätt tolkade grafer (se ex. Sverige-grafen). Vidare har jag en del mer parallella lösningar ex. Visual light som egentligen är ett underrum till Blue light (endast cirka 5 MB stort i koncept och relation utan associationsvärdena) inriktat på visuella relationer ex. scenarier vi kan ha i nyheter för att fylla i resp. förstå. Samt också en väsentligt större som fortlöpande grundtillstånd för spreading activation.

Från Penn State University har vi också via dess cache-funktion av forskningsartiklar praktiskt mycket användbara citeseerx.ist.psu.edu även om jag kunde önska att Google Chrome som default visade dem i webbläsaren hellre än att tvinga nedladdning (troligt något relaterat hur PDF-filerna skapas av Citeseer) och därefter öppna den nedladdade filen i webbläsaren problemfritt (om man inte använder Adobe's fetare applikation istället som egen process) även om jag inte är 100% säker på att det egentligen är tänkt att det ska gå heller i Chrome givet dom tycker jag ganska över-uttryckta varningarna om dessa pdf-filers risker för min dator.

Corpus för hela Citeseerx (inkluderande titel, sammanfattning och referenser men oavsett om tillgängligt eller inte ej brödtext) som cirka tror jag andra kvartalet 2012 eller alternativt fjärde kvartalet 2011 var vad jag prövade som en statistik källa till co-occurance tillsammans med ett större antal liknande. Dess omfång över koncept var emellertid inte större än att det gav föga och givet en del andra problem ej relaterat statistik källan brydde jag mig inte om ta in det datat alls (varande tämligen litet jämfört med hela samlingen använd och parallella metoder) vilket är vad jag tror är en mycket talande indikation om ungefär datamängderna, områdes association (här för området forskning och associerade områden med alla dess koncept), metoder o.s.v. som krävs för att etablera "associations- / närhetsmått" mellan koncept i Blue light eller jämförbart.

Jag tror dock det kunde vara ett spännande och givande projekt för Penn State University att göra något jämförbart på hela verkliga CiteSeerX inkl. deras cach:ade PDF-filer av artiklarna (annars är det föga) hanterande enligt olika varianter gärna artikel-komponenter som undertitlar, bildtext, sammanfattning, titel o.s.v. särskilt men ej i relation till sådan hantering heller utelämna brödtext (ex se avgränsad brödtext mellan en titel och nästa som ett under-händelse-rum eller liknande). Och givetvis publicera data för det också mer raw.

Lycka till med det. Och verkligen att få projekt man kan sysselsätta sig med är så glädjande och utvecklande som att ta fram statistik från feta-corpus. Man både lär sig mycket om sitt område såväl som hela världen. Verkligen vad en två - fem doktorander skulle minnas hela livet som något riktigt kul att ha gjort. Föga av känslor relaterat misstankar om att man torterar sig själv och gör det därför att man egentligen är mentalt eller emotionellt skadad eller akuta drömmar om att datat är levande konspirerar mot dig skärande bort delar av hjärnan finns någon risk för. Bara sund glädje och avslappnad förnöjsamhet. Vi vet ju alla att bigdata är kul och samhällsnyttigt: coolt och utvecklande för ungdomen hålla på med. Hade jag inte så mycket annat roligt att göra skulle jag själv tveklöst spindla ner alla Citeseerx PDF-er och göra det själv. Kanske att belöna mig till jul med om ingen annan tycks ha påbörjat det eller om så ligger i erfaret god fart mer än för erfarenhets-tidiga sådana lösningar ligger närmare sex månader eller längre tiden.