Tre tidsperspektiv: Sociala media, Nyhetstid och Uppslagsböcker

2013-10-03

I allt grundläggande delar jag in i språkmodeller i tre tidsperspektiv: Snabb tid motsvarande vad i ex. ser i sociala media, nyhetsstid motsvarande nyheter och det tidsperspektiv vi ser i uppslagsböcker (inkl. och närmare tidskorrekt Wikipedia där skillnad hastighet har betydelse).


Behovet såväl som möjligheten det sista tidsperspektivet representerar är mycket jämfört med hur vi etablerar hebbiansk-inlärning från givet sanning. Relationen existerar därefter (när vi antar att neurologisk-pruning är noll). D.v.s. även om relationen i pågående nyhetstid - eller upparbetat all nyhetstid efter att inlärningen etablerades - ger oss noll i skattad sannolikhet representerar den likväl påverkan högst väsentligt styrande hur vi resonerar, tolkar och står världen.


Relationen är i den mening existerande som grundläggande vår tolkning av världen oavsett upparbetad vikt. Det var också tydligt för mig - skattat från samling sådan relationer etablerad av flera tusen motsvarande thesaurus och ontologier - att man når väldigt långt betraktade varje sådan relation som ett såväl som alla anda också ett när konkurrerande med varandra.


Vi kan emellertid om vi har ett enormt stort corpus eller har tillgång till komprimerad representation av det samma välja att forma betydelsen - med en tänkt underliggande population av många människor med intressen - genom att relativisera varje sådan förekomst relativt kontext med deras relativa förekomst. D.v.s. står vi på nod A och denna har säg 100 - 200 noder i vår representation av uppslagsbokstid relationer viktar vi varje sådan ej med ett utan med förekomsten av A tillsammans med resp. relativt den totala mängden (tämligen välkänd approximation i språkmodeller i domänen naive bayesisan men här mer stabilt även om jag inte är säker på det praktiskt gör skillnad eftersom relationerna är mindre föränderliga).


Det ger oss två alternativa modeller för hur vi bedömer A tillsammans med B där B är "vän" till A. Både adderar värde. Vår statistiskt drivna associerande vikt tenderar att ha viss realism och robusthet mot lokaliserade "störningar" men den andra modeller har (tråkigt nog från ett praktiskt perspektivt säga givet kostnaden att bibehålla similarity viktsystem representerar) värde den första saknar. Vår andra modell är naturligt brutalt tråkig - i världen av negativa stereotypa lite som en mycket tråkig matematiker eller fysiker lätt upp-till tydligt i Asperger-liknande i sin world view - men där adderande ganska ofta något den första saknar men också av och till med all oförmåga att se orimligheter i varför den tolkningen saknar mening just nu. Tillsammans kan problem-uttryck reduceras amtidigt som båda formerna av värden kan adderas (något reducerat speglande mängden problem vi reducerar).


Mest fascinerande med den statistiskt drivna metoden är att när vår mängd av data relaterat relationer är ofullständig kan vi från vad vi har ta ut en skattning genom att beräkna likheten mellan resp. koncept. Likheten kommer i detta fall skattas av resp. vänner de har - varierat perspektiv men där vi här skattar det från både perspektiven och dividerar med två - var och en viktad med relativ förekomst. När relativ förekomst saknar data - rörande detta typiskt cirka 50% - struntar vi att överhuvudtaget värdera dom noderna påverkande. Kastar vi ca 10% av dom noder vi har samförekomst för och istället skattar dessa från similarity operationerna ger det värden som ej avviker mer än några få procent mot vad vi har innan (förutom kanske ett hundra tal ej mer än 3 - 4% över cirka 50 000).


Orsaken till varför det är möjligt att räkna fram är att för de relationer mellan koncept vi här beaktar är fördelningen lokalt vad vi närmare kan approximera som ett utan att hamna allt för fel och när vi sätter det i relation till vad vi vet om avvikelser från det hamnar vi än närmare sanningen. Har vi så få som tre vänner till koncept A: B, C och D, och i bedömning expanderar dessa ersättande dem med alla resp. vänner, och fortsätter göra det flera steg där varje relation A till något alltid är ett hamnar vi upp till en punkt när åtminstone en viss andel kommer med vikt närmare sanningen och efter någon punkt givetvis divergerande. Gör vi samma sak för godtyckliga relationer oavsett steg längre ifrån trovärdiga relationer korrekta för tidsperspektiv uppslagsbok går det ej att göra.


Det beskriver tror jag i princip vad jag önskar att mitt nuvarande P(A,B) nät ska lyftas upp till klara samma sak med nu 11 miljoner koncept med relationer istället för cirka 100 000 koncept med för 100 000 cirka 340 MB P(A,B) data.


Många problem i att klara det kan finnas men de mer praktiska problemen i hanterandet av datat man skapar approximationerna från ska heller inte underskattas.


Givetvis när man i alla fall sett det gäller att p.s.s. vi kan forma sannolikheterna i vad vi ej känner i tiden för uppslagsböcker kan vi med samma data och samma metod göra det i tidsperspektiv av nyhetstiden. Lite annorlunda men ej långsammare och ej problematiskt långsamt. Gör man samma sak i tid för sociala media är resultatet i kurv-lutnings-skattning ej predikterande och jag håller det för tämligen meningslöst att ge sig på i mening av dag för dag eller ännu värre timme för timme (emellertid finns likartade samband för tid av nyheter ner till sociala media vilket kan ge något liknande men ej med samma "stabilitet").


Relaterat: