Prediktera nyhetshändelser från WikiNews eller Twitter: Från Open Source Indicators till Libyen

2012-12-06

Via Researchers study new ways to forecast critical societal events, Indiana University uppmärksammade jag Open Source Indicators (Intelligence Advanced Research Projects Activity, DoD).


Relaterat hos Indiana University finns ett flertal projekt inom data mining inklusive samlande av länkdata, och tidigare det fungerande och i sitt segment välgjorda systemet för att följa "luriga" Twitter-trender: Spåra Twitter-bomber och förtal på Twitter.


Vid en ytlig snabbtitt verkar OSI konceptuellt likt en hel del något så när jämförbara projekt som försöker skapa värden från data som publiceras i snabbare (i relation mot ex. traditionella nyheter som görs ofta under längre tid och publiceras av färre aktörer) takt från väldigt många individer för att få vetskap om vad som händer i världen och vad folk menar eller implicit berättar om vad de tycker och känner inför saker och ting.


Utan tvekan finns mycket värde att hämta inte minst från sociala nätverk. Inom en del uppmärksammade data mining områden ser jag dock relativt beräkningskostnad mindre värde jämfört med andra långsammare datakällor och vad man innan tror jag i allmänhet inte förväntar sig särskilt attityder till specifika mer tydligt avgränsade koncept t.ex. en produkt.


För att ta upp indikationer händelser och också förändring i en bredare mening (ev. och vad jag tror inkl. vissa former av förändring rörande vad som i förra stycket togs som exempel på svårt att mäta men då när vi har grunddata att "normalisera" kulturspråket), och se vad som sker i dom många mindre detaljerna tror jag dock att denna typ av data är mycket intressant.


Flera av dom ofta indikerade svårigheterna och utmaningen är dessutom menar jag för dessa datakällor vad man kan komma ifrån ganska enkelt bara man vågar att ärligt beräkna datakvaliteten för större Twitter populationen och därmed inte onödigt översampla stora mängder data som inte tillför värde relaterat händelser och förändringar som berör många personer.


Samtidigt tycker jag att andra datakällor som i princip aldrig dom senaste åren diskuteras i dessa områden för prediktion är potentare. Ev. är det tänkbart att jag längre fram diskuterar det med exempel men inte just nu då den sista djupare fallstudie jag gjorde antagligen vara tidigt under sommaren förra året på en äldre sämre plattform. Algoritmen där använd är brutalt långsam (även om den på nya datorn bör gå smidigare) så just denna typ av operation är inget jag gör i onödan och dess praktiska värde var då huvudsakligen att förstå en del egenskaper i kunskap samlad om relationerna mellan koncept. Försöket i sig är dock tror jag talande för vem som helst med stort intresse av denna typ av prediktion. Snarare än som normalt senare i nyhetsanalys användes ej data från de flesta större engelsk-språkliga tidningar, stora journaler m.fl. entiteter utan endast ett corpus byggt på vid tidpunkten nästan alla nyheter publicerade på WikiNews. Ingen hänsyn ordning mellan koncept utan endast deras co-occurance med direkt och indirekta relationer till andra i tid och rum ex. via feature relation expansion där deras påverkan kan mötas via koncept kanske ej direkt förekommande i någon nyhet.


Värdet det som försök kan ha väljer jag att uttrycka som att många av de världen Twitter m.m. diskuteras som potentiell indikator av och endast i någon begränsad omfattning bekräftats för i "efterhands-prediktion" kan man ta upp via en annan struktur-väg via dessa lite långsammare datakällor. Nyhetshändelser tenderar att vara besläktade. Även när de ej är uppenbart besläktade i orsak kan ändå gemensamma faktorer finnas och sådana gemensamma faktorer kan både vara indikerande utan att vara direkt kausalt-utlösande eller vara en kulturell indikation om en gemensam aktörsfaktor o.s.v.


Mycket av det värde många inom forskningsvärlden ser i Twitter för det har jag en känsla kan bero av att mycket mer ordnings-koncentrerade personer än jag är annat än programmerande eller tar på mig min mentala tyska vita labb-rock för att med atom-bombs total exakthet mäta något (och då mer inlärt än naturligt) är för Twitter med liknande givet dess förutsättningar lättare prövar vägen att ej försöka ta ut exakta meningar ej ens intressanta att propagera uppåt över populationen publicerat utan lättare direkt hamnar i att fånga övergripande mening lite luddigare men därmed också vad som går att statistkst automatiserat lättare resonera i hur det kan inverka och påverka andra inte minst minskande problemet av att alla tolkar och använder begrepp lite olika. Den möjligheten finns dock också för nyheter och i noggrannare dokumenterad fallstudie bedömt från analys på WikiNews-corpus vilket med största säkerhet är en datakälla med väldigt lågt värde jämfört med att ex. samla hela Reuters, alla större engelska tidningar eller jämförbart på en normalare nivå.


Det känns ej korrekt att indikera vad man kan förvänta sig i nyhetsprediktion då det inte minst är beroende av stödjande datastruktur för relationerna, område, hur breda eller exakta koncepten man tittar på resp. dessas antal och hur de är besläktade med varandra. Ej heller vill jag indikera en möjlighet som kanske känns förbra. Men i "någon mening" är det inte orimligt att förvänta sig prediktion av nyhetshändelser i konceptuell ämnesmening (d.v.s. ej händelser i en stad rörande bankrån på en gata eller liknande men däremot att ett ämne växer och oväntat dyker upp tillsammans med ett annat o.s.v.) cirka fem dagar (upp till) i förväg.


En kraftig begränsning praktiskt jag haft är att lösningen jag sist gjorde för analysen tenderar att bli psykotiskt efter cirka fem dagar och drar slutsatser där samband "sprids" lätt maniskt överdrivet utåt på en ej hanterbar nivå med inbillningar i form av falska samband och förstärkningar som effekt, och därav att jag ej vill sia om hur sådant här fungerar längre än så. Dock utan det problemet är det rimligt att förvänta sig att möjligheten ska finnas kvar men reduceras i exakthet eller omvänt hur allmängiltiga och breda koncepten vi kan bedöma är växer enligt något samband (troligt exponentiellt väldigt snabbt växande med gissningsvis bara rena trivialiteter jämfört med kurvskattning för ämnes-trend efter kanske 10 dagar).


Den motsatta sidan Twitter m.m. kan användas till är också från vad vi nog vanligen associerar sociala media till även lite förvånande: snarast det mer exakta. Att vi ser konton på Twitter som sensorer (starkt på väg till tekniskt buzz-word inom data mining) och söker längre ifrån vad jag ovan föreslog att nyheter är bättre till avgränsade ganska konkreta händelser: A gick till läkaren fick en vaccination vid tiden Q1, A somnade 11 ggr / dag de senaste 90 dagarna o.s.v. för att ex. ta upp indikationer om överraskande väldigt nya biverkningar (jfr narkoepilepsi skandalen som säkert inte inträffat om ansvariga myndigheter prioriterade över hälften av den tid och resurser de lägger på att förklara hur verksamhetskritiska de är för svenskarna genom att noggrant värdera risker istället för att utan relevant värdering besluta att ingen sådan värdering i det aktuella fallet behövs trots att deras egen historiska statistik indikerar att man just här behöver det alt. formalisera hur kanske inverkande samhällsekonomiska värden rörande sjukskrivning påverkar vilket i sig ej är ett problem om uttalat och strukturerat).


Här gäller istället att varje enskild händelse mer exakt behöver kunna bedömas. Att vi konvergerar till en tydlig tolkning. Dock gäller när vi samlar många att så längre vi vet hur ofta vi tar fel och att det inte är orimligt ofta behöver det inte vara särskilt svårt eller kräva enorm sampling.


Specifikt för Twitter är ju ett praktiskt problem att det är svårt att ta ut Tweets publicerade för olika tidsperioder och indelningar. Enklast praktiskt upplevde jag själv att det var att gå numeriskt bakåt och titta på hastigheten antalet Tweet för en samplings-period publiceras men vilket vid tidpunkten jag skrev koden också hanterade en del andra Twitter-problem som kan störa datat.


Möjligen av intresse för en del läsare givet att vi också hade Libyen som en liten fallstudie vars frihetskrig vi följde och kommenterade här finns en hel del Twitter samplest tror jag från perioden innan revolten bröt ut. Kanske intressant för någon road av att försöka se sådana händelser då det ej är otroligt att det sample som söktes ut är lite intressant runt det och för Twitter ibland bökigt att återskapa i efterhand som nu längre bak i tiden och som sådant ev. också som ett enklare exempel för vad diskuterat runt nyhetsanalys och dessutom känns det lugnare att ge data från sådant här givet att det både mindre värde och väsentligt lägre komplexitet. Formatet på datat förklarar sig själv. Vid denna tid hade jag ännu ej standardiserat på tab-separerade CSV vilket gör datat enklare att läsa också som människa. Statistik m.m. samlat från fallstudier jag ej använder tenderar att vara "sorterat" i flera samlingar av underkataloger inte helt lätt alla gånger att hitta fram till vad man söker men jag tror att detta blev rätt Twitter-data (särskilt som jag tror att endast tre Twitter-Libya Corpus finns i "arkiven"): libya.tar.gz (via Google Docs).