Facebook kraftfullare och förföriskt enkelt

2012-02-25
Twitter API mötte jag senaste gången innan interaktionen nu till nya plattformen skedde under prototyp-implementationen NetRunner 2010 och tidigt 2011. Bl.a. användes den för att göra fallstudier relaterat till Libyen därför att det varit ett tydligt ämne och viktigast var bara att kontrollera möjligheten att i ögonblickets reaktioner ta ut för populationer en sammanfattad bild relaterat till attityder och interaktion.

Jag upplevde inte Twitter särskilt bra. Det är uppenbart att de har problem med last (och helt naturligt). Dokumentationen var också rörig och fanns i flera versioner. Men relativt gratis självklart bättre än nästan allt jämförbart tillgängligt.

När jag tittade på Facebook var det chockerande hur välstrukturerad dokumentationen var, att datatyperna var noggrant definierade och att de "insett" (lyckosamt såg sociala media som jag) att den sociala interaktionen och data i det mer än reflektionen i sig likt en bloggpostning eller nyhet är det viktiga. Sociala media är samtal och egna tankar, och representerar ingenting nytt annat än ett verktyg som gör det mer energieffektivt i antal du möter och geografiska avstånd. Att vi ännu är lite "ovana" och inte tråkats ut av den energieffektivare vägen gör just nu att attityder i världen är lite mer volativa. Det är ofta en bra sak sett från historien även om det kan vara tider med hög turbulens och förändring.

Jag var djupt förälskad ända tills jag tittade på datat och insåg att det var värdelöst som sample givet att jag önskade sampla engelska. En parameter för geo fanns men fungerande inte. Jag fick "tweets" skrivna av svenskar i de mån de fanns för de engelska orden. Det är nu korrigerat.

Därmed inte sagt att jag nödvändigtvis skulle rekommendera de flesta som idag samplar Twitter att byta till Facebook. Det beror verkligen på vad man söker.

För attityder, emotions och förändring i det samplar jag nyhetsmedier, pressmeddelanden från företag, universitet, forskningsinstitut och myndigheter runt om i världen indelat i en bredare grupp som går långsammare där ingående ännu är osorterade, och en grupp där jag samlar särskilt utvalda som jag vill ska fånga skilda perspektiv där det är viktigt att vara säker på att man tar samplers dagligen. Ingående i den senare är ex. nyhetsmedier på engelska från geografiska områden längre ifrån mainstream som Libanon, Israel, flera länder i Afrika (ännu inte alla) o.s.v. liksom viktiga forskningsinstitut och finansiörer av forskning i för det viktiga länder vilka har en bredd tillräcklig. Exempel där är flera (massor) i EU, i UK wellcome Trust, liksom på engelska pressmeddelanden från en mängd stiftelser, myndigheter m.m.

Det är en långsammare tid speglande ofta vad som skett under en längre tid motsvarande en viss energikostnad.

Slutligen har jag börjat att separera ut stora, breda och snabba nyhetsproviders vilka man via sampling säkert tar en bredd av "allt" (inte riktigt men alla internationella nyheter som täcks upp i mer än allt land och allt stort i ett land) som skett i världen som täcks upp av tidningar.

Jag är inte särskilt intresserad av att följa uttrycken av dem eller produkter i sociala media, eller prediktioner på det. Sådant tror jag dock att Twitter är signifikant bättre att använda för. Dels finns en större erfarenhetsbas i forskning liksom i mjukvara halvfabrikat, befintliga tjänster m.m. Ett exempel som visar upp båda sidorna är:

Spåra Twitter-bomber och förtal på Twitter

Sådant går visst att göra med Facebook men jag tror fortfarande att förutom ovanstående ger Twitter i det ännu bättre data.

I den mån jag gör det skapas det från relaterade till symboler och prediktion av det. Sociala media önskar sampla för interaktions-aktivitet och p.s.s. (nästan där det blir enklare helt enkelt därför att du inte kan ta ut lika många dimensioner med tilltro jfr nyheter där man har mer kontext per bedömning och daglig sampling ger ett corpus större än de största corpus klassiskt och fortfarande vanligaste för nyhetsanalys i forskning) som för symbolerna i "Sniffs Värld":


Klicka på bilden för att se bättre. Fler bilder i Sniffs Värld.


En mycket förenklad sammanfattning av hur vi kan se på intensiteten i aktivitet i den globala diskussionen finns i:

Relationer och likhet: Exempel politisk och ekonomisk analys i geo


Korrigeringen Facebook gjort av ursprung inkluderar också en utbyggnad. Det går nu att ta ut "tweets" utifrån geografisk lokalisering. Det är förutom värde här en trevligt öppet internationellt perspektiv att detta inte är språk utan geografiskt bundet. D.v.s. språket är mindre avgörande än vad du är.

Inställningar för språk kan möjligen också finnas (jag kontrollerade inte det) och om inte är det vad man kan göra själv. Jag gjorde en tillfällig enklare för det för nyheter. Denna filtrerar egentligen tämligen hårt därför att utrymme för det finns i nyhetsvärlden där sådan filtrering också tenderar att utmärkt filtrera bort vissa former av spam och också ett av och till förekommande problem med tekniska defekter hos nyhetsproviders där programkod går ut i RSS avsådan typ att filtrering av html m.m. vanligare som görs i samband av importen inte klarar att se det.

Denna görs genom att utgå från de 20 till 500 vanligaste orden för respektive språk. Vi väger frekvensen eller entropin för förekomsterna av dessa mot förekomsterna av ord i andra språk respektive ej förekommande. En text med ex. en stor bit Perl-kod kommer i större utsträckning ej likna något av språket om än ej felsäkert givet my, while, if o.s.v. Gör man en mer avancerad lösning och utgår från fördelningarna, relativ sannolikhet eller språkets entropi (eller för bäst Markov-modeller av språket om nu behov i övrigt finns för att lägga CPU och minne på det) blir det mer felsäkert men är praktiskt än så länge för nyheter direkt over-kill givet att utrymmet i sampling för hårdare-filtrering är ordentligt.

För Facebook noterade jag vid ett snabbt försök att den förenklade hårt filtrerade lösning jag gjorde fungerade dåligt. Det har att göra med att denna var initierad med de 500 vanligaste orden utan kännedom om frekvenserna för detta. Ju kortare texten är desto troligare kommer kortare ord förekomma utan att längre ord på dessa lister förekomma. En gemensam likhet mellan alla språk är att kortare ord tenderar att användas för att uttrycka vad som bär hög relativ-entropi (snarare än tycks vara en vanlig missuppfattning från senaste årets studier entropi givet att orden bär på mer information därför att de används i fler kontext men information i varje kontext är ytterst exakt för denna).

Ett gott exempel är up eller upp på svenska:

    Jag går upp på taket: Dimension geografiskt rum. Börsen går upp: Dimension informationsrepresentation av hjärnans reward i pengar. Hon kokar upp fisken i buljong. Dimension uttryck av ökad temperatur och "projektion" av likhet med geografisk-dimension när vattnet kokar och ångan går upp.

Givet begränsat antal kombinationer av bokstäver kommer (där andra anledningar i hur hjärnan fungerar med språk kanske spelar in också) antalet träffar lika mellan språken öka ju kortare texten är. Data finns här.

Snarare än att investera några timmar på en entropi-modell ska jag därför först ta och pröva att helt enkelt avlägsna alla ord i jämförelse-matrisen som är kortare än tre eller fyra bokstäver.

Jag ser kanske också en poäng i att undvika entropi-modeller i filtrering givet att nu många algoritmer senare ligger i segmentet. Någon konkret anledning till det har jag inte men allmänt ser jag värde i att försöka variera teknik mellan enheter som kan störa varandra eller agerar redundans. Det är en god princip i risk management där ju Skatteverkets backup-projekt på deras stora datasystem för ett antal år sedan är ett fint exempel. Det stora i formalia och kravspecikationer, projektmetodik m.m. mycket stora och mycket dyra projekt havererade. Ingenting är ovanligt med det för stora projekt. Det ovanligare var att Skatteverket (kanske hjälpt av traditionell "revisions-tänkande") hade räknat med att det kunde ske, och ett litet mini-projekt på två personer fanns vars lösning driftsattes istället. Hur stort centrum-projektet var kan jag inte svara men jag tvivlar på att färre än ett par hundra eller fler var involverade. Givetvis hade säkert det lilla projektet nytta av saker gjorda i det stora viktigast kravspecifikationer men teknik-lösning och metodik för att utveckla denna (liten utan synk- och mötes-risker men liten förmåga till flera perspektiv i lösningen) var skild och därför ett gott alternativ.

Vi kan se det som att stora projekt när de levererar tenderar att ge oss vad som har förutsättning om kompetent genomfört att fungera under många år med uppdateringar och förändring. Standarder, noggrann dokumentation m.m. ger förutsättning till det. PubMed är exempel på det:

PubMed

Gigantiskt i data liksom IT-plattform och applikationer. Ett exempel på vad som krävs i det förutom faktiskt IT har vi med The Specialist Lexicon:

SPECIALIST NLP Tools

D.v.s. när betydelsen av något är hög måste du ha några redundanta projekt som tar en annan utgångspunkt. Ett annat teknik- eller modell-perspektiv som visar sig kritiskt kan agera backup, och över den längre tid inkluderas in i det större projektets förutsättningar till långsiktigt underhåll.