Att hacka Twitter- och blogg-analys av känslor

2012-02-20
Jag kan här under debug konstatera att det är förvånande många "items" (oavsett om bloggpostning eller något annat) i världens RSS-strömmar som är från framtiden.


Vad kan vi lära från det? Att när man lämnar debug ska man bäst inte ta upp data från RSS-strömmar annat än samma datum som de publicerats. D.v.s. går vi över RSS-strömmar för named entities datum XXXX-XX-XX importerar vi bara inlägg från samma datum samt adderar information om samtliga övriga inlägg rörande datum för att också minska risken för att inlägg med fel-datum in i framtiden senare ska plockas upp:


Mina i alla fall just nu begränsande datoresurser känns förövrigt oerhört deprimerande arbetsamt och tidsödande varje gång debugging gör att diverse behöver startas upp med ny-byggda cache-filer. Egentligen är det bra att undvika att sprida negativa känslor till troligt föga och ingen nytt för mig eller någon annan (därmed inte sagt att jag generellt tycker att det är fel att använda bloggar för att diskutera det egna emotionella tillståndet).

Det finns dock nackdelar och jag om någon vet att det tenderar att sprida sig både på de mest i vanliga modeller vedertagna sätt liksom via mekanismer så vitt jag vet ingen modell mer än min inkluderat i delen för riktad information.

Rörande det senare har jag ej berört just den delen i implementation (än i alla fall). Givet en del inlägg 2009 och 2010 i samband med att jag menade att svenska tidningar var irrationellt negativa rörande nyhetsrapportering runt ekonomi kanske orsakat av lokaliserade problem i media ska sägas att jag bedömer att just den senare funktionaliteten inte bör ha varit den huvudsakliga risken även om jag inte helt kan utesluta det. Min mening är inte alls att dra upp det igen och det ska understrykas att problemet verkligen var övergående. Antingen genom svensk medias naturligt ofta goda kvalitetskontroll och uppföljning, eller därför att jag pekade på det.

Vi kan ändå som tänkt exempel i riktad information förstå kanske problematiken i sådant lättare än för den väsentligt mer betydelsefulla påverkan det kan ha. Riktad information är information anpassad för en mottagare. Är riktad information ex. tydliggjort i delar negativ för politiskt engagerade populationer men för automatisk analys av bl.a. känslor vilka används för större aktörer inom valutahandel inte inses för just denna riktade information kan det tänkas få en del "lustiga" effekter rörande ekonomi.

Jag vill inte alls spekulera (och vet inte om jag seriöst kan utan att bli smärtsamt self-reference (entropy) rolig) om det någonsin rörande valuta handel relaterat till något land varit ett väsentligt problem. Problem handlar ju nu så ofta om perspektiv. Gynnar det land A är det knappast från det perspektivet ett problem. Men om ex. svenska valutan irrationellt försämras bl.a. att modell som valuta handel motsvarande riksbanken hos land B totalt missuppfattar situationen men med resultatet att de tjänar en massa pengar ser de nog inte det som ett problem och kanske inte ens inser att deras modell inte fungerat bra.

Vi kan generalisera exemplet med riktad information till en angreppstyp mot datoranalys av känslor i bloggar, sociala media o.s.v. vilket ju är vanligt sedan några år. Vi kan i ett till exempel se att denna risk kan vara verklig även när inget angrepp ens medvetet riktas just mot den automatiserade analysen. Problemet blir värre därför upplever jag från publicerad forskning och information om verktyg att forskare och företag som gör sådant just nu begår följande misstag:

  1. Resultaten vi får predikterar tillräckligt korrekt framtiden.
  2. Därmed tror vi att datat vi analyserar saknar manipulation i sådan utsträckning att det påverkar.
  3. Det är ett lätt feltänk att göra om man kanske har begränsad erfarenhet av webb-spam underskattande nivån på verktygen som finns där via helt andra metoder.

Problemet är att manipulationen i sig kan vara del av en större kampanj som berör mer än Twitter. Därmed kan det mycket väl vara marketing strategin inkluderande manipulation av Twitter som korrekt predikterar framtiden snarare än datat i sig analyserat som ej är just det manipulerade datat.

Det är av största betydelse att i rimlig utsträckning kunna detektera förutsättningarna varierar nu mellan vad man predikterar och kanske oftare tidigare i modeller kommersiella eller i forskning tenderar nog att gå på high-money områden där manipulation kan tänkas vara vanligt.

Sådan manipulation kan vara implicit i den mening att det inte behöver vara företaget som äger den kommersiella satsningen av ursprungsprodukten som gör den. En ny film eller produkt från välkänt företag tenderar ex. att resultera i skapandet av ett otal kommersiella informationssidor som ägs av helt andra aktörer utan något som helst samarbete med den som äger ursprungsprodukten (ex. för att tjäna pengar via webbannonsering). Dessa aktörer kan ha en ofta kuslig känsla för hur olika lanseringar kommer gå genom erfarenhet och know-how liksom användandet av webbstatistik av helt andra slag. Indikerar sådan kunskap och statistik från helt andra lösningar potential kan det öka mängden manipulativa Twitter-inlägg för att driva trafik till dessa.

Riktad information kan också anpassas mot analys som sker riktad just mot den som publicerar riktad information. Du kan ex. emulera i vad du skriver att du är berusad eller lätt galen och sedan läcka information du kanske inte annars skulle läcka. Kan du följa interferens för att se att det fungerar kan det mycket väl beroende av vem du är ha värde för dig eller orsaka skada för någon annan. Säkerhetsrisken kan tänkas underskattas givet att människan när vi tror att vi hittar något vi upplever att det inte märks att vi tittar tenderar att lita på data mycket mer än när det öppet förklaras till oss.

Låt oss avsluta se något glatt och härligt trevligt med den negativa och farligt smärtsamma begränsningen i mina datorresurser. Den styrka som finns med sådan begränsning allmänt är att man redan väldigt tidigt tvingas till det mest effektiva. Det också mer än implementation av algoritmer utan generell arkitektur såväl som modell där den senare regelbundet behövs arbetats om för att hantera data effekt.

Att slå in stora datas kostnader gör man oavsett dataresurser och det kan tänkas vara bättre rörande mycket tidigare än sent. Men just i sådant här är det bara jobbigt och deprimerande. Ofta känns det som hanterande av debug-loading av data tar en massa tid från just dom delar av modell som är mest egna och som är så mycket trevligare att göra saker med.