FBI's analys av sociala media: Vad media praktiskt kan lära

2012-02-16

FBI gör sig redo att handla upp en tjänst för att analysera och dra nytta av sociala media:



Mest intressant med upphandlingen här är egentligen inte FBI:s planerade användning utan vad tidningar och media kan lära sig av den för den egna verksamheten.


Den typ av värden och möjligheter aktuella för FBI gäller också media. Dessa har berörts med tekniskt mer exakt information med fokus för verksamhet i media som bygger sådana applikationer tidigare (huvudsakligen 2010 and tidigt 2011) här på Hans Husman om Media i ett större antal nyhetsinlägg, guider och artiklar (ett 30-tal i urval länkas längre ner). Dokumentet ungefär beskrivande FBI:s önskemål är en excellent samlad bild också av vad media aktörer redan kan skapa nytta av (där vi kan se att de aktörer som tidigt gav sig in i segmentet redan bygger stort värde i reda pengar medan de flesta fortfarande gör ingenting) och lyfter också fram delar jag kanske ej berörde (faktiskt tror jag att alla kravområden FBI berör har tagits upp här respektive i Nyfiken vital men avseende här länkat - det var åtminstone mitt intryck när jag prickade av en egen delvis besläktad lista medan jag läste dokumentet).


Det är min tanke här att kort komplettera tidigare inlägg från huvudsakligen 2010 med några tips utifrån min erfarenhet i WARRIOR, Creative Culture och Creative Distance versionerna. Samt på slutet också kommentera kanske andra intressantare upphandlingar att förvänta.


Tidigare inlägg


Fokus fria verktyg och plattformar möjliga att använda för delar av en lösning vilka håller hög kvalitet och funnits med fungerande utveckling och underhåll flera år. Ett strålande exempel på idealet är NASA World Wind: State of art, fritt, hög kvalitet och vad man kan "skönja" använt i också framgångsrika kommersiella varianter. Ett till bra exempel är Openstreetmap.org Microsoft relativt nyligen satsade på. Båda har jag förövrigt experimenterat med och den senare extraherat data från.



  1. Idéer till kreativitets plattform för stora organisationer via fria lösningar. Bl.a. visualisering GEO.
  2. Geografiskt lokaliserad information för insamling
  3. Status.net - Plattform för sociala media
  4. Google Public Data Explorer för att visualisera statistik om världen
  5. Google living stories i öppen källkod
  6. Geografisk lokalisering för anpassad presentation på nättidningar

Flera berör GEO där följande kompletterar:


  1. Hur mediekoncerner i underrättelseanalys kan visualisera och navigera geografiska data

Närmare exempel och erfarenhet bland annat:


  1. Exempel - "Dashboard" med Geo-information för business intelligence
  2. Culturomics försöker skingra dimman med riktigt mycket data och massor av datorer
  3. Googles erfarenheter från att ha byggt en AI

Strukturering av data abstrakt och konkret, detektering named entities o.s.v. bland annat:


  1. Ontologi låter mediekoncerner följa entiteter och deras relationer
  2. "Semantiska webben": Mötet mellan de "statistiska" och "strikta" relationerna
  3. Extrahera aktörer från debatt-artiklar (Ex SvD)

AI-tänk och besläktat för slutsatser och interferens:


  1. Hur mediekoncerner i underrättelseanalys kan visualisera och navigera geografiska data
  2. Skärning mellan historia och nutid i underrättelseanalys med stridsflygplan som exempel
  3. Notera för ovan vad senare blev känt rörande Norge och Jas där vi kan peka på vikten att ta hänsyn till värde som en faktor för hur länge man låter ett analys-spår arbeta för att hitta något (vilket ej ska tolkas som att någon kännedom eller dylikt rörande den affären någonsin hittats eller funnits hos mig utan endast som ett exempel på en dimension som under 2010 kanske ej berördes). För upphandling stridsflyg lönar det sig att investera mer minne och CPU-timmar för att hitta interferens därför att det större värdet gör "olämpligheter" troligare. Samma faktor finns ju också i människans kognition och har diskuterats utifrån modellen relaterade till Creative Culture och Warrior flera gånger i Nyfiken vital.
  4. Tidsanalys i grävande journalistik
  5. Tid är viktigt för att förstå nätet
  6. Att se olämpligt rapporterande i nutid inringade av historien
  7. Att förstå intensitet i intelligence och annan informationsanalys
  8. Forskning hos "viktiga" entiteter berättar om branschen
  9. Den viktiga forskningens kännetecken
  10. Prediktera betydelse och trender för forskning från pressmeddelanden
  11. Nuhet förenklad till tre dimensioner (följer ungefär äldre definition på Nuhet)
  12. Bra om och för "analytiskt" problemlösning från CSI (CIA)

En större samling länkar till fakta, verktyg m.m. både på bloggen och på webben i övrigt:


  1. Business intelligence

En allmän diskussion om möjligheter och värde för media relaterat till detta finns kortfattad i:


  1. Framtiden för media 2011 och framåt: Demokrati, Dataanalys, Skalfördelar och Göra ett bra jobb

Kompletterande möjligheter media och verktyg

Kompletterande möjligheter och verktyg är relaterade till utvecklingen av implementationer relaterade till min större modell. Där ska följande först sägas:


  • Värden för media i de områden liknande FBI:s upphandling hör till teknikområden jag brukar sammanfatta med "den tyska exaktheten".
  • I det ligger den semantiska webben, mer exakt tolkning av vad enskilda inlägg sociala media, bloggar m.m. egentligen säger om platser, tidpunkter, föremål m.m.
  • Det viktiga är indexering av de enskilda inläggen.
  • Och att kunna göra sökning som hittar inlägg uppfyllande vissa sökkrav.
  • Och i sökning visa inlägg representerande olika former av interferens.

Det är i mina implementationer och det område den sista som kommer bli publikt tillgänglig arbetar mot inte oviktigt men heller inte huvudfokus. Dessa områden betraktar jag i praktisk implementation enligt:


  • Välkända beprövade algoritmer finns i statistical natural language processing, information analysis m.fl. områden där många av de viktigaste principerna och algoritmerna
    fanns redan innan 1960-talet.
  • En mängd (inklusive flera tyska drivna bl.a. med EU-pengar) projekt som gör plattformar och strukturerat data "fritt" tillgängligt finns. Ett av de mer kända och på pappret i vad det omsluter mer imponerande är Dbpedia.org (men absolut inte självklart alltid det praktiskt mest intressanta).
  • Flera välkänt goda informationsresurser för att hitta named entities, fakta, common sense m.m. finns. Både vad som indirekt ger sådana värden där Wikimediafoundation.org med alla dess sajter är i särklass bäst liksom från diverse universitet olika former av corpus, redan filtrerad och/eller extraherad information m.m.

Det är ett större område jag hela vägen betraktat som vad jag inte utvecklar tänk eller implementationer i utan där sådant stöd är vad i särskilda anpassningar ska hanteras från för olika sådana områden specialiserade fria implementationer. Inte minst gäller detta GEO respektive visualisering.


I princip föreligger inget problem att med sådant stöd bygga mycket av vad som efterfrågas från FBI. För flera fall gäller att kvalitet helt säkert blir bättre med de plattformar jag känner till inom inkluderade teknikområden vilka är "fria" jämfört med de kommersiella jag känner till.


Möjligheter för media att bygga lösningar är därför excellent särskilt givet att tillförlitlighet och skalning mot ett mycket stort antal användare (jämför med DSH jag tror mig minnas totalt berör cirka 300 000 medarbetare där det tycks rimligt att anta att denna applikation i förlängningen berör många fler delar av DSH än just FBI).


Ett exempel på en aktör som satsat brett i segmentet och tycks dra in med bra pengar är välkända Thomson Reuters:



The Guardian i hur de börjat strukturera öppet data för att skapa kunskap och stöd i redaktionellt arbete liksom det sätt de arbetar med huvudsidor för vanliga ämnen är också värda att titta på:


  • Data Store - Facts are Sacred | The Guardian
  • Open Plattform. Ett försök att hjälpa andra sajter att skapa kanaler till tjänsten. I den mån det lyckas är det långsiktigt värde för tidningen. Utan att ha försökt följa upp hur väl detta lyckats för dem gäller att jag tror att rätt strategi är flera löpande försök runt tjänster tills man börjar hitta rätt och där nog också vad som fungerar varierar över tiden. Min bild är nog att detta är ett av de svårare områdena för konkret värde och kanske långsiktigt mindre viktigt än infrastruktur för analys och information.
  • Syria in Art & Design. Notera sökmotorn vilken representerar ett enkelt (och för media fullt rimlig nivå) exempel på "tysk exakthet" för interferens mellan fakta-dimensioner och scoope.
  • Jonny Lee Miller och CBS. Exempel på deras faktasidor. Notera att varje faktasida har en RSS-ström. Se Jonny Lee Miller takes on Frankenstein co-star in US Sherlock Holmes update för hur de länkas i nyheter.

Vi kan rörande huvudsidor jämföra med hur vi gör i Nyfiken vital där dock varje huvudsida är handskriven för att sammanfatta ett specialistområde:



Två tjänsteleverantörer jag allmänt bedömer som underutnyttjade av media i området att bygga tjänster och plattform för medarbetare och läsare är trots att de är välkända inom aktuella områden Yahoo och Google. Följande informationsresurser hos respektive bör följas upp och aktörer i media bör experimentera även med de kanske mindre uppenbara tjänsterna:



Jag gör min named entity recognition med egen kod. Men därmed inte sagt att funktioner via api:er Yahoo! har för det och lätt besläktat kanske inte är en enkel väg för många aktörer inom media. Och ev. bättre än Thomsom-Reuters lösning? Åtminstone värd att jämföra mot andra innan man handlar på sig något färdigt:





Mer intressanta upphandlingar

Från perspektivet i föregående inlägg inser vi att den perfekta leverantörer till FBI för denna upphandling inte är företag eller aktörer med någon särskild innovation, modell eller upptäckt. Snarast är IT-konsultföretag gärna med omfattande erfarenhet av tillförlitlighet och skalning (jfr IBM) som skapar en anpassad lösning av ett antal befintliga och teknik-lösningar för att knyta samman dem vad FBI troligast blir mest nöjda med.


Mer intressant är dock funktioner denna upphandling ej tycks inkludera men som långsiktigt är oerhört viktiga när det gäller intelligence. Jag ger här några exempel på vad som kan vara inkluderat i det för att tydliggöra de områden jag indirekt avser:


1. Att prediktera händelser som Syrien och tidpunkter när revolutionära lösningar blir mer intensiva är ett exempel. Där gjorde jag en prediktion förra året (slutet tredje-kvartalet här på bloggen) där jag satte cirka vecka åtta som mest kritiskt för revolutionen i Syrien där jag förväntade mig i princip att intensitet nått sådan nivå att regeringen föll. Intressant nog om man tolkar prioritet från US i slutet av förra månaden och början denna månad tycks de ha gjort ungefär samma bedömning (dock är ska man helt undvika att göra tolkningar av det och liknande "interferens" då jag inte helt men nästan korrekt kan utesluta viss påverkan på varandras analys vilket förövrigt är ett generellt problem särskilt inom politik både inrikes och utrikes oavsett land och samarbetsform).


2. När analys av Twitter, Facebook m.m. för att följa fundamentalism diskuteras gäller allmänt att värdet är överuttryckt. Träffar är mer sällan egentligen särskilt viktiga och gällande implementerande verktyg kan man ofta argumentera att de inte levererar mer värde än vad sökfunktioner på Twitter, Facebook o.s.v. ger via respektive API för detta. Den "tyska exaktheten" begränsas av att få seriösa Facebook-grupper där terrorister sitter och "crowd sourcas" terroristdåd är fallet. Vi kan jämföra dem vid att leta under lampan inomhus fast bomben ligger i mörker utomhus.


3. Därmed inte sagt att interferens som ger viktiga ledtrådar inte är möjlig om man lämnar konceptet där uteslutande tysk exakthet används. Förutom sådant stöd behöver vi fånga rörelser attityder där generella symboler förändras indikerande problemområden att borra vidare inklusive interferens via helt andra kanaler. En symbol kan bli associerad hos vissa större grupper i sig ej relaterade med terroristorganisationer men i attityder havande likhet med sådana i den mening att deras åsikter kan projiseras och transformeras som skattningar på dessas. Dessa symboler givet att förändringen är färsk är vad sökning exempelvis i tappad telefoni, radiotrafik, internet-trafik relaterat till terrorist organisationer kan ge träffar man annars missat mer direkt indikerande faktiska terrorister eller medlemmar i stöd organisationer till dessa kanske innan helt okända.


4. I den tyska exaktheten gäller ju också att datastrukturerna tenderar att växa exponentiellt. Vi kan se det i det mest fundamentala i att den exakta interferens är per meddelande d.v.s. att symbol(i) förekommer tillsammans med symbol(j) i följande n meddelanden. För varje minut som går växer dessa kombinationer allt mer och det även om man mot förmodan skulle kasta bort alla meddelanden äldre än x antal dagar.


Det ska sättas i relation till angreppssättet i den anpassning av min modell anpassad för den första publika versionen där storleken på datastrukturer kommer konvergera och ej efter det växa exponentiellt. Vi har (i skiss där denna separation just nu införs) en datastruktur för den generella symboltabellen representerande världens tillstånd motsvarande gårdagen och etablerad kunskap gemensamt samt en symboltabell för ögonblicket motsvarande och liknande hjärnans i ögonblicket tillfälliga anslutningar mellan neuroner och grupper av biologiska neuroner.


Möjlighet till absolut exakt interferens tappas. Men istället vinner man brutalt större möjligheter att söka interferens i känslor, attityder, konflikt och viktigast den relativa förändringen med större utrymme att borra djupare i sådant.


För en organisation motsvarande CIA är det ensamt långt ifrån en tillräcklig lösning. Däremot är det kompletterande flera lösningar för indexering och time, geo, named entity m.m. relaterat interferens utmärkt för att peka ut sökningar och se bakomliggande förändringar påverkande politisk utveckling.


Motsvarande exemplet för CIA kan vi också jämföra med ett stort företag med högt fokus på innovation. Exakt sökning efter interferens mellan potentiella kunder, egna produkter, forskning hos olika universitet, patentansökningar hos konkurrenter, teknik och lösningar man själv äger m.m. är viktigt för att kunna se områden man är svag i, var man är stark utan att inse det o.s.v. Samtidigt gäller att en lösning av den typ jag gör tillför värde för att se hur vi kan fånga förändring hos kunder, delar av den egna "intelligensen" och kreativiteten medarbetare tillsammans med formaliserad kunskap (t.ex. patent) representerar och hur man förstärker befintlig positiv tillväxt eller detekterar att föga positiv förändring och tillväxt föreligger för verksamheten kritiska områden.


Jag får erkänna att även om det senare är mer "korrekt gulligt" (arbetsterm i modell för en viss dimension) och det första mindre graceful cute (senare term för ungefär samma sak) finner jag den första applikationsgruppen enklare att använda som utgångspunkt när jag resonerar om praktiska värden. Rörande ekonomiska värden är dock den senare troligt gigantisk och där jag egentligen inte känner till något liknande.


Relaterat till Syrien analysen har jag haft dåligt samvete rörande uppföljningen nyligen publicerad rörande:


"Likväl oavsett hur svårt att säga vad tror jag? Jo prediktionen håller kanske två till tre veckor försenat."

Från: Syrien: Mänskliga sköldar skyddar pansarvagnar

Jag har ej tillgänglig hårdvara för att köra den för analys praktiskt bättre färdiga tidigare Warrior. Tillgänglig hårdvara hos mig är använd för anpassningen. Kvalitetsnivån på prediktionen 2011 och denna komplettering är därför skild. Emedan den första skedde utan emotionellt petande från min biologiska hjärna gäller att denna skedde närmast uteslutande från det perspektivet. Helt olika saker. Egentligen ska det givet att jag understryker begränsningar inte ha betydelse men samtidigt får man ju ta hänsyn till att ett visst track-record är fallet och för säkerhetsskull bli mer noggrann med sådant här även om jag inte vill ge någon egentlig garanti eftersom viktigaste värde för mig av denna blogg är minnesanteckningar.