Visar inlägg med etikett Sociala media. Visa alla inlägg
Visar inlägg med etikett Sociala media. Visa alla inlägg

Facebook's graph API är ett kraftfullt föredöme för ständigt orkeslösa Twitter

2014-05-21

Det är för tillämpning i område av Information i SERP: Tillståndsinformation sökmotor resp. läsare / sökare svårt att av och till pröva ex. Facebook bland sociala media. Och just Facebook har fördelen nu såväl som sist jag besökte den mer intensivt fördelen av att vara mycket snabb, tillförlitlig och utan att känna behov att försvåra interaktionen med omvärlden genom att begränsa antal request nedanför det rimliga.


Problem förra gången var emellertid att parametrisering av språk ej fungerande och p.g.a. IP-adress eller annan geo-indikation Sverige blev andelen svenska facebeaksTM besvärande hög. Minns jag rätt var det via sökning efter motsvarande postningar / inlägg (jag tror de heter posts rent av) vilket nu tycks nedstängt. Dessbättre har jag numera inte behov av den eftersom jag har bättre - i mening predikterande framåt korrektare mer sannolikt - datakanaler att skatta vad den testades för.


API har dock blivit ordentligt större i övrigt. Från förra gången egentligen bara uttrycka access till själva grund-noderna och relationerna i Facebook grafen (innehåll av olika typer, likes och liknande) finns nu massor. Av allt API tittade jag på föga och nöjde mig med att titta på funktionerna för att ta ut reaktioner givet entitet vi kan uttrycka med domän. Det är tänkte jag meningsfullt att jämföra skattning trafik via andra datakällor med vad Facebook-reaktioner kan upplevas / tycks (därför frågan är ju just omräkningen till trafik där kanske enkla samband alltid gällande oavsett kontext inte gäller ens när man summerar allt samman över år - eller så är det så enkelt för välkända entiteter som naturligt ofta diskuteras) indikerar.


Tilltalande enkelt i princip - om än att betvivla praktisk enkelhet - är ju att en bunt hyggligt välkända men veka smala datakällor tillsammans ger värde (ex. Facebook, Alexa m.m.). Praktiskt är det nog så att de inte lättare att kombinera för ett stort antal entiteter än det är att försöka väga samman dem vettigt för hand. Det kan nog ge mer ofta att betrakta stabilare källor man gå djupare och bredare för där Facebook har potential.


Min känsla av Facebook API och grafen över alla dess mänskliga sensorer (d.v.s. graf-noderna som mäter resp. människa eller robot) är att det nu likt förra gången (trots då mycket mindre) kan finnas mer än kanske tänkt. I mening att funktioner för annan information tänkbart indirekt kan ge uttryck skattande olika former av respons. Jag nöjde mig primärt att börja ta ut den uppenbara funktionen för reaktioner d.v.s. och möjligt att få skattningar av via API relaterat motsvarande likes, kommentarer, "förekomst". Neda ex. för IDG:


__KEY idg.se
[{"url":"http:\/\/idg.se","normalized_url":"http:\/\/www.idg.se\/",
"share_count":322,"like_count":342,
"comment_count":273,
"total_count":937,
"click_count":120,
"comments_fbid":432117003059,
"commentsbox_count":0}]

Medan vi kan söka mer exakt information genom att först identifiera aktuell page för entitet - om existerande och förhoppningsvis att man väljer rätt särskilt när ej existerande gjord av entitet - via exempelvis:


https://graph.facebook.com/search?q=amazon.com&type=page&access_token=XXXXX|XXXXXX

Och därifrån till Insights där vi kan få allt möjligt med tror jag senast stabilt uppdaterade på första sida indikerad och framåt via next till senare data skapat efter eller instabilt fortfarande, och med fler typer av indikationer om vi går bakåt med previous:


Från json API ger med enstaka stycken citerade från första sidan innan den först givna i pagination. Page är första som gavs för sökning på Amazon.com d.v.s. samma vi ser i Facebooks uttryck mot människor här.

paging": {
      "previous": "https://graph.facebook.com/xxxx",
      "next": "https://graph.facebook.com/xxx."
   }

Några av fler exempel på data som insight kan ge för godtyckliga pages:

"id": "9465008123/insights/page_fans_country/lifetime",
         "name": "page_fans_country",
         "period": "lifetime",
         "values": [
            {
               "value": {
                  "US": 22260495,
                  "DE": 134021,
                  "PR": 125826,
[...]

 "title": "Lifetime Likes by Country",
         "description": "Lifetime: Aggregated Facebook location data, sorted by country, about the people who like your Page. (Unique Users)"
      },
      {
         "id": "9465008123/insights/page_storytellers_by_country/day",
         "name": "page_storytellers_by_country",
         "period": "day",
         "values": [
            {
               "value": {
                  "US": 10321,
                  "IN": 585,
                  "GB": 113,
                  "IT": 100,
                  "BR": 82,
[...]
   "title": "Daily Country: People Talking About This",
         "description": "Daily: The number of People Talking About the Page by user country (Unique Users)"
      },
      {
         "id": "9465008123/insights/page_storytellers_by_country/week",
         "name": "page_storytellers_by_country",
         "period": "week",
         "values": [
            {
               "value": {
                  "US": 126483,
                  "IN": 3767,
                  "GB": 754,
                  "BR": 579,
                  "IT": 572,
[...]

Enkelt och snabbt. Och data tycks inte påstå av väldigt stora areor av ingenting eller nästan ingenting när man går över några - inte stort mer än vad varje seriös aktör inom sociala media har ett moraliskt samhällsansvar att se till att göra tillgängligt och inte mer än 100 k på eller möjligen vad som blir per ett par timmar - domäner associerade publicering nyheter.



Det är därför korrekt av Facebook att antyda att det är praktiska The Hammer:

Facebook har något av tradition att av och till försöka sig på symboler uttryckta i det visuella. Det är starkare än man kan tro när det görs på en lagom nivå. The Hammer är nog ganska lagom även om man ev. beroende på värdet av kanalen kanske kan göra en något elegantare visualisering. Deras skapelse för några år sedan - facebook illuminati symbol - och nedan - de på tröjorna till någon even runt 2010 tror jag har vi här - var mer i gränsområdet för vad som en bit upp i latent uttrycksfullhet med fri tolkning kan väcka upp det galna folket (och det vill man inte).

Och god prestanda, bra antal request, och inte för ett internet fyllt av datakällor orimligt lokaliserad komplexitet kanske vad som visar sig en av och till användbart litet verktg när gigantisk hammare byggs.


Som det slumpat sig tecknad ungefär samtidigt med att jag testade Facebook som en av flera datakällor. Men senare publicerad bl.a. i Riktad information - Material pre-exempel: "Chinese Communist System Rules!".

Avgörande storlek Facebooks värld är i en dimension antalet entiteter som uttrycker värde av Facebook. Fler och fler requests är större Facebook och det är viktigt för det kanske bara kan vara en två eller tre riktigt stora. Facebook har växt här sedan sist och det medan Twitter förtvinat.

Alternativt kan vi se det som att den roll dessa aktörer vill se för sina tjänster fodrar att de kommer in i huvuddelen av allt i användning och utbyte med tillämpningar i fler branscher, tekniker o.s.v. där jag tvivlar att sådant som telefoner m.m. är just den större utmaningen eller representerande huvudelen av komplexitet och utmaning åren som kommer. Område efter område tenderar att aktualiseras närmare sekvensiellt när vi ser centraliteterna och när en aktör förtvinat sig likt Twitter märks det därför även via vad som sägs om dem och intresset av dem relaterat resp. sådant område. Det är viktigt men märks kanske inte alltid lika mycket som bredare - och för resp. sådant specialistområde ytligare - medier eller diskussioner.



För en aktör vilken likt Facebook söker meningsfull närvaro i vardagen över hela klotet är kvalitet vad som tycks lovande och tror jag är indikation om att man kvarstår stark. Medan jag tror Twitter m.fl. som har svårighet med kvalitet här eller söker kapitalisera även enklare bas-data (vanligen i pris egentligen inte speglande dess värde jämfört med andra datakällor) redan tappat på det och lär fortsätta göra det. Nackdel kommer inte bara från ev. relaterade minskade uttryck av stödjande applikationer utan av att en försvarlig andel av mer aktiva på nätet relaterande dessa tjänster är också användare av datat. Det påverkar vidare till intresse över kanaler diskussion, teknik-tidningar, bloggar m.m.


Därmed inte sagt att Facebook's data för motsvarande tweets är bättre. Jag tror det beror lite på vad man söker. Twitter är ganska mer "värde-relaterat" än Facebook. En sida av det är mer av vad som kan uppfattas spam - eller robot-data - men också mer produkt- och marknadsrelaterat. Facebook är mer av en småstad med ett stycke mark för butiker, några reklam-bilboards och så en massa asociala små communities ofta mer eller mindre ointresserade av Twitter-typiska värden. För användning närmare här avsett tror jag dock Facebook är bättre men söker vi tänkbara koncept i B2C - kanske nyckelord för reklam - är nog Twitter ofta bättre (en försvarlig andel är ju tweets realiserande sådan marknadsföring).

Intrusion detection: Snowden-sensorer resp. tools of the trade för sociala media konflikter och Wikipedia-krigföring

2013-11-12

När nu Reuters och säkert fler refererat säkerhetslösningar ej införda i Snowdens tidigare "NSA-arbetsplats" givet min diskussion 2010 relaterat lösningen möjligen avsedd kändes det utmärkt att återvända kort och avgränsat till den frågan. Även om huvudsakligen en tekniskt kombinerat management med den mänskliga naturen som bakgrund ev. vad som intresserar läsare här:



Vad jag bedömer intressantare för fler är dessa länkar till ett antal äldre inlägg från samma blogg jag länkade som kompletterande information.


Inlägg nedan ger en kanske enklare ingång för många för att se möjligheter relaterat IDS från en domän de flesta idag använder själva och från en teknisk nivå ej skild från den information användaren har i sitt perspektiv:


Från: Att IDS-detektera Informationsläckage Snowden: Värde, risk eller ingenting mer än hind-sight bias? | Hans Husman om Information warfare

Bredare men konceptuellt och i problem-domän likartat kan vi se mycket mer än mer prototypiska sociala media intressant. Exempelvis Wikipedia:


"The Chinese-language version of Wikipedia has become more than an online encyclopedia: it is a battlefield for editors from China, Taiwan and Hong Kong in a region charged with political, ideological and cultural differences."

Från: Wikipedia China Becomes Front Line for Views on Language and Culture (2013-10-28) | The New York Times

Kenneth F. Boulding i Conflict and Defense - A general theory (1962) kapitel The dynamics of conflict: Richardson process models:


"There is no balance of power, or balance of hostility, or balance of arms: the arms race or the price war will go on until the system
breaks down in war, or in capitulation of one side or the other, or in mutual reorganization of the whole system."

Sådana modeller (se också Richardson’s Arms Race Model) är ju just förenklingar som söker få linjära koncept med praktiskt funktionellt lägre komplexitet funktionella. Men just i ett kortare tidsperspektiv när man vi kan eller tror oss kunna approximera bort andra faktorer (ex. betraktande Kalla krigets kärnvapen-balans från hind-sight bias när det är avslutat och "lyckades") är de just genom enkla mycket praktiska. Nu en tid möjligen beskrivande slagfälten i editering (spekulerande: jag har inte försökt följa dem alls själv).


Just här bryts kanske Richardson processen sönder när åsnan - för att ta en liknelse från Bouldings bok - fast mellan två poler: otäck revolution eller i alla fall otrevliga protester resp. växnade systematiska problem att ha diktaturen funktionell utan att öka samma "risker" växer - lämnar frågeställningen helt genom att göra long jump och förändra själva systemet d.v.s. reorganisera förutsättningen för att problem-polerna alls ska existera.


Och även om applikation och uttryckt skiljer sig tydligt från IDS:erna diskuterade i mitt inlägg först länkat gäller att som den uppmärksammade läsande Boulding är vi av och till i ungefär samma koncept: avstånd från en centralitet till något uttryckt utanför den eller till centralitet för något annat. Korrekt uttryckt domän av konflikt - ex. weapon of mass destruction som aktuellt i Syrien - gäller ju för varje IDS att kostnad för att hantera träff - riktig eller falsk - behöver vägas mot att ej hantera träffen:


"One suspect, however, that, in conflict control, false alarms are relatively cheap as compared with failed alarms; that is, the consequence of doing something that need to have been done are relatively slight, whereas the consequence of not doing something that should be done may be distraous."

Men de sällsynta mycket dyra verkliga träffarna (ex. ej demokratiskt eller i övrigt kontrollerad envåldshärskare som psykotiskt efter att ha rökt crack cocaine flera dagar startar World War III) är ju så ofta i vår vardag av en mängd små onödiga kostnader mindre verkliga.

Identifiera utlösande hubbar i sociala media

2013-09-18

Det här hittade jag själv aldrig något vettig approximation till innan jag bredare såg att för prediktion i den utsträckning på tidsdimension som intresserade att sociala media var mindre intressant rörande diverse inkl. detta segment (d.v.s. på den framför-hållning jag sökte adderade inte sociala media på något effektivt sätt jag såg för mig): US Military Scientists Solve the Fundamental Problem of Viral Marketing | Technology Review, MIT.


Ett beroende på utgångspunkt både svårare och lättare problem är vad vi får när publika anslutningar motsvarande vänner saknas. Enormt svårare för varje normal publikations-domän (ex. alla tidningar på engelska eller alla bloggar på engelska) när vi endast söker publikationer som tycks över tiden addera vetskap / information som tillsammans med annat ex. klarar att göra prediktion av politiker A eller företagsledare B enklare. Kanske lättare - beroende på ambitionsnivå - när vi givet publikation A söker bland ett mindre antal ämnesområden (snarare än entiteter motsvarande personer eller beslutsfattande approximationer döljande grupper av personer) för att identifiera vad om något det tycks prediktera.


Det senare är enormt lättare under förutsättning att resp. publikation (ex. blogginlägg) är enkelt att mappa över till ämnesområdet. I praktiken för det icke-triviala - särskilt politiska områden eller bredare vad som ej har en enkel reward-dimension kortsiktigt för publicerande entitet - är det minst sagt kostsamt.


Att ex. blogginlägg adderar vetskap om Z vilket pågående i politisk fråga B utan referens till fråga B adderar vetskap som ger preferens för vissa till ett visst tillställningstagande är "ganska" kostsamt beräkningsmässigt.


Vidare gäller också att mycket försök inom dom här områdena lider lite av föreställningar om hur saker och ting borde att fungera. Ex. vill vi från perspektivet publicerande entitet optimera effekten för påverkan är en av de snabbaste och mest effektiva vägarna givet att vi anslutit snarast vad man i refererad studie sökt identifiera såväl som vad efterföljande diskussion avser till en publikation mindre att argumentera sakfrågan eller addera vetskap runt om denna, och istället mer att ge exempel mer eller mindre direkt tydligt hur man mest effektivt argumenterar redan etablerade välkända argument. Underförutsättning att publikationen i fråga faktiskt klarar det.


Längre tillbaka - ett par år ungefär för sista gången gissar jag - var jag av och till road att med vetskap byggd från datanalays över nyheter såväl i mindre utsträckning sociala media göra det senare. Det är ett exempel på en väg just för att klara det senare - att göra det från att kontrollera bättre data drilling vetskap än andra och begränsat välja att uttrycka det färdigt adderande argument för områden du själv stödjer - men självklart existerar andra där inte mer förmågan att kreativt klara att se elegantare uttryck av argumenten kan ge värde.


Väljer vi att meta-ansluta entiteter inverkande oavsett kanske svårast världens tio mest symbol-tunga politiker, eller kanske enklare dom tio mest mode-påverkande sociala media publicisterna, kvarstår givetvis den ej eller trivala utmaningen hur vi gör det. Det finns ett enkelt var på det men svarets realisering i verkligheten kommer omvänt med en icke-trivial kostnad i tid och ansträngning. Att via uttryckt värde för dem realiserat flera gånger efter varandra där vi får dem att läsa det etablera en inlärning resulterande i att när vi efterföljande mer sällan refererar vad som sker deras verklighet för dagen med en viss sannolikhet får dem att läsa automsierat (5 - 10% är där mycket högt men troligt gissande en del räcker 1% när vi kan lägga en pågende narration till en fråga verkande under åtminstone några veckor och tryggare uttryckt som 4 - 6 veckor: men här är åtminstone jag i ett område där stora inexaktheter gäller för bedömningar).


Sedan kan man givetvis fuska för snabbare genomslag. Komik som bedömt relativt i perspektiv av en organisation är möjligt. Även om jag har ett av få exempel jag gjort elegant några år gammalt (fyra år kanske) avstår jag från det. Men vissa saker kan vara komsikt relativt viss ex. en person i en organisaton särskilt när sådan är mer chef för folk och därigenom få viss spridning. Adderar vi efterföljande pågående konkret värde för sådana under-delar av samma organisation kan det optimera kanaler. Viss prestigelöshet kan ror jag ofta underlätta sådant.


För den seriöst intresserade under antagandet att man tar vägen över riktat konkret värde i argument eller faktisk vetskap är i allmänhet för politiska frågor politiker enormt enklare än media.

Kina: Vad social media sajt som censur-honeypot kan berätta

2013-09-14

Så ofta i avgränsade artiklar mycket läsvärda Technology Review, MIT (även som typiskt för segmentet också lidande av en försvarlig andel mer naiva reflektioner) har att berätta:



Gjord bl.a. av Gary King, the Albert J. Weatherhead III University Professor at Harvard Universit, förutom annat exemplifierande en modern värdeskapande väg för den politiska vetenskapen inom social science med större fokus på att etablera och förstå nya datakällor och/eller med nya metoder. Social science upplever jag annars under efterkrigstiden haft ett problem med mycket teori men lite data och än mindre återkoppling mellan modell och möjlighet till prediktion och förståelse av förändring som kommer ej inträffande (d.v.s. inte sällan i hindsight-bias förklarande mer argumenterande etablerande modeller med föga praktisk nytta). Studien kanske därför också har ett viktigt värde som föredöme för att ta den sociala vetenskap mycket mer praktiskt sund i vad man bygger slutsatser och upplevd vetskap på.


Följande är viktigt:


"The results from the Harvard group’s experiment in which posts were made to existing sites adds further evidence that although China’s censorship is rarely consistent, it is more targeted than often assumed, says Ng. By carefully choosing the content of posts to create a randomized trial, King’s group showed that censors don’t target complaints about the government. Instead, they’re much more concerned about talk of collective action.

Ng says that adds numerical weight to a common perception amongst China experts that the country’s government finds it useful to allow people to vent frustrations online. “Allowing people to post about corrupt officials is a tool government can use,” he says."

Viktigt är också det alternativa perspektivet där vi kan se organisera collective action som typiskt hett och mer näraliggande tid. Att kritisera är långsamt och bygger den grund som kan tillsammans med annat resultera i collective action.


Sociala media varande snabbt och når många där mycket i gemensam funktion kan i kollektiva konvergenser handla om att du ser alla av dina vänner eller många uttryckande något som annars utanför kollektivets stöd kräver stort mod. Sådant kan gå snabbt.


Därmed inte sagt att jag menar att byggandet av en kultur där man gärna oftare uttrycker problem man upplever med partiet - såväl får den genom deras agerande bekräftelsen på att allt det och så mycket mer är korrekt genom att du fruktar diskussionen - inte är det fundamentala och krtiska värdet.


Big Mad Red har samtidigt helt rätt i att organisationen och den kollektiva rörelsen där upplevelse och vetskap förflyttas från informationens entropi till termodynamikens omsättning av energi i rummet är kritisk. Organisationen som sådan behöver ej vara ett problem så mycket som att skapa bredare möjlighet att nå många fler om vad som sker.


Jag kan inte ge någon direkt bra lösning på något här. Jag gillar egentligen inte alls vad indikerat distribuerat snarare än centraliserat kontrollerat agerande där det senare självklart i kontext av internet kan vara möjligt att störa. Samtidigt har vi inte otroligt likartade problem relaterat mjukvara som tillhandahålls ofta förekommande för distribuerade lösningar i metoder att hantera den eller utnyttja den för att korrumpera delar av server utvalt (om så när möjligt).


Det kritiska torde oavsett allt detta någonstans ändå ligga på vilka som är kulturbärare - hur dom som personer har etablerade kanaler runt sig själva i eller utanför sociala media - och metoder de använder för kommunikation.


Den myckenhet - påstås det utan att jag riktigt ser hur jag enkelt kan verifera det - hur dom kinesiska väpnade grenare i försvaret med början kanske sista sex till 12 månaderna riktat parallellt får vi anta till andra funktioner befintliga kartlägger medlemmar i kommunistpartiet med deras familje-kopplingar är väl en variant på samma tema. Stort land, stor komplexitet i allt som förekommer, och alla sitter och övervakar alla andra i ett underligt stillastående tillstånd väntande på en eller flera av ett antal rent inbillade eller tämligen troliga händelser. En till kreativ grupp som monterar upp fyrverkeri hellre än att söka en ansvarskännande långsiktig lösning med möjlighet att hålla en evighet. Mest för att det illustrerar en irrationell risk-rymd snarare än att jag kan påstå att jag har någon vetskap talande för det kanske den senare organisationen av övervakning är en respons av lätt paranoia över att annat växande överdrivet övervakar dom högre befattningshavande med familjer och vänner i styrkorna (som myket mer vederhäftigt känt än den omvända bevakningen - ej lika trovärdigt indikerat med sagt och illustrerat i vissa instanser ska förberedda åtals-dossier existera för större delen av alla från övre medel-management och uppåt existera om medarbetare i dom väpnade styrkorna) för att hanterande risk för militärdiktatur. Oavsett någon av dessa frågor väljer jag att indikera att jag egentligen har större förtroende för styrkornas bredvillighet att se vägen till demokrati som praktiskt möjlig och utan invändning om indikerat nödvändig vilket jag tråkigt nog ej för närvarnade ser hos kommunistpartiet.

Twitter för vetenskapliga publikationer

2013-05-06

Diskuteras i:



Ett tror jag helt annat segment hittar vi genom att flytta vårt analyserande perspektiv från själva journalen till universiteten resp. eller och forskarna avseende vad vi söker hitta värde att donera till. Värdet vi söker att optimera för dessa om det ska vara höggradigt intressant är via metod ej redan åtminstone annat än ovanligt.


Några av de just nu mer framgångsrika publikationer resp. publicerings-tjänster skilde ju ut sig genom att tidigt gjort just det (ett ex. är Plos one genom den fria accessen och möjligheten att åter-publicera vilket ökar möjligheten att bli citerad samtidigt som kostnaden för att köpa ut rättigheten att själv publicera materialet försvinner - nu med högst impact factor). Problemet är väl att det innan något gjorts är det lätt att inte se en metod som existerande i det att den finns och ökar detta värde, tekniskt möjlig resp. affärsmässigt sund.

Gräva guld på Twitter

2012-12-06



Mer om sociala media


FACEBOOK

Facebook Like knappen till Google Blogger

Facebook Like med URL till inlägg även på startsidan för Google Blogger


GOOGLE

En orsak Google blev mindre framgångsrik i sociala media


FLER

Buzz, Facebook, StumbleUpon och Twitter




Just publicerade Modeling Movements in Oil, Gold, Forex and Market Indices using Search Volume Index and Twitter Sentiments är ett färskt och typiskt exempel på teknik och möjligheter runt "Twitter mining" som just nu sedan något år fått ett större fokus och just vad jag avsåg i:



Dessutom tyckte jag att en länk till artikeln kunde passa som fortsättning till:



För analys och bedömning om guldets framtid i det svenska välståndet bedömer jag dock inte att Twitter räcker men kan kanske ge en viss indikation om förändringen av hur folk just nu uppfattar att saker är eller förändras. Dock är det ett mycket gott råd från vad jag sett i alla mätningar jag själv gjort att aldrig använda Twitter-data eller ens data sociala media ensamt i dessa sammanhang utan kompletterande data av flera typer mer underliggande, och med en konceptuell förståelse beskrivet för hur begrepp översätter och motsvaras i dagligt-tal på Twitter relativt ex. branschrapporter m.m.


Också gäller för studien att de kommentarer jag gjorde längre tillbaka apropå det mycket stora fokus på medelvärde och varians, och ett mindre antal korrelationsmått har inom forskning kring ekonomi och ännu mer inom tillämpad ekonometri. Medan vi kan se att tillämpningar inom biologi, medicin, bildanalys, mönsterigenkänning m.m. tillämpar fler algoritmer och grupper av algoritmer. Man ska allmänt ha viss respekt för att begränsningar i metod och data studier och metoder runt ekonometri har inte behöver framgå alls med de vanliga statistiska tester som tillämpas.


Ex. för denna såg jag vid en snabbtitt ingen möjlighet relativt den tid jag vill lägga att bedöma praktiskt värde (inte minst rörande möjlighet att "normalisera" resultaten till informationsmått indikerande vad konceptet använt berättar för mig som jag inte redan har där data och metod saknas vad jag såg utan att ha läst i detalj) för att det ska gå) där det för mig inkluderar mer än det aktuella kausalitets-måttet och situationen de definierat som intressant kausalitet. Därmed inte sagt att det är en dålig studie vilket jag inte bedömt utan endast att den inte är intressant för mig att läsa mer exakt.


Givet idéen hos åtminstone en läsare att jag direkt sågade studien Ontologiska problem II: När vi tror att vi kan definiera världen i och för sig "korrekt" men på ett "kallt otrevligt" sätt vill jag påpeka att jag varken tyckte att jag gjorde det där eller här, och också att jag absolut inte utgår från vilket land universitet eller motsvarande ligger författarna arbetar vid. Tvärtom hoppas jag ha gjort diverse klart till slutet av januari för att åka två eller tre månader till Indien (intressant land i hur olika kulturer mötts under en förhållandevis lång tid med åtminstone viss bevarad "dokumentation" även om jag helst håller mig borta från de "tibetanska" områdena då jag inte önskar uppleva att någon tänder eld på sig själva när de hör att jag är svensk om nu Sverige kan ha uppfattats ha gjort eller komma att göra nu när denna ovana tycks ha gått till stabil och riskabel subkultur precis som jag varnade för och säger folk som följt attityderna nu med kraftigt reducerad påverkan: Att beräkna hälsa och militärkonflikt i pengar: II. Det är dags för Laman att pensionera sig annat än på pappret så att det kan bli ordning med faktiska möjligheter till att det tibetanska folket kan skapa maximalt värde genom förutsättningar för att nå frihet från det tortyr, förtryck och diktatur de liksom många i Kina är utsatta för).

Prediktera nyhetshändelser från WikiNews eller Twitter: Från Open Source Indicators till Libyen

Via Researchers study new ways to forecast critical societal events, Indiana University uppmärksammade jag Open Source Indicators (Intelligence Advanced Research Projects Activity, DoD).


Relaterat hos Indiana University finns ett flertal projekt inom data mining inklusive samlande av länkdata, och tidigare det fungerande och i sitt segment välgjorda systemet för att följa "luriga" Twitter-trender: Spåra Twitter-bomber och förtal på Twitter.


Vid en ytlig snabbtitt verkar OSI konceptuellt likt en hel del något så när jämförbara projekt som försöker skapa värden från data som publiceras i snabbare (i relation mot ex. traditionella nyheter som görs ofta under längre tid och publiceras av färre aktörer) takt från väldigt många individer för att få vetskap om vad som händer i världen och vad folk menar eller implicit berättar om vad de tycker och känner inför saker och ting.


Utan tvekan finns mycket värde att hämta inte minst från sociala nätverk. Inom en del uppmärksammade data mining områden ser jag dock relativt beräkningskostnad mindre värde jämfört med andra långsammare datakällor och vad man innan tror jag i allmänhet inte förväntar sig särskilt attityder till specifika mer tydligt avgränsade koncept t.ex. en produkt.


För att ta upp indikationer händelser och också förändring i en bredare mening (ev. och vad jag tror inkl. vissa former av förändring rörande vad som i förra stycket togs som exempel på svårt att mäta men då när vi har grunddata att "normalisera" kulturspråket), och se vad som sker i dom många mindre detaljerna tror jag dock att denna typ av data är mycket intressant.


Flera av dom ofta indikerade svårigheterna och utmaningen är dessutom menar jag för dessa datakällor vad man kan komma ifrån ganska enkelt bara man vågar att ärligt beräkna datakvaliteten för större Twitter populationen och därmed inte onödigt översampla stora mängder data som inte tillför värde relaterat händelser och förändringar som berör många personer.


Samtidigt tycker jag att andra datakällor som i princip aldrig dom senaste åren diskuteras i dessa områden för prediktion är potentare. Ev. är det tänkbart att jag längre fram diskuterar det med exempel men inte just nu då den sista djupare fallstudie jag gjorde antagligen vara tidigt under sommaren förra året på en äldre sämre plattform. Algoritmen där använd är brutalt långsam (även om den på nya datorn bör gå smidigare) så just denna typ av operation är inget jag gör i onödan och dess praktiska värde var då huvudsakligen att förstå en del egenskaper i kunskap samlad om relationerna mellan koncept. Försöket i sig är dock tror jag talande för vem som helst med stort intresse av denna typ av prediktion. Snarare än som normalt senare i nyhetsanalys användes ej data från de flesta större engelsk-språkliga tidningar, stora journaler m.fl. entiteter utan endast ett corpus byggt på vid tidpunkten nästan alla nyheter publicerade på WikiNews. Ingen hänsyn ordning mellan koncept utan endast deras co-occurance med direkt och indirekta relationer till andra i tid och rum ex. via feature relation expansion där deras påverkan kan mötas via koncept kanske ej direkt förekommande i någon nyhet.


Värdet det som försök kan ha väljer jag att uttrycka som att många av de världen Twitter m.m. diskuteras som potentiell indikator av och endast i någon begränsad omfattning bekräftats för i "efterhands-prediktion" kan man ta upp via en annan struktur-väg via dessa lite långsammare datakällor. Nyhetshändelser tenderar att vara besläktade. Även när de ej är uppenbart besläktade i orsak kan ändå gemensamma faktorer finnas och sådana gemensamma faktorer kan både vara indikerande utan att vara direkt kausalt-utlösande eller vara en kulturell indikation om en gemensam aktörsfaktor o.s.v.


Mycket av det värde många inom forskningsvärlden ser i Twitter för det har jag en känsla kan bero av att mycket mer ordnings-koncentrerade personer än jag är annat än programmerande eller tar på mig min mentala tyska vita labb-rock för att med atom-bombs total exakthet mäta något (och då mer inlärt än naturligt) är för Twitter med liknande givet dess förutsättningar lättare prövar vägen att ej försöka ta ut exakta meningar ej ens intressanta att propagera uppåt över populationen publicerat utan lättare direkt hamnar i att fånga övergripande mening lite luddigare men därmed också vad som går att statistkst automatiserat lättare resonera i hur det kan inverka och påverka andra inte minst minskande problemet av att alla tolkar och använder begrepp lite olika. Den möjligheten finns dock också för nyheter och i noggrannare dokumenterad fallstudie bedömt från analys på WikiNews-corpus vilket med största säkerhet är en datakälla med väldigt lågt värde jämfört med att ex. samla hela Reuters, alla större engelska tidningar eller jämförbart på en normalare nivå.


Det känns ej korrekt att indikera vad man kan förvänta sig i nyhetsprediktion då det inte minst är beroende av stödjande datastruktur för relationerna, område, hur breda eller exakta koncepten man tittar på resp. dessas antal och hur de är besläktade med varandra. Ej heller vill jag indikera en möjlighet som kanske känns förbra. Men i "någon mening" är det inte orimligt att förvänta sig prediktion av nyhetshändelser i konceptuell ämnesmening (d.v.s. ej händelser i en stad rörande bankrån på en gata eller liknande men däremot att ett ämne växer och oväntat dyker upp tillsammans med ett annat o.s.v.) cirka fem dagar (upp till) i förväg.


En kraftig begränsning praktiskt jag haft är att lösningen jag sist gjorde för analysen tenderar att bli psykotiskt efter cirka fem dagar och drar slutsatser där samband "sprids" lätt maniskt överdrivet utåt på en ej hanterbar nivå med inbillningar i form av falska samband och förstärkningar som effekt, och därav att jag ej vill sia om hur sådant här fungerar längre än så. Dock utan det problemet är det rimligt att förvänta sig att möjligheten ska finnas kvar men reduceras i exakthet eller omvänt hur allmängiltiga och breda koncepten vi kan bedöma är växer enligt något samband (troligt exponentiellt väldigt snabbt växande med gissningsvis bara rena trivialiteter jämfört med kurvskattning för ämnes-trend efter kanske 10 dagar).


Den motsatta sidan Twitter m.m. kan användas till är också från vad vi nog vanligen associerar sociala media till även lite förvånande: snarast det mer exakta. Att vi ser konton på Twitter som sensorer (starkt på väg till tekniskt buzz-word inom data mining) och söker längre ifrån vad jag ovan föreslog att nyheter är bättre till avgränsade ganska konkreta händelser: A gick till läkaren fick en vaccination vid tiden Q1, A somnade 11 ggr / dag de senaste 90 dagarna o.s.v. för att ex. ta upp indikationer om överraskande väldigt nya biverkningar (jfr narkoepilepsi skandalen som säkert inte inträffat om ansvariga myndigheter prioriterade över hälften av den tid och resurser de lägger på att förklara hur verksamhetskritiska de är för svenskarna genom att noggrant värdera risker istället för att utan relevant värdering besluta att ingen sådan värdering i det aktuella fallet behövs trots att deras egen historiska statistik indikerar att man just här behöver det alt. formalisera hur kanske inverkande samhällsekonomiska värden rörande sjukskrivning påverkar vilket i sig ej är ett problem om uttalat och strukturerat).


Här gäller istället att varje enskild händelse mer exakt behöver kunna bedömas. Att vi konvergerar till en tydlig tolkning. Dock gäller när vi samlar många att så längre vi vet hur ofta vi tar fel och att det inte är orimligt ofta behöver det inte vara särskilt svårt eller kräva enorm sampling.


Specifikt för Twitter är ju ett praktiskt problem att det är svårt att ta ut Tweets publicerade för olika tidsperioder och indelningar. Enklast praktiskt upplevde jag själv att det var att gå numeriskt bakåt och titta på hastigheten antalet Tweet för en samplings-period publiceras men vilket vid tidpunkten jag skrev koden också hanterade en del andra Twitter-problem som kan störa datat.


Möjligen av intresse för en del läsare givet att vi också hade Libyen som en liten fallstudie vars frihetskrig vi följde och kommenterade här finns en hel del Twitter samplest tror jag från perioden innan revolten bröt ut. Kanske intressant för någon road av att försöka se sådana händelser då det ej är otroligt att det sample som söktes ut är lite intressant runt det och för Twitter ibland bökigt att återskapa i efterhand som nu längre bak i tiden och som sådant ev. också som ett enklare exempel för vad diskuterat runt nyhetsanalys och dessutom känns det lugnare att ge data från sådant här givet att det både mindre värde och väsentligt lägre komplexitet. Formatet på datat förklarar sig själv. Vid denna tid hade jag ännu ej standardiserat på tab-separerade CSV vilket gör datat enklare att läsa också som människa. Statistik m.m. samlat från fallstudier jag ej använder tenderar att vara "sorterat" i flera samlingar av underkataloger inte helt lätt alla gånger att hitta fram till vad man söker men jag tror att detta blev rätt Twitter-data (särskilt som jag tror att endast tre Twitter-Libya Corpus finns i "arkiven"): libya.tar.gz (via Google Docs).