"President" Morsy: Arabiska frihetsrörelsens största vän

2012-12-06

Ett återkommande intryck av och till är att Al Qaida senaste åren fått ett allvarligt management problem och rent av att jag en period var helt övertygad om att bin Ladens "efterträdare" måste ha varit en amerikansk dubbelagent.


President Morsy har tror jag samma egenskap. Destruktiv och som sådan direkt farlig på sätt som redan troligt har kostat människoliv och troligt kommer göra det igen.


Samtidigt i den konceptuellt negativa riktningen d.v.s. från demokrati han tycks önska röra sig har han en samtidigt övergripande positiv verkan för denna företeelse.


En del saker i våra liv tänker vi inte på att värdera utan att inte bara upplevt avsaknaden av det när jämförelsepunkterna är vaga utan vi kan komma kämpa för att uppnå en förbättring av konkreta problem för att därefter kunna rätt värdera det systematiska värde som skapats i att lösa det konkreta. Kanske hör demokrati dit.


President Morsy är fallet som understryker när vi lämnar Egypten som fråga betydelsen av att vid de tidiga fria valen om man inte vill ta en onödig risk för att det kan bli det sista valet vara ytterst selektiv med varje kandidat som uttalat icke-demokratiska idéer från åsiktsbegränsning till begränsning av medborgarnas maktfördelning jämförbart med för varje fråga normalt jämfört med sedan flera år välfungerande länder (d.v.s. demokratier: i övrigt finns inga länder utan allvarliga problem i och utanför frågor direkt relaterat frihet, våld, konflikt o.s.v.).


Vill man ta detta tänk längre - onekligen respektlöst till dom som betalar priset för att lösa konkreta problem - kanske vi också kan se möjlighet till liknande värden av konflikten i Syrien. Förvisso inte tror jag balanserat priset folket betalar nu och kommer behöva betala under säkert tiotals år bara för infrastruktur men även som numera finns ett utmärkt stöd för i forskning förändrade genuttryck under generationer ökande risk för ångestsjukdomar m.fl. problem.


Vi kan om vi så vill se Syrien som en allvarlig varning till varje person associerad en diktatur som ej är fullständigt moraliskt korrupt utan ser ett värde åtminstone i det egna arbetet i administrationen att går man efter en viss punkt fortsatt emot folket gäller för dessa konflikter som för alla andra involverande människor att vi ej enkelt blir öppna för att ta andra vägar utan våld. När som i revolutionära rörelser ingen enkel i dom juridiska systemens detalj-exakta artighetssystem vi har inom diplomati och internationell rätt (jfr hur man mäter per centimeter bordets placering när Sydkorea och Nordkorea talar i den de-militariserade-zonen) finns föga förutsättningar här såväl som i Vietnam som flera länder kom att märka. När man gått över gränsen slås landet sönder.


Relevant att lära av från Syrien är att när kopplingen till den eventuella kostnad folket betalade en gång lurade på den frihet de sökte utan att se det exakt nödvändiga som lösning på konkreta problem faller diktaturer alltid. Bromsande faktorer avseende tid finns tycks det troligt relaterat antal personer utanför de mest synliga direkt involverade i administration, parti o.s.v. eventuellt rent av som funktion av vilka av dessa som själva var med och betalade kostnaden. Därav när Fidel Castro väl dött betvivlar jag att diktaturen kvarstår särskilt länge.


En känsla är att problemen i Cuba kanske inte behöver bli lika stora som i Syrien. Dennes bror är ju en koppling men samtidigt utan varje naturlig förmåga till att inge förtroende, utstråla vitaliet o.s.v. och kanske blir det ett mjukare "fall" för diktaturen.


Är man del av en diktatur under ett uppror där man vet att flera enskilda individer högt upp i armé respektive parti har möjlighet att utnyttja upp till kärnvapen mot den egna befolkningen utan att de tar någon som helst personlig risk är det redan nu dags att tänka igenom dom moraliska frågeställningarna.

Gräva guld på Twitter




Mer om sociala media


FACEBOOK

Facebook Like knappen till Google Blogger

Facebook Like med URL till inlägg även på startsidan för Google Blogger


GOOGLE

En orsak Google blev mindre framgångsrik i sociala media


FLER

Buzz, Facebook, StumbleUpon och Twitter




Just publicerade Modeling Movements in Oil, Gold, Forex and Market Indices using Search Volume Index and Twitter Sentiments är ett färskt och typiskt exempel på teknik och möjligheter runt "Twitter mining" som just nu sedan något år fått ett större fokus och just vad jag avsåg i:



Dessutom tyckte jag att en länk till artikeln kunde passa som fortsättning till:



För analys och bedömning om guldets framtid i det svenska välståndet bedömer jag dock inte att Twitter räcker men kan kanske ge en viss indikation om förändringen av hur folk just nu uppfattar att saker är eller förändras. Dock är det ett mycket gott råd från vad jag sett i alla mätningar jag själv gjort att aldrig använda Twitter-data eller ens data sociala media ensamt i dessa sammanhang utan kompletterande data av flera typer mer underliggande, och med en konceptuell förståelse beskrivet för hur begrepp översätter och motsvaras i dagligt-tal på Twitter relativt ex. branschrapporter m.m.


Också gäller för studien att de kommentarer jag gjorde längre tillbaka apropå det mycket stora fokus på medelvärde och varians, och ett mindre antal korrelationsmått har inom forskning kring ekonomi och ännu mer inom tillämpad ekonometri. Medan vi kan se att tillämpningar inom biologi, medicin, bildanalys, mönsterigenkänning m.m. tillämpar fler algoritmer och grupper av algoritmer. Man ska allmänt ha viss respekt för att begränsningar i metod och data studier och metoder runt ekonometri har inte behöver framgå alls med de vanliga statistiska tester som tillämpas.


Ex. för denna såg jag vid en snabbtitt ingen möjlighet relativt den tid jag vill lägga att bedöma praktiskt värde (inte minst rörande möjlighet att "normalisera" resultaten till informationsmått indikerande vad konceptet använt berättar för mig som jag inte redan har där data och metod saknas vad jag såg utan att ha läst i detalj) för att det ska gå) där det för mig inkluderar mer än det aktuella kausalitets-måttet och situationen de definierat som intressant kausalitet. Därmed inte sagt att det är en dålig studie vilket jag inte bedömt utan endast att den inte är intressant för mig att läsa mer exakt.


Givet idéen hos åtminstone en läsare att jag direkt sågade studien Ontologiska problem II: När vi tror att vi kan definiera världen i och för sig "korrekt" men på ett "kallt otrevligt" sätt vill jag påpeka att jag varken tyckte att jag gjorde det där eller här, och också att jag absolut inte utgår från vilket land universitet eller motsvarande ligger författarna arbetar vid. Tvärtom hoppas jag ha gjort diverse klart till slutet av januari för att åka två eller tre månader till Indien (intressant land i hur olika kulturer mötts under en förhållandevis lång tid med åtminstone viss bevarad "dokumentation" även om jag helst håller mig borta från de "tibetanska" områdena då jag inte önskar uppleva att någon tänder eld på sig själva när de hör att jag är svensk om nu Sverige kan ha uppfattats ha gjort eller komma att göra nu när denna ovana tycks ha gått till stabil och riskabel subkultur precis som jag varnade för och säger folk som följt attityderna nu med kraftigt reducerad påverkan: Att beräkna hälsa och militärkonflikt i pengar: II. Det är dags för Laman att pensionera sig annat än på pappret så att det kan bli ordning med faktiska möjligheter till att det tibetanska folket kan skapa maximalt värde genom förutsättningar för att nå frihet från det tortyr, förtryck och diktatur de liksom många i Kina är utsatta för).

Nordkorea: Kärnvapen och Jordskred

Har ej borrat för att bedöma om den förändrade vikt av "landslide" (ungefär ett jordskred tror jag) som möjlig samhällsfråga kreativt fritt runt symbolerna:


"power plant" . "\t" . "river" . "\t" . "\t" . "energy" . "\t" . "wind power" . "\t" . "wind turbine" . "\t" . "turbine" . "\t" . "technology" . "\t" . "nuclear";

Så tydligt fick när givna förslag bedömdes från följande kontext:


"military" . "\t" . "national security" . "\t" . "nuclear bombs" . "\t" . "north korea" . "\t" . "south korea" . "\t" . "terrorism" . "\t" . "sabotage";

Begränsat där den senare bedömning måste utgå från förslag skapade från den första gruppen av symboler där de frågor kontext söker fokusera runt ej fick framgå tyckte jag att den relativa i ordning ökning "landslide" fick var väldigt stor:


Värden till höger avser efter att vi viktat förslagen efter hur de stämmer in med sådana förslag vi just här är intresserade av som beskrivet med kontext.

Denna intelligens och detta data känner heller inte till nyhetshändelser. Utan det är relationer mellan koncept från kunskap bedömt via likheter och sannolikheter också indirekta tillämpat för att se ej redan känt. Det gör det lite svårare att bedöma rimligheten för en så pass ovanlig händelse om radioaktivt-läckage på katastrof-nivå vilket får sägas är vad som indikeras givet att de i topp som nådde en rimligt tydlig nivå tillsammans ser ut som de gör.


Inte helt lätt för mig att göra rimlighetsbedömning av men tar med den kortare egna kommentaren utan korrekturläsning eller modifiering för tydliggörande (tvivlar just på värde som kan adderas då jag kan inget om "landslides" lika lite i Korea eller någon annanstans) förutom att nämna att "Miss Blue" inte refererar till någon människa utan en modul i en maskin-intelligens:


Givealink.org: Att ta ut taggar och statistik för webbsidor

Antingen tror jag i , Google: Kvalitetsproblem och Statistik samförekomst koncept: Enkel metod för att förstärka värdet statistik från generellt språk ger vid tillämpning inom specialistområden eller Abstrakta och konkreta koncept (diskussion: "The semantic richness of abstract concepts") nämnde jag kort Givealink.org som bl.a. Indiana University är involverade i.


Potentiellt intressant är att de gör datat tillgängligt under en creative commonslicens. En del till deras information kompletterande frågor och tydliggörande finns nedan från e-post med en av medarbetarna för den forskningsinstitution vid universitet som driver projektet. Notera också den sista frågan jag precis e-postade och ej fått svar på och om någon har tips om liknande (i bredare mening) data tillgängligt ex. något liknande statistik sökord för webbsökningar över ett helt språkområde eller liknande eller jämförbart stort med Flickr över en innehållstyp eller publikationstyp vilken som helst så kommentera gärna här eller e-posta.


"On Wed, Dec 5, 2012 at 7:08 PM, Hans Husman husman.hans at_at gmail.com wrote:

Hi again Fil,

Would you know if your Givealink.org have the data in a CSV file for
download besides the API, or knew who to email to ask about it?

Best regards, and happy December
Hans"

Svar:


"2012/12/6 Fil Menczer [...] indiana.edu:
Dear Hans,

We only provide the GiveALink data through the API. The database is
quite large and complex, with many relationships (hundreds of millions
of page-page similarity links, for instance), so I am afraid that it
is not feasible to share the data in flat files. We might be able to
share a small sample of the data in a CSV file, if you specify exactly
what data you are after. In this case, please contact my student
Dimitar Nikolov (in cc).

Thank you and best wishes,
-Fil"

Mitt svar:


"No problem,

The size you indicate anyhow show it is probably worth the time taking
1/2 day or so programming the api-download.

It is mostly the co-occurancs between tag concepts that interrest me
and not by anyway association between them and the URL.

Also the association between tag words and a title heading either by
the human user or the actual web page. Is the later collected by the
service ready or do I need to do a fetch myself? If the later I might
also for news papers, articles and reference web pages try to take out
the association between the co-occurance vector of tags and the
overall article. Is it much such type of content regarding serious
knowledge and issues or is it mostly "popular culture"?

Thanks for your help anyway. I do feel you perform good and useful
projects in your area in the practical dimension even something for
other universitites to take inspiration from as research strategy.

Best regards
Hans Husman"

Och så den sista frågan jag skickade efter om statistik över hur API:et används också publiceras:


"PS

Another question: Do you save and publish statistics of the requests to the API? Such statistics if big enough would be quite interresting also. It is in a broader meaning general harder if you aren't Google or Bing and have a lot of search requests to get that sort of feedback to content.

If not would you be able to do so in the future with logs of today if you for example got financing for another Phd student or such?

Best regards
Hans"

På tema av den sista frågan gör jag för egen del när jag hämtar ut större datamängder en försvarlig mängd whitening i request trots att det kostar ordentligt i extra-tid. Ex, körande en mängd relationer från en datakälla jag förkastat p.g.a. inkorrekt extrahering eller lågkvalitet samtidigt. Dels ger det statistik jag ändå har användning av potentiellt längre fram eller för sammanfattande värden, och vidare ökar det kostnadskomplexiteten att analysera dina requests ordentligt. Sista större insamlingen körde jag ex. tror jag 500 000 relationer (ev. att endast cirka 75 000- 3000 000 gick klart d.v.s. i så fall totalt ca 1 miljoner förfrågningar inräknande koncepten utan relationerna +/- några hundra tusen) ej i övrigt data från en misslyckad dataimport från Google's nyligen inköpta Freebase.


Något verkligt behov av att göra på det sättet tror jag sällan är fallet ens när analys är möjligt. För egen del betvivlar jag ens att ett problem skulle existera om förfrågningar publicerades men vi kan också se det som en god vana och också att även om ett problem ej finns med att det analyseras kan ju ett värde ligga i att någon som har motiv att göra det ödslar tid på överdrivet mycket irrelevant data.


På samma tema förvånar det mig egentligen (lite i alla fall) att Google tar betalt för att göra förfrågningar. Även om vissa typer gäller för vad som annars kan stärka konkurrenter olämpligt gäller det inte mycket annat liknande data där statistiken förfrågningarna i sig rimligen borde kunna förstärka deras ännu misstänker jag mindre lönsamma applikationsssatsningar och cloud-koncept ungefär som sökordsstatistiken förstärkt deras Adwords- och Adsense-affär. Ev. är de fåtal (åtminstone som fanns förr när jag prövade api:et ett par dagar innan jag tröttnade på att gå in i gränsen för antal requests) antal fria förfrågningar tillräcklig för att ge dem balanserad statistik? Eller tillräckligt för utveckling av kunskapsdomänen om hur sådan statistik används (vilket är önskar jag i alla fall lätt avundsjukt kring möjligheten är ett smärtsamt stort problem när man väl har sådan statistik). Allmänt gäller dessutom att Google:s api:er relaterat sådant här är väldigt funktionsdrivet specifika för dem förtådda och accepterade tillämpningar ex. sajtsökningar initierad av en surfare snarare än att gemöjlighet till kreativitet i business-2-business utanför redan välkända lösningar (när man inte vill betala för datat och även då begränsat). Praktiskt begränsande torde alla möjliga affärsmodeller relaterade att tjäna pengar på Google:s befintliga affärsmodeller genom att stoppa in data i Google och/eller tappa ut data från Google vara men för komplext data och data ej relaterat ranking tror jag dom är överdrivet försiktiga.


Givealink.org: Mer om tjänsten

Bra teoretisk introduktion:


GiveALink: Mining a Semantic Network of Bookmarks for Web Search and Recommendation (PDF)


Här hittas nyheter m.m. publicerat av Indiana University om Givealink.org:


cnets.indiana.edu om Givealink.org

Prediktera nyhetshändelser från WikiNews eller Twitter: Från Open Source Indicators till Libyen

Via Researchers study new ways to forecast critical societal events, Indiana University uppmärksammade jag Open Source Indicators (Intelligence Advanced Research Projects Activity, DoD).


Relaterat hos Indiana University finns ett flertal projekt inom data mining inklusive samlande av länkdata, och tidigare det fungerande och i sitt segment välgjorda systemet för att följa "luriga" Twitter-trender: Spåra Twitter-bomber och förtal på Twitter.


Vid en ytlig snabbtitt verkar OSI konceptuellt likt en hel del något så när jämförbara projekt som försöker skapa värden från data som publiceras i snabbare (i relation mot ex. traditionella nyheter som görs ofta under längre tid och publiceras av färre aktörer) takt från väldigt många individer för att få vetskap om vad som händer i världen och vad folk menar eller implicit berättar om vad de tycker och känner inför saker och ting.


Utan tvekan finns mycket värde att hämta inte minst från sociala nätverk. Inom en del uppmärksammade data mining områden ser jag dock relativt beräkningskostnad mindre värde jämfört med andra långsammare datakällor och vad man innan tror jag i allmänhet inte förväntar sig särskilt attityder till specifika mer tydligt avgränsade koncept t.ex. en produkt.


För att ta upp indikationer händelser och också förändring i en bredare mening (ev. och vad jag tror inkl. vissa former av förändring rörande vad som i förra stycket togs som exempel på svårt att mäta men då när vi har grunddata att "normalisera" kulturspråket), och se vad som sker i dom många mindre detaljerna tror jag dock att denna typ av data är mycket intressant.


Flera av dom ofta indikerade svårigheterna och utmaningen är dessutom menar jag för dessa datakällor vad man kan komma ifrån ganska enkelt bara man vågar att ärligt beräkna datakvaliteten för större Twitter populationen och därmed inte onödigt översampla stora mängder data som inte tillför värde relaterat händelser och förändringar som berör många personer.


Samtidigt tycker jag att andra datakällor som i princip aldrig dom senaste åren diskuteras i dessa områden för prediktion är potentare. Ev. är det tänkbart att jag längre fram diskuterar det med exempel men inte just nu då den sista djupare fallstudie jag gjorde antagligen vara tidigt under sommaren förra året på en äldre sämre plattform. Algoritmen där använd är brutalt långsam (även om den på nya datorn bör gå smidigare) så just denna typ av operation är inget jag gör i onödan och dess praktiska värde var då huvudsakligen att förstå en del egenskaper i kunskap samlad om relationerna mellan koncept. Försöket i sig är dock tror jag talande för vem som helst med stort intresse av denna typ av prediktion. Snarare än som normalt senare i nyhetsanalys användes ej data från de flesta större engelsk-språkliga tidningar, stora journaler m.fl. entiteter utan endast ett corpus byggt på vid tidpunkten nästan alla nyheter publicerade på WikiNews. Ingen hänsyn ordning mellan koncept utan endast deras co-occurance med direkt och indirekta relationer till andra i tid och rum ex. via feature relation expansion där deras påverkan kan mötas via koncept kanske ej direkt förekommande i någon nyhet.


Värdet det som försök kan ha väljer jag att uttrycka som att många av de världen Twitter m.m. diskuteras som potentiell indikator av och endast i någon begränsad omfattning bekräftats för i "efterhands-prediktion" kan man ta upp via en annan struktur-väg via dessa lite långsammare datakällor. Nyhetshändelser tenderar att vara besläktade. Även när de ej är uppenbart besläktade i orsak kan ändå gemensamma faktorer finnas och sådana gemensamma faktorer kan både vara indikerande utan att vara direkt kausalt-utlösande eller vara en kulturell indikation om en gemensam aktörsfaktor o.s.v.


Mycket av det värde många inom forskningsvärlden ser i Twitter för det har jag en känsla kan bero av att mycket mer ordnings-koncentrerade personer än jag är annat än programmerande eller tar på mig min mentala tyska vita labb-rock för att med atom-bombs total exakthet mäta något (och då mer inlärt än naturligt) är för Twitter med liknande givet dess förutsättningar lättare prövar vägen att ej försöka ta ut exakta meningar ej ens intressanta att propagera uppåt över populationen publicerat utan lättare direkt hamnar i att fånga övergripande mening lite luddigare men därmed också vad som går att statistkst automatiserat lättare resonera i hur det kan inverka och påverka andra inte minst minskande problemet av att alla tolkar och använder begrepp lite olika. Den möjligheten finns dock också för nyheter och i noggrannare dokumenterad fallstudie bedömt från analys på WikiNews-corpus vilket med största säkerhet är en datakälla med väldigt lågt värde jämfört med att ex. samla hela Reuters, alla större engelska tidningar eller jämförbart på en normalare nivå.


Det känns ej korrekt att indikera vad man kan förvänta sig i nyhetsprediktion då det inte minst är beroende av stödjande datastruktur för relationerna, område, hur breda eller exakta koncepten man tittar på resp. dessas antal och hur de är besläktade med varandra. Ej heller vill jag indikera en möjlighet som kanske känns förbra. Men i "någon mening" är det inte orimligt att förvänta sig prediktion av nyhetshändelser i konceptuell ämnesmening (d.v.s. ej händelser i en stad rörande bankrån på en gata eller liknande men däremot att ett ämne växer och oväntat dyker upp tillsammans med ett annat o.s.v.) cirka fem dagar (upp till) i förväg.


En kraftig begränsning praktiskt jag haft är att lösningen jag sist gjorde för analysen tenderar att bli psykotiskt efter cirka fem dagar och drar slutsatser där samband "sprids" lätt maniskt överdrivet utåt på en ej hanterbar nivå med inbillningar i form av falska samband och förstärkningar som effekt, och därav att jag ej vill sia om hur sådant här fungerar längre än så. Dock utan det problemet är det rimligt att förvänta sig att möjligheten ska finnas kvar men reduceras i exakthet eller omvänt hur allmängiltiga och breda koncepten vi kan bedöma är växer enligt något samband (troligt exponentiellt väldigt snabbt växande med gissningsvis bara rena trivialiteter jämfört med kurvskattning för ämnes-trend efter kanske 10 dagar).


Den motsatta sidan Twitter m.m. kan användas till är också från vad vi nog vanligen associerar sociala media till även lite förvånande: snarast det mer exakta. Att vi ser konton på Twitter som sensorer (starkt på väg till tekniskt buzz-word inom data mining) och söker längre ifrån vad jag ovan föreslog att nyheter är bättre till avgränsade ganska konkreta händelser: A gick till läkaren fick en vaccination vid tiden Q1, A somnade 11 ggr / dag de senaste 90 dagarna o.s.v. för att ex. ta upp indikationer om överraskande väldigt nya biverkningar (jfr narkoepilepsi skandalen som säkert inte inträffat om ansvariga myndigheter prioriterade över hälften av den tid och resurser de lägger på att förklara hur verksamhetskritiska de är för svenskarna genom att noggrant värdera risker istället för att utan relevant värdering besluta att ingen sådan värdering i det aktuella fallet behövs trots att deras egen historiska statistik indikerar att man just här behöver det alt. formalisera hur kanske inverkande samhällsekonomiska värden rörande sjukskrivning påverkar vilket i sig ej är ett problem om uttalat och strukturerat).


Här gäller istället att varje enskild händelse mer exakt behöver kunna bedömas. Att vi konvergerar till en tydlig tolkning. Dock gäller när vi samlar många att så längre vi vet hur ofta vi tar fel och att det inte är orimligt ofta behöver det inte vara särskilt svårt eller kräva enorm sampling.


Specifikt för Twitter är ju ett praktiskt problem att det är svårt att ta ut Tweets publicerade för olika tidsperioder och indelningar. Enklast praktiskt upplevde jag själv att det var att gå numeriskt bakåt och titta på hastigheten antalet Tweet för en samplings-period publiceras men vilket vid tidpunkten jag skrev koden också hanterade en del andra Twitter-problem som kan störa datat.


Möjligen av intresse för en del läsare givet att vi också hade Libyen som en liten fallstudie vars frihetskrig vi följde och kommenterade här finns en hel del Twitter samplest tror jag från perioden innan revolten bröt ut. Kanske intressant för någon road av att försöka se sådana händelser då det ej är otroligt att det sample som söktes ut är lite intressant runt det och för Twitter ibland bökigt att återskapa i efterhand som nu längre bak i tiden och som sådant ev. också som ett enklare exempel för vad diskuterat runt nyhetsanalys och dessutom känns det lugnare att ge data från sådant här givet att det både mindre värde och väsentligt lägre komplexitet. Formatet på datat förklarar sig själv. Vid denna tid hade jag ännu ej standardiserat på tab-separerade CSV vilket gör datat enklare att läsa också som människa. Statistik m.m. samlat från fallstudier jag ej använder tenderar att vara "sorterat" i flera samlingar av underkataloger inte helt lätt alla gånger att hitta fram till vad man söker men jag tror att detta blev rätt Twitter-data (särskilt som jag tror att endast tre Twitter-Libya Corpus finns i "arkiven"): libya.tar.gz (via Google Docs).