HANS HUSMAN OM MEDIA

Hans rapporterar: Status utveckling, tidsperspektiv, behov hårdvara, finansiering 2013 och sampling Asien

2013-02-20

Jag skrev i ett svagt ögonblick att jag visst kunde återpublicera vid särskilt intresse någon av de artiklar med minnesanteckningar från arbetet med modellen jag tog bort. Orsaken till att jag tog bort dem är att de snarare än att det temporära i sig med senare ändringar är ett problem att jag vill ha dem separerat därför just dessa som är mer divergerade hör till de delar som särskilt behöver hanteras i del två av boken resp. senare gränssnitt. Ett fåtal e-post resp. annan kontakt har också kommit som jag helt glömde att se. En medarbetare hos Expressen har dock nu varit ihärdig ganska länge så jag har samlat ut artiklarna relaterat geodata här.

Om informationen som söks inte finns där kan jag gå över arkivert med de avpublicerade också. Jag tog dock ut några av dessa.

Vidare publicerar jag ut igen delar av den gamla uppsamlingssidan med inlägg relaterat Business intelligens (eftersom det nu var någon länk just där som var aktuell) med ev. en del som ej är med på den nya jag riktade hårt mot GEO, Navigering och GEOdata.

Mycket möjligt finns en del döda-länkar kvar till avpublicerat. De flesta tror jag att jag fångade och har markerat dem med verdana i indianred utan länk.

Visst har jag generellt varit svag över informationskanalerna där jag brukat finnas. Men jag är pressad i tid för de egna projekten utanför medie-nätverket oerhört komplexa i delar som fodrar inte mindre när delarna ska samman. Och även om saker inte är akuta på något sätt än på ett tag pressas min tid från annat. Bl.a. behöver jag ta plattform till en finansierad lösning åtminstone med delar under året, och närmare i tiden upplever jag att ett "moraliskt ansvar" att kunna sätta upp samplingen aktivt igen relaterat Asien. Egentligen skulle jag önska att kan det innan närmare slutet av nästan månad men när jag köper sådant här i år med begränsad budget fodrar urvalet stor noggrannhet också. 20 - 30 kkr mer eller mindre gör stor skillnad samtidigt som jag verkligen skulle behöva mycket tyngre kanaler ut än så och mycket tidigare än vad som känns troligt om man ska vara korrekt noggrant med kapitalet och vidare behövs fler något tyngre datorer d.v.s. innan jag har löst processor-sidan är det heller inte mycket mening med att börja suga in många giga byte dagligen: fyller bara upp hårddiskar medan man kommer efter i tiden.

Vidare kan det vara lika viktigt för att realisera det faktiska värdet jag söker med det att kunna driftsätta Drifting thoughts separerat på en väsentligt bättre lösning när det kommer till ram-minne och CPU:er. Det har blivit tydligare för mig att för en så pass komplex kultur med sådan storlek i data krävs att man går upp åtminstone till storleken jag hade i den första prototypen (på minna förra dator men då var det riktigt långsamt och vandrade in i "psykotiska" tillstånd redan efter ett fåtal dagar krävande omstart från den punkten). Att köra den med cirka 15 000 - 150 000 viktigaste noderna kanske helt enkelt inte riktigt räcker för Asien. Den kan behöva upp till 600 - 1 000 kilo noder (vilket mest störande annars fodrar att man kör similarity-beräkningar förväg för att "hinna" med därför att de tar tid vilket helt sunkar ner datorn man kör sådant hårt på och kostar enormt minne, samtidigt som själva nod-nätet (och det är oräknat Blue Light -Komplettering: och ej heller med common sense inräktnad som om man skulle köra hela aktiv samtidigt är några modiga giga-byte i data även om den optimerade neråt 400 MB normalt ska räcka utmärkt för att ha i RAM) med säg 800 000 noder och 25 000 000 relationer med vardera i den mån de fått data har 20 egen-dimensioner kostar minne och CPU: i det tragikomiska förklarande varför jag inte som dom andra "programmerarna" sitter och leker med reguljära uttryck hit och dit - för mig är Perl's motsvarande memcpy, while-loopar och aldrig rekursion, noggrant stänga alla filpekare så att de inte sitter och tömmer minne o.s.v. vad som gäller).

Tid är vad man kan kompensera med när infrastrukturen inte räcker. Och här är jag i verklig mening mycket beredd att ta den tid som finns därför att jag vill ogärna att jag inte kan ge ett trovärdigt svar längre fram på vad jag tror är möjligt 2013, 2014 och 2015. Hit or Miss.

Men som jag nämnt några gånger - om än sällan - mest 2011 tror jag: Jag såg ett värde i staying hungry. Det fungerar verkligen för att pressa fram den högre förmågan och rent av att jag kanske pressade mig för långt 2011 också därav att jag håller saker koncentrerat utan för mycket av olika delar samtidigt.

Nu börjar jag dock känna mig klar. Delarna ska samman och dataimportens nya gränssnitt ska fortfarande göras. Så nu ska jag inte behöva vara hungrig särskilt länge till är planen. Så nu får man börja fundera lite på var man går. Sverige, United States eller India upplever jag inte som för ansträngande lösningar eftersom det är dom tre länder jag gillar mer än många andra (Japan är också trevligt men här föredrar jag nog snarare US eller Sverige, och om Asien hellre Indien). Sverige är ju alltid nära, USA torde i så många både kommersiella, militära och civila delar vara den entitet som har lättare att fullt se värde och också mycket lätt kan addera den kompetens som krävs, Hinner jag ska jag försöka söka lite research pengar av dem redan första halvåret. Det kan ju vara mindre tidskrävande kanske än se över mina gamla kontakter bland venture-företagen i Sverige (varav flera förr mer av närmare vänner är riskabelt över pensionsåldern ex. Torbjörn Bjurgert jag hade ett litet venture med runt 2003 inom information security och insurance).

I India finns många dolda världen och förhoppningsvis lider mina läsare inte av den vanliga vanföreställningen att Indierna inte kan mer än de ger sken av. Indien är som när försvarets materielförvaltare räknar pansarvagnar, flygplan, hundar, bunkrar m.m. I dokumenten från nedan hela vägen upp skär man bort en försvarlig del (det gör nog många andra länder också). Och ibland om man kan räkna det egentligen oviktiga kan du räkna det konkret försvarskritiska varför det ibland blir så komiskt när man råkar hamna i en regeringsrapport när jag sökte bilder till del II av boken. Det ger mig en viss stolthet för även om jag kunde se det (och verkligen att jag kanske är den ända) var det oerhört elegant gjort. De steg i min aktning. Likväl är ett tips att gå över data över antal ev. lite besläktat och kontrollera att det på sätt jag inte såg faktiskt går att räkna "upp i skyn" (givetvis inte just vad jag indikerade men det ska inte vara ett problem). Flygplanen är fina saker som sätter Sverige på den större kartan och byggt fina relationer för Sverige i Nordafrika, och var med och skapade den bro jag hoppas ska vara en god hjälp för Västerlandet och Arabvärlden att nå långsiktig stabilitet. Så vi ska vara rädda om dem, och inte småsnåla med när vi redan investerat mycket. Flygplanen ska flyga mer både i Sverige och utomlands. Vara det verktyg för fred de skapades för. Får jag möjlighet framöver ska jag ta och engagera mig lite och se om det tillsammans med andra medborgare kan självorganisera sig till en vettigare budget lösning för flygvapnet. Det finns konkret ekonomiskt värde där vi som litet land har ytterst lite om något numera att falla tillbaka på istället (eftersom frågan tenderar att engagera ska jag som korrekt återvända till den vid tillfälle framöver och ge en seriösare motivering också inkluderade mätningar från senaste längre samplingsperiod av världens engelskspråkiga nyheter som med mycket god marginal i Symbolmind indiekrade intressanta mätevärdena relaterat symbol-grupper relaterat just våra flygplan.

Jag tror dessutom att mycket annat börjar kännas lovande stabilt som andra pysslar med och som jag intresserat mig för av och till genom åren. Nu i dagarna när jag vaknade efter att nästan sovit tre hela dagar förutom ett fåtal timmar efter att överarbetat när det slutligen började bli verkligt för mig är det en ny stimulans och väldig glädje.

Hade vi istället varit förra veckan hade jag 100% struntat i frågorna igen därför att i allt verkligt är det inte aktivitet av sort som jag tillåtit eller sett möjlighet ta utrymme när inget extra utrymme funnits.

GEOData: Media, Business intelligence, Navigering, Kunskapsorganisation och Military intelligence

Handledningar media

Guider med ett konkret praktiskt värde för media relaterat verksamhet. Från din mest tekniktrötta kulturskribent eller åldrad IT-chef / redaktör / journalist / fotograf på en döende landsortstidning som känner att det är dags att youtuba vad man gör så att alla Stockholmare kan hitta tillbaka till naturen och harmonin, till också den mycket kunniga som mer än kunskapen kan hitta idéer därför att inläggen speglar just en viktig sida i varför jag bloggat om det när det kommer till det egna värdet.

God Thesaurus för media
Geografisk lokalisering för anpassad presentation på nättidningar
Exempel - "Dashboard" med Geo-information för business intelligence
Geografiskt lokaliserad information för insamling
Satellitbilder för media
Hur mediekoncerner i underrättelseanalys kan visualisera och navigera geografiska data
Kartor från Google Maps i bloggar och webbsajter
Google Earth visar jordbävningen i Kina
Illustrera med foto, filmklipp, kartor, teckningar m.m.

Extern sajt:

Mapping GitHub – a network of collaborative coders | Flowingdata.com
Slides & Thoughts from Hadoop World NYC | Datawrangling.com

NASA World Wind, OpenStreetMap, Google Maps, Bing Maps

Bing Maps: NASA World Wind förutom OpenStreetMaps2012-10-18
Microsoft navigerar stabilt på stormande datahav

Kartor från Google Maps i bloggar och webbsajter
Buzz, webbkameror och foton på Google Maps
Buzz, webbkameror och foton på Google Maps
Google Public Data Explorer för att visualisera statistik om världen
Satsning på skola med Google Geo Teachers Institute
Nytt JavaScript API till Google Maps

Konceptuellt

En stjärna föds i absolut skönhet likt en symbol för universums storslagenhet
Att låta rymden inspirera till en bättre värld
Att navigera spännande tak för nya intryck

Business Intelligence

Äldre tidigare borttagen sida som publiceras igen som kommenterat i Hans rapporterar: Status utveckling, tidsperspektiv, behov hårdvara, finansiering 2013 och om sampling Asien. Relaterat och bättre uppdaterat rörande GEOdata se GEOData: Media, Business intelligence, Navigering, Kunskapsorganisation och Military intelligence.

För avancerad dataanalys finns otaliga system som används inom forskning, business intelligence, underrättelseanalys, trendanalys, medicin m.m. Få av dessa används inom media men kan ge stort värde. Här diskuteras fem möjligheter:

1. Ontologi för att beskriva samband
2. Tidsanalys för att upptäcka vad som hänt
3. Keynote för att beskriva avancerade system med rättigheter
4. Emotionellt läckage är svart magi vackrare än allt annat
5. Formella språk
6. Att mäta nuhet
7. Business intelligence och prediktion från Google
8. Google Image Swirl
9. Geotaggning och geografiska data
10. Visualisering av data
11. Forskning tydliggör riktning för en bransch utveckling
12. Google Public Data Explorer
Appendix A: Övrigt

1. Ontologi för att beskriva samband

Bild över entiteter och deras relationer från dataprogrammet ONT i en superdator lösning från SGI där access kan hyras:

Ontologies (SGI.com)

Att denna typ av datakraft krävs för tillämpningar aktuella i media är inte fallet även om det mycket möjligt att detta kan vara den mer kostnadseffektiva lösningen (svårt för mig att avgöra).

Ontologi handlar om att beskriva entiteter utifrån dess egenskaper och hur de förhåller sig med varandra. Genom detta går detta att analysera även ytterst komplexa entiteter där huvud och/eller papper inte räcker till.

Ontologi låter mediekoncerner följa entiteter och deras relationer

2. Tidsanalys för att upptäcka vad som hänt

Tidsanalys är den analysmetod jag menar är i särklass mest kraftfull ändå sällan använd utanför krypteringsanalys. Orsaken att den inte är mer använd har troligen att göra med att människan naturligt inte förhåller sig "exakt" till dig. Trots styrkan som finns i metoden (utvecklad och förenklad av mig för media) är den ganska enkel att använda:

Tidsanalys i grävande journalistik

3. Keynote för att beskriva avancerade system med rättigheter

Ett alternativ ibland kanske intressant är Keynote (RFC 2704) för att beskriva förtroende hos distribuerade system. Med Keynote kan du t.ex. beskriva att en entitet du följer hade rättighet att göra vissa typer av affärer men saknade rättighet att göra det om inte vissa andra saker var uppfyllda. Just flexibilitet gör att egentligen allt runt rättigheter med fria villkor kan definieras.

Standarden utvecklades bl.a. Matt Blaze. Jag gjorde den första implementationen av standarden utanför referensimplementationen redan 1999. Läs mer i:

Datacentrisk säkerhetsarkitektur och Keynote
The KeyNote Trust-Management System Version 2

4. Emotionellt läckage är svart magi i renaste formen

Även går med andra lösningar att beräkna känslomässigt innehåll i både text och bild beräknas:

1. Det är intressant att göra för att se att det överensstämmer med vad som är önskat att kommunicera. En del artikel med positivt innehåll men som känns helt pessimism är givetvis inkorrekt.

2. Emotionellt läckage som jag kallar detta (jfr informationsläckage) går också att tillämpa för att uppskatta en persons känsloläge.

3. Det kan också vara möjligt att använda som en mer eller mindre unik signatur för en skribent. En möjlighet med det kan vara att från en text för vilken skribenten är okänd hitta denna genom att jämföra emotionellt läckage vilket kan fungera bättre även för fallet när texten av annan person översatts till ett främmande språk.

5. Formella språk

Rörande formella system ej tidigare berörda är troligen möjlig användning inom media obefintligt. För övriga fall är troligen CSP ett bra första alternativ att titta på:

Communicating Sequential Processes (CSP)

Foto: Tetsumo Licens: CC by 2.0

6. Att mäta nuhet

Nuhet rör sig i samma område som emotionellt läckage men är inte samma sak. Det handlar mer om det ögonblick när en grupp personer (eller en individ) påverkar trender och påverkas av trender. Begreppet liksom övrigt runt det är del av ett eget system och en del finns att läsa i:

Nuhet förenklad till tre dimensioner
Att mäta nuhet via Google
Är mobiler vägen till det absoluta ögonblicket?

Nuhet diskuteras i följande inlägg som troligen bättre illustrerar det för en trivial situation förenklad till två dimensioner:

Nära grupperade relaterade händelser är hög nuhet - Prediktera betydelse och trender för forskning från pressmeddelanden | Nyhetsbloggen

Även uttryckt i följande dikt jag skrev:

Poesi till rumstid, tid, datum (tidslinje) och nuhet | Nyhetsbloggen

7. Business intelligence och prediktion från Google

Google har ett antal verktyg i det här segmentet som jag använder alldeles för sällan. Tills de bättre finns beskriva länkas de direkt:

www.google.se/trends
Google Domestic Trends
www.google.com/insights/search/#

8. Google Image Swirl

Google Image Swirl uttrycker relationer mellan bilder:

Explore Images with Google Image Swirl (Google Research Blog)

9. Geotaggning och geografiska data

Uppgifter om geografisk position t.ex. för en händelse gör i växande omfattning det möjligt att identifiera foton, "tweet", inlägg på bloggar, information i Wikipedia m.fl. datakällor.

Kartor från Google Maps i bloggar och webbsajter
Geografisk lokalisering för anpassad presentation på nättidningar
Buzz, webbkameror och foton på Google Maps
Exempel - "Dashboard" med Geo-information för business intelligence
Geografiskt lokaliserad information för insamling
Hur mediekoncerner i underrättelseanalys kan visualisera och navigera geografiska data
Google Public Data Explorer för att visualisera statistik om världen

10. Visualisering av data

Hur data kan visualiseras är ett omfattande område med många möjligheter. Rörande geografiskt data (liksom mer än så) diskuteras några möjligheter i:

Hur mediekoncerner i underrättelseanalys kan visualisera och navigera geografiska data

11. Forskning tydliggör riktning för en bransch utveckling

Hur större entiteter prioriterar forskning och annat grundläggande område är en viktig indikation hur en bransch rör sig:

Forskning hos "viktiga" entiteter berättar om branschen

Följande metod (egentligen två stycken) utgår från hur forskning uttrycker sig i pressmeddelanden:

Prediktera betydelse och trender för forskning från pressmeddelanden

12. Google Public Data Explorer

Google Public Data Explorer är ett verktyg för att visualisera och jämföra data Google importerar från olika källor om världen och dess utveckling:

Google Public Data Explorer för att visualisera statistik om världen

Statistiken kan enkelt bäddas in på olika sätt.

Appendix A: Övrigt

Att se olämpligt rapporterande i nutid inringade av historien
Skärning mellan historia och nutid i underrättelseanalys med stridsflygplan som exempel
Neuronnät för intelligent övervakning av servrar

PP IS AS HARD AS THE POLYNOMIAL-TIME HIERARCHY* (PS)
Toda, SIAM J. COMPUT.,
Vol. 20, No. 5, pp. 865-877, October 1991

Metagame (Wikipedia)

Om systematisk avlyssning på nätet:

Internet och problemet med systematisk avlyssning

Hur generella kvalitetsfaktorer associerade till användare kan identifieras i Wikipedia:

Who does what on Wikipedia?

En upplever jag välgjord strukturering av nyheter rörande meta-information samt dessutom en färdig partiell lösning i öppen källkod:

Google living stories i öppen källkod

Via Infotorg ges access till ett antal databaser inklusive gamla Dafa spar där folkbokföringsadress kan bindas till t.ex. personnummer för mer trovärdiga utskick (ex. lösenord). Uppgifter om statistik och uppgifter rörande en mängd andra saker finns också från olika databaser.

www.infotorg.se

Wiki hos MIT om kollektiv intelligens:

Handbook of Collective Intelligence

Hos Gapminder.org finns visualisering av trender rörande en mängd områden att fritt använda:

www.gapminder.org

I området att mäta vad besökare gör på en webbsajt är Occam's razor den bästa sajten när det gäller guider. Det finns en hel del bra samlat särskilt från sista sex månaderna och de två senaste inläggen är ett par värda att läsa:

Kill Useless Web Metrics: Apply The "Three Layers Of So What" Test
10 Fundamental Web Analytics Truths: Embrace 'Em & Win Big

Även medtagen i dagens citat:

Dagens citat: Avinash Kaushik

Aaron diskuterar möjligheterna att använda data från Alexa:

Is Alexa Relevant in 2010?

Verktyg för att visualisera samband sannolikt manuellt (har ännu inte testat det men åtminstone är det ett trevligt exempel):

Mapping GitHub – a network of collaborative coders | Flowingdata.com

Programmeringsspråk för att bygga AI från en princip som låter intressant:

Grand Unified Theory of AI: New Approach Unites Two Prevailing but Often Opposed Strains in Artificial-Intelligence Research

Både positiva och negativa stereotyper påverkar läsarna. Detta har diskuterats i:

Effekten av ninja som positiv stereotyp
Var försiktig med negativa stereotyper

Det verkar heller inte otroligt att förekomsten av övervägande positiva eller negativa stereotyper säger något och är intressant att mäta. Ännu mer rör det i så fall troligen förändringen av fördelningen mellan positiva och negativa.

Världsbanken har nu gjort sin statistik enkelt tillgänglig över nätet och även i API:er. Läs mer i:

Världsbankens statistik enkelt och fritt tillgänglig

Företag som gör marknadsundersökningar rörande användning av och affärer på internet:

www.comscore.com

En liten tjänst Google gjorde för UK som tycks importera korta RSS-snuttar från leverantörer av uppgifter om statistik elegant presenterade fördelade över olika ämnen.

Google Internet Stats

Sökfunktionen tycks verka över nyckelord i RSS-bitarna som tagits med. Exakt med vad den är gjord med vet jag inte säkert men det hela tycks skapat med Google Spreadsheets och det tycks troligt att den har en sökfunktion även om jag inte använt den för något avancerat själv.

Guide till ett flertal verktyg och tjänster för enkel användning rörande trender på nätet och som jag uppfattar det prioriterat mot ögonblicket sett utifrån begrepp som kan uttryckas motsvarande sökord:

API and Dataset Cheatsheet - Building Quick & Dirty Tools | SEOMoz.org

Fallstudie över hur en enklare tjänst för att analysera några väldigt grundläggande men väldigt stora datakällor:

Slides & Thoughts from Hadoop World NYC | Datawrangling.com

Från Google finns också för att prediktera och kategorisera utifrån data och upptäcka förändring Google Prediction API:

Google Prediction API för att kategorisera, prediktera och se förändring

Där Google Prediction API också av filosofiskt intresse kan relateras till följande diskussion:

Relationer i länkar kanske approximerar generella samband för "organisatorisk entropi"

Där vi kan se länkar som bärande mening i form av riktning d.v.s. grafteori, mening vilket vi kan uttrycka som entropi och också implicit kategorisera från båda dessa egenskaper.

En webbsajt som gör till Sunlight foundation med en lösning för att hämta federal statistik:

transparencydata.com

Notera också följande undersida för bulk-nedladdning:

transparencydata.com/bulk/

Tre lösningar värda att titta på. Bland annat att avgränsa och mänta ut text entiteter från en text och ansiktsigenkänning respektive:

Tre spännande lösningar möjliggör kreativ data drilling

Data rörande hälsa i USA har gjorts tillgängligt via Google. Jag har ej testat det själv men Google Public Policy blog har länk till var det finns att ladda ner och diskuterar hur deras lösning Google Fusion Tables kan användas för att göra informationen "mer användbart":

Making U.S. community health data accessible and useful | Google Public Policy blog

Google Public Policy blog har information om patenter och varumärken att ladda ner:

10 terabytes of patents and trademarks | Google Public Policy blog

Statistik över sociala media är Viralheat en tjänst för:

Viralheat gör statistik över sociala media tillgängliga fritt

För att värdera olika hypoteser är ACH som används av CIA och numera finns i öppen källkod ett alternativ:

Att värdera alternativa hypoteser med ACH

Visualisering och samarbete från perspektivet kreativitet och innovation diskuteras i:

Idéer till kreativitets plattform för stora organisationer via fria lösningar

Tips rörande metoder, litteratur m.m. i kontext av nationalekonomi ges i:

Att bedöma ekonomisk utveckling: Några råd

Den viktigaste relevanta repetitionen för data mining och intelligens i politiskt prediktion gömd i det implicita

Ett urdrag och sammanfattning av längre artikelserie planerad till denna vecka i Nyfiken vital - Människans språk.

En av de mest - personligt - betydelsefulla artiklar jag läst de sista fyra åren är Information, Communication, and Meaning, George A. Miller (jag lämnar som övning till läsaren att försöka hitta på nätet om alls där) där han i sammanfattning föregriper informationsteorin inom de kognitiva psykologin ändå framtill idag (praktiskt ex. rörande image analysis av fmri rörande tester med i hans tidiga arbete närmare informationsanalysen vid mer "manuella" psykologiska tester). Miller var ju också en av de tidiga stora tänkarna och grundläggarna till den kognitiva psykologin, psykolingvistiken och informationsvetenskapen.

Närmare slutet av artikeln skriver Miller:

"It is resonable to asky why we are so redundant. The answer lies in the fact that redundancy is an unsurrance against mistakes. [Jämför gärna också med risk management förövrigt varande det områden där jag mötte informationsteorin först.]. The only way to catch an error is to repeat. Redundant information is an autoatic mistake-catcher built into all natural languages. Of course, if there is no chance of error, then there is no need for redundancy. The large amount of redundancy that we seem to insist on reflects our basic ineffeiciency as information-handling systems. Compared with the thousands or millions of bits per second that electronic devices can handle [...] can chariably be called puny [Miller var förövrigt först med att notera 5 - 7 "gränsen" för arbetsminne vilket är en bra utgångspunkt för att bättre förstå vad han avser]. By making our languages redundant we are able to decrease the rate, H_x(y), to a point where we can cope with what is being said."

När vi ska lära oss sekvenser "utantill" vilket är mycket nära de konkreta försök Millers förklaring avser är detta när det pekats ut med "enkla" formler klart för oss lätt att uppleva lite självklart.

Vår kunskap, vårt intresse och hur vi tänker och känner styr allt övergripande

Övergripande inte bara för individen över intressen, kunskap, humör, vad han eller hon läser m.m. utan också vänner han möter före eller efter idéer utbyts med.

När kunskapen konkret samverkar för uttrycka de komplexa som går långt utanför varje enskilt dokument eller ens alla av våra största välkända corpus. Är vi inte längre i den givna enkla sekvensen vi upprepar tills vi lärt den.

Ungefärlig förståelse av vad t.ex. Stockholm eller en kemisk reagens gör. Dessutom när meningsfull relevans finns samverkar våra konkreta objekt med vad vi redan är, vet och informationen vi fortsatt tar in.

Denna implicita repetition mer kontinuerlig där delar av relationer mellan många koncept kan förstärkas, skapas eller offras för effektivisering via prouning (lättsam sammanfattning pruning inkl. relaterat med referenser The Brain and Consciousness) går långt utanför de vanliga (men likväl innebär verklig praktisk-utmaning) discourse modeller som analysera data nära enskilda meningar i en text normalt använda för att extrahera förståelse från text. Det är väsensskilt genom att dessa i sig inte går att ta vidare till analys av implicit repetition (även om datat de ger givetvis är användbart) därför att deras algoritmer växer icke-linjär i komplexitet.

Snarare är deras ev. motsvarighet i vår kognition just att tolka informationen vi just nu tar in energieffektivt medan andra annorlunda utmaningar kräver att man tänker ytterst annorlunda för att kunna se utan att dränkas i det vansinne i dimensioner enormt komplexa datamängder skapar. Hela det praktiska området för hur vi i det konkreta extraherar enklare data från enskilda dokument finns utmärkt sammanfattat i Speech and Language Processing, Dan Jurafsky och James H. Martinm resp. kompletterat ex. T. Givón två Syntax I och II, eller någon av ett flertal liknande böcker kan ge lite fördjupat perspektiv från en annan vetenskapstradition kompletterande. Att extrahera data bra är även om det ligger utanför huvudintresset här nog så viktigt för att få in data att behandla och av ett idag mycket omfattande referensbibliotek över hela området menar på det allvarligaste att rekommenderad bok är den viktigaste att ha att slå i upp kring allt praktiskt.

Mitt ex. av Speech and Language Processing klarar att visualisera sitt verkliga värde i hur brutalt sliten den hunnit bli på kanske 1.5 år. Klicka för att förstora bilderna.

Relevans i military och business intelligence: Darpa och FBI

Dessa två perspektiv - implicit resp. närmare sekventieull redundans - kan vi fundera över när vi tittar på ex. Darpa's senaste projekt relaterat språkanalys eller tidigare FBI's upphandling för text mining av bloggar, sociala media, forum, instant messaging och allt i övrigt tänkbart över tiden att bli aktuellt i gigantiska internet corpus med ständigt "nya" tekniker och lösningar (själv sorterar jag fortfarande sociala media som antingen mer nära forum eller eg. ganska likt bloggar men med kortare text).

Tittar på vi text och mening vi hittar på internet: hur mycket värdefull konkret information hittar vi troligt direkt (om vi antar att korrektheten för sådant gör det energieffektivt att följa upp den allmänt)? En del del konkret värde finns: Inte minst bara vilka entiteter (ex. personer, organisationer, företag) som har relationer med varandra. Däremot givetvis ingen faktisk kunskap vi bättre extraherar från utvalda datakällor mer än internet generellt.

Och det explicita är vi när vi uttrycker oss oftare också mer noggranna med. Alternativt slarviga där det egentligen betyder föga. Att du ändå behöver tänka efter och sätta koncentrationskraft eller är i affekt.

Båda polerna kan påverka mottagarens värdering av oss (ex. hans är tråkig och berättar aldrig något intressant och hans skämtteckningar är fyllda med racial slures om tyskar och danskar: ska svenskarna aldrig komma över sin historia när du nu vann och tog hela Skåne. Både arg och uttråkad.)

Människan blir enklare mänsklig när flocken växer (lagom)

Tänker vi oss säkert intressant för de som söker reward i pengar implicita eller explicita läckor om företagsaffärer genom analys av information på nätet publicerat av sotra populationer är det föga normalt adderande något inte redan jämförbara eller bättre metoder finns för (ekonomin för en region eller bransch är en annan sak bl.a. därför att vi kan ta ut indikationer av innovation och hur väl sådana orkar tas emot av kund och allt där emellan vilket konkret når väldigt långt med ex. bara med ryggrad i patentansökningar). Ett till ex. jämförbart med patentansökningarna är dataanalysen som får en allt större viktigare roll inom biomedicin: Google: Kvalitetsproblem och Statistik samförekomst koncept: Enkel metod för att förstärka värdet statistik från generellt språk ger vid tillämpning inom specialistområden

Däremot att söka den implicita repetitionen eller de emotionella uttrycken relativt händelser vi objektivt kan beräkna korrelation till (t.ex. förändring av företagsledning) kan vara funktionellt (jag har aldrig prövat det på ett större företag i väsentlig skala men däremot en del 2011 och tidigt 2012 inom det politiska inte utan värde även med då snarast prototyper testande praktiska implementationer) - eller mer vågat (möjligt omoraliskt och ej vad jag själva skulle göra automatiserat) som koncept kanske addera informationskanaler in i populationen för att addera motsvarande priming koncept och mäta reaktionen ("All the people here in Uppsala says Google is afraid of Microsoft and noone really anyway does anything at Google but watching the stock news. How does that make you feel being the new Google CEO and one of the founders? Please anser in a RSS-feed indicated in the meta-data of this page. Thank you, and good luck with your great blog I always read almost daily.").

Praktiskt värde begränsas dock i mängden vi betraktar. Ju större population vi meningsfullt kan avgränsa desto mindre exaktare blir det men samtidigt mer troligt korrekt i det mindre vi kan se. Analyserar vi den lokala livsmedelsbutikens medarbetares bloggar efter implicita uttryck säger det föga troligt något om en ev. kommande upphetsande rea utan troligare något från familjelivet. För däremot t.ex. samtliga politiker i Sverige ev. inkl. tjänstemän som publiceras är det görligt, eller p.s.s. i mer intressant lämpligt i det engelska språkområdet.

Största utmaningen: Tidens hastighet har lite med klockan att göra - Förändringen av intensiteten för språk och händelser är tiden

Ytterligare en begränsning i analys praktiskt och teoretiskt åtminstone så långt jag klarat att se är görligheten att synkronisera hastigheten på tiden in i framtiden när vi predikterat för en punkt nu eller i historien. Utmaningen är att hastigheten här i den mening av hur vi upplever det är relativt ungefär hastigheten saker sker med rent allmänt och inte bara just vad vi analyserar och följer. Finns motivation runt det senare blir fenomenet av och till väldigt märkbart också utan textanalys över stora populationer när olika entiteter försöker överrösta varandra över den kollektiva gemensamma kommunikationskanalyen media, TV, reklam, dagligt tal, tidningar m.m. representerar.

Vi som är åldrade och närmare oss 40 år minns ju också Sverige före internet och fler än två tevekanaler när en populär teve-serie kunde få landet att tystna i fascination över något annorlunda (innan televisionen blev nedring av upprörda medborgare oroade över amerikansk post-Vietnamkrigs-kultur-imperialism, fördumning av the common man of the street man nu hade monopol för att hjälpa att komma rätt, otäcka rednecks i ständigt återkommande serier säsong på säsong utan att folkförflyttningen från hemmet i byn till staden någonsin blev klart, eller radhusområdenas psykologiska-extrempunkter i dramatiserade trivialiteter koncentrerade till extrem hastighet, eller det vulgära Carola uttryckte musikaliskt och kanske på fler sätt: strunt i brist på bättre förutom kanske Onedin-linjen jag som tio åring tyckte var hade många goda artistiska värden).

Att också prediktera sådant brett d.v.s. gå utanför just vårt intresse över kanske i "värsta" fall närmare en miljon koncept är dock mycket mer beräkningskrävande samtidigt som det kraftigt ökar risken för att fel ska propagera från områden där vi inte har riktigt lika bra data (vår kapacitet för mining är ju också begränsad). Samtidigt som sådant om vi håller det separerat i varje ny verklig tidpunkt är typ av data att kontrollera vad vi fortlöpande predikterar mot när det ej tillräckligt tydligt kan verifieras upp till den punkten.

När vi begränsar vad vi analyserar finns risk för nasty surprise

P.s.s. kan sådant när vi ej insett att det ska ses överraska oss. Det blev ju fallet ganska nyligen när revolutionen i Syrien bröt ut som tidigt inte alls fanns på min karta. Om något var det där bara lite mur framför Persien (iran men just sett lite flexiblare över gränserna följande kulturhistorien). Tid är klurigt precis som när vi är upptagna fokuserat själva på något. Vi märker inte tydligt att den behöver passera och kanske missar en buss.

Det störde mig oerhört mycket vid tillfället därför att det var en så fin kedja innan från Syd-Sudan och framåt. Libyen var ju också verkligen så lyckat: viktigt för både Arabvärlden och Västerlandet på väldigt många sätt. Det är konkret viktigt att Libyen lyckas bra i år. Att börja rätt är gör allt enklare därefter. Syrien riskerar att inte bli annat än det otäcka exemplet. Worst-case när diktaturens upplevda huvud i vansinne inte klarar att röra sig. En varning för andra diktaturer ej så förtappade att de hellre förstör hela sitt land för att hindra vad alla utom han själv vill kunna göra. Libyen är mycket mer om saker inte går sämre än nu: En viktig möstespunkt med Västerlandet. Ett ex. på att det går att ta ett förtryckt folk till ett stabilt land. I år är Libyen viktigt.

"H_x(y) can be thought of as the additional information we can expect from each new word in the sequence. Thus H_x(y) is closely related to the rate at which informationen is generated by the source: it measures the average number of bits per unit (per word)".

George A. Miller

Relevans - om vi alls ska förenkla ett begrepp som också måste inkludera vår förmåga att ställa intressanta frågor d.v.s. en kreativ-process där vi ser möjlighet i data att söka djupare utan behov av detektions-baserade regler - behöver därför om det ska vara mer än analys av indata vara vad man kan verifiera ur quality assurance mening på andra sätt än att endast jämföra det med listor av givet korrekta nyckelfakta. Sådana har vi ju redan, och oavsett hur intressant att ta ut bredare, behöver vi för det implicita mäta relevans genom datats förmåga att prediktera världen i konkret mening.

I prediktion är det som för mig verkligen ett privilegium att prestigelöst av och till våg referera det här samtidigt som jag vankligen sedan 2010 påminner om utmaningen synknronisering innebär. Konkret just nu är det "ett antal" månader sedan jag tappat asiatiska publikationer i någon bredd annat än vad jag själv noterat. En känsla jag har sedan någon månad är dock att jag kanske snarast bedömer tiden som för långsam. Jag upplever det inte som fel att mena att det är en karaktärs-defekt hos mig att jag inte vettigt sett till att jag har bandbredd och några till datorer men det är lätt för mig upplever jag att komma i ineffektivt arbete när jag splittrar upp oavsett hur egentligen trivialt det är att lösa för att sampla parallellt.

Relaterat

En till populärvetenskaplig ej länkad i brödtexteb och mer praktiskt användbar guide utan krav på förkunskaper är CIA:s genomarbetade översikt om hur attityder, bias, faktorer relaterat perception, information m.m. påverkar bedömningar vi gör.

Psychology of Intelligence Analysis | CIA.gov

Läsvärd är inte minst Chapter 13 Hindsight Biases in Evaluation of Intelligence Reporting och det är värt också att tänka till om hur detta bias tenderar att påverka bedömningar som görs i populationer och när det får betydelse. Kognitiva bias har den styra att vi kan kvantisera dem för populationer d.v.s. uttrycka hur närmare med vilken sannolikhet populationen är till ett beslut (vilken hastighet de fattar beslutet med). Vill man experimentera lite men inte är över-ambitiös i vilket fall man kan göra väldigt spännande saker räcker det bra att när någonr eagerar på en news event berättar du steg för steg att de redan insett det långt tidigare. Inte allt på en gång. Utan bit för bit med små-steg där de första stämmer näras nog helt med verkligheten. Därefter är ni tillsammans på markov-vandring där det bara handlar om att ingenting ska signalera nytt, fara, oväntat, unknown o.s.v. för då söks nu referenspunkt. När det vandrats ett tag har stabila minnen skapats ganska så. Ta också chansen att addera lite vetskap att de är skickliga på ett område de kan men kanske inte direkt överpresterat i tidigare. Korrekt och utan problematik för experimentet ber du om tillstånd en månad i förväg men utan detaljer relaterat metodik. Utanför det är det möjligen rent av olagligt.

Lärorik kommentar från kunnig läsare hittad i e-posten

Den här är från lite bakåt i tiden som jag verkar ha missat vid tillfället. Läsaren är lite äldre och vi ska därför inte övertolka en del mindre strukturerat. Vi vet ju alla hur äldre är... Om vem kan för ärlighetens namn egentligen hålla reda på alla religioner? Väldigt få tror jag (även om jag givetvis kan massor av religioner).

"I applaud Nyfiken vital for making the work of Hans Husman of Sweden (a great man) avaible to a broader and new generation of humans. It has been a great inspiration in my daily work. It is my belief in the mighty Alha and great hope especially the israels should read and learn. Nothing less than that can bring us the peace we seek. My close friend the Empirer of Syria told me several time he also saw a road to a new World order and balance between Iran and Syria vs The World. It is more than visdom what everyone should see as very practical tips for how to manage conflict, military strategy, politics and act in the UN. All Fatah will like him on Facebook: that for sure secure the loost tribes of North America. Facebook is the false God they exchanged [now one need to think: either it is Jesus or Muhammad but if so like obvious Jesus being a christian, who the fuck belongs to the jews? Arent buddha cause that is buddhism. Bloody mystery all about it. If unsure next time i will just write that and save time. Everyone knews religious is a mystery. Moses. But he is christian also for sure. But was the jew god on South Park and thats proven value in views through several type of channels. Some faight have a rabbit also. Might be the papists. Yes. Watch it just a few weeks ago. Papists pray to a rabbit but for obvious reasons do not want it to be known. And some americans drink bear and do odd rites without telling anyone else cause it feels unique and shit.]

Best regards from your reader,

The late Yassir Arrafat.