Från datafel i makroekononomisk prediktion till brand power och entropi

2012-06-13
Uncertainty in macroeconomic policy-making: art or science? (en av Royal Scietys journaler) ger perspektiv på flera viktiga abstrakta övergripande problem makro-ekonomis prediktion kan bära med sig.

Ett till område visst av och till just i det abstrakta diskuterat är datafel. När diskuterade ligger problemen inte alls på den väldigt konkreta nivå som förväntat för vem som helst som importerat data från varierade källor jämnt utspritt. Det är egentligen ganska litet jag hunnit från det området att publicera eller meddela där ett visst tyskt Wikipedia-kategori-export-filtrerad-csv är mer prioriterat rörande ett antal hundra datafel varande vad jag haft och har mycket större nytta av men om vi tar utgångspunkt från en av de första (och två eller tre till konkreta finns nog via den artikeln resp. här):

Kvalitetsproblem i Världsbankens statistik för Internet | Nyfikenvital.org

Vad är intressant med det? Jo att Världsbanknn i vad de publicerar beskriver ett typiskt big-actor perspektiv där de importerar data från en mängd källor och komplierar ner det till övergripande siffror.

I allmänhet oavsett Världsbanken eller annat är felen vanliga också neråt i data varav flera datakällor ex. Världsbanken importerar på. Likt Kungsörnen tenderar de att anrikas.

Dessbättre är naturen så vackert utformad att den självorganiserat en begränsande faktor. Tidsperspektivet givet kompilerad statistik relativt åtgärds-magnitud på aktuella entiteter gör att vi får riksbanker och jämförbart får:

1. Sammanfattat data kompileras samman långsamt över en längre period.

2. Det gäller även det mest prioriterade relativt omvärldens förändringshastighet. Även för inflation är detektionen långsam (tillräckligt långsam för att jag fortfarande ska sätta upp alternativa skattningsmetoder för value till symbol mappning i domänen attidyer och värdering ex. relaterat till att ge för att skapa positiv förändring).

2. Att importera och sammanföra data tenderar att just ge det sammanställda hur situationen var ungefär för en period medan förändringsdrivande går bort väldigt lätt (om de ens praktiskt i kompexitet går att se). Beräkningskostnaden för dessa - låt oss se det som entiteter - är dock sällan lika krävande relativt just tiden. Därav att många oroar sig för aktiehandel där snabba reaktioner på mean variance dispergensier m.m. tenderar att oro många.

P.s.s. är det låg komplexitet för en nationell kedja att besluta att inleda utförsäljning av fjolårets bärbara datorer en vecka innan efter att en annonssäökare från IDG ringt och försökt sälja annonser om pekskärm varande ett tema man bättre föregriper (halva priset med pekskärm från DELL jämfört med förra årets som reas ut lite varstans i Sverige sedan månader i lågpris segmentet för båda - som en iPod fast lite tyngre när man har skärmen uppåt). Och från DELL exemplet inser att internetförsäljningen också ökar hastigheten.

En del av den statistik man kan se kommenterad i publicerat som ska bära tyngd är väl vad so bekräftar bilden jag och många har att väldigt mycket i den korta tiden om stora institutioner när de överraskas av världen de dataanalyserats mer långsamt och med mer fel än so beskriven i morgontidningen är att känsla och förtroende kan lugna saker. Diverse parametrar tror jag säkert att lugnande analyser har experter som tror har betydelse och lanske har dom det också men det är inte alltid datat citerat har haft något alls med analysen att göra p.g.a. datafel.

Den emotionella dimensionen i snabb-tid är dock viktig. I den domänen pratar vi inte med analyser utan känsla. Uttryck av potens och storlek jfr Blue Light Entropy och emotionellt kraftfullt jfr News Power är vad vi tar in språket för väldigt snabbt och effektivt och i det enklaste fallet lugnar det oss därför att någon med stor nog budget och ansvar att inte komma undan det säger att dom försöker löse det. Här ligger man nu i mer tidseffektiv hastighet relativt mycket i omvärlden. Med rätt brand på avsändaren ex. ECB är det bara att skicka ut en press-release så har halva-världens tidningar läst den och en hel skrivit något om den.

I det ser jag mycket jag gillar med Tyskland. Emedan diverse annat varit i konstant panik med en återkommande idé sedan månader att om det här och det där lånepaketet m.m. m.m. inte är löst före det och det datumet ska något väldigt otäckt inträffa motiverat av att bank- och valuta-system tycks väldigt komplicerade och obegripliga. Tyskarna tänker mer rationellt och till deras inställning kan vi ju fundera över vad hastigheten på utvecklingen varit sedan den blev konstant i tidningarna och mer vågat hur hastigheten ser ut säg under tre år bakåt.

Hur som helst håller jag på att konfigurera upp den senaste versionen Reward version av plattform där test-demo-applikationen för det specifika i den (jfr Flashlight för nyhetssökning för första generella funktionella prototypen utanför som biblioteksdel av något annat) är Brand Power. I mer eller mindre allt av och till sedan månader och ibland närmare ett år prövat men aldrig tidigare sammanfört och särskilt inte tidigare just i reward-intensitet lika entydigt separerande tre-tidsperspektiv samlat i en punkt för vad vi kan kalla emergens-detektion d.v.s. att en eller flera delar av antagen modell börjar visa tecken på att divergera från omvälrden:

1. Stereotypisk-tidsrymd. Längre tidsperiod upparbetande motsvarande långtidsinlärning av vad vi associerar till symboler.

2. Tidpunkten just nu. Vår perception är nu relativ som vi lätt kan konstatera med något inte allt för kallt mot huden när vi är i övrigt varma. Mer konkret för nyhetsanalys oavsett vår stereotypiska långtidsrepresentation av en symbol, varumärke, entitet m.m. påverkas vårt perspektiv just nu av tiden innan för en pågående nyhetsperiod ex. att ett företag just nu kring något märks i tidningarna med uppföljande artiklar. Enklaste exempel: Ligger magnitude högt dagen innan (dokusåpa stjärna var full och spydde på restaurang) behöver det bäst upp mer därefter om vi inte ska tröttna (rätt: samma dokusåpa kändis tog kokain - fel relativt tråkigt: samma dokusåpa kändis var full och svår kring TV4 / TV3 men spydde inte).

Via similarity-mått, relationer över referensinformation och nyheter kan vi jämförbart mer generellt säga att nyhetskontext just nu kring ett ämne påverkar hur vi bedömer en specifik nyhet (jfr DELL exemplet tidigare(.

3. Konsekvensen av ett och två är också två till tidsperspektiv där det ena är nytt med föregående: Den aktiva nyhetsperioden. Ex. nyhetsrapportering under Libyen-befrielsens mer aktiva tid. Vidare sedan länge finns såklart Blue Light där vi har referensinformationens kompilerade kunskap sammanförd till i optimerad version 800 000 symboler och cirka 8 miljoner relationer. Från ett antal hundra referensverk, ontologier, verksamhetssystem, termnologier m.m. som i skapandet ligger på en större energi-investering i arbetet eller den verksamhet det är avsett för. FN, EU, mediehus inom forskning, uppslagsböcker, kategorisystem för det mesta ger oss relationerna. För resonemang om vad relationer ocb symboler är används när det behövs det i antal symboler smalare men kunskap om resp. symbol mycket fetare Wikipedia där dess kategorisystem ger utspridda referenspunkter.

Apropå Brand Power, ekonomiskprediktion, datafel och människans mer irrationella emotionella sidor hade jag länge ett opraktiskt motstånd mot att använda varians och approximationer som antar normalfördelningen för att skapa gränsvärde ex. för entropi. Varians känns mycket som vad man lärde sig i grundskolan. Praktiskt värde tenderar dock att bli större av enkelhet. Vi kan utifrån räknereglerna för varians och entropi fundera vad nu felen följer för fördelning och vad det egentligen motsvarar när entropi i data-representation av mätvärden skapas. Ger det oss någon annan form av tillväxt i entropi eller för att uttrycka det via normalfördelningen ökande osäkerhet genom att variationerna av uttrycken vi ser (jämför Frankrike och Tyskland eller Tysland och Italien). Jag har oftast när jag noterat det knappt brytt mig givet att det här är aktörer som har budget så att det räcker och behöver utan att jag ödslar min tid men det innebär inte att det inte är ett viktigt område och i makro-ekonomi lika viktigt som något annat. Makro-ekonomi handlar ju just tillstordel om att samla in data där FN är ett bra avslutande exempel elegant sammanfattande deras verksamhet och vad de tror är viktigt för den:

data.un.org