HANS HUSMAN OM MEDIA

Världsbanken försvarar sin plats i världen

Notera att citatet nedan är från beskrivningen av ett videoklipp (som auto-startar) hos Reuters:

"Reynolds Holding and Christopher Swann discuss how proposed cost cuts could make the World Bank a faster and more efficient lender and stronger competitor against rival sources of capital."

Från: Breakingviews: World Bank savings plan (2013-10-10) | Reuters

Problematiken här är att även om jag skulle kunna argumentera att vi alla skulle gynnas av att Världsbanken hade mer kapital att investera måste sådan argumentation bygga på vettig effektivitet. För att uppnå vettig effektivitet är ofta att ta några steg tillbaka av och till och gå över all verksamhet och skära bort eller förändra dåligt fungerande delar nödvändigt. Jag är väldigt övertygad om att en ordentlig genomgång - som kanske nu skett - med förändringar av problematiska områden just nu är väldigt motiverat hos Världsbanken givet att jag inte tycker något bakåt indikerat något liknande det så länge jag använt dem som datakälla.

Jag vill gärna se det här arbetet mindre som att Världsbanken reducerar och mer som de försöker försvara den roll de önskar att de haft och har men tappat sista åren. De inte sällan för befolkningen minst sagt problematiska investeringsaffärer olika länder givit sig in med Kina tycker jag är ett exempel på att Världsbanken är på väg att tappa sin plats i världen. Men jag vill också spekulera att hälsosam konkurrens med något för resp. aktuell landsbefolkning långsiktigt uppenbart sämre kanske kan sätta lite fart på Världsbanken att börja prestera växande allt bättre och att detta är ett gott tecken på det.

En känsla verksamhet hos dem utanför kärnverksamheten givit mig är också att man gärna startar upp i sig väldigt ambitiösa projekt där man mycket korrekt bibehåller grundläggande ambition såväl som ännu mer korrekt när det berör datakvalitet i områden som man föreställer sig är välkänt viktiga för dem allmänt i lugn takt små-förbättrar, men tenderar att övergripande paketera vad man skapat som i funktion, möjliga världen o.s.v. som färdigt enligt initialt definierat. Det huvudsakligen men ej uteslutande bedömt av att regelbundet från starten tappat data.worldbank.org på data. D.v.s. även om projekt-tänkandet det indikerar nog där som allmänt jämfört med egentligen all industri och annan verksamhet numera (och sedan säg 1995 - 2000 det helt dominerande tänket) så är det tror jag för en verksamhet likt Världsbanken meningsfullt att bibehålla ett mer traditionellt produkt-tänkande i förvaltningen av vad projekt levererar. Jag tvivlar på att sådant är kostnaden ens påverkande något mätbart och snarast ge bättre möjlighet till att lösningar i form av tjänster man skapar levererar värde som "för-räntar" sig riktigt ute i världen.

Specifikt kommenterande data.worldbank.org eftersom jag tog med det som exempel kunde jag första året konstatera en hel del fel i data liksom andra datakvalitets-problem. Egentligen inte tydligt mer än förväntat från liknande tjänster (inkl. ej i sig själva direkt indikerat "merging" andra källor med dessa angivna men implicit så ex. diverse från EU, OECD, WIPO m.m.). Samtidigt överraskade Världsbanken rörande det mot vad jag lärt mig förvänta kring sådant sista gången jag både tog ner färskt data och av olika orsaker tvingades se över datakvalitet genom att väldigt mycket verkade korrigerat. Självklart är det inte mer än vad vi ska kunna förvänta oss av aktörer med aktuella möjligheter rörande prioritet kvalitet och p.s.s. regelmässigt faktiskt investerar i just detta men jag upplever det ändå ganska tydligt bättre än genomsnitt.

Kommentaren rörande gott datakvalitets arbete i data.worldbank.org avser självklart inte ev. fel direkt propagerade från källorna till Världsbanken utan närmare merge defects och källor närmare samma "kultursfär".

Kina största nation när det gäller handel? Kommer DARPA ge oss svaret?

Rörande följande:

China rejects status as world's biggest trader | The Miami Herald

Resp. tidigare uppgifter om att Kina är störst är hur man normaliserat valutorna inte oviktigt. Och om man klarat att hålla sitt big-data sunt utan datafel som propagerat.

Jag noterade nyligen i nyheter men har inte läst rapporten att man värderat om Kinas handelsöverskott med ca 25%:

THE Organisation for Economic Cooperation and Development (OECD) and the World Trade Organisation (WTO) released intriguing results of their joint Trade in Value-Added Initiative last month.
The study analysed "the value added by a country in the production of any goods or service that is then exported".

[...]

That is the reason China's trade surplus with the United States was estimated to be 25 per cent lower than using the conventional exports-minus-imports measure, indicating "the high level of foreign-sourced content in Chinese exports".

Från: Trade talks take one small step | New Straits Times

Min erfarenhet av den sorts statistik sådana här rapporter och analyser bygger på är att man går uppåt från en mängd detaljer till sammanfattade slutsatser som blir görliga. På den vägen är dock risken för att datafel ska propagera väldigt stor (precis som att det motsatta också kan vara möjligt d.v.s. att datafel försvinner långa perioder av "slumpmässiga" orsaker för att sedan plötsligt få betydelse). Kan man för sin applikation acceptera en felmarginal på ca 25% har vi ju åtminstone ett exempel på att det inte ställer mindre krav än datat orkar.

Problematiken är absolut ingenting unikt för ekonomiska uppgifter utan jag har genom åren när jag importerat från olika organisationer, datarepresentationer för universitet, grupper m.m. kunnat konstatera dem i det mesta från ontologier, Wikipedia-extraktioner till ekonomisk statistik.

Ett exempel diskuterades i:

Kvalitetsproblem i Världsbankens statistik för Internet (2010-12-16)

Särskilt intressant med Världsbanken som ex. vilket ej tas upp är att datat de sammanställt kommer från en mängd källor. Det illustrerar väl en sida av dessa problem. Datafelen kan vara i data som du har dålig kontroll över rörande hur en annan organisation arbetar med quality assurance. Ett test man praktiskt kan göra själv när det har betydelse är att leta rätt på tydliga fel (finns alltid att hitta i den här typen av data) och testa organisationen genom att rapportera det. Jfr. exempel som med Wipo och PRV:

Antal patentansökningar och varumärkesansökningar: Möjliga datafel mellan Världsbanken, WIPO och PRV (2010-12-11)

Där jag inte såg några särskilda indikationer från WIPO på att de då hade färdiga rutiner för att hantera indikationer på datafel.

En del idéer rörande dom här frågorna från landet med världens största krigsmakt och (kanske) näst-största handelsnationen trots modigt importerande inte minst från Europa och Kina har vi ett ganska färskt Darpa-projekt:

"The XDATA program aims to meet challenges presented by this volume of data by developing computational techniques and software tools for processing and analyzing the vast amount of mission-oriented information for Defense activities. As part of this exploration, XDATA aims to address the need for scalable algorithms for processing and visualization of imperfect and incomplete data."

Från: XDATA | Darpa.mil

Ett mycket starkt paradigm i detta område när det är möjligt är att se datakvalitet och datarelevans som i vilken utsträckning det för ett praktiskt värde klarar att prediktera framtiden. Det gör att man slipper i big-data när det handlar om väldigt varierat data mycket problematiska beräkningar och kontroller, och antagligen inte oviktigt för en krigsmakt eller underrättelsetjänst klarar det att hantera att värdet i datat kan variera över tiden bl.a. styrt av förmågan att klara att ställa rätt frågor.

Egentligen ska jag inte skämta över Darpa eftersom jag tror att jag ligger bit (inte otydligt) före dem för saker jag har skäl att tro blir aktuellt att handla upp längre fram något besläktat med detta. Men eftersom fallstudie: humor pågår är det svårt att låta bli. Nedan har vi Darpa's pressbild illustrerande big data:

Kanske hur Darpa upplever och känner runt det big-data de möter idag på jobbet?

Nedan har vi en av projektets viktigaste målsättningar:

"DARPA's XDATA program was launched to create tools to assimilate and process mountains of data that come in disparate types and sizes, and then provide visualization tools to allow users to analyze trends and glean value from the data."

Från: EXTRACTING RELEVANCE FROM MOUNTAINS OF DATA | Darpa.mil

Vi inser varför de köper in kompetens över ett antal projekt från olika företag och organisationer (och antagligen egna myndigheter och funktioner). Jag menar jag ser som inte ens vad det är för sorts big-data de har i sin bild? Binära-siffror. Ett vanligt stolp-diagram skulle säga mer. En geografisk karta tror jag kan fungera bra både för soldater och skeppare.

Också på temat datakvalitet berör ju vår förmåga att bedöma och förstå vad det är för data vi egentligen extraherar från en källa. Just Google har jag egentligen aldrig praktiskt använt för NGRAM-frekvens eller association (förutom Google NGRAM), och oftare har jag tittat på specialiserade datakällor (och en del som test också Microsoft bredare). Diskuterat närmare slutet i:

Google googlar med Google-NGRAM: Antalet indexerade sidor fel (2013-02-10)

Ovan vad är definitionen av ett koncept som sökord "konc ept" avseende antal dokument instanser. Och hur jämför det med ex. "konc"? Kan vi få fler träffar "konc ept"? Är det inte dokumenterat vad mätvärdet egentligen avser och användningen radikalt skiljer sig från vad det är avsett för blir det upp till oss att försöka bedöma.