Sverige och Libyen är otydliga och onödigt blockerade av fulare saker som tar dataplats i världen

2013-07-18

OpenStreetMap tycks ha utvecklat sig vidare från när jag förra gången tittade över det och förhoppningsvis kommer det också visa sig att själva map-servern förstärks ytterligare.


Både när det gäller datatjänster som OpenStreetMap såväl data extraherat från Wikipedia gäller att skillnaden hur olika annars lika aktörer märks är gigantisk. Betydelsen av detta har ökat sista åren och är mycket mer påverkande än berörande ex. bara de som läser Wikipedia-artiklar eller direkt utnyttjar själva karttjänsten Openstreetmap.org.


Idag ett tämligen stort antal tjänster påverkande presentation i sin tur för webbsajter eller media såväl som en också betydande - kanske mer så i konkret inverkan - analystjänster långt ifrån alltid märkbara på nätet använder datat. T


Tittar vi på mycket använda DBPedia ontology gäller att den är extraherad från Wikipedias infoboxar. Sista gången jag gjorde en färsk sådan extraktion själv var det ett fullständigt litet djävulskap givet den enorma syntax-bredd möjlig för horderna av självorganiserande skribenter. DBPedia ontology om man tar den är tämligen ren d.v.s. väldigt mycket data som finns i infoboxarna kastas när avvikande från normalt skrivet eller ej särskilt vanligt och därmed ej praktiskt att dokumentera typ-hierarki för (även om en hel del felaktig extraktion givetvis finns i den också av och till).


Hög komplexitet att extrahera själv, rent data enkelt från DBPedia och att DBPedia är mycket välkänt och har attraktiv policy gör ontologin mycket använd. Tittar vi på Sverige noterar vi som exempel att:


  • För dbpedia-owl:wikiPageExternalLink gäller att bland svenska tryckta tidningar märks SvD och DN men inga av deras konkurrenter
  • dbpedia-owl:assembly of inkluderar de varumärken som mycket typiskt är skärningen mellan sedan länge välrepeterat också utomlands och berör konsumenterna under en längre tid. Problematiskt för Sverige vad blivit bara bilar trots att också (vilket i och för sig är problematiskt på exakt samma sätt) bl.a. mobiltelefoner är enkla typiska segment som normalt ska förekomma här. Förövrigt är dessa lätt självorganiserat uttryckta varumärken de som har etablerad tydlighet med låg reduktion motsvarande familiarity i själva konceptet (oavsett bl.a. produkternas igenkänning vilket är en annan fråga) även om problem kan vara associerat periodvis. Relaterat Kina's djuporgier i Västerlandet sista åren är det dessa former av varumärken man helt riktat in sig på. Riktade åtgärder för att komplettera i Wikipedia är givetvis värde-adderande och vad som utmärkt kan göras systematiskt kross-refererande de svenska databaserna hos myndigheter eller branschorganisationer (eller för den delen diverse utländska).

Och det är över allt lätt att konstatera att föga andel av verkligt existerande och ännu mindre mer än lite slumpmässiga småsaker som kommit med på tur ofta när det kommer till skärningen mot större delen av de kommersiella områden landet kan ha konkret nytta av att märkas. Ett kortare liknande exempel ges via live.dbpedia.org/page/Category:Sweden mer lämplig för att enkelt förhand jämföra med andra länder.


För Sverige-grafen minns jag ett liknande fenomen där vi för någon named relation relaterat media endast för de dimensionsrymder jag genererade från hade DN och Aftonbladet. Tveklöst en indirekt konsekvens av att båda är mycket väl-uttryckta i Wikipedia vilket i sin tur ökat sannolikheten för att de med uttagbara mönster finns med också i fler infograf-fält. För rymden där använde jag dock något lite liknande DBPedia för aktuell named-relations och det lilla antalet tidningar om än typiskt för det generella problemet torde försvinna när jag tar min infobox-export (varande något av en expert på att få bort skräp som läcer in vid data extraktion efter att ha gjort det från tusentals datakällor är mitt behov av att reducera inte i närheten av nivån DBPedia lagt sig på: filtreringen måste ändå göras kring så mycket annat och att fälten kan typförstås ges ju av andra ontologier och system befintliga).


Flyttar vi nu det vakande ögat - eller ögonen - till OpenStreetMap kan det tyckas vara ett visst praktiskt projekt för att visualisera uppslagssidor, planera en försvarsövning med, roa sig med på cykelsemester likt fotografera vardagen fenomenet hos människor o.s.v. Men en mycket levande inte alltid synlig subkultur runt OpenStreetMap och dess data finns i turstnäringen och särskilt givetvis i de "mellan-lager-lösningar" kring bokning och sökning av hotell, biljetter, resor m.m. i skärningen mellan hotell-industri-direkt, webben och SEO (Search engine optimization: underkategori inom information warfare).


Och där vill man verkligen som geo politiskt aktör med ett ansvar mot väljarna att berika dem med feta utländska turister att allt finns med. Därför att kring så många sökfrågor som sådant här byggs gäller inte att någon svensk pott finns som fördelas för vad vi förekommer i utan allt bidrar till att Sverige märks mer. Allt som är museum, hotell o.s.v. ska finnas med och med engelskt namn åtminstone (men självklart också tyska, franska, svenska, ryska o.s.v.)


Ett område lika viktigt för aktörer som likt Libyen nu expanderar sina turistorter. Särskilt givet att man samtidigt har ett fortgående intresse relaterat den döda diktatorns excesser, byggnader m.m. D.v.s. inte omöjligt att folk kan engagera sig en del spontant om möjligheten indikeras på att fylla upp OpenStreetMap med platser såväl som cykelvägar m.m. folk med gps brukar dela data runt. Även om man som förvaltande aktör rimligen ser till att allt mer välkänt man har kännedom adderas in.



Visa större karta

Vi har givetvis en del besläktade områden också men mer omfattande att diskutera så vi nöjer oss med att notera transfereringspunkter på kartan som broar, flygplatser m.m. resp. betalnings- och transfereringsmedier med kick-back system (trivialt frequent flyer m.m.).


Vad jag tror är Sveriges problem här är det inte att man inte sett betydelsen och värdet. Men däremot saknar man datakällorna, deras spridning och användning kartlagt. Ej heller hur dessa motsvarar datakällor man självkontrollerar. D.v.s. man gör vad jag märkt flera mycket korrekta och av och till tycker jag tämligen insiktsfulla projekt (det hade troligt inte varit en idé jag själv sett möjlig att avlöna någon att editera runt lite kring Sverige sidor i low-specialist but part-of-community person men tycks en väldigt kostnadseffektiv långsiktig åtgärd som kan leverera värden under år om det sker i dom större språkområdena). Men saker kommer också ner till att ta enkla men extremt frekvens hög datafält d.v.s. tänka mer hundra tusen kring "en del" (branscher, orter, forskningsområden, award-former, historiska föremålsgrupper m.m.) områden - och givetvis följa riktlinjer får hur man bäst uttrycker datafält i infoboxar, skapar bra kategorier, ser till får bra bilder och av och till får extensions för att stödja spridningseffekt till andra uppslagssidor genom självorganisation. Och allt i direkt dialog med samhället så man inte alienerar det i onödan på rena missuppfattningar.


Mer om det hårda slagfält den geopolitiska turistindustrin kapprustat till där varje ny teknisk möjligheten, historisk händelse och ort är eller bör in i gemensamma datakällor för att nära tillväxten och befrämja fred: