I kommentar till detta har jag efter import av nu många gig data i storlek på det färdiga data för till WARRIOR tydligare riktade anpassade datalagring (jfr subsystem Blue Light på 90 MB med relationer mellan abstrakta koncept) endast ett svar: CSV-filer. Visst det känns gammal-modigt. Teknik-fientligt. Slött. Men verkligen tro mig. Det finns så många datakällor på nätet att sitta och överuttrycka en egen planerad vacker databas graf är att begränsa data man kan importera och det vill man verkligen inte.
Därmed blir det typiskt att man efter några månaders spännande övning kommit till en punkt att man skapar ett trevligt litet innovativt perl-skript per webbsajt, databas, pdf-dokument, jpg-fil, böcker eller vad det nu handlar om för att generera trevliga CSV-filer (jag kör tab separerat).
Jag började först i TigerAnt med vacker XML. Väldigt elegant. Men egentligen precis det samma som CSV bara större och mycket slöare parsning och ständiga problem med nytt data trots standard. Efter att ha gått Perl och CSV har jag aldrig tvivlat. En ny big data source: 1 timme och man är i mål med lite tur. Och säg att jag totalt importerat nu cirka 1000 (men skulle det vid kontroll-räkning visa sig vara 5000 var det inte mindre otroligt och 1000 är nog den säkra undre gränsen) av i sig själva utvecklade datakällor (ex. thesaurus eller en standard eller en uppslagsbok men inte ex. Twitter som är oräknat i det och som jag håller sparade per tweet i gamla NetRunner).
Och tja refererade Guardian. Hum... Jag var visst och hämtade deras vackra data från deras fina API. Trettio minuter senare var det inne med övrigt som CSV-fil :-D Jag var ju givetvis också där något lite också publicerades och spindlade SvD :-D
-
Denna eller artikel som hittas via den tror jag:
- Spåra internationella idéers avtryck i språket med Wikipedia, Wiktionary och svenska tidningar
- Kreativa idéer om ekonomi och finans från krigföring och närstrid
Varför? Då vet man vad SvD vet och om det känner som kollektiv i dess minsta gemensamma nämnare.
Och glöm inte: En kraftfull tidning likt SvD ska vara en krigare för folkets frihet i försvaret mot diktatur, korruption och osmaklig människosyn:
trevlig helg önskas också Ola Henriksson med denna som tack för trevliga foton på stridsflygplan i varierande intensitet som gav mig värde i en fallstudie med Svenska Dagbladet.
Från SvD:
"Databasjournalitik har det pratats om länge och det finns intressanta projekt, bla på SVT. Men jag saknar fortfarande integrationen med den löpande journalistiken. Ambitiösa projekt har sett dagens ljus men snabbt blivit inaktuella för de har ingen förankring i de dagliga nyheterna. Ett stort hinder är att många journalister direkt känner sig obekväma när det handlar om för mycket siffror och tabeller. En annan att det finns få enkla verktyg. Men det är på väg. Googles Public data explorer kommer vi se mer av. Tableau är ett annat webbaserat verktyg för att visualisera komplex data. Documentcloud är ett annat mycket spännande verktyg som bla Guardian använt sig av och vi skulle hemskt gärna vilja testa det, bara det blir tillgängligt för fler utanför betatestare."
Läs mer i http://blog.svd.se/utvecklingsblogg/