Thesaurus och ontologier: Enkel standard skapar större värde i verksamhetskunskap

2012-08-08
Förhoppningvis gör jag klart en lite större uppdatering av Blue Light nätet (ca upp till 1 000 000 symboler och 11 000 000 relationer för bas-konfiguration utan t.ex. proteiner, kemiska föreningar, mindre geografiska orter o.s.v.) och har senaste dagarna importerat eller förberett för import cirka 50 thesaurus och ontologier. En generell egenskap för dessa värd att tänka på alla som tänker bygga motsvarande en thesaurus för att beskriva en verksamhet eller ämnesområde är att enkla standarder levererar större värde.

De strukturer som tenderar att ha det mest värdefullt kompletterande till en redan mycket stor datastruktur som Blue Light är inte dom som valt komplicerade standarder för datastrukturen (ex. OWL). Vissa undantag från detta finns för branscher allmänt väldigt tidsödande och kostsamma där resurser tenderar att finnas ex. medicinsk forskning. Utanför det gäller att enkla standarder av den typ medarbetare mer eller mindre direkt kan skriva och begripa innehåller data med högre värde.

Thesaurus som i allmänhet har bättre värde är uttryckta med inte fler typer av relationer än broader, narrow, use och en eller ett par till. Det är vad som i de flesta fall räcker utmärkt för allt praktiskt värde samtidigt som personer som ska bidra med kunskap lätt förstår inbörden. Troligt också viktigt praktisk kan folk enkelt uttrycka sin verksamhetskunskap direkt som de vanligen skriver.

Ett utmärkt exempel på en välgjord thesaurus (om än förvånande resurskrävande och kan jag uppleva samtidigt lite smal i antal personer som deltagit i arbetet där ex. möjlighet för väldigt många personer utspridda organisationens alla delar att addera relationer troligt tillfört ännu större värde) är Eurovoc:


Vi ser principen om enkelhet i systemet:


Även om EU börjat så smått att tala sig varm för open data i en inte ovanlig fascination för trendiga koncept relaterat till forskning var licensen när jag sist tittade tämligen begränsad (kan ha ändrats) så den som använder den bör bäst kontrollera det i situationer där det kan ha praktiskt betydelse. Även om för politiskt administration fler och också för respektive område bättre exempel finns i USA, Australien och Storbritannien är Eurovoc det exempel från området jag tror entiteter i media har störst potentiellt praktiskt värde för särskilt när den kompletteras "något" rörande interna och externa organisatoriska kopplingar respektive för sådana realiserade instanser av t.ex. medarbetare. Den är inte en dålig utgångspunkt för när man mappar upp EU. Utan att undersökt det gissar jag på mer tydligt tyskt deltagande i projektet vilka har en mer uttryckt forskningskultur relaterat ontologier (medan USA är de som praktiskt i störst utsträckning tillämpar thesaurus av olika slag i administration och Storbritannien med viktiga forna kolonier som Australien är de som har ett mer lite historiskt skapad kultur - de var ju förr användbara för det Brittiska imperiet när kommunikationer inte var lika snabba - av att göra dem men kanske mindre intensivt tillämpa dem).

Mer i standarder ambitiösa ontologier (ex. OWL) tenderar att sällan addera symboler eller relationer som inte redan finns. För ontologier som valt ett generellt scope gäller än mer att rörande de faktiska termerna och deras relationer med varandra är det sällan att de adderar relationer som bygger på mer komplex kunskap. Inte sällan tycks fokus komma onormalt på överuttryckt exakthet kring rena småsaker som uttrycker relationer man praktiskt aldrig kommer träffa på i nyhetsanalys alternativt är redundanta nära nätet används för att skatta similarity mellan koncept eller beräkna entiteter och symbolers samhällsinverkan. De inför också lätt filosofiska idéer om kategorisering och koncept jag sällan upplever tar avstamp från praktiskt värde när ontologierna sedan ska tillämpas och heller inte från vår kunskap om hur människan organiserar data, och ännu mindre från datavetenskapens upparbetade kunskap om optimering rörande beräkningskraft och minnesutnyttjande.

För de generella ontologierna inklusive tror jag alla mer välkända är det inte värt besväret att importera deras relationer. Inte för någon jag testkört har de adderat annat än huvudsakligen redundans eller värre relationer utan värde (eller teoretiskt nackdel) men som gör särskilt similarity-operationer långsammare.

Vid systemutveckling, datanalys m.m. där en enkel allmän ontologi krävs tror jag de flesta vinner mer på att bygga den själva från Wikipedia. Wikipedia tenderar till att addera relationer och koncept i god takt.

Rörande specialistområden avviker dock generaliseringarna jag gjorde där det verkligen kan variera.

Just effektiviteten och höjden på värdet vid import är väsentligt mer kritiskt i denna uppdatering. Det mesta finns redan och ökad storlek som ej adderar värde kostar i minnesåtgång respektive beräkningskraft där redan similarity-beräkningar när olika koncept jämförs för att ta ut likhet i kultur, samhällspåverkan, kunskap o.s.v. är direkt problematiskt. Cache-filerna ligger på flera hundra gig och adderar långt ifrån tillfredsställande besparing i beräkningstid därför att de måste laddas och tas ut ur minnet för ofta. Beräkningar direkt i ögonblicket är mycket kostsamma i tid. Givet att redundans inte ökar relativt värde per relation bör det dock gå att lösa och jag ser fortsatt värde att köra på mer begränsad hårdvara för att tidigt upptäcka prestanda och minnesproblem som tvingar fram effektiva datastrukturer och algoritmer (similarity tillskillnad från övrigt hör dock till vad jag inte klarat att lösa bra än och skulle gynnas av hårdvara i prisklass cirka 100 - 150 kkr i ett litet cluster). Similarity-problematiken är huvudsakligen vad som fördröjt mig med att följa upp fallstudierna särskilt för Kina respektive tidigare mer begränsat jämfört med Kina amerikanska presidentvalet och Syrien. En känsla rörande Kina är dock att något besläktade lösningar ligger med olika bias ej stationära utan som funktioner av något (osäker om bättre similarity kan göra mer än att bekräfta det och indikera områdena tillsammans med befintliga egen-dimensioner och relation-dimensioner).