Att definiera semantiska webbens "named relations", "properties" m.m. från cognitive psychology

2013-07-29

Data strukturerat som i den semantiska webben intresserar mig egentligen föga i dom mer egna algoritmerna och modellsystemen. Däremot är den en praktisk verklighet att skapa nytta av närmare presentation för ökad säkerhet bestämning och kanske viktigare (beroende av vad vi egentligen vill göra) ibland väsentligt tidsbesparing när vi söker oss ut över relationer långt ifrån grupper av relationer.


Jag har därför aldrig infört någon definition uttryckande vad jag ser på det funktionellt med övriga modell-koncept i abstrakt modell (övergripande idé-system, anknytningar bakåt till befintliga eller besläktade idé-system ex. Osgoods-arbeten associerande emotionella värden till koncept med både bättre praktisk forskningsmetodik roterande ordparen försökspersonerna bedömde liksom adderande en nya matematiska metoder för att dimensionsreducera eller Rosch idéer om prototyper d.v.s. att en fågel med form, delar, färg m.m. relevant för vad vi upplever över allt vi sett som fåglar är en mer typisk fågel) och egentligen heller inte i konkret-modell som är arkitektur-skiss föregripande och något separerad implementation även om det där är noterat existerande.


För att följa upp WikiData.org känns riktigt lovande för långsiktigt värde (2013-07-29) kan jag här emellertid ge en definition som ej introducerar något nytt i abstrakt-modell (vilket det var länge sedan var nödvändigt för nya koncept modell).


Ett exempel på typ-bestämning som uttryckt i hierarkier, ontologier eller vad vi vill kalla det ganska vanligt är att säga att en hammare, borrmaskin m.fl. verktyg just alla är verktyg. Samtidigt vet vi ju egentligen att det är en ej allmänt korrekt generalisering. Vi har t.ex. leksakshammare och troligen finns filmer, musik m.m. med verktygsnamn.


D.v.s. meningen av ett koncept är kontextuellt styrt från sammanhanget där vi uttrycker eller ska tolka konceptet.


Vidare vet vi från studier mycket nära våra biologiska neuronnät från fmri att vi vid primacy effect d.v.s. en cue av något slag aktiverar upp besläktade rleationer unt om konceptet. Den aktiveringen sker en mycket kort tid också om de är helt irrelevanta. Hos en frisk hjärna släcks dock de irrelevanta ut medan de relationer som meningsfullt passar in med övrigt kontext och bra att ha aktiverade fortsatt för att tolka rätt kan aktivera sig fortsatt (eller konvergera in till någon slutsats aktiverande tillsammans med kontext eller varandra ett annat koncept och därefter ev. släckas ut).


Återvänder vi ett ögonblick till prototyp-teorin även om många andra modeller och system för vår perception och kognition kan fungera lika väl för att illustrera att vi runt ett koncept vi givit ett namn har mening, associerade attityder, förståelse av var det i verkligheten utanför språket brukar förekomma o.s.v.


Det är mängden av den information vi lärt vi kan indikera och tolka kontext från (vilket normalt sker över flera koncept aktuella snarare än att vi tolkar orden ord för ord med ett stort super-ord överst varande kontext) och av vad vi kan se passar in i den aktuella situationen.


När ej nödvändigt är det dock inte vad vi försöker uttrycka explicit i språk. Det dominerande nästan alltid gällande att kontext i övrigt ger funktionellt vad av det aktuellt utan att vi explicit behöver gå in på form, färg, historiska känslor vi haft kring något m.m. Inte ovanligt är dessutom att i kollektivt språk är delar av våra relationer runt om inte irrelevanta ej bad vi söker uttrycka annat än att det kan forma hur vi väljer att uttrycka samlat eller vad vi väljer att läsa (ex. ogillande artist X undvikande att höra vad han har att säga om något kanske inte ens rörande musik).


Named relatons eller beteckningar för åtminstone de flesta properties av de sorter vi ser i och runt om den semantiska webben kan vi se som jämfört med:


  • Hur vi ger ett koncept ex. fågel en konvergerad symbol-beteckning i språket: fågel som ej bär övrig information explicit.
  • Men istället för grupper av de relationer runt om som beroende av kultur, individ och aktuellt kontext / situationer kan medverka till att göra konceptet verkligt för oss.

Vi kan se t.ex. LOCATION_OF_BIRTH levererande en enkel konvergerad symbol för geografisk plats som direkt med dess associerade koncept runt om kring (landsbygdens hårda värd? kultur? land?) som tänkbart kan vara relevant för det kontext vi är i.


Kanske tydligare för oss människor kan vi se hur p.s.s. kan aktivera upp stereotyper vi antar är relevanta också om vi innan helt saknade indikationer om att stereotyper - korrekt eller inte - tänkbart var aktuellt. Ex. kommer vår default-bedömning i flocken svenskar oftare skilja sig något i vad vi aktiverar inför möte med en somalisk- resp. dansk affärsman, journalist o.s.v. också om båda är stadigvarande boende i Sverige och helt agerande här).


Maskinellt är det lika funktionellt när utnyttjat även om vi här ofta utnyttjar det mer avgränsat i meningen att situationer där vi aktiverar det är tydligare definierat innan via program-logiken.


Givet förklaringen så långt gäller att definitionen av en named relations ej skiljer sig från den för koncept i övrigt. Det är vad vi har en beteckning för vi givit symbol i språket för existerande i kollektivt språk. Och vidare vad som har relationer till andra koncept varifrån det aktiveras eller via vad det kan aktivera och som ger grund till att bedömma kulturella distanser mellan, lägga attityder i och runt o.s.v.


D.v.s. i abstrakt modell skiljer sig ej named relations från symboler även om att notera diskussionen är meningsfullt givet att vi separerar det i konkret oodell eftersom de i implementation hanteras helt skilt. I implementation gäller just att relationernas namngivning söker vara mycket tydliga också när vi läser direkt men direkt undviker att namnge enligt standarder (ex. W3). Det är bra därför att t.ex. attityder eller skattning av utvecklingshastighet i ett segment där standarderna är aktuella gör att vi kan önska mäta dem från nyheter, artiklar, standarder m.m. och viss namngivningsskillnad är sunt för att minska risk för att man blandar smman någonstans uppe i presentationslagret.


I allmänhet undviker jag t.ex. det vanliga att ej använda mellanslag och lägga en versal från ev. andra ord. Istället representerar jag med versaler helt och underscore (_) istället för mellan-slag och lägger gärna några extra ord för att tydliggöra direkt vad det ungefär handlar om.


Därmed inte jag rekommenderar det allmänt men just om vi mäter i princip allt kollektivt språk för engelskan är det meningsfullt att undvika.

WikiData.org känns riktigt lovande för långsiktigt värde

Det är för troligare långsiktigt växande värde så mycket bättre att WikiMedia själva organiserar en datapunkt för named relations, properties m.m. från informationen i alla Wikipedi:or för olika språk och andra datakällor kanske också när det adderar värde tillbaka till de viktigare uppslagsböckerna. Mycket värde i stabilitet och också att det ger en till värde-dimension till uppslagsböckerna. Och nu såg jag att det är påbörjat: wikidata.org.


Oavsett det kan alla sådana projekt komma med mycket tråkigt extra arbete när jag tar värde för mig från det (det samma kan nog gälla fler). Typiskt ex. från annars bland de mer besvärsfria när DBPedia identiteter som pekar till samma med GEONames visar sig snarast vara något från Wikispecies eller liknande källa havande "latinskt-familjegrupp" (att ersätta som övning för läsarna med korrekt term).


Tittar vi på England - ett gigantiskt koncept man kan fylla upp med mängder av kategorier, värden, typindikationer m.m. - är WikiData ännu förtroende skapande tämligen smal: England (country in the United Kingdom).


Det tror jag är en god indikation om att det blir kvalitet där man får långsiktig stabilitet. Och kanske rent av med tiden får en vettig grundkälla för det mer teoretiskt basala men nog så datafiltrerings- och tidsödande att ta från många källor med föga fel, relativt få ändringar bakåt av förväntat stabilt och som man kan suga in förädnringar och nytt från när de varit i strukturen ett tag: Optimal långsiktig utkontraktering av bulk-arbete - föredömligt kostnadsfritt.
<(p>

Ett att glömma är att färre datakällor rörande sådan här data dessutom gör licenshantering enklare.