Vad kategorier är: Från kulturell-likhet med Sverige i siffror till ConceptNet och Taggar

2012-11-04

Jag beslutade mig för att importera in delar av relationerna i Conceptnet 5 (MIT.edu) (föredömligt välorganiserat data jag verkligen rekommenderar som vettigt tidseffektivt) för att komplettera befintlig Common sense enklare genom tydligare dataforma än direkt från den ursprungskälla jag egentligen är intresserad av och som är en av de datakällor Conceptnet använt.


En stor befogad frågeställning oavsett om man är intresserad av analys av text och data i datorer, eller följer neurovetenskapens forskning med nära avbildning av hjärnans reaktioner för vad som bl.a. kan tolkas vara kategorier är vad kategorier egentligen är.


Jag erkänner inte kategorier i min modell vilket gjorde Conceptnet 5 intressantare eftersom MIT nu principiellt tycks ha övergett idéen om att relationstyper såväl som själva "symbolerna" ska beskrivas genom ett fast antal. Istället kan godtyckliga - vilket i stort antal redan skett - relationstyper införas: "conceptnet" site:conceptnet5.media.mit.edu/web/r/.


Frågan är då hur jag hellre vill tolka kategorier? Att se dem som något som bär egenskaper enligt hårda regler - liknande de exakta definitionerna filosofiska arbeten inom ontologi ofta uttrycker - stämmer dåligt med hur vi vet hur vi själva uttrycker kategorier i olika sammanhang. Närmare sanningen tror jag att vi kommer om vi utgår från hur människor i allmänhet ex. bloggande använder taggar.


Viktiga motiv för taggning är att organisera postningar för skribenten själv resp. läsaren där fördelningen mellan dessa två målsättningar kan variera ordentligt.
Gemensamt för dessa är dock inte att beskriva hårda regler för vad som inkluderas utan praktiskt organisera informationen.


Systemets som skapas den vägen kan självklart ofta över tiden bli svårhanterat rörande organisation men jag tolkar att det normalt inte endast är konsekvensen eller ens primärt av ett stort antal icke-logiska taggar utan snarare att skribenten eller läsaren inte sett en viss tagg i kontext av aktuella postningar en tid och att dess association till exempel på vad den är liksom att bara indikera att den finns inte enkelt presenterar sig när vi hade haft nytta av taggen för att hitta information.


Den problemställningen är dock ganska generell för allt data människan producerar mer eller utan mycket noggrant genomtänkta system och vad som mer allmänt kommer ner till ett problemområde bäst hanterat via sökmotorer. Det är helt enkelt normalt lättare och mer stabilt - inte otroligt bättre fungerande - att se problemet som givet bl.a. taggar men också annan information som vad som bättre blir löst kompletterat med en sökmotor än genom en mycket noggrant användarvänlig flexibelt-uttryckande kategorisystem. För denna att faktiskt utnyttja informationen från taggar / kategorier begränsas inte av att det ska vara aktuellt i sinnet på det sätt begränsade oss själva.


Detta sätt att se på kategorier ligger givetvis nära flera fenomen kända från psykologin rörande hur vi tenderar att associera.


En del av som ibland beskrivet konceptet kategorin man kan uppleva att detta inte förklarar är vår förmåga att bibehålla kunskap om vissa relationer starkt utan att det är aktuellt. Ex. kanske uppdelning herbivorer och carnivorer.


Emellertid gäller att inlärning kan ske också genom skapandet av över tiden mycket stabila relationer. Dessa behöver inte skapas genom ett långsiktigt realiserat rationellt värde d.v.s. utifrån att vi faktiskt behöver dem många gånger och därför slutligen lär oss dem stabilt. Utan de kan skapas genom kortsiktigt rationella motiv som "tvingar" fram motsvarande samma repetition för att uppnå något inom den närmaste tiden även om vi kanske aldrig får någon nytta av det. Sådan kunskap lär vi oss massor av medan vi går i skolan.


Något jag tycker värt att peka på allmänt kring common-sense lösningar oavsett ConceptNet eller något annat är att syftet rimligen ska vara att common-sense ska lösa problem och inte begränsa lösningar. Vad ordentligt med applikationer och exempel i olika sammanhang jag träffat på senaste åren missar på här är att de utgår från vad ex. relationer de har common-sense för i ett ramverk för att lösa ett problem där de egentligen inte hade behövt common-sense på den nivån. Problemet med det är att common-sense kan vara ganska dyrt och kräver man mer common-sense än lösningen fodrar reducerar man kvaliteten på svaret man får därför att mindre data utnyttjas än optimalt.


Jag ser det ex. inte som ett problem att jag samlat med lösningar skapat själv från Wikipedia resp. , och m.m. endast kan förklara annat än statistiskt rörande förekomst inom olika ämnesområden eller statistiska samband av typen P ( koncept A givet koncept B) via common-sense kanske 1/3 av relationerna i Blue Light.


I fler algoritmer fodras inte den dyrare formen av common-sense och hade jag trots det krävt den hade beräkningarna konkret blivit sämre. Särskilt blir de sämre i komplexa områden relaterat avancerade forskningsområden därför där är det oerhört mycket svårare att arbeta med common-sense koncept som is-a m.m.


Följande är ett relaterat exempel på det jag tog från ett förarbete till en kravspecifikation relaterat import bl.a. avseende delar av ConceptNet där delar av ett exempel för att illustrera värdet mer data ger illustreras. Värdena för similarity ligger i [0,1] och kan via vikter som sannolikheter i olika domäner rörande association mellan subjekten för relationerna och själva symbolen översättas till statistisk-betydelse i verkligheten. Jag gillar att man från similarity skattningar kan beräkna vad det innebär i faktiska förekomster av något eller en kombination av symboler. Det gör både tillämpning och quality assurance via prediktion så mycket enklare.


Fint illustrerat av hur kulturellt lika följande entiteter är med kulturen Sweden, Stockholm, Science och Baltic Sea. Att sätta i relation till de direkt skumma numeriska värden Concept net levererar för similarity eller beliefs skattningarna Nelly gör.


Symbol Släktskap Släktskap * ( 1 - BLI(Symbol) )
Sweden 0.716049948945941 0.608697891756309
Stockholm 0.716049948945941 0.704932249476218
Germany 0.370120714497302 0.214885518837722
Berlin 0.368597504473908 0.342686280662257
France 0.325635056508147 0.165064851302575
Paris 0.0752668916621714 0.0719148209666794
Norway 0.495348298417664 0.450315166272826
Oslo 0.432085221561181 0.427508580630474
Finland 0.480617438065445 0.440658620447361
Japan 0.204524199218353 0.113410257317182
London 0.327376396031508 0.215881461422828

Antar vi att vi inte betraktat relationstyper och jämförande kulturella symbol-markers som självorganiserande givet statistiska vikter i similarity operationerna och istället satt stort fokus på relationerna vi direkt förstår att resonera om i den mening att vi beskrivit dem i en särskild domän snarare än att bara beskrivit dem hade similarity värdet särskilt för Norge blivit abnormt lågt jämfört med Tyskland genom att Tyskland tillskillnad från Norge är direkt relations-kopplat Baltic Sea förutom Sverige.


Det räcker inte bara att kunna beskriva relationer ens i tillräcklig mängd. Att tillämpa dem istället för att jämföra direkt självorganiserat från vad kulturhistorien givit i avtryck förutsätter att de också konkret klarar att värdera vilka relationer som är meningsfulla. Här slipper vi det. Norge giviet dess närmare historia till Sverige än Tyskland, och Tysklands närmare än t.ex. Frankrike och England ges naturligt.


Vore Baltic Sea itället det primära hade det enklare styrts i vad vi definierar kulturen med med symboler fler i Baltic Sea än som här med en kraftig country symbol och dess huvudstad och ett hav, där vikten mellan dem självorganiseras till att sätta landet i fokus med övrigt som aspekter på det där släktskap också med dessa eller dessa och ej uttryckt för landet ökar likhet.


Det enda problem som funnits exemplifieras mellan Berlin och Tyskland vilket för en del varianter av algoritmen kan upplevas givit för högt värde på Berlin relativt Tyskland inte bara relaterat underliggande data.


I princip tycks det rimligt att Tyskland har större likhet än Berlin. Accepterar vi konceptet att similarity alltid är relativt också vad vi ej ser likhet med kan givetvis Berlin vara mer besläktat. Avvägningen mellan det som givit i data ovan uttrycker mycket mindre av detta som standard vilket gör att den sista kolumnen infört för att normalisera storleken på symbolen vi jämför med och därmed hur troligt den uttrycker likhet oavsett olika relationer inte behöver användas.