Yago: Wikipedia-kategorier är inte subclass till Wordnet-koncept

2013-07-22

Åtminstone inte i någon enkel mening med mindre än att man inför givna definitioner av resp. kategori och från dessa avlägsnar delar i form av kategori-kopplingar och artiklar som ej passar in. Idag gäller ju att variationen och också det relativa avståndet från särskilt för artiklar sådana som ligger långt ifrån vad vi oftare tar som mer "naturlig" tolkning kan vara stort.


Det är därför lite vådligt att addera flera Wikipedia kategorier man anser mer exakta eller avgränsade under ett Wordnet-koncept man antar omfattar dessa i mening. Kategorierna kan ju ligga tämligen långt utanför.


Väljer vi hellre en statistisk tolkning med viktmatriser och sannolikheter o.s.v. givet vilket kontext aktuellt för vad vi bedömer något från blir det en helt annan sak. I den mån outliers vi spontant inte ser hur de passar in (och av och till är fel-placeringar eller riktad marketing i irrelevanta segment av Wikipedia) har värde detekterar vi det om våra statistiska källor är tillräckliga för vår användning med dess krav på korrekthet.


Wordnet mycket mer inriktad på ett fåtal koncept i form av 1-gram - och som sådana vanliga ord - kommer den enklare avgränsningen mycket mer naturligt. Det är jämförbart magnituder enklare att göra en bruksordlista funktionell för att slå upp alla vanliga ord vi kan träffa på och behöver kunna tolka riktat för tolkning i meningen eller ännu smalare i den medan det i en uppslagsbok som ej utesluter någon kunskap är fråga om ett gigantiskt arbete.


Därmed inte att jag säger att det är fel att göra som i projektet Yago vid Max-Planck-Institut Informatik i den mån användningen i sig är mycket lokal och man inte förväntar sig en exakthet i kategorierna som inte finns där. Och vidare minst lika viktigt:


Att man organisatoriskt och i management generaliserat av Wikipedia inser att det inte går att generellt ha färdiga definitioner av kategorierna.


Jag betvivlar dock att det problematiken är trolig även om många aktörer som söker smalare värden av Wikipedia som datakälla för att lösa konkreta problem man ser nu i användning av semantiska relationer gärna vill att Wikipedia försöker i så mycket som möjligt uttrycka sig i färdiga kunskapsdimensioner.


Också om de semantiskt i skisser semantiskt mer definierade idéerna gärna för de flesta spontant känns oerhört rätt (strukturellt kanske likartade med hur vi resonerar övergripande givet just den kunskap vi har aktualiserad för en situation aktuellt just nu om än kanske inte kunskapen samlad) tror jag en stor praktiskt realitet finns från att de flesta skribenter och läsare egentligen struntar fullständigt i Wikipedia som datakälla för annat utanför just väldigt kontextuellt smala och varande i artiklar givna sammanhang (typiskt infoboxar resp. delvis kategorier av enklare typer av instanser som olika typer av personer i list-former där ju meningskontext i dessa just ger kontext ex. Kvinnor födda i Berlin politiskt aktiva under 1930-talet (för ett påhittat ex. men mycket typiskt för dessa kategorier).


Återvändande till Yago ligger ju tolkningen här också relaterat hur vi definierar subclass. Varande själv mer intresserad av förutsättning statistiska funktioner vill jag gärna se det från mängdlära. Och visst är det funktionellt om vi hellre ser det som sannolikheten varande i mängden för givet kontext vi vill använda det i (ex. tolkande mening av ett ngram förekommande i en nyhetsartikel). Notera de tre viktigaste ganska löst definierade underrum i dimensionsmening kontextuellt vi har här i Wikipedia: Subclass may refer to. Datalogins perspektiv förutsätter definitioner tillräckliga för att klara resonemang utifrån mängdlära och besläktade matematiska kunskap men är inte i någon annat än kunskapsriktade specialiserade ontologier (ex. gener eller i bredare omfång Gene Ontology (GO) database inkluderande av cellbiologin) där ett givet etablerat kontext gemensamt etablerad med början grundutbildning vad jag någonsin sett.


Vidare relaterat hur Yago gjort kastar man bort odefinierade dimensioner för kategorierna. Man säger att ett kategori-koncept kan vara undermängd (om vi väljer mängdlärans perspektiv) ex. till person i viss mening där ju dimensionen hos det senare ger indirekt (och troligt praktiskt funktionellt oftast utan att engagera sig i det närmare) men också ligger ofta mening i kategorierna som avgränsar eller expanderar kategori-mängden utanför denna eller tar det till dimensionsrum där det senare kan vara praktiskt odefinierad. Vi kan ex. tycka ett en manlig figur i en fabel eller just av manligt kön men vill vi tillämpa principen inom det ekonomiskt största segmentet för dessa system d.v.s. medicinsk och biologisk forskning är det inte funktionellt.


Egentligen är detta inte ett problem hos Yago som det oftast tycks använt - eller för den delen DBPedia m.m. likartat - i lösningar vi kan se men för mindre webb-publicerade proof-of-concept eller just uttryckt av datat i sig snarare än som grund för logik, intelligence, statistik m.m. är medvetenheten viktig och det är i forskning ett allmänt föga berört område där man hellre ser system där man infört någon beteckning som indikerar entydighet för ett koncept (ex. Wordnets synset9 som att frågeställningen på något sätt är löst generellt.


Vi kan med ett mer unikt ex. också mer praktiskt funktionellt än de många publicera relationerna lösningarna förstå vad jag avser med webb-publicerade proof-of-concept. Betraktar vi Google's söktjänst har de börjat publicera sådana här enklare fakta bredvid sökresultatet. Där är ju dock ett kontext redan inverkande sökresultaten givet. Antingen bara det skattat typiskt önskade - mest troliga mening - för den som söker eller personen mer avgränsat givet kontext av tidigare sökningar (Google typbestämmer bara från det första i någon påverkande mening runt detta och undviker annat än som instansierade mer generella koncept passande detta ex. om du söker på ett personnamn och det finns en känd person många är intresserade av så kan du födelsedata m.m. liknande fakta om denna även om du egentligen letar efter en ort med samma namn sedan en timme med olika sökvarianter runt den - en antagligen ganska vettig lösning varande en färsk lösning och givet att Google generellt arbetar runt kontext-påverkan som bedömt sökresultatens förändring resp. en del bredare forskningsprojekt, engagemang från entiteter inkl. Google m.m. och etablerad kunskap i segmentet).


Egentligen gillar jag nog mest denna tradition. Jag har en del koncept och implementationer här och vet av erfarenhet att det kan vara sunt utvecklande att göra dem själv och därför vad jag inte tycker dom här projekten ska försöka göra någon lösning av som kanske ändå inte blir särskilt riktat bra. Men indikerade det ändå därför att jag gärna skulle se att någon av projekten som gör komprimerade extraktioner av Wikipedia skapade relationer från kategorier till andra inkluderande fler i dimensionsmening. Jag påbörjade det själv mer riktat för att ta in dimensioner relaterat personlighet, sociala koncept i grupp, medicinska och genetiska aspekter av människor, men givet mängden hand-filtrerande där bokstaven "a" till cirka hälften klart manuellt tog ett antal timmar för en ganska begränsad mängd koncept kände jag inte för att göra klart det.