Yago3: Fler språkområden med härledd cross-cultural fördjupning av koncepten

2015-04-20

Och fler språkområden använda i byggandet av Yago3 (fortsatt Yago 3) gjorde filerna ordentligt större än Yago 2 räknat i antal GB nu cirka 90 GB upp-packad (och två var dessutom också i märkbar tillväxt jämfört med Yago):



En del har gjorts byggande något vetande mellan språken jag ännu inte tittat på men åtminstone delvis förstod jag det som närmare området länkat till längre när här på bloggen men riktat för att ta ut sådant vetande Yago försöker samla på sig (med engelskan - eller själva Yago-koncepten egentligen som ju har engelska beteckningar tillsammans med övrig del av ID - som någon form av mitt och en del tänk kring att försöka hantera osäkerhet för saknade koncept i primärt antar jag engelskan).


Och såklart finns Yago 3 att även hitta via Google där vi ser att A Knowledge Base from Multilingual Wikipedias – YAGO3 (service.tsi.telecom-paristech.fr) ligger före Max Planck Institute for Informatics trots alla år Yago funnits där såväl som kraftigt inlänkad.



Jag tänker att orsaken är att konceptet Yago 3 är nytt och det prövas lite i början samtidigt som jag tror att något någonstans refererar relevant utifrån någon dimension. Kanske att artikeln är länkad eller att personer kross-förekommer. Säg kanske också sedan en tid rent av.


Vem som helst som vill ha ett bra common sense ska givetvis inte använda Yago 3. Ingenting i tre jämfört med Yago och Yago 2 är en god start ty utbyggnaden handlar mer om att utnyttja samband likt:



Resp. ge datat färdigt för alla som är intresserat av sådant resp. en mängd jämförbara användningar. Tidigare versioner är för alla normala användningsområden common sense mer hanterliga (särskilt den mindre "core-versionen"). Båda (eller egentligen tror jag tre tidigare versioner) tidigare versioner håller hög kvalitet motsvarande Wikipedia (med en del extraktions-fel man kan råka på ibland men egentligen inte särskilt mycket eller kanske mindre man får hämtande ut datat på andra sätt). En bra representation sparande tid.



Och för ett viktigare ämnesområde man prioriterar så vinner Wikipedia-vetskap oavsett om man tar vetande via Yago eller inläsande infoboxar och kategorier, rubriker m.m. direkt på att kombinera med andra system med domän-prioritet. Och för den delen andra breda och stora common sense även för små områden därför att de av och till är ganska olika på vad de är bättre (såväl för en hel del uttryckande märker man mellan många samma sak därför att alla möjliga ontologier hamtar data från varandra - ibland i små cirklar tror jag). Att inte utnyttja Wikipedia idag är dock verkligen att begränsa sig.


Själva storleken på vad Wikipedia växt till - och att det fortsätt växer i bredd, djup och med kvalitetsuppföljning - såväl som att Max Planck Institute for Informatics ger en hel del av vad man kan få ut väldigt färdigt att använda (och även om de efter dom här åren slutar att släppa nya versioner är knappast något förlorat på det: Bara att ta vad som finns och börja ta direkt från Wikipedia igen för dom delar Yago stödjer).


För statistiska samband mellan koncept är en text-källa (av några stycken) att ta direkt underrubrikerna. Åtminstone förr fanns en del färdigt kring länkar och kontext för dem men rubriker är bra data. Ger en hierarkisk-indikation i själva artikeln och det är inte så dåligt när datakällan är Wikipedia där ett viss långsiktigt förtroende kvalitet resp. hjälpligt (mycket bättre nu mot förr rörande all standardisering för hur sidorna ser ut= gemensam "standard" för hur rubrikerna görs.


Mer Yago och common sense

Följande inlägg bör förutom en del Yago-diskuterande ge en försvarlig mängd förslag på andra common sense. Och länkar vidare till andra inlägg från dem bör ge ännu fler ontologier särskilt inom olika ämnesområden. Troligen är inläggen 2012 och 2013 mer omfattande varandra mer av ett problem för mig ej klart vid tiden.


Världsbild och perspektiv: Några till varianter i mötet grammatik, common sense och semantik (2014-11-13)

"Volymen" information i biografier: Att förhöra biografier (2014-05-05)

Från utredning till tillämpning i tre enkla steg efter inte mer än två års funderande (2013-09-30)

Yago: Wikipedia-kategorier är inte subclass till Wordnet-koncept (2013-07)-22

Nyhetsanalys: Sunt förnuft när det gäller bildanalysen (2013-11-27)
Sunt förnuft i common sense: Problem 2 (2012-11-09)

Mening grundad i... (2013-05-15)


Yago 4: Kan bli grekiskt att motverka ett i Wiktionary "med pro-tyskt bias"

Och som det sägs göra "något åt" all snål tyska som lärs ut som andra och tredje språk i Europa.

Yago 4 tror jag de flesta förväntar sig ska fånga upp kunskap som finns i Wiktionary. Särskilt definitioner, grammatiska klasser, relationerna på sidorna till andra språk o.s.v. Wiktionary sidorna börjar ju verkligen se bra ut för många ord att en aktör nu ordentligt erfaren från tidigare versioner av Yago kan klara det medan få om någon resten av världen kan göra det bra första versionerna och antagligen ger upp innan man nått till något användbart.


Många förväntade sig kanske att Yago 3 skulle haft Wiktionary medan andra menade att relativt svårigheten nog inte kunde klara det. Jag försvarade alltid Max Planck Institute for Informatics här och trodde absolut inte som en del kanske känner nu att Max Planck Institute for Informatics inte riktigt vågar sig på den kanske fortfarande lite flexiblare strukturen där man möjligen kan behöva tolka meningarna vid sidan om rubriker.


Och jag tror heller absolut inte på dom här rykten om något med arbetsnamn ZAO (Omega - sist - och så Alfa - och fyndigt tillbaka till "omega": Kan bara göras så fint med ett antikt språk som grekiskan) som i princip tar befintliga Yago och adderar på ett Wiktionary hos ett grekiskt universitet: Och som man säger alla "viktiga" språk i Europa men kanske inte tyskan som folk säger. Dessutom "offspring" på Swahili passande den framtida generationen:


"Swahili
Noun
zao (ma class, plural mazao)
offspring"

Från: Zao | Wiktionary

Hur som helst vore Wiktionary seriöst och komplett med all kunskap exporterad till fina CSV-filer vara oerhört användbart. Bara att hämta upp listor och vissa kategorisidor kan ge en hel del användbart (roller, yrken, kategorier av adjektiv och verb m.m., exempel på särskilda ordklasser m.m.). Men att enkelt t.ex. se vilka adjektiv som beskrivs relaterat introvert. Färre än förväntat om sådant var standardiserat rörande beskrivning vilket så klart ej är en rimlig nivå att förvänta sig någonsin för ett lexikon / ordlista av den här sorten. Men ett ex:


Adjective

withdrawn (comparative more withdrawn, superlative most withdrawn)


Max Planck Institute for Informatics are withdrawn from a sad Wiktionary crying. Max Planck Institute for Informatics are introvert."


Från: Withdrawn