Söka bredare vetskap koncept-association: Wikipedia / Wiktionary på många språk

2014-04-15

Enligt principen enkel att förstå från:


  • Vi har definition på engelska (vi säger är vårt "mitt-språk" eftersom det är mitt) ex. integral i Wiktionary.
  • Där konstruktionen är sådan att motsvarande sida länkas i andra språkområden. Vi utgår där från länkning i vänstra marginalen motsvarande samma system i Wikipedia.
  • Vi utgår där från integral (svenska) som exempel.
  • Och gör översättning: integral (Google Translate).

En metod för att skapa system översättning bygger på alignment mellan text motsvarande samma definition eller jämförbart i olika språk. Vi inser att ex. Wiktionary är vad som tänkbart kan vara en del av data möjligt att använda för det. Jag kan föreställa mig att Google Translate är ett ex. på system som tydligt tidigt prioriterat denna typ av data för inlärning av statistiska relationer (nu antar jag att feedback från användare är den märkbara delen för förändring görande finare nyans korrektioner och inlärning).


Här är en av de två utgångspunkterna att denna inlärning är befintlig i systemet för översättning. Därmed görande översättningen från språk två (i exemplet svenska) får vi där indikerande koncept med sin troliga engelska motsvarighet. Det är vidare ytterst rimligt att anta att Wiktionary såväl som Wikipedia hör till datakälla ofta utnyttjade för väl-använda översättningssytem såväl i inlärning som feedback d.v.s. att ex. Google Translate utmärkt klarar översättning mellan definitioner eller uppslagssidor.


Därmed får vi kompletterad vetskap om associationer aktuella för aktuellt koncept och koncept i definitionen eller relationer mellan de koncept i definitionen.


Denna vetskap kan vara kontextuellt för språkområdet eller mer aktuellt för mig (där kontextuell inverkan hanteras via logiska beräkningar över generell vetskap association av ett antal typer) behandlade alla relationer detekterade p.s.s. för att bygga vetskap association.


I någon mening är det egentligen samma sak man gör när man tränar översättningssystem med tidigare indikerad algoritm. Och det var därifrån jag fick idéen till algoritmen.


Troligt ej aktuell för mig praktiskt förrän nästa omgång att söka kompletterande vetskap association från långsamt föränderliga datakällor i "uppslagsboks-tiden". Ett tänkbart problem praktiskt för mig är att jag ej har egen lösning översättning med den trovärdighet korrekt rörande olika sense på orden nödvändig här och ej heller underhålligt eller använt samtidigt som jag ej vet riktigt hur många request Google gillar per tyngd innan man stängs ner till nästa eller alternativt börjar betala för dem. Förr ett antal år sedan gällde ofta ungefär totalt 10 - 12 k requests medan stycke-prisen var sådana ovanför att jag ej ser praktisk meningsfullt för den här typen av användning när många miljoner requests behöver ske över en mängd datakällor (d.v.s. ev. krävande kanske rent av en budget på ett par miljoner).


Alternativa lösningar finns säkert men jag har ingen uppdaterad bild. Jag tror förövrigt att Google Translate är mycket ledande just i dom algoritm-system och deras maskin-inlärning viktigt för denna lösning. Mer regelbyggda lösningar och/eller statistiska med mindre eller ingen feedback från de som gör översättning (d.v.s. etablerande goda översättning mellan välbesökta sidor representerande motsvarighet - särskilt här där författare, redaktörer m.fl. kanske själva gör kvalitetskontroll) kan vara mycket sämre när kontext antingen lokalt mellan och i stycken resp. meningar eller aktuellt för något mer lokaliserat språkområdet är intressant. Men som sagt jag har väldigt dålig bild av hur väl alternativa lösningar fungerar här.


Komplettering: Jag vet ej (läste ej artikeln) om man gör samma sak i Polish and English wordnets - statistical analysis of interconnected networks men är jag ganska säker på utnyttjar en till uppenbar (men mycket mindre för språkområden såväl som data koncept-associationer) datakälla - Wordnet anpassningar för olika språk - jämförbart rörande metod ta ut statistiken för associationer. Ett problem med Wordnet-varianter utanför Princeton's välkända (wordnet.princeton.edu) är att åtminstone ett fåtal skapades med EU-finansiering föga genomtänkt rörande värdeskapande för medborgare och företag i unionen innebärande att de ej är tillgängliga för användning utan betalning licens resp. troligen inte normalt är tillgänglig för någon oavsett om betalning sker. Jag har fått intrycket att detta problem allmänt är vad EU nu ska ha börjat sett över med förändrade riktlinjer rörande finansiering av grundforskning med avgränsade leverabler. Ett annat problem jag ej vet om man hanterar ännu är att sidor med leverabler och redovisning av skapade saker (ex. resultat av intresse för alla som ska vara fritt) ofta efter en tid försvinner från nätet (ibland relaterat med att anpassningar av det sålts till kommersiella företag).