Mängden träningsdata vid ej korta förhållanden språk

2017-02-16

Rörande resultaten i:



Vill jag gärna tänka (med begränsning: utan att typ av neuronnät hör till några nära vad jag själv använder eller för den delen gärna för förhållanden i text på större avstånd men ej heller i meningsfull "block" för bag-of-word vad jag själv gärna hade behandlat utan att parsa det per mening) att resultaten är mer eller mindre förväntade från:


"We evaluate models on two different corpora for language modeling. The first is a subset of the Wikipedia corpus. It consists of 7500 English Wikipedia articles (dump from 6 Feb 2015) belonging to one of the following categories: People, Cities, Countries, Universities, and Novels. We chose these categories as we expect articles in these categories to often contain references to previously mentioned entities."

FRUSTRATINGLY SHORT ATTENTION SPANS IN NEURAL LANGUAGE MODELING
Michał Daniluk, Tim Rocktaschel, Johannes Welbl & Sebastian Riedel ¨
Department of Computer Science
University College London


Att meningsfullt utnyttja utan att ta färdigt värde av någon annan datakälla som representerande kunskap om vad saker är eller sannolikheten samtidighet i mening relationer på större avstånd än vad ngram-statistik i fraser / named-entities (och kanske meningar eller grammatiska konstruktioner) / ord omedelbart vid varandra - kräver "ganska" ordentligt med träningsdata.


Som kommenterat är detta - lika lite som hela familjen - den typ av neuronnät jag själv använder. Faktiskt vad jag inte att jag använt dem mer än kanske fyra - fem gånger för tester jämförande med andra algoritmer totalt oräknat något för evigheter i några universitetskurser (jag minns något som tränades känna igen en trivial kurva kanske 1998 i mönsterigenkänning eller troligare neuronnät). Jag tror dock de huvudsakligen (eller kanske helt) fungerar genom att lagra korrelation mellan neuroner bakom dem. Så är något som kommer in i början av det hela i tänkbar korrelation ej tillräckligt uttryckt i träningsdata (eller algoritmen i sig ej klarar att utnyttja mängden data - Exempelvis därför att den ej som mer möjligt att konfigurera rakt på sak med LTSM - long term short term memory typen) så lär det ej bli tränat märkbart när korrelationen är starkare och mer omedelbar för annat data.


För mindre data är det ju heller inte för engelsk-text direkt självklart att man har tillräckligt exempel alls på text som egentligen kräver något annat än nära data d.v.s. innebärande att det omedelbara datat alltid - eller nära så - löser problemet bättre och mer effektivare. Att jämföra med en udda kategori jag fick en gång för data bestående av bl.a. Wikipedia-kategorier som specialiserade sig för en representation utnyttjande endast själva orden i resp. flergram (medan den utnyttjande färdiga relationer till koncepten dessutom slapp problemet) på något av de Wikipedia-kategori-typiska små-orden. Eventuellt var det from (jfr - Google för List of people from Utica, New York lite mer än 3 miljoner träffar - Men tänkbart handlade det mer än koncept via kategorier så som "people from xxx who died yyy in zzzz").