SOM: En intressant egenskap

2016-09-30

Vi utgår från vektorer ord skapade bl.a. via latent semantic indexing (en del mer för att försöka få in mer information: men för själva representationens inverkan från hur information "sätter" sig var för sig och samverkande över vektorernas positioner troligen allt relevant). Dimensionsreducerar dem vidare från 400 föregående till 300 via SOM skapande höggradigt ämnes-indikerande dimensioner över vektorn.


Tar nu SUBTLEX-UK (text från filmskript) 2-gram och för en bunt identifierande manuellt intressantare ord-operatorer (som on, in, of, is m.m.) och några adjektiv, och skapar gemensamma vektorer dels positions oberoende relativt operator (inkl. JJ) samt för resp. vänster och höger för varje förekomst ord. Förekomsterna varierar för resp. OP (operator) varierar i antal ordentligt (de minst enstaka för något bedömt intressant rent av nedanför 50 utan att kastats).


Dessa går i SOM var för sig oberoende av övriga OP till cirka 8 - 10 dim prospekterande. Med tämligen hög påverkan grannskap. I antal epoker varierande men mer förutom en del ej ut filtrerade rätt troligt snarare vad vi utan grannskap skulle se risk för för-skarpa formation p.g.a. av för mycket för nära förstärkt över epoker bredare mening överträning (men det känns som ett dåligt ord för operator vilka likt is m.m. just i sig själva är övertränande naturligt i språket sägande föga än just is - inget topic m.m.).


Resultaten körs nu tillsammans mot 40 dimensioner SOM. Varje OP med resp. varje dimension egen-träning blir ett koncept d.v.s. varje OP blir nu åtta gånger tre stycken koncept motsvarande typiska grupper av ord det förekommer med. Påverkan låg i träning innan från resp. OP och resp. ord i direkt närhet (där förstärkande lämpligt för 300 dim för orden ofta välfungerande när vi önskar förstärka det tydligaste en kvadrat, vidare multiplikation mellan vad som kommer från OP resp. ord med för resp. ev. kvadrat - aktuell för en inkl. en del andra små-saker - principen är att ta ner information som rimligt faller utanför vad operatorn kan tänkas påverka på mätbart i mening av ren "flyttals" avrundning såväl som ganska basal mätosäkerhet - två förutom mer än så ganska grundläggande koncept i områden som är funktionella verktyg i en mängd områden såväl som rent mänskligt konstruerade så de är rimligen som ofta verifierat tämligen funktionella språk när motsvarande grova omfång är aktuella - mätosäkerhetens preferens enkla mått är för en del tycker jag bättre fungerande än motsvarande preferens information science. 0.1 * 0.1 = 0.01 medan 0.9 * 0.9 vilket ej är ganska vanligt för högsta dimensioner är 0.81. I kontrast ex. softmax är det svårare att där kvantifiera operationen i påverkan informationens olika relevanta mått d.v.s. jag vet ej bra vad jag kastar bort resp. får kvar vilket är svårt när sådant här i andra sammanhang vanligare tar väldigt lång tid innan jag vettigt kan testa det med överlägsna metoden "praktiskt" - om man sedan kan summera dimensionen till ett säger mig föga annat än att det är en normalisering jag ej heller kan kvantifiera mängden information som kastas när given total magnitud förstörs). Liggande ungefär 0.001 - 0.001 reduktion typisk motsvarande descent gående lägre på faktorn manuellt ganska stora steg när de verkar gått ett par hundra tusen (nu är vi ju i ganska få data punkter som körs in: Från totalt i början väldigt många ej totalt räknade men ej passerande 500 000, är vi snarare i 10 - 12 tusen för alla tre).


För att se om det filtrerar bort OP samlade lägre till väsentligt lägre (ex. avbrutna tidigt RESPEKTIVE sådana som gått lika länge som något annat men haft få förekomster SUBTLEX) sätter jag en similarity gräns SOM. Under körs de förvisso normalt (ändrar tillstånd - så att det alltid omstart typiskt lägre tränings-konstant tar in lite föga använt resp. kontrollerande implicit om de börjar ligga över ev. - Praktiskt typiskt två omstarter efter varandra och några varv för att ej särbehandla de aktuella som slumpas tidigt vs de senare om samband ligger mellan dem) sätter jag igen på grannskap efter att kört någon miljon kanske utan.


Stegvis här med en ej tillräckligt hög gräns similarity är förväntat att vi filtrerar bort växande med större grannskap och börjande utan grannskap växande med antal operationer i grannskap gjorda. Emellertid är det de låg-samplade som kommer ut dominerande. Efter att kört uppåt cirka 0 tar jag igen ner grannskap och låter dem gå bort (enklare än alternativ för att få ut dem bra men verifierbara oavsett det). På 40 st. trots ganska stort data från början ligger saker här så att rimlig gräns detta är mer närmare 0.8 än 0.6 (med 0.6 från kanske mer normala data-rymder som ganska högt).


Det intressanta är att just någon skillnad i steget när vi fortfarande har 400 dimensioner om vi clustrar från närmaste grannar eller betraktar bara distanser till någon normalitet användbar för att ta ut dessa låg-samplade ges inte för mig som jag ser.


Väldigt udda kvalitet verkligen detta. Ytterst oväntat även om det nu kom till mig att jag borde pröva det. Verkligen inte att något ej inkluderande att just operator-orden är vad vi kombinerar kan tänkas göra detta så här data quality tydligt. Dock att komma ihåg här att också ett mindre antal adjektiv jag generellt betraktar som att ha mycket också förutom en del annat oftare än mer typiska operatorer också inkluderade och presterade vad jag såg varken bättre eller sämre än sådana verkligt typiska som for, while, because, inside, m.m. Också definierade jag här mitt OP-konceptet något annorlunda så det även inkluderade he, she, it, them m.m. D.v.s. vad vi samlat kan se som att vi börjar på ofta använda stopp-ord och därefter fyller på med mer över några kategorier.


Resultatet tänkte jag ev. först försöka testa med this, that och those. D.v.s. peka-kvalitet med implicit avstånds preferens i vad man avser i discourse. This närmare än that. Those har lämnande grammatiken likaledes en tids-aspekt som gör den bra jämförande this och that: Kanske lättast att förstå abstrakt om vi tänker oss något mer nostalgiskt: Those XX. Samtidigt lär väl vilket jag ej betänkte tidigt lite mer merarbete där för tidig prospektering krävas givet att vi också har närmare tekniska discourse konstruktioner aktuella vilka nog förekommer nog i filmskript. Those NN went on to. Lite mer bibliskt som Google tycks bekräfta för mig: Nor did I go up to Jerusalem to consult with those who were apostles before I was.. Sådant är ju en ibland använd konstruktion i film oavsett om citerande eller skapande specifikt som lokalt kan ge mer text än annars normalt för filmen eller film allmänt (jfr Pulp Fiction citerande bibeln). Men kan notera särskilt bigram märkbart strö-betraktande processen av och till en del liknande (i kontrast mot tror jag säkert ett tänkt corpus dagligt tal tekniskt arbete mellan medarbetare en normal dag på något företag).


Överraskande.