Självorganiserande kartor: Styrd bredd representation av resp. typ av ord

2016-07-11

En enkel egenhet illustrerande den självorganiserande algoritmens natur (fortsättande Att skapa distribuerade vektorer för flergram koncept från distribuerade vektorer för ord) i representation av indatats distribution såväl som visande på en enkel sak troligen ofta användbar som den utnyttjas är hur vi kan styra bredden i antal tillstånd en större subtyp av ord tar upp.


Gissningsvis används SOM mer sällan i domän av ord genererat från sannolikhetsfördelning när representationen är tänkt att avspegla likhet till ämnen. Mer allmänt är det vanligare att det föredras att sätta dem likhet i trolighet i mening av att vi vill kunna beräkna varje ords likhet p.s.s. Också tror jag att det är en konsekvent av att distribuerade ordvektorer gömmer hela frågan och data tas som det är utan att egentligen uppenbart behöva bry sig om det.


Om orden nu kommer slumpmässiga och lika sannolikhet kommer antalet tillstånd som optimeras mot en avgränsbar typ av ord som avspeglas av sannolikhetsoperationen så som namn personer eller geografiska orter avspegla antalet relativt alla ord.


Önskar vi ej detektera från tränade dimensioner och därefter träna för egen representation ex. namn och orter kan vi ge dessa det antal tillstånd och därmed indirekt exaktheten inom gruppen (och ev. globalt kanske också beroende på tror jag hur grannskapet hanteras i slutet men det är lätt att ta fel i sådant) vi önskar skapande en sannolikhet för dem vi tycker lämpligt.


För det behöver vi veta ungefär andelen ord hörande till dem vi ej känner till bland alla ord vi har. Samt ha en tillräcklig mängd ord som tillhör dem (tillräcklig mängd om man inte ska göra mer komplexa saker relaterat varierade grannskap m.m. eller kontra sannolikheter mot enklare tränade kategorier eller ännu enklare arketypiska medoider för några typiska ord d.v.s. nog av dem för att göra detta). Vi korrigerar för antalet typer vi mnissar och drar ned sannolikheten för orden i kategorin så att deras annars linjära 1-1 motsvarighet i bredd minskar till önskat antal tillstånd.


Förutsättningen är att den gemensamma natur i vektorerna vi skickar in kommer under självorganisationen vissa något gemensamt dominerande ev. annat gemensamt. Exempelvis kanske vi kan tänka oss att vissa personnamn tenderar att vinna på andra tillstånd än de som de flesta personnamn gör tillsammans med väldigt annorlunda ord. Hitler kanske vinner på ett tillstånd tillsammans med diverse ord relaterade WII (under sista steget ev. körande med föga eller inget grannskap kan man självklart körande sådana kategorier tvingande där dom hör hemma så att Hitler korrekt tränas med alla andra namn oavsett kulturellt troligare judiska eller anglo-saxiska).


Värdet av det hela ska ej underskattas praktiskt givet att man lätt hamnar på hälften eller mycket större andel beroende på totala mängden ord som är just relaterat orter och personnamn. 100 - 200 000 sådana kontra 50 - 75 000 kanske är ganska normalt (beroende på antal språk utanför orter och namn men för i engelska samples ej helt ovanligt förekommande säg upp till 75 000 - 100 000).


Vidare även om vi tränar med samma sannolikhet för samtliga vektorer kan vi fortfarande summera kontinuerligt sannolikheten för annat globalt corpus orden som gått in i ett tillstånd och göra olika skattningar från dessa. Dessa tenderar gärna att jämna ut sig över tiden och bäst så för flergram liknande meningar. Om stabilt representerande ca 3.5 miljoner flergrams-koncept till 300 tillstånd a' 400 värden är skillnaden tämligen liten åtminstone så länge spreading activation pågår. Och är ett sätt att följa acceptabelt mer dynamiska förändringar ex. manipulerande något för att få den topologiska ordningen att förändra sig riktat.


Mer Kohoonen: kohonen som site:arxiv.org