HANS HUSMAN OM MEDIA

Visar inlägg med etikett Ordvektorer. Visa alla inlägg

L1- och L2-distans tillsammans: Reward / cost-funktion över-vektor skalande L1-modifikation i gradient descent icke-linjärt

2017-06-17

Similarity eller distans som funktion av resp. antingen similarity cosinus eller L2 resp. L1-distansen. Ett uttryck jag av och till experimenterat i väldigt skilda delar relaterat de vanligaste av de vanligaste algoritmerna inlärning och clustering. Och har verkligen en mycket skild natur jämfört med L2 eller sim. ensamt. För mina 300-vektorer ord kommer det exempelvis när inducerat via påverkan på träningskonstanten (d.v.s. renare kanske att hellre se via en implicit funktion stående "bakom" inlärningskonstanten i ex. diskriminant derivatan av en föreställd funktion vi deriverar: men i min kod logik för inverkan lik denna ofta vad som vairt enklast att inducera genom att manipulera träningskonstanten i resp. operations magnitud om än ej dennas epokförändrade grund-storlek) ge ut clustering oerhört dominant (väldigt olikt normalt förväntat dem eller vilka som helst normalt topic-kontext dominerade ordvektorer skapade på normala sätt) i flera av givet antal totala cluster ordtyper. Och ej nödvändigtvis självklart begränsat till eller ens självklart (med självorganiserade koncept aktuella för mig här) ens oftare än mindre mer udda grupper först stora sådana som adverb eller adjektiv. Tänker man seriöst över vad ex. ett adjektiv är och vilka grundkomponenter dessa ord kan ha och vilka av dessa (ungefär fem st. förövrigt med två närmast alltid där och ett par ej ovanligt ej aktuella för ord men absolut heller inte mindre vanliga än att om jag minns rätt mer än hälften av adjektiven bär dem) så kan man uppleva att man förstå en del cluster jag sett från det och varför dessa stora och som koncept så väldigt vanliga när vi talar om språk ej troligare (men ej heller troligare) än många andra mindre i storlek och "betydelse" som de första som troiligast kommer ut. Praktiskt har jag inte sett någon poäng alls med sådan cluster-sortering: Jag har redan ordentliga listor med allt från vanliga ordtyper till allt i övrigt säkerligen ej överdrivet långt ifrån allt publicerat ej överdrivet speciellt. Och jag har ej sett något kommande ut i mina försök just här heller som ej när uppenbart drivet ordtypsnära tänkta egenskaper snarare än topic i mening tillför något eller inducerar nytt-tänkande förståelse hos mig: Utan vad man sett redan och om mot förmodan när man behöver det ej redan bättre gjort i ett oftare där troligare männnisko-skapad lista nog så kan jag säkert sortera ut det ex. automatiserat (eller manuellt) så här eller lika troligt bra eller rent troligare bättre egentligen utnyttjande viktsystem och sannolikheter. D.v.s. intressant därför att jag annars aldrig sett det komma så direkt och renodlat. Egentligen ej vad jag på rakarm mindes alls i övrigt när självorganiserande stora mängder ord där naturligt ämnes-topic alltid är att förvänta när antalet cluster ej är stort extremt troligt kommer. Ovanligt och därför intressant men med mycket av udda-nyheter eller numera vanligare kanske udda filmklipp (oavsett om nu surfande hundar eller en person i en uppenbart överskapad avbildning av karikatyr överdriven stereotyp som fascinerar miljoner varande en så fullständigt extrem nörd och så löjlig utan att själ förstå sig som annat än oerhört cool - Förövrigt ej framgående om man ej kontrollerar själv lite och har nätverken för det i SEO-branschen släkting till en välkänt framgångsrik Youtube traffic-collector. Minns ej om vår tjocka svärdsviftande nörd var kusin eller något annat.).

Sedan gillar jag personligen idén att utnyttja både L1 och L2. Vi känner ju praktiska värden med båda. Och alltid när man behöver göra ett hårt val upplever jag lätt att en period av att pröva allt möjligt runt två motsatta koncept blir verklighet. Finns någon - kanske rent av lite men ej märkbart så sämre rent praktisk - kompromiss av båda är jag sällan helt främmande för den. En del kognitiv-dissonans och bedömnings-osäkerhet som besparas. Varande en god idealiserad svensk har jag ibland rent av svårt att helt släppa dessa "gränsöverskridande" kompromiss-lösningar. En konsekvens av att växt upp under Kalla Kriget inkluderande grundskoleinlärning i läroböckerna av den svenska "modellen av världspolitiken": Världen med sina divergerade block är var för sig ej riktigt rätt. Mitt emellan dem på den rektangulära kartan - om än konceptuellt mer udda på en glob - finns Sverige. Det är möjligt och mycket med diverse exempel 1900-talet med början 1970-talet exempel man kan mena sig uppleva ev. är sådana indikationer finns på att resp. divergerat block konvergerad till deras mitt. D.v.s. Sverige. L1 och L3 normerna och distanserna skulle vi korrekt svenskt därför bäst se som två divergerade koncept som är på väg att konvergera till ett distansmått som utnyttjar både L1 och L2 distansen: Sverige-distansen i nuvarande mitten (Låt oss kalla den för Milstolpen från vad den mindre moraliskt korrekta - och / eller kanske modigare - granne släpat hem till trädgården och gillar att prata och visa upp).

Men varför när det ej egentligen tar det pröva det på något ytterligare en gång? När ändå samtidigt skakande om pågående träning hoppande träningskonstant mellan punkter i större steg där man sedans tår ett tag och skyfflar data in och ut. Säg i denna variant:

ZH är Sverige distansen. Vår milstolpe förklarande vad avståndet är mellan två punkter i svenska-mil. Och vi definierar den ej omedelbart från L1 och L2 utan cosinus istället för L2 därför att av och till finns en skillnad trots att vi kan räkna mellan dem (personer med preferens säg 0,1 normalisering utnyttjande exp exp ( gaussiskt-distans ev. varians // bandvidds-normaliserad) hade antagligen föredragit L2 då mer rationellt). L1 väljer jag förövrigt som ett av flera alternativ ha max-normaliserad över alla under träningen levande vektorer träningsdata. Konkret är Milstolpen: sim / ( 1 + L1-distansen ) == likhet. D.v.s. lite olämpligt att jag kallade den för distans då vi i denna form ej utnyttjande L2 mer får similarity med riktning. Annars är ex. L1 / ( + sim ) också funktionellt.

Vi gör beslut utifrån vad vi kan välja att se är ett distans mått per vektor-position för att få en gradient i varje träningssteg. För mig testat uteslutande vad som i grunden är gradient descend men med diverse modifikationer i och nära runt om som gör att grundprincipen gradienten ej säkert är lätt ens för en mycket säkrare matematiker refreshad i området att få ut en funktion som integraler av. V beräknar här nu för vektor vi modifierar ett tillstånd med i gradient descent också L1 och cosinus similarity för och från det Sverige-i-mitten-är-ändå-vad-USA-och-Sovietunionen-resp-är-mest-lika-till-resp (låt oss kalla det SIM - Sweden in International Model - eller vad man vill föreställa sig att det står för bland läsare firande och starkt troende på den goda medborgaren Hans som alltid tar chansen att lyfta fram Riket: "En fin riktig svensk utan något av Skåningen eller Norrlänningens halvt-icke-svenska okulturs-störningar i beteende och språk: Det är det fina med Hans i ett nötskal.") fortsättningsvis) måttet som indikation bildat från övergripande alla positioner men utan att cross-beroende (ex. säg cross-talk alternativt) mellan positioner utnyttjas explicit ändå en gemensam samlad indikation korrekt praktiskt utanför träning i sin naturliga dimensionsreduktion till en position mycket mer funktionell för mer övergripande beslut än representation information: Jfr jämförelse ord med varandra eller uttryck för sannolikheter ett ord givet ett kontext (ett decimalt-tal är vad vi avser en position). Men opererar i träningen på varje position vektorerna utifrån konkret när jag testade L1-distansen (under dis-constraint att till varje ord-vektor omedelbart innan ej normaliserat görs beräkning: uu(i) = uu(i) + rand ( uu(i) * 0.10 ) - rand ( uu(i) * 0.10 ).

Hela tänket gradient descent är ju att derivatan är viktig. Och är vi L1 här med L2 i egentliga funktionen kan vi ännu tydligare konceptuellt se hur vi flyttar oss närmare vid behov medan ex. mer av en medelvärdesbildning kan tendera att sämre bilda en gemensamvektor för just diskriminering. Trots det görs följande operation av mig på denna L1-distans tänkt att vara gradienten. log ( 1 + e ( L1 ) ). Jag hade verkligen utan annat än fördel kunnat välja att ersätta L1 distansen med detta när sent i träningen men ej riktigt sista epokerna. Större värde ges emellertid när vi istället:

Beräknar: log ( 1 + e ( SIM * l1-distansen just för aktuell position i vektorn ) ). Och viktar andelen av den normala gradient-operationer vi låter påverka tillståndsvektorn med kontra samma tillståndsvektor i föregående tidssteg. Bieffekt är mera smooth övergång vilket kan vara mindre önskat ev. tidigt i träningen eftersom vi för in föregående tidsstegs-vektor. Normalt är dock denna bieffekt önskad i sig (varför jag valde att låta effekten realiseras via denna viktning snarare än manipulerande den gradient som faktiskt används vilket är den som normalt L1-beräknande: Även om arbetande med L2 distansen väljande cluster o.s.v. ska man dock absolut inte vara rädd att pröva att bortse helt från tänket att man laborerar med en L1-distans som är en derivering av en L2-distans för att experimentera med allmänt numeriska algoritmer enkla standard-grepp som ibland ger värde. Ex. sluta med L1 och istället använda L1 skalat icke-linjärt för att ge större effekt av antingen mindre eller större skillnader för resp. position kontra tillståndet som tränas fram - åtminstone om sent i träningen - vilket verkligen oftare än annars för känt praktiska funktioner kan öka upp andelen korrekta sorteringar såväl som att reducera andelen falska koncept upplevda hörande till kategorin. Men jag önskade ha en svag medelvärdes-effekt verkande utan att just detta steg i logiken konceptuellt så korrekt tilltalande enkelt börjad expandera i antal rader kod börjande närma sig några hundra från vad som i grunden kan vara en rad. Och effektiviserade ner operationerna där det kändes enklare att göra ett par man troligare av och till kan önska av resp. på normalt som jag bedömer det i ungefär samma del av träningen - tillsammans. Medelvärdesbilda själva gradienten ska dock ej ses som vad jag självklart på något sätt här ej rekommenderar troligare som vad man kanske hellre bör tänka och arbeta med. Görande potentiellt p.g.a. struktur ett flertal förändrande operationer - ej fler än värsta fall åtta och normalt 1 och mindre ofta två eller tre - från ett slumpmässigt draget ord är det dock ej praktiskt bra att arbeta med gradienterna här krävande att man tryggt ej förväxlar i koden skillnaden mellan steg som operation resp. steg som nytt ord m.m. medan vi med själva resultatet ej behöver något nytt quality assurance i assertions för att kontrollera rimligheten.).

Jag vill ej spekulera om vad för värde någon annan får av just denna operation. Den är vad jag tycker man ska se som en av en bunt enkla små modifikationer man kan pröva rent praktiskt för en given tillämpning och se om det ger mer värde. Utan att jag tycker det sunt (om man alls ska se matematikern som roll som sund för någon normalt frisk ej matematisk-person) att man ska uppleva behov av något teoretiskt resonemang runt dem var för sig. Jag har några bra sammanfattande journal-artiklar tillsammans täckande upp några av de mer basala (i mening att vi ex. där kan hitta grundformen funktion jag utnyttjade här men ej att vi där har den fortsatta varianten av att vi utnyttjar en skalning från similarity) grund-operationer ytterst vanliga såväl välkända oftare än inte ger åtminstone något lite värde antingen exakthet eller beräkning totalt nödvändig att nå åtminstone en extrempunkt (oavsett dess förhållande i storlek till en eller flera av ev. övriga extrempunkter. Jag anar lite att med tänkt L2-distans som funktion och definierande data för funktionen som är levande flergram producerande kontinuerligt varje dag är kanske koncept som lokalt minimum meningslöst och mer att vi har praktiskt approximativt ett oändligt antal extrempunkter något så när i chunk-cluster jämförbara i magnitud. Men tänker kanske fel. Under antagande att annan logik / personligt beslut ej relaterat funktionen i sig vi antar att vi uttrycker beslutar om mängden och vilket indata vi just nu för kommande pågående timmar träning för in i systemet. Verkar nördar coolt för dagen för vi in dom. Har Trump hört av sig om att köpa information kring koncept relaterade Världs-President år 2020 kör vi in data relaterat det. Ska vi tydliggöra moraliska problem med person i parti-diktatur kör vi in data aktuellt där. Vi kan i det automatiserade av logik se ex. konceptuell möjlighet att nära användning är vad logiken följer upp konkret effekt av pågående tillämpningen av vikterna - Började folk ställa sig och vänta på att Trump kommer och ska president-tala inför kommande konceptuella skapelse av världspresident-posten? -
Om inte kanske vi börjar sampla annorlunda men ej för det annat än förlorar på att kasta tillstånden där vi står som är mer av något större runt gradienterna i insvängningen mot att få den Goda människan i ledning av världen så att alla folkmord världen skådat, alla kostnader för alltid förutom Mexiko oskyldiga länder mexikanernas butikssnattande runt om i världens städer orsakande svält, gravt eftersatta regler om tax-free inköp av alkohol och tobak resp. alkoholbeskattning många länder har där istället alkohol-subventioner vore det allra bästa för folkhälsan, den dåliga myndighetsinformation flera länder har om dålig hand-hygien orsakande den Diger Död som rätt trump-i-kortleken som världspresident kunnat förhindrat - ej riktigt bra - och kanske ej helt överdrivna uttryck för den lite skakiga relevans-rimligheten vi kan ha tidigt här - men ej meningslös information att arbeta vidare från) tillsammans med sampling från levande internet-corpus ).

Reducerande risk överträning

2017-05-19

Vi betraktar likheten som uttryckt via cosinus-similarity som en form av korrelation (om än ej balanserad från medelvärde vilket är mindre önskvärt). Vi ser också risken för överträning samt hur redan komplexa icke-standardiserade neuronnät (d.v.s. ej följande någon generell princip utan skapade manuellt för tyngre utmaningar man är beredd att tänka specifikt för) kan expandera enormt i komplexitet och beräkningskostnad så fort risker överträning måste hanteras i regler.

Vi menar vidare att vi sitter med nät som i princip adderar inkludering via addition medan avlägsnar icke-relevant information via subtraktion av icke-relevanta vektorer (ex. felaktigt bedömde tillhöra en grupp, via några alltid för varje addition, och/eller en svag subtraktion för varje vektor alltid när dragen om den ej hör till gruppen vilka är mindre tre huvudsakliga grupper).

Vi tillför på försök regeln Z_HH i samband med ytterligare expansion regler träning gjort att känslan är att redundans minskande risk för överträning bör tillföras. Där tänket är att denna regel ska avsluta behovet permanent:

Z_HH aktiveras alltid när subtraktion sker.
Vi drar n-stycken (säg 5 - 6 st) positiva för den kategori vi subtraherar från.
För sex st. föregående drar vi 1 st som säkert ej hör till någon kategori (troligast namn medan verb, adjektiv, adverb m.m. normalt hör till någon kategori) samt ett par st. vilka som helst som ej hör till egna kategorin, och ibland 1 st. som kan höra till en motsatt kategori.
Vi avlägsnar "korrelationen" indikerade negativa ord från de positiva genom att först medelvärdesbilda positiva och negativa och därefter beräkna cosinus. Inte helt olika med hör man ofta gör ortogonalisering.

Vi kör detta som positivt sample för kategorin vi subtraherar från. Och raderar den ej d.v.s. ingår nu permanent som en existerande given under träningen. Så som kod gjorts är det ej via någon regel givet att processen någonsin kommer 100% säkert kommer avstanna. Z_HH kan i sig innebära att Z_HH anropas om motsatt kategorin upplever den höra till sig. Att träningsdata som ej hör till kategorin används och får reducera skapat sample utefter korrelation gör dock detta till väldigt osannolikt inträffande ens 1 - 3 gånger.

Total tillgång positiva samples i form av vektorer för ord är cirka 20 - 30 000 st, med ej färre än 2000 för någon kategori tror jag. Träningen samlad antas ge funktionella resultat ej bara för kategorisering ord utan också varje form av kombination av ord oavsett samples eller ej. Oavsett detta tror jag nog metoden i olika varianter är funktionell rent allmänt.

Tänkbar modifikation av algoritm kvantifiering vektorer att använda mot slutet av träningen

2017-04-26

För kohonen-nät är mitt intryck att vi utifrån grannskap i någon mening begränsar - sätter kanske inte alltid förstådd eller eftersträvade - constraints vilka inte självklart behöver ha något just med den topologiska egenskapen i mening av kulturen att visualisera resultatet (vilken jag själv av vad jag sett folk gjort tycker verkar tycker verkar oftare än annars obegriplig i vilket värde det skulle ge: jag använder inte algoritmen själv för visualisering eller gör näten 2D utan istället en eller 1D-lager).

Säg att vi antingen gjort ett kohonen eller vektor-kvantifiering med antingen bara positiv-tilldelning eller eventuellt (kanske intressantare för diskussionen) också negativ-förändring (d.v.s. om vektor X för ett ord hör till hög-intensitet tilldelar vi tillstånd hög och ev. om ej viktande förändringen ex. med sannolikhet, intensitet och liknande med krav på hur det ska påverka effekten på likhet när klar bedömt viktigare än ex. än mängden icke-ämnes-korrekta ord som kommer ligga på hög likhet - om likhet med tillståndet är lägre än något värde för lugnare mer tillförlitlig konvergens inkluderande mer lättförstådd och predikterad effekt rörande mängden okända riktiga ord resp. okända defekta ord som kommer gå över threshold med samband till den utnyttjad här - resp. när effekten är negativ om låg-intensitet och/eller icke-hög-intensitet visar högre likhet än något gränsvärde eller för låg-intensitet om låg-intensitet visar högre likhet än tillståndet för hög-intensitet). Och att detta är klart.

Säg att vi tränade det klart utnyttjande för att bestämma effekten förutom träningskonstanten (epok-beroende) med skillnaden L1 mellan varje position i vektorn d.v.s. v(i) = v(i) + alpha * ( u(i) - v(i) ) (med v som vektorn för tillstånd och u för ord).

Varje position för en vektor oberoende av övriga och tillståndet värderas i vilken effekt det p.s.s. Något man kan göra sent i träningen (upplever jag som ibland meningsfullt men kräver att man tittar till det ofta) är att låta likheten och samma likhet som fick bestämma (som i kohonen-nätet) vilket tillstånd vi gör förändringen på. Gör man samma sak tidigt i träningen blir resultatet sällan bra ämnes-sorterat och konvergensen kan gå till vilket underligt gravt övertränat resultat som helst. Men sent med lågt alpha kan det ibland kanske ge något.

Det tycks troligt att vi sent kan ha vissa positioner i vektorerna eller samband mellan positioner som är mer värdefulla medan diverse andra samlat på sig junk eller bara är mindre meningsfulla. Vektorkvantifieringen i sig söker nu bestämma detta. Men kanske kan vi nå bättre finstämda konvergenser om vi mot slute söker värdera detta. Jag kan tänka mig väldigt bra sätt att göra detta på men varande mer komplexa över statistiska samband är min tumregel från erfarenhet att om de gör en enkel algoritm komplicerad kommer de ej otroligt förstöra mer än de ger och om inte ej vara värt tiden.

Men man kan ju också pröva något enkelt i sig lika lite tagande hänsyn till något annat än värdet för tillståndet och ordet för resp. position. Jag prövade lite med en variant av u(i) * log ( 1 + e(z(u(i)) ) p.s.s. sätt att mindre förändringar värderas ner absolut mindre än stora förändringar. Vilket jag ej märkte just något värde stort nog för att förändra sorteringen av orden i träningen utifrån similarity per epok.

Medan jag ännu är osäker på om denna variant kanske adderar en del värde. Startande från ett övertränat färdigt tillstånd på ett lågt alpha tycks det kanske ge något efter några varv. Men varande övertränat behöver det stå ett tag. Kan det få ut mer exakthet på något gravt övertränat bör det kanske visa det värt att pröva i övrigt.

1. Vi kan här anta att trots att resp. vektor position är [-1,1] att inga positioner varken i tillstånd eller vektorer ord är annat än ]0,1[.

2. Trots vanligt att göra så normaliserar vi ej vektorerna till att summera ett. Vi ser dem ej trots att varje position kan ses som kontext ej som sannolikheter konkurrerande med varandra (d.v.s. antar vi att en position uttrycker något runt namn och var de hör till olika kulturer, och ett annat arbete och roller, menar vi att de kan vara samtidigt verkliga såväl relevanta samtidigt).

3. Istället ev. men ej säkert teoretiskt skakigt ser vi resp. position som en sannolikhet approximerad av värdet (vilket är per vektor L2-normaliserade cosinus-similarity värden) för att igenkänna eller bedöma pureness av något för den, eller just här (för vektor-typen 300-WW) sannolikhet att vi ser dem i detta kontext (tror jag är vad jag minns rätt från när jag gjorde dem).

4. I någon mening har vi nu (tror jag) för varje position 1 st. fördelning som kan ha ett värde (här i träning medan världen är större för alla vektorer). Vi kan visst se alla värden för allt träningsdata per position representera fördelningen för målsättningen men det är den approximation vi nått när vi börjar här som vi kan laborera med utan att just behöva göra en massa komplicerat sparande serier av värden.

5. Beta (Mathematics Handbook) gav (ev. med någon notation rörande tvåan jag ej minns längre) summeringen av f(x) * f(x) * log ( f(x) / g(x) ) för KL-divergensen. Jag definierade om den till f(x) * g(x) * log ( f(x) / g(x) ) + g(x) * f(x) * log ( g(x) / f(x) ) (men kontrollerade inte att det blev som jag förväntade men antagligen ok).

6. Värderar vi träningens effekt utifrån denna divergens positivt är det något mer lämpat tidigare innan i princip klar med träningen. En uppsjö alternativ till att påverka effekten finns här utan tvivel i huvudsak bättre och de flesta antagligen om ej mängden data är gigantiskt eller konfigurationen komplex med flera parallella gradienter ej särskilt värdefulla jämfört med att låta det gå långsamt nedåt av och till kontrollerande det hela och vid behov gående upp igen ev. till ett tidigare mer sällan sparat tillstånd.

7. Värderar vi upp det hela får vi ej någon lokal effekt per position. Emellertid kan resp. värde del av summan utnyttjas per position. Jag prövade några stycken mer eller mindre uppenbara varianter av detta och körde ett tag på resp. tills jag nådde denna variant.

8.1. Vi inför först en särskild "distans" besläktad med en variant jag ofta har använt (men ej fungerade bra här - tränande vad som är tänkt att gå kontinuerligt fortsatt för att uttrycka intensitet i världen resp. ge skattningar som kan användas för dekomposition av ex. enskilda ords vektorer eller kontext - i just aktuellt här positivt, negativt, tillförlitligt, ej tillförlitligt, upp i intensitet, ner i intensitet, och fara men där problemen distansen mer lågt i ett antal breda ämnen associerade förändring rörande större världsproblem så som ex. religion, krig, hälsa m.m. där distansen gav en ej lämplig preferens mot sortering ordtyp ej önskad: L1-distans / ( 1 + cos-similarity) ): KL-divergensen-omdefinierad-Hans-för-alla-positioner-tillsammans / ( 1 + cos-similarity ).

8.2. Testkörning nu använder dock ej distans som beror av cos-sim då jag vill se effekten också utan detta, och ej är säker på att KL-divergensen kan skala cos--sim över många epoker utan att olämpliga konvergenser uppstår.

8.3. Distansen används ej för annat än att skala förändringen ett ord tillåts att göra på tillståndet.

8.4. Vidare för varje position skalar vi förändringen enligt: ( C - divergens(i) / max_divergens ) eller i besläktad variant ( C - max_divergens * 0.5 - divergens(i) * 0.5 ). Där max_divergens är det största värdet en position i ord-vektorn har för divergensen. Jag prövade också varianter utnyttjande medelvärdet: Dock utnyttjar vi ju redan summan i distans-måttet.

8.5. Sätter vi C till ett värde mindre än 1 kommer vi som vi använder måttet subtrahera för positioner som är kraftigt divergerade. Medelvärde divergenserna för ett ord ligger ofta runt 0.02 - 0.03 (och ej normalt ovanför 0.05) medan max-värdet ofta tycks (tidiga epoker) ligga 0.4 - 0.8. För åtminstone C mindre än 0.95 tycks det hela falla i bitar till något ej önskat. Varianter med lägre värden och ej utnyttjande negativa värden kändes ej heller bra. Jag tog därför C till 1.

8.6. Och tillsammans får vi effekt-påverkan KL-divergensen har som: ( C - max_divergens * 0.5 - divergens(i) * 0.5 ) / distans. Vilket vi multiplicerar med träningskonstanten alpha.

9. Allt för resp. förändring per position i: v(i) = v(i) - alpha * ( u(i) - v(i) ) * ( C - max_divergens * 0.5 - divergens(i) * 0.5 ) / distans

Att få båda världar samtidigt: Både träna tillståndet till att motsvara indata d.v.s. med nödvändighet förändra sig utifrån indata om ej perfekt från start, samtidigt som vi kan värdera upp indata och positioner vektorer som är bättre är svårt om vi ej vill utnyttja något annan vetskap än själv det tillstånd vi bygger upp. Jag upplever det ej som rimligt att kunna förvänta sig att det ska gå bra. Återvänder vi till mitt ex. att ibland pröva att värdera upp med cos-similarity är förutom riskerna med det kanske så normalt (ev. alltid för mig) att vad man sent under träningen ev. uppnår i huvudsak är att snabba upp konvergensen.

Samtidigt om vi ej låter algoritmen fritt välja tillstånd att förändra. Och ej utnyttjar ex. grannskap, eller håller flera "kurvor" av gradient-förändrade tillstånd som uttrycker något ex. kontextuellt eller tidsmässigt annorlunda men besläktat. Gäller att effekten alltid är till sin natur linjär. Emedan om vi behåller detta och adderar på en icke-linjär komponent oavsett ev. övriga som används kan det innebära att vi ökat möjligheten till anpassningsbarheten mot indata.

Samtidigt gäller vad jag först skrev avseende grannskap i Kohonen-nät att sådant också är constraints. Vi begränsar mängden lösning vi när vägen väljs fortsatt kan ta och därmed också storleken på den mängd som motsvarar hela världen som antas existera. Desto hårdare constraints ju mer tenderar vi att lätt hamna där vi också antar att världen utanför vårt träningsdata är mindre än den egentligen är och har det betydelse i användningen av resultatet är det upp till svårt problematiskt.

Storleken på sådan potentiell övertränings-effekt är dock ordentligt varierad mellan metod. Tänker vi oss att vi alltid gör addition på tillstånd A för data medan vi subtraherar på tillstånd B om likhet B är större än A, och omvänt för data avsett tillstånd B. Och slumpar orden. Här är komplexiteten påverkar överträning potentiellt gigantisk: Potentiellt därför att det ej är säkert om resp. tillstånd A och B är konstant i antal bitar kan konvergera för att uttrycka detta (annat än ökande distansen mellan tillstånden accepterande förstörelse meningsfull information: Ex. att tillstånden vandrar "oändligt" långt ifrån varandra vilket dock i sådan extrem kräver en hel del klumpighet eller inkompetens för att klara om något villkor alls finns för när subtraktion görs alt. någon form av genomtänkt normalisering effekt mot totala mängden i resp. grupp A och B: För några exempel sådant jag märkt när jag hamnat i sådant som brukar lösa det). För att få hela möjligheten kan man behöva tillåta algoritmen att skapa fler tillstånd beskrivande resp. A och B när det behövs. Och på samma nivå potentiell komplexitet och storlek inducerad överträning möjlighet ligger många neuronnäts-algoritmer. Sätter vi dock threshold i absolutnivå likhet åtminstone för när vi subtraherar från tillstånd B har vi tagit ner denna potentiella komplexitet enormt. Och har vi det både på addition och subtraktion är den gigantiskt mindre. För grannskap kohonen-nät om denna funktion endast adderar är komplexiteten ej speciellt hög alls. Låter vi den också subtrahera (vilket jag sällan tror är annat än problem utan värde och jag prövade runt en hel del) när en viss distans nåtts.

Beräknar vi som alternativ medelvärde av vektorerna för träningsdata till tillstånd A tenderar sambandet normalt vara att med fler ord växer vi först i exakthet. När de ännu ej är över säg några hundra och väljs förhand. Därefter brukar jag se försämring orsakad av att man börjar få med ord som ej hör hemma i gruppen. Samtidigt som en del fel försvinner gäller därefter att vi når bättre resultat med mer data där vi når mest längst för grupper som i all verklighet inkluderar många ord och där definitionen av vad som hör till gruppen ej inkluderar något som till sin natur utnyttjar en icke-linjär form som ej finns i vektorerna (d.v.s. för distribuerade ordvektorer skapade normalt sätt ej grupper som är grammatiska till sin definition där effekten träningen av dessa skulle ha att göra med exakt vad vi har för ord snarare än ämnet som sådant resp. omvänt att vi här kan få effekten att ej ämnen utan ämnen + ordtyp visar sig irrationellt om ej hanterat ex. för post LSA eftertränande mer styrt utan tematiska - vad som har med ämnet att göra). Ökar vi mängden ord kommer vi dock ej öka exaktheten annat än att öka mängden riktiga inkluderingar relativt mängden defekta. Hur varierade gruppen är naturligt, resp. mängden icke-relevant data vektorerna innehåller, o.s.v. kan vi ej påverka. Så någon risk för överträning finns aldrig annat än i mening av att välja ett st. antaget perfekt ord istället för att titta på detta ords grannskap och där välja ut fler ord som hör till gruppen samtidigt som defekta ord som ej hör hemma där ej väljs till medelvärdet. Men de defekta orden vi kan se i generering per ord vi använder (eller för medelvärdet samlat) av närmaste grannar med högst similarity kvarstår även om de med lite tur fler ord kan späs ut. Överträningen i den mer kraftfulla algoritmen än medelvärde kan vi därför jämföra med att för jämförbart generering närmaste-grannar exkludera ej önskade ord, och inkludera önskade ord, på sådant sätt att generering för det färdiga tillståndet ej kommer inkludera på hög position en mängd av ord som borde varit där eller alternativt inkluderar en mängd ord som ej hör dit alls (för vektorer skapade med LSA från stora corpus kan vi ibland p.g.a. PMI se när träning färdiga vektorer görs för vanliga ord att vi i generering klar kan se väldigt udda ord eller tecken komma högt ex. som jag kan se för mina 400-vektorer tränande bara med vanliga engelska ord html-taggar m.m. som kan nå höga positioner eller ord från små-språkområden). Ett stort stycke av den potentiella informationen vi kan nå är ej beskriven, och det mer avvikande från det vanligare kommer mer sannolikt uppvisa något högre här.

Komplexitet träning kan ha samband till den komplexitet som påverkar risk överträning. Detta gäller ur-typiskt när många icke-linjära operationer sker pågående från start av träningen och över alla operationer som sker per träningsdata. Medan den är gigantiskt lägre än ex. flera tillstånd tränas uteslutande linjärt och därefter kombineras icke-linjärt under förutsättning att vi i och med den linjära träningen också når en "enklare" värld där det icke-övertränade / icke-perfekt-exakt-formade är meningsfullt och snarare ger ökad exakthet. Säg att vi från fyra tillstånd - motsvarande fyra dimensioner (i kontrast säg 300 dimensioner för vektorer träningsdata innan) - ska välja antingen 0 eller 1. Här är vi rent av ibland där bruteforce eller slumpade vikter, funktioner, kombinationer av dem o.s.v. kan användas.

Vad som gäller sådant jag gjort här har jag dålig känsla för. Men jag anar att den givet något vettigt tränat innan ej begränsar ner världen märkbart alls. Så länge ej varierat positioner utifrån divergerade mer än något börjar subtrahera på tillstånden medan andra kommer addera på samma positioner. Med subtraktion byggs icke-linjära samband som kan uttrycka mer flexibla former på "kurvan" mellan orden (i den mån det för vald effekt-funktion alls är meningsfullt möjligt) medan jag tror när vi endast väljer hur mycket vi adderar att sambandet endast skapas i relativ mening per position och ord. Jag tycker att en metodik som fungerar bra för mig för sådant här är att pröva en uppsjö enkla varianter eller som just här kombinationer av tre enkla metoder jag vet kan fungera bra. Emellertid föredrar eller har preferens mot vad jag kan visualisera formen eller förändringen av. Jag är dock lite osäker på om jag gör det bra för divergensen-komponenten per position bl.a. därför att jag ej är hemvan i formen på ordvektorerna rent allmänt på de olika positionerna och hur positionerna formar sig tillsammans. Sedan har jag ibland en preferens att önska två värden samtidigt men ej normalt förväntas kunna få samtidigt antagligen därför att det ibland visar sig möjligt vilket man minns medan man minns mer diffust och ofullständigt alla gånger det ej går även om jag egentligen aldrig trots att jag försöker riktigt tror att det kommer visa sig gå.

Oavsett hur addition och subtraktion används tidigare avser det ej i vilken riktning vi förändrar tillståndets vektor absolut utan tecknet vi sätter före L1-distansen (om vi förändrar tillståndet närmare som vid addition aktuellt stycke träningsdata). D.v.s. v(x) - alpha * ( u(x) - v(x) ) där vi ibland anropar funktionen med ( (-1) * alpha ) i vilket vi fall förändringen innebär att distansen ökar mellan tillståndet och vektorn för ordet vi just då tränar på. Vi noterar att riktning är relativt samma data vi förändrar från och bestämmer mängden förändring av men att det tänkbart kanske inte alltid behöver vara så.

Emergence i Hans Google-sökruta: "lateral inhibition" + emergence of relation organization + distributed vectors + "kohonen network"

2017-02-21

Efter att prövat runt lite löst med självorganiserad träning av 18 st tillstånd i ett rakt 1-dim Kohonen-nät (utan koppling mellan första och sista elementen) reducerande ner antalet tillstånd till 12 och i samband med det prövade något nytt. Sökte jag idag Google på:

"lateral inhibition" + emergence of relation organization + distributed vectors + "kohonen network"

De i starkaste upptäckterna jag gjort i förändringar i eller nya algoritmer skiljer ut sig i toppen genom att ha god distans till nummer 4. Dessutom skiljer sig 1 - 3 genom att alla upptäckts genom att jag programmerat fel eller att som här prövat något för att få bekräftat att något går fel (och här att jag vill se det gå fel).

Säg här utan att våga mig på detaljerna då jag ej sitter med koden för att reflektera principen värdet själv en gång till.

1. Vi lämnar övriga tillstånd och reflekterar endast två stycken.

2. De är när vi möter dem redan tränande på indata.

3. Indata ligger i ett tämligen nära besläktat område: Organisationer där de har viss specialisering.

4. Fortfarande uttrycks i för alla koncept relevant något gemensamt genom att indata vektorer är tränande från ovanpå LSA-reduktion till 400 dimensioner av stort språkcorpus relationerna i Bluelight. Därmed tillsammans med från 50 upp till 50 000 cirka relationer per koncept kommer vissa gärna vara gemensamma så som organization, company m.m.

5. Ett av tillstånden kommer nu fortsatt aktiveras mer sannolikt relativt sina intränade tillstånd (snarare än ev. idé om hur vi vill ha dem aktiverande klara) därför att sannolikheterna för koncepten i indata manipuleras: Innehåller ett flergram symboliserande koncept indata något av ett antal ord (ex. county, f.c., trainstation m.m.) hoppar vi ibland över dem med viss sannolikhet (hög kvalitet bluelight relationer så lätta att träna bra snabbt samtidigt är de enormt många och tar därför om de får komma fritt enorm bredd i ockupation Kohonen-nätet).

6. Mellan resp. av dessa tillstånd finns en rymd som kan innehålla vad som aktiveras via som normal spridning från vinnande nod görs i Kohonen. Emellertid ger vi också noden möjlighet att göra något vi väljer att påstå är (men egentligen ej är bara detta men det fungerar antagligen en bit här som förklaring jämförbart även om det ej orkar till emergence av organisation och självavstannande träning av noder när de är klara) att vinnande nod subtraherar bort en bit av indatat från noder som är längre ifrån den än ett tröskelvärde.

Alternativt jämförbart kan vi betrakta ett dendrit-träd där vi kan förstå viss logik såväl som möjlighet att se vilka motsvarande "vinklar" i ett 3D-rum som är den troliga centraliteten för varifrån aktiviteten kommer bakifrån från sändande neuroner. D.v.s. vi kan se att typbestämning i sig är möjligt ensidigt för resp. medan om vi antar att båda behöver förstå att de gjort GABA i en vinkel resp. aktiveras GABA krävs dessutom just en särskild signalsubstans (d.v.s. GABA). Och tänkbart är det så även om jag ej försökt göra magi med det här än och lär behöva smälta det några månader (ibland år) om jag känner mig själv rätt.

7. Nod som aktiveras mer sannolikt kommer troligare (men ej självklart tror jag för alla tillstånd relativt ordning indata när vi ej antar några andra noder givna som kan påverka resp. positivt att alltid den som från börjar var i genomsnitt mest trolig "vinner" striden om att få möjligheten att arbeta övertid) kunna reducera bort relevansen av motsvarande (och byggs nu stegvis från indatat i Gradient descent):

7.1. Gradient descent element-vis innebär att där vektorn uttrycker större skillnad (differens snarare än absolutbeloppet) förändrar vi mer. För gemensamma egenskaper hos resp. tillstånd givet att vi börjar förändring vi diskuterar när de är tämligen tränade kommer därför påverkas föga om alls.

7.2. Vad som kan påverkas är istället:

7.2.1. Vad som finns i tillstånd vinnande men ej i den andra. Förlorande tillstånd aktiveras fortsatt mindre sannolikt för vad som är specifikt för vinnare.

7.2.2. Vad som är gemensamt etablerat som besläktade egenskaper kommer reduceras. D.v.s. här där de tränades med cirka 16 - 18 tillstånd emellan som gjort positiv spridning grannskap finns en del kanske gemensamt speciellt från kortare grannskap i och med dessa egentligen de två var konkret rand-tillstånden d.v.s. flow emellan områdena närmare dem är ganska låg och redundant konvergering är därför tänkbar.

7.3. I den mån inget relevant i tillståndet kvarstår som gör att det kan aktiveras som vinnare kommer dess aktivitet med säkerhet när endast två neuroner existerar avstanna permanent (så länge indata ej ändras). D.v.s. vi vet att ej något indata finns som kan aktivera det därför att vi gjort några epoker över det.

7.4. Vad vi nu har är:

7.4.1. Ett tillstånd "vinnare" som tränat sig för allt indata aktuellt för dessa två.

7.4.2. Ett första tillstånd motsvarande långtidsminne för när den andra neuronen började denna process.

7.4.3. Vetskapen att dessa långtidsminne är ett underrum / mindre yta i ytan (jag tror men vågar ej säga det ena korrektare än det andra att man bättre här nöjer sig hellre
med det senare eftersom vi för det första behöver resonera om vad relationerna inlärda mellan dem motsvarar i dimensioner - även om jag gärna mer abstrakt-tänkande upplever det mycket korrekt att vid emergence av nya egenskaper resonera rörande eventuell strukturell förändring av hur vi förstår eller hur världen är) eller om vi så vill att det när data och vektorer är semantiskt meningsfulla att förloraren är ett mer exakt uttryck av den större "kategori" som vinnaren uttrycker.

8. Jag läste en tyckte jag mycket läsvärd artikel av några israeliska forskare som experimenterat med sambandet som noterades först eller tidigt post 1960-talet (annars tror jag kanske Small groups - Writings in social interactions, ev. 1958 - om jag ej missminner mig eller tar fel på antologi - och om det senare är denna den som har page-ranking algoritmen publicerad - ibland för algoritmer som stort data eller för PR stora nätverk krävt sent i modern data-era att bli effektiva behövdes för samma problem 60-talet vara effektiva för väldigt veka datorer alternativt papper-och-penna så ibland hittar man algorittmer som kommit nya nu i gamla antologier vilka jag bl.a. därför de tänkte effektivt lättare än vad vi ställt om till än gärna köper regelmässigt när jag hittar dem i boklådor), av Mikolov i Linguistic Regularities in Continuous Space Word Representations (Tomas Mikolov∗, Wen-tau Yih, Geoffrey Zweig, och tiden 2003 vid Microsoft Research) . Goldberg är med största sannolik rätt person (känner igen namnet även om jag gissade på Gold nu när jag försökte hitta artikeln: Mitt artikelarkiv ligger ej på nät jag når från internet-datorn) och artikeln tycks just vara rätt (ev. gjorde de några stycken liknande så sök gärna runt själva om den ej känns bra just i introducerande optimerat "align" i tänkande av konceptet vektor-offset besparande en eget tänkande):

Linguistic Regularities in Sparse and Explicit Word Representations (Omer Levy∗ Yoav Goldberg Bar-Ilan University. Ramat-Gan, Israel). Rekommenderas snarare än Mikolovs artikel som introduktion till konceptet.

Sedan får man som en modern-svensk med för min generation svenskar typiskt antingen skeptiska eller varumärkes-slava perspektiv på monarki, att vi i båda så generellt typiskt för såävl amerikaner och ryssar (där nu israel tagit in mycket kultur från båda) tycker att det känns som ett naturligt praktiskt meningsfullt exempel att räkna på överklassens rolltitlar de under diktatur lade sig till med snarare än något värdebyggande som att hitta oupptäckta samband mellan innovationer som kanske hade kunnat stoppa den globala uppvärmningen eller hjälpa över en miljard förtryckta själar i Kina bli fria. Verkligen om nu regering får ändan ur vagnen och säkerställer att också kronprinsessa gör ett ordentligt ärligt dagsverke att de ej kan användas nog i vilken som helst av dessa länder. En serie under ett år besökande säg USA flera gånger kompetent gjort (d.v.s. stort i hur det märks) och upplevt naturligt att det blir flera gånger (d.v.s. etablerar något varaktigt) så att det inte bara känns genererande med svenskan som igen kommer och försöker sälja dem vapen, AGA-spisar, och pappersmassa (eller vad vi nu säljer utrikes idag).

Låt A vara ett tillämpningsområde där man idag löser ett problem dyrare, långsammare och miljöfarligt med lösning X1.

Låt B vara ett tillämpningsområde konkret avgränsat och distansierat från A men likväl i dess strukturella samband och processor är fullt jämförbart (på det sätt som ex. infrastruktur kan vara det i delar, eller ett land är till sina strukturella samband med myndigheter, riksbank, huvudstad o.s.v.) där man idag med lösning X2 tjänar grova pengar samtidigt som X2 är mer varaktig därför att X2 innebär att man kyler med en ny molekyl som kommer ta EU minst tre år att förbjuda medan den vi har i X1 redan kommer vara förbjuden om några månader. Så både ekonomiskt starkare och långsiktigt rörande miljön.

A, B, X1, X2 är vektorer som representerar vetande över allt relevant i processerna industriellt, ekonomisk-verklighet, såväl del av ett gemensamt rum som innehåller andra koncept p.s.s. D.v.s. ej olikt mina 300-FF (särskilt när kombinerande 300-CC) även om den första för bra många år sedan algoritmen för att hitta ej upptäckta innovationer i ett område som kan tas till ett annat område där det också fungerar men man ej upptäckt det bör vara ordentligt bättre (om än lite långsammare) än denna.

( A - X1 + B ) -> C'

Där C' uttrycker den information som ligger i L1-distans p.s.s. att den direkt är transformerad till tillstånd i vektor på sådant sätt att vi enkelt och omedelbart kan få ut en begriplig tolkning genom att söka de närmaste grannarna till C' bland kända vektorer. Jämför gärna med mitt resonemang i Similarity beräknad av similarity cos och L1-distans rörande den information L1-distans i mina 300-vektorer kan argumenteras ha. Diskuterar vi bredare vektor offset för algoritmer likt LSA eller skipgram vågar jag dock ej påstå att man lika självklart direkt kan se varifrån denna aktuell effekten kommer i och med dessa har informationen i vektorerna utspridd med samband mellan dimensionerna (så åtminstone för LSA och förutsätter jag som självklart för Skipgram men minns ej att tittat på något officiellt här eller någonsin implementerat den från förlaga och när gjort har det ej varit aktuellt att bygga representationer utan bara göra detaljer i helt andra sorters algoritmer som metod ad-hoc propagera vetande från kontext pågående till vektorer associerade till symboler som sedan jämförs). Vi inser att det ej är orimligt att exempelvis se att:

1. En dimension som har att göra med amerikanska romantiska föreställningar eller kanske politiska system kan ha ungefär (medan avståndet som differens till säg kärnkraftverk - annat ämne, annat språk, samt innehåller "ä" vilket alla tre påverkar i mina 300 vilka bottnar ut antalet ord vid cirka 350 000 tusen men där viss prioritet för att få med ord från ganska många ej ovanliga språk togs framför att täcka upp annat även om givetvis all engelska ej annat än otrolig finns med: Dock 80000 vanligaste orden d.v.s. engelska ord troligen alla fick mer träning... Att något fullständigt ovanligt namn från något litet språk - kanske fyra träffar på Google totalt - finns med har viss elegans såväl som värde men det är desto mervärde att garantera att vanlig engelska fått ta allt utrymme det behöver) samma L1-distans King och man som Queen och kvinna. Och där skillnaden i avstånd ej orimligt ges via differenserna mellan King och Queen, Man och Kvinna.

En sociologisk tolkning kan tyckas presentera sig men tror jag är feltänkt. Samband har snarare att göra med "shaping" av distribution samtidighet grammatiska relationer har. Det kan existera i vektor-informationen ett ej litet antal fler liknande "områden" som kan realiseras ut (helt givet finns det enormt mycket information i vektorerna givet metoderna de normalt skapas via och mängden träningsdata som normalt används där metoder för att effektivt använda färdiga vektorer ej nått alls långt och står på att beräkna L1-distans, L2-distans och cosinuse-similarity). Dock kan det vara så att sådana metoder ej är lika lätta att bara hitta genom att man ser något praktiskt intressant när man räknar runt med dem: Det kan vara mer icke-linjära samband så som ev. polynom motsvarande grammatiska relationer som ej är just lika linjära som den mellan typiska verb-argument till andra verb-argument. Ta säg intensiteten hos vad inducerat i träningsdata från adjektiv och verb föregående verb-1 görande när generaliserat av all träning att vissa följd verb i säg enklast (och mer givet att informationen finns där även om jag ej ännu givit upp på att se om jag kan hitta någon som gjort det - d.v.s. jag har ej alls satt mig och experimenterat igenom en punkt ej helt otroliga funktioner här eller i övrigt - en svårslagen metodik på många sätt - alla så vitt jag vet - mycket bättre - ordentligt snabbare - än matematisk-förståelse: Gör funktioner i tur och ordning på vad man hittar bläddrande runt i Beta väljande ut funktioner man tycker man känner igen och sett ospecifikt i något relaterat språk, och låt datan pröva runt med dem).

Notera att vi i resonemang ovan förutsatt att vi gjort operationen som Mikolov gjorde den d.v.s. istället för:

( A - X1 + B ) -> C'

Gör vi:

( A - X1 + X2 ) -> C'

Det kan tyckas mer självklart rätt här. Men innovation är nu inte lika trivialt i sin information som förhållandet till mycket vanliga roller som tas som argument till verb. Vad vi istället behöver som indata för att gå vidare är vår befintliga värld när vi approximerar bort metoden vi har d.v.s. reducerande information som har att göra med att den existerar (därför att dess existens är ej mervärde i sig). Vi litar på att A i övrigt fångar själva behoven som X1 fanns för. Vi skapar därefter den gemensamma världen där såväl A och B, existerar för men där B skiljer sig från A i och med att den ej flyttats relativt den lösning den använder. Så vi kan som första steg (efter några till mer konkreta men ej komplexa delsteg) söka den tekniska eller teoretiska relevansen som existerar mellan A och B. Och därefter om den bedöms rimlig - eventuellt efter manipulationer på A och/eller B (för ett värdefullt område kanske manuellt för att säkerställa att A verkligen har med vad som är viktigt när vi söker en lösning i vad som när det går igång på allvar är brutalt tidsödande bruteforce av en värld med gigantiska mängder information producerad från forskning- och industri där vi för det senare gärna ska inse att värde också existerar i såväl pressreleaser som lokalnyheter och allt emellan genom att där ges ej sällan tämligen exakt information om val av metod och lösning ett konkret företag valt oftast för nyheter relaterade till att man köpt något eller gått in i ett samband, eller att man i relation utan information vad det innebär tekniskt skapat n arbeten hos företag Q men där vi med expert-kunskap om affären i vårt system per automatik förstår från vad Q gör vad det handlar om. D.v.s. det finns bra information som sätter forskning och patenter närmare verkligheten att titta också på sådant.).

Goldbergs artikel kombinerad vårt koncept för att skapa en lösning som gör att de hårt arbetande medarbetande på aktör X kan fortsätta förtunna ozonskiktet några år till (de lägger sitt "trumf(/p)" i det hårda kortspel affärsvärlden är) kan vi se lite av det potentiella värde man kan spekulera eller ej ska utesluta kan existera när ett tillstånd systematiskt meningsfullt från träningsdata subtraherar (relativt additioner från andra tillstånd) information till ett annat tillstånd.

Trivialt vilket jag insåg reflekterande så här långt första gången (och där ett tag trodde att jag sett fel på möjligheten från det) kommer denna relation ej vara något annat än ett förhållande mellan de grannar den har som manipulerar den. D.v.s. egentligen samma sak som uttrycker självorganisationen. Emellertid inser vi att vi med relativt få (om än delvis komplexa men ej kostsamma prestanda alls) tillägg kan se processen som del av något mimicking lateral inhibition (länkar nedan) resp. den organisation vi uppleva oss läsa in och mena att pyramid-neuronerna har får vi vägar att få ut mer från vad som skapats. Men jag behöver troligen reflektera det här latent pågående ej aktivt ett tag till innan jag försöker skriva det (och därefter troligen om det nu faktiskt har värdet vila ett antal månader).

Ev. är detta förövrigt kanske något tänkte jag precis som man kan se en motsvarighet i "struktur" för en algoritm som utnyttjar information i flera tidssteg för att prediktera framåt från en jag har i en antologi från tror jag 2001 rörande smarta-kort där algoritm för ett angrepp presenteras (som det blev några år som det slumpades vad jag alltid utgick från om jag försökte göra något liknande). Jag får ta och slå upp den tror jag. Operationer där motsvarar ju kanske vad vi här kan se tillstånden som.

Neural inhibition | Scholarpedia
Lateral inhibition | Wikipedia (konceptet förstås bäst genom att göra det med papper och penna för ett fåtal neuroner).
Kohonen network | Scholarpedia (skriven av Kohonen själv: Det kan ha sina poänger också om min erfarenhet i allmänhet är att standard-algoritmer man ej mött innan bäst lärs först från exempelvis presentationer från föreläsningar universitet snarare än någon ambitiös artikel eller uppslagssida skaparen själv skriver).

"Operationally, up and down states refer to the observation that neurons have two preferred subthreshold membrane potentials, both subthreshold for action potential generation."
[...]
"Inhibition is everywhere apparent in the cortex. Any strong stimulus applied to the cortex evokes a clear IPSP component as a part of the response. Both feedforward and feedback inhibition in the cortex are mediated by the wide variety of GABAergic interneurons, and any activation of pyramidal neurons invariably leads to a graded inhibitory response that could act to balance any mutual excitatory effects among pyramidal cells (Haidner et al., 2006; Rigas and Castro-Alamancos, 2007; Destexhe et al. 2003; Rudolph et al., 2007). This offers a simple network mechanism that could create Up and Down states in pyramidal cells and not require any particular cellular mechanisms like those in striatal cells, and that mechanism has been studied in a number of variants (Bazhenov et al., 2002; Compte et al., 2003;Holcman and Tsodyks, 2006; Yuste et al., 2005). In all, the Down state of the network is a state of mutually-enforced quiet. Any input to any subset of cells will trigger some mutual excitation and some associated inhibition. If enough excitation is present, the network will re-excite itself explosively, and the cells will depolarize toward the Up states. The inhibition generated by pyramidal cell activity will also be recruited,, and the combined excitatory and inhibitory conductance will impose a more negative reversal potential for the net conductance change. If the balance of excitation remains high enough to maintain self-sustained activity, the effect of the network on any one cell will appear as a synaptic conductance with the reversal potential set by the balance of excitation and inhibition. "

Up and down states (Charles Wilson) | Scholarpedia

Antar vi att avsaknad aktivitet för tillstånd förlorande gör att den ej påverkas fortsatt (vilket givet gradient descent tänkbart ej behöver hanteras: skillnaden mellan tillstånd och träningsdata den får negativt av andra lär ha konvergerat till något de rör sig i och omkring). Arbete för vår vinnande neuron fortsätter. D.v.s. tillståndet kan tolkas som ej ännu stabilt där vinnande är i ett icke-equilibrium-upp. Oavsett om ännu i stabilt eller ej stabilt tillstånd: Förändras indata tillräckligt får vi effekt motsvarande vad man beskriver i citatet ovan.

Vektorer för n-gram, entiteter och fraser skapade ad-hoc från vektorer ord

2016-09-04

Tidigare publicerat:

kan upplevas skilja ut sig som lite högre värde att läsa än genomsnitt just för den aktuella frågan:

För översikt över området composition sista åren läser vi mest effektivt just Baroni. Frågan är emellertid om inte själva den tillämpningsdomän som ligger kanske närmast till uppenbar gör att man hamnar i fel utgångspunkt till problemet.

Istället för att fråga sig vilken till metod ej redan jämförbar som finns och hur man tränar eller i detalj annan väg skapar den praktisk kanske man kan se fler möjligheter genom att reflektera hur man kombinerar bäst för att optimera mängden information man arbetar upp från text samlat analyserat över tiden:

Propagerar och samlar upp värdet ex. frasen som sig bidrar med i form av information.
Propagerar värdet av vektor-representationen - kanske en av flera där man egentlig mening propagerar resp. av dessa också - och gärna när kombinerat föregående hjälper dem att uttrycka ut mer av sin information bättre. De tenderar för alla vanliga metoder ha mer värde än normalt praktiskt kommer ut. Om än kanske inte på nivå - eller ens i närheten med - själva bitlängden av av de 399 - 1299 32 eller tror jag säkert ofta 64-bitars flyttal har: 2^(1200 * 64) men för lite perspektiv på vad mer än själva positionen som ryms.

1. Utnyttjandet av endast ett ord ger oss om ingenting mer frekvensen som funktion av tiden och kontext. Praktiskt nog får jag säga att om vår vektor-representationen orden är skapad som typiskt LSA görs och vi i upparbetning skapar upp nya vektorer så att säga (jfr SOM) ger det indirekt högre prioritet på det språk som intresserar oss med mindre prioritet på udda ord vilka ofta tycks för mig både på egen och andras gjorda så här över-värderas. Ty själva tiden arbete på ordets representation oavsett att mer data tillförts ökar. Emedan vanliga men för oss intet-sägande ord tydliggörs allt mer som varande just detta.

2. För en noun-fras sig en entitet på ett eller flera ord även om vi ej antar hantering ordning (ex. som för ngram-modeller utifrån position eller kontext av föregående ord eller mer esoteriskt / nytt via någon av de metoder med utgångspunkt extrahering och komprimering / dim-red. till vektorer som finns) resp. ord givet omedelbart kontext av entitet som n-gram med övriga ord i denna.

3. För relationer mer i mer mening av ontologi / thesaurus eller i dokument från koncept ex. i titel undersida till upparbetat eller skapat kontext från huvudtitel + abstract + taggar (och / eller vanligare men upplever jag för välkända journaler adderande värde men ej lika bra som informationsbehandling titel och abstrakt - dock bättre numera för de flesta journaler avseende taggar) just relationen koncept-2 givet / inom / samtidigt koncept-1

4- Mer konkret relaterat Baroni's ett adjektiv verkande på ett noun kanske vi här frågar oss hur vi tar information effektivt från mest verkningsfulla adjektiv för att samla och bearbeta till vetskap om resp. adjektiv. Vilket kanske visar på andra möjligheter möjligen mer effektiva. Jag har här varit mindre engagerad givet att jag tidigt konstaterade att jag kan använda EMI som viktning av ord (där adjektiv tenderar att mindre ofta ha datakvalitet EMI sämre än en god bit ovanför genomsnittet alla ord, och får erkänna att jag i denna punkt snarare tar befintlig metod ej utnyttjande dessa vektor-representationer som exempel. Viktning emotionell intensitet eller jämförbart mått konceptuellt föga relaterat approximationen av position i det semantiskt illustrerande rummet är också relaterat diskussionen om olika typer av distanser i Ett alternativt förhållande relaterat distans mellan vektorer eller det multi-modala i bild tillsammans med ord (där jag nog tror att vi åren som kommer blir trygga i att vi alltid har en gemensam representation aktiverad där emellertid nivån av bidrag från kärna visuellt eller motsvarande som bara läsande ordet samtidigt kan variera från hur vi tar in konceptet: ex. bild eller ord, såväl som koncept - görande ex. inte bara en bild samtidigt relevant förstärkande utan även ett mer illustrativt visuellt text-språk förstärkande upplevelse såväl som att förståelse bild resp. ord kan störas av dålig information i resp.): Multimodal Distributional Semantics. För resp. ord gäller ju oavsett semantiska vektorer att arketypisk riktnings-mening denna verkar på styrande tolkning mening i övrigt finns: More indikerar mer av mer medan less ligger i motsatt riktning. Viss semantisk interferens är nu emellertid fallet för många adjektiv ej lika "rena" i hur de bidrar till mening som more och less: Kallande nu något känt rött eller något rött i en bild som green:ish kan inducera störande interferens eller alt. vara fullt naturligt om givet kontext över resp. är grön-politik: D.v.s. vi kan även här se en riktning som kan gå positivt eller negativt / Upp eller ner / Mer eller mindre.

Detta besvarar väl i och för sig inte hur man bäst kombinerar ord till ex. noun-fraser eller entiteter. Men jag upplevde att själva processen som sådan rangordnade flera metoder jag prövade.

En till kommentar allmänt för vad jag läst i domänen är att jag tror man ej fullt ser skillnaden i effektens utsträckning mellan de två enklaste operatorerna för kombination: Elementvis addition resp. multiplikation.

Resp. ensam (och oavsett vad som ofta sägs är de var för sig ensamma vad som kräver mer vid sidan om ex. kontext-beroende vikter, kombinationer av olika slag eller något, om ej prestera mycket sämre än vad som är möjligt med den information som konkret finns i vektorerna skapade med de vanligaste systemen: Många jämförelser är uppenbart defunct här) kan man först reflektera och pröva att generera sorterat de mest lika ordvektorerna till de kombinerande vektorerna.

Vilket ger mest relevant additionen möjlighet att grovt kvantifiera utan att behöva ge sig in i direkt ockult matematik varje hederlig kristen man ej ska behöva resp. som förstärks från uppenbar elementvis likhet ( två stora i genomsnitt / L2-normaliserat blir stort ) resp. "hastigheten" över kombinationer av att man smetar ut och medelvärdesbildar meningen till vad när det första ej bra räcker till gör det svårare att se skillnaden i mening.

Klustrar vi förövrigt resp. för entiteter flergram är jag inte främmande för att man tidigare och enklare upplever additionen mer naturlig. Men det tycks också som vi kan beroende på hur vi hanterar multiplikationens parametrar via ex. power kan få ut fler även om de gärna naturligt kommer tendera att bli de smalare eller något av det minsta gemensamma troligare (säg lite överdrivet för flera metoder att skapa vektorerna vi arbetar med: Men om vi säg har också feedback tillbaka från långt borta andra sidan via ex. folding där utsmetning redan sker kanske en bra sak???).

En fråga relaterat själva riktningen föreligger också betraktat elementvis. Egentligen borde jag kanske bäst avstå från resonemanget här. Mycket möjligt att jag tänker fel där flera andra saker inverkar när testar praktiskt. Men säg att vi nu har vektorerna ortogonala över resp. position vektorerna i mening av att man faktiskt effektivt där har en motsvarighet i reducerad korrelation mellan dem (konceptet att de är icke korrelerade stämmer emellertid inte i någon tillämpad mening på NLP: Tvärtom kvantiserbar redan flergram-s entiteter kanske ej orelaterat här). Men detta har nu skett givet antagande och operationer på indatat medan vad vi opererar på tenderar att skilja ut sig. PMI är ej en dålig operation skapande vektorer - eller för den delen andra definitioner av mutual information: Troligen är de alla ungefär det samma - eller för den delen mått som inverse document frequence som vikt skapande vektor-representationer av dokument-fragment (jfr discourse-förändring) upp till hela dokument eller större (jfr information retrieval). Enskilt element utan absolut-belopp mellan säg 0.2 och -0.1 en position får vi position riktning medan vi för multiplikationen hamnar negativt. Differensen till det 0 som när över alla jag ej tryggt ser om man borde praktiskt hantera som definierat konkret 0 eller se odefinierat är ej den samma:

1. Söker vi generera ut närmaste ord-vektorer snarare än vektorer av kombinationer jämförbara i typ (det senare är kritiskt just för multiplikation eftersom magnituden förändras radikalt för varje multiplikation redan elementvis medan det fungerar hyggligt för resp. jämförelser flergram till ord eller ord till flergram representationer: Skapar vi ex. upp representationer från flergram över något ämne får vi om t.ex. topologiskt sorterade SOM ett uttryck av ordets förekomst över de flergram som påverkat skapat av resp. dimensions typiskt närmaste koncept som godtyckliga entiteter och flergram: Jfr mutual i mutual information som påverkat en dimension uttryckande information science såväl som några runt ekonomi via sådant som mutual trust. Men som sagt ej riktigt bra) får vi ta ner magnituden till samma som för orden. Den metod uppenbar för mig för detta (osäker om best practise) är via kombination två ord kvadratroten eller egentligen en konstant a som är något mindre än 0.5 (försöks beräkning av default a för alla kombinationer utan hänsyn resp. ord gav 0.4: Från inlärning av hantering två-gram redan skapande vektorerna vs. skapade ord. Nivån torde motsvara förlusten information via operationerna i worst-case punkterna givet att jag ej vid träningen värderade orden från förekomst globalt corpus utan allt värderades lika). Sign lyfter vi ut så att säga: Sign * ( abs ( x(i) * y (i) )^a ).

2. P.s.s. sätt - eller lite jämförbart i koncept snarare - som att vi i en språkmodell kan skatta sannolikheten av ord A givet ord B med P(A) * P(B) (approximerar P ( A | B ) hanterande dem som oberoende d.v.s. lekande att allt verkligt i språket om sambanden mellan orden ej finns: Allt är en apa som pekar på banan och ev. samband mellan sådant är mätbart bara i så fall flera peka på banan efter varandra) gäller att representation A multiplicerat över vektorn med B vid generering närmast ord-vektorer (givet magnitud hanterat) approximerar de närmaste för två-grammet skapat direkt till vektor-representation (om också korrekt viktade via a eller något specifikt).

3. Medan additionen normaliserar approximerar den gemensamma mängden närmaste koncept genererade följande viktningen av resp. ord och resp. ords uttryck i varje dimension.

Är dimensionerna - positionerna resp. vektor för resp. ord - meningsfulla som för mig kan man också se en del skillnader genom att skära dimensioner / mening man ej är intresserad av. Är vi ej intresserade av mening relaterat länder vi opererar på som har att göra med personer, sociologi m.m. använder vi dem ej - och om vi är relativt mer intresserade av mening relaterat filmindustri resp. litteratur värderar vi upp dem. En ökad förlust i diskriminerbarhet för just särskilt fågram eller ord, och helst då mycket allmänna koncept så som ord med många meningar eller samband blir fallet växande snabbare tycks för mig (men ej noggrant kontrollerat) vid multiplikationen medan vi för additionen kan särskilt när båda är hyggligt breda starta lite grovare men ibland vinna utan särskilt utvalt för orden när vi smalnar av saker. Detta kan dock varierar ordentligt och är också svårt att se eftersom vi redan i ett fåtal dimensioner har ordentligt med information.

Accepterar vi konceptet av representation av koncept från koncept de är relaterade via - ofta i dessa sammanhang från orden i deras närhet corps - kan vi för resp. genererade närmaste förekommande till orden såväl begränsa värden genom att för topp N tro att de gemensamma eller snarare om ej N är litet värderade i kombinationen (rank eller likhet kanske) se dessa som beskrivande det gemensamma konceptet. Vilket absolut inte är dåligt på något sätt. Eller ta konsekvensen av att vi redan där är i en dyr metod vi normalt ej vill göra utan gör något särskilt viktigt och generera resp. ord från genereringen och utifrån lämplig värdering från resp. A och B först till resp. först genererade ord vidare till de från dessa genererade orden värdera de sista. P ( ord typ sist genererat | ord som genererade tillsammans med något kontext kanske bara alla ord eller något som kom med A och B).

Gör vi nu detta för en kombination likt A och B högst verklig och gärna mer än ett tre-gram (ty när orden är fyra eller fler i specialistområden är de väldigt talande med få "noise-problem"). Och är trygg i hur vi exakt gör en generering som ovan. Är det en till väg att resonera och jämföra kombinerande operationer för composition. Genererar de bättre eller sämre från kombinationen? Praktiskt är det kanske enklare när man fortfarande väljer operation om man kan utnyttja vektorerna för orden (men jag tror att det kanske begränsar lite men det är möjligt att sätt att kombinera jag ej fick över enkelt så kanske lätt hittas av någon annan: Jag hade mindre av vetskap algebra återupplivad här och såg därför kritiskt värde av att kunna göra praktiska kontroller verifierande att jag begrep koncepten tillräckligt rätt):

Jag har här ska sägas noterat att för konceptet första lagret jämförbara om än ej exakt det samma (snarare klassificering) sett att man sätter andra kombinerande metoder klassificering som övre gräns men verkligen att man där resonerar felaktigt i beviset för det (genom att tänka sig om jag minns rätt nu att vi ska ta de närmaste grannarna från en fixt-punkt d.v.s. accepterande hela problemet med centroider som gör dem så begränsade medan vi snarare här tar det antal punkter som beskriver flexibelt och när att välja mellan finns godtyckligt beskrivande vad som perfekt särskiljer ex. två ytor: Precisionen hårdvaran resp. antal koncept i rymden begränsar och inget i övrigt givet oändlig beräkningstid per fysisk tid).

Vidare rörande viktning ord i koncept kan sägas att vi givetvis kan göra något motsvarande IDF men användande koncepten om en stor mängd är kända istället för dokumenten. Emellertid räcker sambanden från NGRAM-modeller i språkmodeller parsning eller ljud till text m.m. utmärkt med eller utan sådana metoder (lite vilket som beroende på hur man vill göra det). Oavsett med eller utan gäller att samlar vi upp information från förekomsterna löpande eller för träning får vi för ev. representation som fritt får påverkas av ord, två-gram o.s.v. så länge meningsfulla koncept, entiteter, fraser eller motsvarande ett naturligt mått av hur semantiskt ordet eller flergrammet är i mening av resulterande "rymd": Denna tenderar att praktiskt ha stora likheter med IDF i magnituden / vektorlängden / amplituden på vågen eller hur vi gör / ser på det avseende likheten mellan vektorn vi börjar med och representationen vi slutar med eller har upparbetat vid punkten. Flergram tenderar under förutsättning någon addition sker med eller utan multiplikation (just nu men kan komma att ändra det kombinerar jag med båda men multiplicerar aldrig fler än två ord i resp. som istället efter övriga operationer mellan summeras). MI-liknande relationer av typen värdera förekomsten av konceptet (d.v.s. det enskilda ordet förekommande just i konceptet ex. mutual i mutual information och / eller mer påkostat läggande något mer till förutom orden som ett övergripande kontext eller för sense) d.v.w. någon variant typiskt av P (konceptet) / P(ordet) fungerar också väl särskilt för ord med operator-liknande funktion som in, of m.m. (medan konceptet av stopp-listning känns oerhört slösaktigt med den information som faktiskt finns i resp. ordvektor skapad med typiska metoder oavsett hur svår den är att få fram bra utan att tappa beräkningseffektiviteten dimensionsreduktionen gav) - för längre koncept kanske snarast först per resp. mest arketypiskt förekommande koncept d.v.s. för mig mest aktuellt för Wikipedia-kategorier (jfr People from Sweden working [...] in movie industry borned 1987 för att hitta på en illustrerande principen).

Att se IDF som en vikt indikerande hur semantiskt tydligt ett ord är i en värld motsvarande att vi för mängden koncept aktuella totalt tränar upp en representation där alla koncept är lika sannolika stämmer praktiskt väl med vad det senare ger i amplitud.

Slutligen rörande såväl upparbetning information som potentiella problem compositioner gäller att vektor-representationer skapade såväl via algoritmer i domän neuronnät som LSA m.fl. (alla vanliga) tenderar att ha säkerhetsdefekter skapade från defekter i hantering corpus:

Smoothing som del av algoritmerna tycks lura sig för samtliga när mindre information finns för något men där informationen som finns är mycket bearbetbar i effekt den omedelbart ger (eller hur man ska uttrycka det utan att behöva sitta med resp. algoritm här och följa exempel på effekt vilket jag ej gjort för mer än en av det oavsett konstaterat det för färdiga representationer som Word2Vec, Stanfords-algoritm, ett par ev. tre varianter bag-of-word, LSA m.fl.). Upparbetning från tar dock väldigt snabbt potentiellt bort problematiken: Jag kan fortfarande se problem-koncepten komma upp som liggande högst på vissa indikations-värden så som (om jag nu minns rätt på vilken mest så) summan av sitt resp. per dimension bidrag till variansen ( (x(i) - medelvärdet av x )**2 / ( summan av det samma för alla x ) ) före (ej kontrollerat efteråt än för någon men konstaterat ej visande jämförbart som vektor-indata vid generering närmaste grannar kommande för högt) innan medelvärde subtraherats följt av division av varians resp. dim (där resp. är redan innan mycket jämförbar med varandra magnitud) och slutligen softmax där softmax gjordes just relaterat detta som extra säkerhetsåtgärd mot udda svamp-arter knappt förekommande text förutom enstaka Wikipedia-listningar, samt vissa gambling-koncept (och jag kan tillräckligt från SEO-domänen ej bara från dataanalysen för att kunna känna lite men utan att klara sätta fingret riktigt på vad jag ser det från vem vi har i ett par av dem för en LSA-representation).

Utan detta eller något annat kan dessa koncept när man har vetskap om dem existerande och systematiskt sökt var de visar sig irrationellt starka defekt användas mycket praktiskt förstörande data. D.v.s. vid säg dataanalys ej med en existerande angripare eller om man är en sökmotor användande resp. LSA och Word2Vec samt ontologiska relationer mellan koncept (lite som Wordnet) ge defekta sökresultat kommande högt utan att ha ex. gambling-koncept (dock ej av mig konstaterat testande här då jag var mer intresserad av att hantera problemen med Wikipedia koncept då det är en så stark datakälla för all överskådlig framtid) utan att ha något sådant koncept alls. Det senare kanske kan utlösa kontroll i sig eller tas automatiskt men det omvända gäller självklart också. Mest typiskt för SEO-skapade satellit-länk-sajter relaterade hasardspel är att de innehåller just ord som casio, gambling eller liknande: Att betvivla någon manuellt oavsett effekt donerande vidare att de någonsin blir manuellt kontrollerade utan det.

Också konstaterat vektor-representation skapat för först länkad artikel (vilken jag tror för de flesta är ett något lite - alla är egentligen på det stora hela samma om seriöst gjorda - oavsett av vem eller metod: Skillnaden upplever jag i den praktiska användningen är mindre än ibland indikerat i studier - Det är som inte värde på den nivån som betyder så mycket jämfört med algoritmerna där det används om ej kanske något helt trivialt som en enkel information retrieval algoritm eller liknande med rena standardlösningar utan behov ambition över det: Och kanske ofta inte ens där så det ex. klarar som värde översätta skillnad sökresultat någon märker kvalitetsskillnad av). Word2vec tror jag också ej är den bästa spontant att välja. Stanfords Glove minns jag att jag prövade och upplevde bra default (även om jag ej använde den länge alls så hade jag kanske gjort det om ej hårddisk-systemet där jag hade den avmonterades av mig och ej var aktuellt bara för den att ta upp igen). Vilka ord inkluderade om behov i specialistområde eller språk finns är av betydelse. Gällande Stanford tycker jag att de kan rekommenderas också därför att jag över åren sett att de seriöst långsiktigt hanterat sina lite tyngre programvaror eller data-koncept delade:

nlp.stanford.edu/projects/glove/

Jag bedömer förövrigt att 300 dimensioner ger en ganska stabil resistens mot problematiken säkerhetsdefekterna jfr säg 400, 500 eller stör.

Ett alternativt förhållande relaterat distans mellan vektorer

2016-09-03

Ett alternativt mått relaterat similarity och distans för vikter eller semantiska vektorer jag ej minns jag sett tidigare. Möjligen av rent marginellt värde (men ej helt uteslutet kanske av större intresse för sådant som att relatera kulturellt avstånd / likhet mot påverkan upplevt avstånd där och till att agera från arousal).

Vi representationen vektor som konvergerad position över samplat data d.v.s. ett mean i någon mening som motsvarande E. Och som konstaterat av mig experimenterande med co-variance och correlationen kan de ge lite mer men ej mer än att det saknar mening kontra beräkningskostnad d.v.s. såväl cosinus som själva L2-normen kan vi praktiskt i alla fall se som lite jämförbara (när vi ej blandar i alla fall mellan olika världar).

Så tänker vi första momentet i statistiken eller bättre / korrektare enkla välkända formler för klassificering och hypotesprövning, och betraktar först endast distansen mellan våra "medelvärlden" d.v.s. L1 distans för vektorerna. Har vi ännu ej värderat in vår varians / korrelation / co-varians hur vi nu vill se det indirekt eller direkt:

Cosinus - lämnande frågan om vi egentligen ska normalisera där - ger oss närmast correlationen. Medan vi snarst söker osäkerheten via vad jag jämförde och kallade "co-varians" för L1-avståndet.
Desto mer korrelerade de är desto mer kan vi välja att värdera ner L1-distansen.
Ofta gör man ju sådant genom division (ex. just dividerande med varians) vilket jag dock gärna när så är möjligt (ev. genom någon förändring innan) hellre för värden [0,1[ gör som multiplikation (1 - värdet).

Och vi får:

Y (X,Y) = L1-distansen / (1 - inre-produkten ) = Summan ( || X_i - Y_i || / ( 1 - X_i Y_i )

Ett förhållande vi kan betrakta från värdet L1-normen mer sällan (för mig i alla fall men av och till) jämfört med L3. Där L1 ibland snabbt detekterar problematiska outliers när satt i kontrast L2.

Emellertid önskar vi utan att ge oss in i det mer subkulturella (sekteristiska) matematiken, och istället fortsätta utnyttja form-likhet, kan vi också göra detta vidare med ett flera mått på "information". Och här med en variant av signal-to-noise som vi definierar som kvoten mellan vårt medelvärde för L1 (som vi ju om vi ska motivera den form-likhet i matematiken kan se som vad vi närmar oss om det data vi samplat för att bilda vektorerna växer fortsatt: Ungefär som medelvärdet i signal-to-noise för Imaging men här att vi ser kontext motsvarande "bildens bakgrund" definierat av endast X och Y motsvarande säg viktning med similarity för vektorer skapade addition av vektorer för ord till ngram även om vi givetvis kan ha ett annat kontext som upparbetat i en mening eller artikel) och det säg sample-deviation vi kanske kan se vår (1 - similarity) som (lämpligt normaliserat eller ej normaliserat beroende vad korrektare här) motsvarande Alternative definition i Wikipedia.

Och vi tar (se Information theory and neural coding - nästan unikt pedagogisk och som jag gärna av och till över åren läst igen - för en excellent genomgång av hela den här familjen av mått ofta använda för avbildning aktivitet ex. i hjärna):

(1/2) ln ( 1 + Y )

Det hade kanske varit trevligt att skriva om uttrycket för gränsvärdet mutual information mot noise ovan med dom trigometriska funktionerna (Logarithm | Wikipedia) så hade man kanske hamnat slutligen i något med viss form likhet cosinus igen även om det känns mer osäkert (normalisering kanske spelar stor roll hår var vi väljer att tro oss vara) om vi är på den här föreställda enhets-cirkeln (tror jag det kallas - medan jag själv vägrar givet approximationsnivåerna sampling-språk, avrundningar m.m. se sådana resonemang som annat än just här viss meningsfullhet ibland men egentligen som softmax m.m. bara praktiska funktioner med de egenskaper sökta på approximationsnivån vi ligger).

Likväl hade jag egentligen önskat mig hamna där jag fått en kanske bakåt 1960-talet oftare diskuterad inom psykologi runt inkongruens-konceptet. Lite som ett mjukt V för förhållande inkongruens och arousal. En egenskap i människa om vi tillämpar teorin något av vad sökt här om ej just vad som diskuterades teorin är att vi kan se avståndet till något - det är främmande för dig - är stort vid inkongruens och detta i en rent kognitiv-dimension där avståndet kan reduceras efter lång tid om du vänjer dig vid något eller lär dig det - Men det finns också (säkert praktiskt ofta för överlevnad) en snabb eller om vi så vill kortare väg genom att öka upp arousal - D.v.s. bli väldigt arg eller väldigt flykt-benägen.

Det var min tanke i alla fall. Men detta kanske inte visar sig riktigt vara rätt väg för vad jag vill göra alls. Annars kanske jag avslutar det här framöver här också.

Det bästa vore egentligen en riktigt arektypiskt matematiker för sådant här hellre än att utnyttja min mer visuella resonemangsförmåga även om den ibland likt arousal vid incongruens kan med lite tur ta en långt ganska snabbt genom att utnyttja en annan uppsättning dimensioner (ovan form-likheter i språkkulturen aktuell inom matematiken). Typiskt för när jag gör sådant kommer informationsteorin in varande det lilla stycke matematik jag minns mer av medan mycket annat kan kräva plågsamma ej på något sätt direkta (om vi ska ge en snäll tolkning av vad man någonsin kunde) återupplivande av kunskap.

SOM och distribuerade rep. ord: Krypteringsanalys, Intrångsdetektion och SEO

2016-07-17

Givet följande kan man naturligtvis fråga sig om SOM-algoritmen kan användas för krypteringsanalys av enklast ECB-mode:

Emellertid etablerar vi en kodbok (en relevant namnlikhet använd traditionellt speech-processing såväl kryptologin för ECB-mode kanske först namngiven i DES-standarden - electronic code book där feedback och annan påverkan mellan block som krypteras helt saknas: samma indata och samma nyckel krypterar alltid tillsamma data oberoende av föregående och framförvarande klar- eller chiffertext vilket etablerar lägre säkerhet genom att vi kan bygga upp look-up-tabeller färdiga förslagsvis som man gärna gör det lagringseffektivt vanliga filstarter med vanliga lösenord - eller dyrare men ej brutalt för DES 56-bitar alla nycklar - mode d.v.s. praktiskt vad vi här önskar göra) där vi önskar att resp. flergrams-koncept (ex. Hans Husman och/eller ord får en meningsfull positionering i rymden är den korrelation den icke-linjära komponenten i SOM-näten skapar (d.v.s. från spreading activation i rent topologiskt - "fysiskt" - grannskap av vinnande nod mycket intressant.

Från: Att bygga den relativa korrelationen (den icke-linjära komponenter) under träning av självorganiserade kartor (2016-07-17)

Emellertid är blockchiffret - oavsett om SP-nätverk likt DES eller bättre illustrerande här skapat med envägs-hash-funktioner kryptologiskt "säkre" i mening av att man troligt ungefär som engagerad användare kan skatta arbetsbelastningen ungefär att angripa - gäller att de syftar till att reducera information analysbar i mening korrelerad nyckelmaterial resp. intext.

Om krypteringsfunktionen fungerar väl ska därför ingenting vettigt clustras eller uttrycka sig i sorteringen av tillstånden. Något man kanske vid tillfälle kunde roa sig att pröva kanske med MD5 nedskuren till sista 32-bitar eller motsvarande från i indata data som där tenderar att clustra sig mycket meningsfullt (eller kanske serier av AAAAAAAAA, AAAAAAAB m.fl. varianter förändra sig jfr innan en bit).

Dock eftersom varians helst också av sådan sort som skapats av ändringar jfr normalt data vi ej förutsätt är vad intrusion detection normalt söker utnyttja om ej regelbaserad har SOM (bl.a. Kohonen) såväl som andra liknande algoritmer ibland tillämpats här med idag en hel del vill jag minnas publicerat.

Ett värde såväl som ej korrekt genomtänkt risk är möjligheten att bibehålla träning kontinuerligt etablerande förståelse av vad som är normal värld även om den förändras lite över tiden (en till användare, ny applikation o.s.v.) utan onödiga larm. Vissa kontinuerliga förändringar kan ju emellertid reduceras i dimensioner ner till med varandra jämförbar representation (det är själva poängen här görande analys generellt effektiv längre och djupare samt hanterande förändringar normal frisk ej angripande användning möjlig utan en massa okynnes-larm). Vilket kan göra det möjligt - speciellt när förståelse djupare teoretiskt hur sådant här görs träning resp. praktiskt typ av data utnyttjat - att introducera angrepp som kontinuerligt över en längre tid tränar om nätet till att uppfatta angrepp som normal ej angripande användning.

Ej olikt praktiskt kanske som min diskreta antydan om möjlig SEO genom att förstå svagheter i de representationer av ordvektorer sökmotorer kanske använder där vissa typer av ord (jag gav tror jag ex. på vissa svamporganismer) p.g.a. strukturella utmaningar corpus (Wikipedia användes som exempel då vi där kan se det orsaka just detta) kommer tendera när vektorerna används för similarity att generellt ge överdriven likhet. D.v.s. tänkbart ge sökmotor-träffar i större utsträckning irrelevanta därför att ordet upplevs höra i "mer ämne" än egentligen korrekt. Diskussionen finns i en av inläggen nyligen om SOM.

Självorganiserande kartor: Styrd bredd representation av resp. typ av ord

2016-07-11

En enkel egenhet illustrerande den självorganiserande algoritmens natur (fortsättande Att skapa distribuerade vektorer för flergram koncept från distribuerade vektorer för ord) i representation av indatats distribution såväl som visande på en enkel sak troligen ofta användbar som den utnyttjas är hur vi kan styra bredden i antal tillstånd en större subtyp av ord tar upp.

Gissningsvis används SOM mer sällan i domän av ord genererat från sannolikhetsfördelning när representationen är tänkt att avspegla likhet till ämnen. Mer allmänt är det vanligare att det föredras att sätta dem likhet i trolighet i mening av att vi vill kunna beräkna varje ords likhet p.s.s. Också tror jag att det är en konsekvent av att distribuerade ordvektorer gömmer hela frågan och data tas som det är utan att egentligen uppenbart behöva bry sig om det.

Om orden nu kommer slumpmässiga och lika sannolikhet kommer antalet tillstånd som optimeras mot en avgränsbar typ av ord som avspeglas av sannolikhetsoperationen så som namn personer eller geografiska orter avspegla antalet relativt alla ord.

Önskar vi ej detektera från tränade dimensioner och därefter träna för egen representation ex. namn och orter kan vi ge dessa det antal tillstånd och därmed indirekt exaktheten inom gruppen (och ev. globalt kanske också beroende på tror jag hur grannskapet hanteras i slutet men det är lätt att ta fel i sådant) vi önskar skapande en sannolikhet för dem vi tycker lämpligt.

För det behöver vi veta ungefär andelen ord hörande till dem vi ej känner till bland alla ord vi har. Samt ha en tillräcklig mängd ord som tillhör dem (tillräcklig mängd om man inte ska göra mer komplexa saker relaterat varierade grannskap m.m. eller kontra sannolikheter mot enklare tränade kategorier eller ännu enklare arketypiska medoider för några typiska ord d.v.s. nog av dem för att göra detta). Vi korrigerar för antalet typer vi mnissar och drar ned sannolikheten för orden i kategorin så att deras annars linjära 1-1 motsvarighet i bredd minskar till önskat antal tillstånd.

Förutsättningen är att den gemensamma natur i vektorerna vi skickar in kommer under självorganisationen vissa något gemensamt dominerande ev. annat gemensamt. Exempelvis kanske vi kan tänka oss att vissa personnamn tenderar att vinna på andra tillstånd än de som de flesta personnamn gör tillsammans med väldigt annorlunda ord. Hitler kanske vinner på ett tillstånd tillsammans med diverse ord relaterade WII (under sista steget ev. körande med föga eller inget grannskap kan man självklart körande sådana kategorier tvingande där dom hör hemma så att Hitler korrekt tränas med alla andra namn oavsett kulturellt troligare judiska eller anglo-saxiska).

Värdet av det hela ska ej underskattas praktiskt givet att man lätt hamnar på hälften eller mycket större andel beroende på totala mängden ord som är just relaterat orter och personnamn. 100 - 200 000 sådana kontra 50 - 75 000 kanske är ganska normalt (beroende på antal språk utanför orter och namn men för i engelska samples ej helt ovanligt förekommande säg upp till 75 000 - 100 000).

Vidare även om vi tränar med samma sannolikhet för samtliga vektorer kan vi fortfarande summera kontinuerligt sannolikheten för annat globalt corpus orden som gått in i ett tillstånd och göra olika skattningar från dessa. Dessa tenderar gärna att jämna ut sig över tiden och bäst så för flergram liknande meningar. Om stabilt representerande ca 3.5 miljoner flergrams-koncept till 300 tillstånd a' 400 värden är skillnaden tämligen liten åtminstone så länge spreading activation pågår. Och är ett sätt att följa acceptabelt mer dynamiska förändringar ex. manipulerande något för att få den topologiska ordningen att förändra sig riktat.

Mer Kohoonen: kohonen som site:arxiv.org

Att skapa distribuerade vektorer för flergram koncept från distribuerade vektorer för ord

Detta är ett arbete ej helt slutfört för mig så för nu avgränsar jag till några intressanta egenskaper.

Poängen med att utgå från distribuerade vektorer ord är effektiviteten. De blir relativt begränsade i antalet: För mig cirka 500 000 ord medan bara givna flergrams-koncept jag hanterar som kända är närmare 3.5 miljoner. P.s.s. lättare att sampla. Vidare om begränsningar detta innebär kontra flergrams-koncept kan hanteras går det att se som en väl separerad datatyp med föga avancerad inverkan ej nödvändig om bättre tillgängliga alternativ externt kommer att göra själv.

Vi vill därför se ordrepresentationen som given konstant under längre tid medan det är önskvärt för flergrams-koncepten att kunna kontinuerligt räkna dem från ex. varje dags data (efter viss grundkörning).

För vektorkvantifiering (där jag använder en egen variant med första utgångspunkt SOM / Kohoonen men för att fungera bra för 3.5 miljoner grund-koncept under förträning resp. diverse obestämt större mängder title-headings). I princip har vi tre enkla sätt att skapa varje flergrams-koncept från ord-vektorerna avseende data vi skickar in i SOM-algoritmen (andra varianter inkluderande neuronnät, träning av diverse vikter m.m. finns publicerade varav viss vikthantering kan ge något värde även om själva den efterföljande processen ersätter mycket av behovet - huvudsakligen för mig viss förståelse av konceptens uppbyggnad snarare än träning ex. mönster i Wikipedia-kategorier för snabb-parsning: Persons from Sweden born 1811 ... EVENT ... o.s.v.):

1. För flergrams-koncept naturligt bestående av avgränsande "noun-topics" är det mycket rakt på sak att addera ord-vektorerna för efterföljande normalisering. Blandning i underliggande samplings-värde kan ge störningar. Med de vanligaste algoritmerna för att skapa ord-vektorerna kan låg-samplade ord tendera att uttrycka högre snarare än lägre likhet ej avspeglande nivå osäkerhet i data (vilket ej känns praktiskt att försöka lösa genom viktning sannolikhet: snarare medvetenhet om risken så att sämre data ej propageras).

2. Vi kan vidare kombinera i vad jag kallat min datatyp för som korrelation. Tänker vi oss ett koncept bestående av två ord kan vi reducera resp. ords förmåga att föra vidare nivå på information uttryckt över resp. position i vektorn utifrån nivån av det andra ordet på samma. Det går att göra mycket funktionella varianter här som kombinerar positionerna med övriga dimensioner i tur och ordning och summerar det hela (diverse standard-koncept från linjäralgebra visar sig här - för första gången efter mer än 20 år tror jag direkt motsvara en algoritm såväl vara vad jag eftersökte i den samma kursboken).

Emellertid är de slöa och för de vanligaste typerna av distribuerade ordvektorer adderar här tycks det för mig föga värde jämfört med att göra det samma endast position mot position. Operationen i sig här via multiplikation är ensam ganska begränsad. Dess värde är det samma som när vi beräknar likhet med cosinus-similarity (d.v.s. co-correlation skattat som kvadraten) medan begränsningen är att det i sig ej bra fångar mängden information vi vill att den ska begränsa meningsfullt formad till det del-orden tillsammans mer har tillsammans.

Man kan uppleva att behovet av det övriga värdet är vad man enkelt ska hitta några enkla standard-funktioner i relevanta artiklar att testa. Emellertid är mycket publicerat snarare mot andra användningsområden än vi söker här bl.a. med stort fokus träna enskilda konstanter eller definiera operatorer för sådant som adjektiv-noun operationer krävande att dyrare matriser skapas upp (samma problem som min första variant: långsamt). Att se den summerade ej normaliserade utsträckningen av orden som hela rymden att styckvis begränsas av multiplikationen med när genomfört normalisering fungerar emellertid utmärkt för att skapa denna typ av indata till algoritmen (är det snarare slut-resultatet kanske man vinner en del på att introducera tränade konstanter i summeringen eller någon annan operation än multiplikation där jag förövrigt prövade van vid det från en massa annat man gör på data utan särskild teori att beräkna co-variansen på vektorernas positioner vilket fungerar något lite bättre men ej nog motiverat utökad kostnaden: Lite samma sak inser).

( x(i) * y(i) ) * ( K1(i) * x(i) + K1(i) * y(i) )

En udda variant jag ej använde skarpt men prövade på testfallen är att ta endast multiplikationen och förflytta den till samma storleksordning som indata. För två-gram att ta roten-ur resultatet. Indata sträcker sig [-1, 1] för mina vektorer vilket kan hanteras ex. via polära-koordinater (om vi ej bara flyttar ut minustecknet vilket är ej helt fel men ej seriöst jämfört lika lite som övrigt i denna variant med övriga metoder) som ju är ofta använda inom bl.a. elektricitet-fysik och dylikt där man kan återupptäcka en mängd räkna-exempel på vektor-fält m.m. medan man söker lämplig funktion för detta.

3. Ordvektorerna direkt. Vi kommer inse lättare i andra steget under själva träningen att detta såväl fungerar som uttrycker något önskvärt kompletterande resp. övrig metod för att ej (riskera skriver jag för att gardera mig mot att kanske ha fel) tappa information.

4. Representationer skapade från de relationer resp. flergram har med andra ord. Jag har här min vetskap om dessa samlade i min större datatyp Bluelight med tror jag några hundra miljoner förstådda relationer för nuvarande använd version här ca 3.5 miljoner flergram. Förstådda i mening generellt som att relationer är upparbetade från organiserat data d.v.s. ex. kategori-system, thesaurus m.m. (många tusen sådana), Wikipedia, journaler o.s.v. samt att brutal data-sampling datakällor internet har statistik samförekomst för resp. koncept i relation med varandra.

Detta höjer värdet kraftigt på ordvektorer genom att tillföra sådan information som ex. tas som given att man förstår i en text och därför ej uttrycks. Uttrycks informationen ej i texten samman med ordet ord-vektorn skapas från kommer den ej med. Mer praktiskt tydligt här i följande steg snabbar det upp såväl som ger adderad exakthet i resultatet vi får genom att relationer till koncept uttryckande ex. vad ett koncept här finns, relevanta händelse-datum (för fältslag m.m.), relevanta geo-platser o.s.v. För ett koncept likt ett land som typiskt har väldigt många och varierade relationer (kontra ex. konceptet location som är i särklass störst i antal relationer men där relationerna är mindre varierade) har vi ofta några tio tusen relationer som data samförekomst finns för.

Dessa fyra representationer där vi i varje fall efter varje beräkning in-vektor från ord-vektorerna har 400 positioner (minsta antal jag kände mig trygg med) tränas separat (jag har prövat en del andra varianter utnyttjande två tillsammans samtidigt men det är mindre effektivt och ev. ej fungerande sunt) enligt följande SOM-variant:

1. Vi önskar den topologiska organisation Kohoonen-näten ger därför att detta kan vi här använda för att få mycket mer av meningsfullt förstådda vektorer i slutresultatet (stegen efter träningen). Vi kan ta en vektor och förstå den ungefär direkt vilket gör diverse andra algoritmer utnyttjande datat enklare att utveckla och underhålla.

a. Den visuella kopplingen som är vad jag tror mer än andra värden gjort Kohoonen-näten populära ser jag föga värde med här. Istället tränar och bygger vi en meningsfullt organiserad "kurva" (kurvan ges när vi efteråt reducerar ner varje tillstånd till ett ensamt värde för ett koncept ex. via similarity och skapar den nya vektorn från dessa tillsammans i samma ordning).

b. Ofta diskuterat värde med Kohoonen är att organisationen gärna tenderar att uttrycka distributionen på datat. Emellertid tror jag att vi för denna typ av indata med försiktighet utnyttjar metoder annars vanliga i form av reduktion konstanter och grannskap kontinuerligt med epoker. Detta förenklar resonemang distributionen. Vidare när en epok nu går över ca 3.5 miljoner flergrams-koncept där förvisso grupper som hör samman finns görande tänkbara reduktioner i antal sample per epok möjliga men ej heller självklara att kvantifiera innan vi ex. gjort något motsvarande just vad vi gör är hela konceptet att reducera grannskap och träningskonstant med antal epoker tämligen esoteriskt. Det tar tid att gå igenom 3.5 miljoner koncept. Mycket funktionellt är att efter kanske viss brett grannskap några timmar tills hyggligt meningsfull sortering (geo-koncept tycks komma efter varandra, person-namn olika kultur efter varandra med ej konstig sortering skärande mot geo-närhet d.v.s. kinesiska namn med kinesiska, engelska namn med engelska o.s.v. och asiatiska namn-kulturer bredvid varandra o.s.v.) sätta det på en tydligt lägre konstant än vanligen normalt diskuterat (något relaterat antalet koncept kanske) och slumpa så gått det nu går (jag kör konstanta filer skapade slumpmässigt för ordningen men som ej skapas om alt. för en grupp fil sorterade alfabetiskt där jag slumpar antalet koncept som hoppas över medan BDB tenderar att vara för långsam för mig) så att vi ej skadar korrelation vi vill samla med mer självklar men ointressant sådan (ex. få en dimension med alla personer som har förnamn Peter) såväl som konstant grannskap.

Värdet grannskaps-spridning är förutom att se till att vi får meningsfull sortering här också att:

1. Tagande bort hela problematiken med outliers vi ofta annars får vi clustering. D.v.s. ett tillstånd initieras eller sätts via koncept avvikande mer utifrån någon bedömning för att visa sig bli ensamt. Spreading activity mellan tillstånd kommer åtminstone vid konstant grannskap och konstant tränings-konstant garantera att det ej uppkommer (om ej antalet tillstånd är samma som antal ord).

2. Tid för meningsfull konvergens eller clustering reduceras.

3. Problem lokala minimum eller förflyttning mellan två eller ett fåtal tillstånd blir lätt att hantera. Denna problematik tvivlar jag starkt på är möjligt att få på all görlig tid när så många koncept indata tränas. Men för färre samlingar ser man det ibland (ex. nyligen några tusen ord - ej flergram - relaterade information såväl information science som bibliotek och slå i böcker m.m. vi gör eller resonerar). Adderande på några fler relevanta ord under förutsättning spreading löser regelmässigt det hela utan att man tycks ta någon utökad annan kostnad i tid.

I min variant definieras grannskapet ej endast av omedelbara grannar som för de vanligare 2D Kohoonen-näten utan fallande från antal steg vi är från det tillstånd som segrade. Det är svårt att se att nivå effekt av grannskapet är särskilt känsligt (helt annorlunda från att köra några tusen ord-vektorer på 10 till 300 tillstånd: Här för koncepten används alltid 300 vektorer vilket är mitt högsta - där stor skillnad går att se) och jag har inte lätt på totalt kanske som mest följt 20 - 30 miljoner tränings-operationer se någon relevant skillnad mellan att göra grannskap enligt:

Vinnare: 1.

Närmaste granne resp. sida 0.5 eller 0.25 (ibland hanterar jag rand-tillstånden genom att beräkna distans modul antalet tillstånd men ej för dessa).

Därefter om distans är större än något tröskelvärde exempelvis för bättre prestanda 5 - 7 eller säkrare men dyrare kanske 20 - 40 steg returnerar vi 0.

Annars beräknar jag typiskt värdet med antingen 0.5 eller 0.25 delat med distansen. Det ger en ganska vettig reduktion med resp. steg. Normalfördelad reduktion d.v.s. användande en exponentiell funktion tycks populärt. Summerande reduktionerna över alla träningsoperationer bör dock normalt ge normalfördelning vid konstant träningskonstant och grannskap. Någon poäng med här större värde av att hålla nere grannskapet samtidigt som vi har en topologisk-dimension med att använda funktioner finns heller inte. Vi kan för-beräkna varje konstant och hårdkoda.

Tidigt reducerade jag normalt med 2-potenser. 1/2, 1/4, 1/8, 1/16. Men tror varianten ovan är sundare åtminstone i mening att det är lättare att se såväl som att föga samman med storlek grannskap meningsfullt (vi kan ju med resp. variant inte ha hur stort grannskap som helst och räkna med en effekt påverkande därför att pay-load efter några steg blir för låg - naturen av detta skiljer sig något från när vi istället för mer begränsat indata vi kan köra flera hundra tusen gånger).

Resp. tillstånd av de 300 segrande i mening uttryckande högst similarity enligt två algoritmer (en för samtliga utom den använda relationer som använder två) och viktigast cosinus-similarity (på normaliserade vektorer så summan av multiplikationer för resp. position) får modifiera tillståndet på vanligt sätt för alla varianter av vektor-kvantifiering (och för den delen ganska likt en den del Newtons åldrade algoritmer för att beräkna integraler).

Färdigt har vi 300 * 4 dimensioner. Framför dessa kan vi nu exempelvis träna perceptroner eller annat hebbianskt meningsfullt exempelvis om man önskar ha en beslutspunkt om ett koncept är person (vi kommer här eftersom utsträckning tillstånd avspeglar distributionen koncept ha mängder av dimensioner relaterade geografiska koncept såväl som historiska såväl som nulevande personer) genom att träna perceptronen att värdera samtliga person-dimensioner (oavsett association namn-kultur eller tid i historien, eller roll) medan övriga får föga eller 0 i vikter. Jag har ännu ej sett annat än att snabba varianter med en vikt per tillstånd snarare än igen göra motsvarande vektor-kvantifiering genom att stega de 400 dimensioner ger perfekt (0 defekta beslut över test 200 - 400 000 ord resp. cirka 80 000 två-gram koncept) resultat vilket gör denna träning fascinerande snabb jämfört med föregående steg (någon minut eller två kontra flera veckor).

Vidare har vi utgångspunkten att skapa vektor-representationerna för godtyckliga koncept. Oavsett om title-heading, ett fler-gram koncept av samma typ vi tränade på (ex. vector quantification) eller för den delen ord, får vi representationen exempelvis genom att beräkna likheten mellan indata för konceptet gjord efter vettig metod (vi är föga begränsade här så länge vi ej ogenomtänkt jämför mellan olika metoder) med varje tillstånd vilket maximalt här ger 1200 dimensioner (praktiskt lär jag reducera ner en gång till i ett sista steg men detta är ej gjort och det återstår att se hur det om så görs.

Viss dynamik träder in rörande ord kontra tydligast fler-gram koncept med representationer skapade med summerat och normaliserat. Ord som är platser kan ex. för dimension de är mest lika av och till hamna på dimensioner som egentligen för flergram kommer vara dominant begränsade till orter med tilläggs-data så som något från ort och varianter av det. Medan motsvarande problematik ej är vad jag typiskt upplever stör omvänt. Oavsett vilket vi gör - flergram till ord-tränade dimensioner eller tvärt-om - gäller dock att vi får mycket mer förståelse av vad det handlar om av att betrakta mer än just bara vinnande dimension (ord till flergram att vi har likhet över flera geo-associerade dimension men kanske ligger lågt på person-koncept förklarande ut ev. högt värde på ex. något som för fler-gram samlat koncept med personer, händelse och platser inom en stad) och för fler-gram kan vi ej utgå från att vi klarar oss med färre i utgångspunkt inför efterföljande beräkning och tolkning än vi har ord (och snarast fler än så).

Speciellt i samma kontrast är vidare att ord i träning oftare är sämre förstådda. Flergram koncept är typiskt "punkt-vetande" i större ämnen (physical chemistry inom kemi o.s.v.), entiteter så som personer, platser, varumärken, företag, organisationer, eller "punkt-vetande" positionerat i händelse, tid och rum, eller vilket ibland friare såväl som kanske oftare (men absolut ej unikt just för detta egentligen) kombinerar mellan allt sådant som är kultur-relaterat där en större andel ibland dominant så kan ligga på den abstrakta beskrivningen av något. Ord kan dock ofta ta olika roller. De kan motsvara koncept närmare entiteter eller punkter men kan ofta lika gärna användas för att beskrivna något. Vidare har vi ju operator-ord så som tydligast kanske för ex. if, the, and och or. Ordets varierade natur inte bara avspeglar aspekter av dess mening genom samtidigheten andra ord utan också omfånget och densiteten av denna.

Det är lätt idag att förstå detta omfång och densitet felaktigt när externa datakällor används. Vi värderar ju ex. tämligen unika ord men ovanliga normalt högre via sådant som inverse document frequency. Sådan användning ställer dock krav på en sund grundnivå i förståelse av det data man samplar. Jag noterade några ord-distributioner byggda externt som liksom jag själv (tills detekterat felkontrollen tämligen tidigt testande just ovanliga ord) fick enstaka problematiska ordvektorer. Orsaken ligger i ofta använda datakällan Wikipedia.

Wikipedia har förutom själva artiklarna kategorisystem resp. listor. Båda kombinerar relaterade koncept med varandra. Sådant som växter, djur m.m. Ibland abnormt ovanliga i löpande text. Kan där samförekomma med ordentligt många varierade ord i bästa fall inom ett ändå avgränsat ämne men via kategori-systemet förutom listan också av och till breda koncept i flertal såväl som bildtexter föga relevanta. Beroende på algoritm dimensions-reduktionen görs med kan detta ge mindre men märkbara problem (de två jag använda såväl mer kända LSA resp hotelling-transformationen samt i två en variant sannolikhet som utnyttjade halv-fabrikat data redan reducerat tänkt att ta externt data) eller vill jag tro (men kan ej bedöma det havande ej kört dessa algoritmer alls själv) mer för den lite nyare jag ej minns namnet på nu men tror någon medarbetare som har bluelight relationer Microsoft Research (men ej framgår om arbetat där) såväl som Google medan algoritmer har BL-relationer Google också direkt. Den finns också ofta länkad till en sida associerad Google. Jag är nästan 100% säker på att det är samma person som publicerade några artiklar med exempel på additionen och subtraktioner med ordvektorer så som kung minus man + kvinna för drottning: Mikolov är det och Google's sökförslag ger oss word2vec vilket helt säkert är namnet jag sökte och mer exakt är det kanske CBOW delen det handlar om.

Dessa ord-vektorer blir promiskuösa. Ofullständigt data ger sannolikt oftare överdriven likhet än som normalt önskvärt som princip reducerad sådan. Något av linjär-reduktion där exponentiellt snabbt fallande hade varit säkrare kanske. Finns nu något annat område man kan spekulera vi kan se samma sak? Av betydelse i mer spännande områden som big-money, cloak and dagger, och övervakning av alla jordens världsmedborgare istället för mer nördiga ord som bara förekommer som del av latinska blommor eller svamp-organismer? Det finns ingen mening som jag ser i något besläktat vad jag beskrivit här (d.v.s. koncept-vektorer - betänkt ex. namn, orter m.m. där kopplingen kultur, mening, namn och språk är uppenbar) att använda ordvektorer bara för ett språk. Utan vi utgår givetvis från ordvektorer för om inte alla språk så för ett försvarligt sample av de ej helt små (så kan man också roa sig med sådant som att köra in UWN cross-culture Wordnet (som jag sorterade den medan jag såg nu att Max-Planck ser den mer som cross-language vilket utan tvivel är korrektare) Wordnet-varianten och få namn förekommande idag i svenska, norska, danska, engelska positionerade långt före spanska m.m. när reduceras av mängden 1100-tals engelskan - inflyttnings-antal betyder allt här).

Ty ej olikt hur UWN skapats automatiskt lär sig alla möjliga maskin-intelligenser att översätta (såväl äldre som färskare algoritmer). Och ofta nog kan definition av ett ord i ett språk vara mager fullt naturlig. Eller expanderad ganska onaturligt egentligen likt våra växter och svampar. Wiktionary såväl som Wikipedia och tänker jag nog fler Wiki-projekt är fantastiska datakällor här. Och i denna domän tänker jag nog ett och annat similarity-överdrivande från samma mekanism algoritm såväl som Wiktionary-indata kan uppstå (jag hittade upp till ett tusental: själva metoden inkluderar nu manuellt tittande på rangordnade ord där man storligen begränsas av dom egna språkkunskaperna så lätt spekulerat från att mindre vanliga ord enligt mitt data olika aspekter internet d.v.s. uddare språk tenderar att vissa högre likhet än jämförbara tyska.

Vi får hoppas att muslomanerna ej utnyttjar Wiktionary's pro-stalinistiska kategori-struktur för att införa teokrati här i Sverige. I bästa fall har totalförsvaret tänkt igenom detta och krigsplacerat åtminstone ett hundratal bibliotekarier som kan gå inom svenska Wiktionary om förändring statsskick i andra mindre språkområden gör hotbilden mer aktuellt.

Kriget var hårt men det kändes bra för alla när vi åt lunch att en av oss hade behövt slå upp ett fakta i en tryckt bok: Då vet man att det är en trovärdig kategori man stärker upp det svenskhets-mur-segmentet ordet representerar. Faktiskt fick Bosse cykla hela vägen från Boden till "sitt" länsbibliotek hemma i Flen där han mindes var boken fanns i hyllorna. "Den finns nog bara på dom gamla biblioteks-korten" sa han och cyklade iväg. Bosse's hjältedåd räddade oss alla där andra svenskars lata kontinuerliga kultur-förräderi ej skrivit ordet naturligt på flera hundra år görande sund sampling möjligt. Sådant klarar inga bibliotekarier från Stockholm vana vid buss, tunnelbana eller rent av miljöfarlig icke-kollektiv eller cykel-transport och kommunalt bredband av utan för det krävs någon formad av landsortsbibliotekets dagliga primitiva helvete för att orka.

Ett statligt kommun-bidrag säg kombinerande hanterande flykting-arbete med strids-beredskap är förslagsvis sunt så att hela Sverige med alla dialekter kan försvaras. Då kan man ju få in moderaternas idé om att även flykting hemmafruar ska lära sig svenska (i övrigt står jag förvirrad om tankarna: Om jag har en hemmafru från en kultur där det ännu inte försvunnit är det då verkligen bra för familjen att hon ska lära sig språket i den flum-vänster-kultur som den svenska blivit när det kommer till familj-värderingarna? Är det inte bättre att vi respekterar att hon villa leva ut sina val hemma med barnen och matlagningen? Kan vi kanske förstöra något fint och vackert med svenska-undervisning? Jag som feminist kan känna det). Hemmafruarna lär sig svenska, feminist-skapar än mer som bok-soldater, och sprider svenska kunskapen vidare självorganiserat via biblioteket på sikt tagande bort kostnaden för organiserad svenska undervisning. Och efter några år när dessa hemmafruar nått ut med denna massa flyktingar på biblioteket kan säkert staten skära bort hela bidraget utan att kommunerna vågar säga upp dem. Effektivt - kostnadseffektivt - Försvarat. Sedan får vi svenskar ta att man inte alltid lär förstå vad de säger skapande upp naturligt samplings-data för ovanliga ord med det är nu en fråga för grundskolans moral-undervisning i svenskheten att förklara för folket som den glädje det korrekt är. Och kanske är just länsbiblioteket med dess obligatoriska besök av skolklasser dessa kvinnors naturliga hemvist några timmar mitt på dagen när hemmet och familjen så tillåter?

Ett mycket allvarligt område som ej bör trivialiseras på det sätt jag tänker ungdomarna gör när de funderar över yrkesval.
Vektor-kvantifiering är inte primärt att coolt rädda världen eller en väg för bibliotekarier att få en myckenhet av romantiska belöningar därefter utan ett hårt kvalitetsarbete fyllt av rädsla för att enstaka fel ska innebära att ett litet kultur- och språkområde som Sverige dör ut ersatt av det muslimska språket.

Självklart kan vi kanske roligare se värde hos enskilda medarbetare som får mer övertidspengar p.g.a. fler falska språkträffar (om vi reflekterar NSA påstådda analys-projekt). Något av samma natur (för att försöka få till en mjuk övergång till ett till skämt egentligen) som när individen upplever att Trump mer pratar till dem på Twitter där han uttrycker bredare ämnes-träffar mer varierade om så vill mindre stilistiskt tränade kultur-korrekta i det spontana utan att de nödvändigtvis bär mening just i det icke-emotionella där effekt kommer. Vi jämför talande och tror jag mycket korrekt (kul om det blir av att rita någon gång) med våra italienska första eller andra-generationens (bedömt engelskan) invandrare serverande Lufsen med kvinna, i Lady och Lufsen, mat: Han pratar med mig.

I övrigt har endast följande två inlägg publicerats av mig relaterat Trump:

Ska något från primärvalen adderas jag reflekterat i övrigt är just större variation spontan och mindre stilistisk på samma sätt som typisk för politiker i samma område (därmed inte sagt att Trump ej har något av samma sak men ovant för publiken). D.v.s. större diskriminerbarhet kommer naturligt när Trump implicit jämförs mot den inlärda bakgrunden för hur typiska budskap och typiska ord från politikerna direkt presenteras. Emellertid kompletterande den direkta diskussionen om Trump vs Hillary rörande vad Hillary-folket kan behöva fundera över kan läggas att Hillary nu faktiskt - mindre konkret tydligt vid tiden för inläggen kanske - har mött en Trump-variant om än i vänster-paketering och bör så väl behöver om hon ej mycket väl ska förlora presidentvalet lära av det. Fantastisk möjlighet hon gavs verkligen. Jag svårligen tänka mig motståndare som bättre kan förberett henne för Trump än Bernie Sanders gjorde. Vänligt av honom att ta tiden trots föga trolig segrare. Och verkligen tränande upp henne hela vägen utan när delvis vek prestation hos henne var tydlig släppande henne sista delstaterna.

Nå jag lär väl sammanfatta en del erfarenheter här några gånger till. Det har värdet att jag lättare minns det utan att behöva använda anteckningarna. Några exempel känns meningsfulla för läsarna där jag tror ett par existerande om än ej överdrivet stora grupper kanske rent av är lite intresserade av det här området allmänt. Den intresserade kan reflektera korrelations-vektorerna föga kommenterade alls. "Medelvärdes vektorerna" som indata har viktigt sido-värde att uttrycka distributionen av indatat i tillstånds-representationen också i mening av de i dom förekommande orden vilket gör att de behöver göras. Korrelationsvektorerna bör emellertid komplettera dessa för vissa koncept genom att också kraftigt smalna av dem (de visar annars natur i form av typisk likhet mer med vektorerna för orden - nästan exakt samma form - medan medelvärdes-vektorerna som väntat gärna spontant hamnar högre tagande in mer. Men jag har prövat mindre med dem post-träning ännu och jag tränar dem ej likt medelvärdes-vektorerna på alla koncept utan har bl.a. uteslutit två-gram (elegantare med givet mängden tre-gram och större tror jag det samma hade jag kunnat uteslutit personer uttryckta med två-gram resp. varande det samma som ord-vektorer såväl som medelvärdesvektorerna 1-gram).

Optimalt använder man dem konceptuellt motsvarande relationerna adderande utökad vetskap när meningsfullt men ej förvirrande annars. D.v.s. någon smart dimensions-reduktion krävs på det hela vilket återstår att inse hur man bäst gör så att daglig addering av nytt data kan pågå.