Reducerande risk överträning

2017-05-19

Vi betraktar likheten som uttryckt via cosinus-similarity som en form av korrelation (om än ej balanserad från medelvärde vilket är mindre önskvärt). Vi ser också risken för överträning samt hur redan komplexa icke-standardiserade neuronnät (d.v.s. ej följande någon generell princip utan skapade manuellt för tyngre utmaningar man är beredd att tänka specifikt för) kan expandera enormt i komplexitet och beräkningskostnad så fort risker överträning måste hanteras i regler.


Vi menar vidare att vi sitter med nät som i princip adderar inkludering via addition medan avlägsnar icke-relevant information via subtraktion av icke-relevanta vektorer (ex. felaktigt bedömde tillhöra en grupp, via några alltid för varje addition, och/eller en svag subtraktion för varje vektor alltid när dragen om den ej hör till gruppen vilka är mindre tre huvudsakliga grupper).


Vi tillför på försök regeln Z_HH i samband med ytterligare expansion regler träning gjort att känslan är att redundans minskande risk för överträning bör tillföras. Där tänket är att denna regel ska avsluta behovet permanent:


  • Z_HH aktiveras alltid när subtraktion sker.
  • Vi drar n-stycken (säg 5 - 6 st) positiva för den kategori vi subtraherar från.
  • För sex st. föregående drar vi 1 st som säkert ej hör till någon kategori (troligast namn medan verb, adjektiv, adverb m.m. normalt hör till någon kategori) samt ett par st. vilka som helst som ej hör till egna kategorin, och ibland 1 st. som kan höra till en motsatt kategori.
  • Vi avlägsnar "korrelationen" indikerade negativa ord från de positiva genom att först medelvärdesbilda positiva och negativa och därefter beräkna cosinus. Inte helt olika med hör man ofta gör ortogonalisering.

Vi kör detta som positivt sample för kategorin vi subtraherar från. Och raderar den ej d.v.s. ingår nu permanent som en existerande given under träningen. Så som kod gjorts är det ej via någon regel givet att processen någonsin kommer 100% säkert kommer avstanna. Z_HH kan i sig innebära att Z_HH anropas om motsatt kategorin upplever den höra till sig. Att träningsdata som ej hör till kategorin används och får reducera skapat sample utefter korrelation gör dock detta till väldigt osannolikt inträffande ens 1 - 3 gånger.


Total tillgång positiva samples i form av vektorer för ord är cirka 20 - 30 000 st, med ej färre än 2000 för någon kategori tror jag. Träningen samlad antas ge funktionella resultat ej bara för kategorisering ord utan också varje form av kombination av ord oavsett samples eller ej. Oavsett detta tror jag nog metoden i olika varianter är funktionell rent allmänt.

Tänkbar modifikation av algoritm kvantifiering vektorer att använda mot slutet av träningen

2017-04-26

För kohonen-nät är mitt intryck att vi utifrån grannskap i någon mening begränsar - sätter kanske inte alltid förstådd eller eftersträvade - constraints vilka inte självklart behöver ha något just med den topologiska egenskapen i mening av kulturen att visualisera resultatet (vilken jag själv av vad jag sett folk gjort tycker verkar tycker verkar oftare än annars obegriplig i vilket värde det skulle ge: jag använder inte algoritmen själv för visualisering eller gör näten 2D utan istället en eller 1D-lager).


Säg att vi antingen gjort ett kohonen eller vektor-kvantifiering med antingen bara positiv-tilldelning eller eventuellt (kanske intressantare för diskussionen) också negativ-förändring (d.v.s. om vektor X för ett ord hör till hög-intensitet tilldelar vi tillstånd hög och ev. om ej viktande förändringen ex. med sannolikhet, intensitet och liknande med krav på hur det ska påverka effekten på likhet när klar bedömt viktigare än ex. än mängden icke-ämnes-korrekta ord som kommer ligga på hög likhet - om likhet med tillståndet är lägre än något värde för lugnare mer tillförlitlig konvergens inkluderande mer lättförstådd och predikterad effekt rörande mängden okända riktiga ord resp. okända defekta ord som kommer gå över threshold med samband till den utnyttjad här - resp. när effekten är negativ om låg-intensitet och/eller icke-hög-intensitet visar högre likhet än något gränsvärde eller för låg-intensitet om låg-intensitet visar högre likhet än tillståndet för hög-intensitet). Och att detta är klart.


Säg att vi tränade det klart utnyttjande för att bestämma effekten förutom träningskonstanten (epok-beroende) med skillnaden L1 mellan varje position i vektorn d.v.s. v(i) = v(i) + alpha * ( u(i) - v(i) ) (med v som vektorn för tillstånd och u för ord).


Varje position för en vektor oberoende av övriga och tillståndet värderas i vilken effekt det p.s.s. Något man kan göra sent i träningen (upplever jag som ibland meningsfullt men kräver att man tittar till det ofta) är att låta likheten och samma likhet som fick bestämma (som i kohonen-nätet) vilket tillstånd vi gör förändringen på. Gör man samma sak tidigt i träningen blir resultatet sällan bra ämnes-sorterat och konvergensen kan gå till vilket underligt gravt övertränat resultat som helst. Men sent med lågt alpha kan det ibland kanske ge något.


Det tycks troligt att vi sent kan ha vissa positioner i vektorerna eller samband mellan positioner som är mer värdefulla medan diverse andra samlat på sig junk eller bara är mindre meningsfulla. Vektorkvantifieringen i sig söker nu bestämma detta. Men kanske kan vi nå bättre finstämda konvergenser om vi mot slute söker värdera detta. Jag kan tänka mig väldigt bra sätt att göra detta på men varande mer komplexa över statistiska samband är min tumregel från erfarenhet att om de gör en enkel algoritm komplicerad kommer de ej otroligt förstöra mer än de ger och om inte ej vara värt tiden.


Men man kan ju också pröva något enkelt i sig lika lite tagande hänsyn till något annat än värdet för tillståndet och ordet för resp. position. Jag prövade lite med en variant av u(i) * log ( 1 + e(z(u(i)) ) p.s.s. sätt att mindre förändringar värderas ner absolut mindre än stora förändringar. Vilket jag ej märkte just något värde stort nog för att förändra sorteringen av orden i träningen utifrån similarity per epok.


Medan jag ännu är osäker på om denna variant kanske adderar en del värde. Startande från ett övertränat färdigt tillstånd på ett lågt alpha tycks det kanske ge något efter några varv. Men varande övertränat behöver det stå ett tag. Kan det få ut mer exakthet på något gravt övertränat bör det kanske visa det värt att pröva i övrigt.


1. Vi kan här anta att trots att resp. vektor position är [-1,1] att inga positioner varken i tillstånd eller vektorer ord är annat än ]0,1[.

2. Trots vanligt att göra så normaliserar vi ej vektorerna till att summera ett. Vi ser dem ej trots att varje position kan ses som kontext ej som sannolikheter konkurrerande med varandra (d.v.s. antar vi att en position uttrycker något runt namn och var de hör till olika kulturer, och ett annat arbete och roller, menar vi att de kan vara samtidigt verkliga såväl relevanta samtidigt).

3. Istället ev. men ej säkert teoretiskt skakigt ser vi resp. position som en sannolikhet approximerad av värdet (vilket är per vektor L2-normaliserade cosinus-similarity värden) för att igenkänna eller bedöma pureness av något för den, eller just här (för vektor-typen 300-WW) sannolikhet att vi ser dem i detta kontext (tror jag är vad jag minns rätt från när jag gjorde dem).

4. I någon mening har vi nu (tror jag) för varje position 1 st. fördelning som kan ha ett värde (här i träning medan världen är större för alla vektorer). Vi kan visst se alla värden för allt träningsdata per position representera fördelningen för målsättningen men det är den approximation vi nått när vi börjar här som vi kan laborera med utan att just behöva göra en massa komplicerat sparande serier av värden.


5. Beta (Mathematics Handbook) gav (ev. med någon notation rörande tvåan jag ej minns längre) summeringen av f(x) * f(x) * log ( f(x) / g(x) ) för KL-divergensen. Jag definierade om den till f(x) * g(x) * log ( f(x) / g(x) ) + g(x) * f(x) * log ( g(x) / f(x) ) (men kontrollerade inte att det blev som jag förväntade men antagligen ok).


6. Värderar vi träningens effekt utifrån denna divergens positivt är det något mer lämpat tidigare innan i princip klar med träningen. En uppsjö alternativ till att påverka effekten finns här utan tvivel i huvudsak bättre och de flesta antagligen om ej mängden data är gigantiskt eller konfigurationen komplex med flera parallella gradienter ej särskilt värdefulla jämfört med att låta det gå långsamt nedåt av och till kontrollerande det hela och vid behov gående upp igen ev. till ett tidigare mer sällan sparat tillstånd.


7. Värderar vi upp det hela får vi ej någon lokal effekt per position. Emellertid kan resp. värde del av summan utnyttjas per position. Jag prövade några stycken mer eller mindre uppenbara varianter av detta och körde ett tag på resp. tills jag nådde denna variant.


8.1. Vi inför först en särskild "distans" besläktad med en variant jag ofta har använt (men ej fungerade bra här - tränande vad som är tänkt att gå kontinuerligt fortsatt för att uttrycka intensitet i världen resp. ge skattningar som kan användas för dekomposition av ex. enskilda ords vektorer eller kontext - i just aktuellt här positivt, negativt, tillförlitligt, ej tillförlitligt, upp i intensitet, ner i intensitet, och fara men där problemen distansen mer lågt i ett antal breda ämnen associerade förändring rörande större världsproblem så som ex. religion, krig, hälsa m.m. där distansen gav en ej lämplig preferens mot sortering ordtyp ej önskad: L1-distans / ( 1 + cos-similarity) ): KL-divergensen-omdefinierad-Hans-för-alla-positioner-tillsammans / ( 1 + cos-similarity ).


8.2. Testkörning nu använder dock ej distans som beror av cos-sim då jag vill se effekten också utan detta, och ej är säker på att KL-divergensen kan skala cos--sim över många epoker utan att olämpliga konvergenser uppstår.


8.3. Distansen används ej för annat än att skala förändringen ett ord tillåts att göra på tillståndet.


8.4. Vidare för varje position skalar vi förändringen enligt: ( C - divergens(i) / max_divergens ) eller i besläktad variant ( C - max_divergens * 0.5 - divergens(i) * 0.5 ). Där max_divergens är det största värdet en position i ord-vektorn har för divergensen. Jag prövade också varianter utnyttjande medelvärdet: Dock utnyttjar vi ju redan summan i distans-måttet.


8.5. Sätter vi C till ett värde mindre än 1 kommer vi som vi använder måttet subtrahera för positioner som är kraftigt divergerade. Medelvärde divergenserna för ett ord ligger ofta runt 0.02 - 0.03 (och ej normalt ovanför 0.05) medan max-värdet ofta tycks (tidiga epoker) ligga 0.4 - 0.8. För åtminstone C mindre än 0.95 tycks det hela falla i bitar till något ej önskat. Varianter med lägre värden och ej utnyttjande negativa värden kändes ej heller bra. Jag tog därför C till 1.


8.6. Och tillsammans får vi effekt-påverkan KL-divergensen har som: ( C - max_divergens * 0.5 - divergens(i) * 0.5 ) / distans. Vilket vi multiplicerar med träningskonstanten alpha.


9. Allt för resp. förändring per position i: v(i) = v(i) - alpha * ( u(i) - v(i) ) * ( C - max_divergens * 0.5 - divergens(i) * 0.5 ) / distans


Att få båda världar samtidigt: Både träna tillståndet till att motsvara indata d.v.s. med nödvändighet förändra sig utifrån indata om ej perfekt från start, samtidigt som vi kan värdera upp indata och positioner vektorer som är bättre är svårt om vi ej vill utnyttja något annan vetskap än själv det tillstånd vi bygger upp. Jag upplever det ej som rimligt att kunna förvänta sig att det ska gå bra. Återvänder vi till mitt ex. att ibland pröva att värdera upp med cos-similarity är förutom riskerna med det kanske så normalt (ev. alltid för mig) att vad man sent under träningen ev. uppnår i huvudsak är att snabba upp konvergensen.


Samtidigt om vi ej låter algoritmen fritt välja tillstånd att förändra. Och ej utnyttjar ex. grannskap, eller håller flera "kurvor" av gradient-förändrade tillstånd som uttrycker något ex. kontextuellt eller tidsmässigt annorlunda men besläktat. Gäller att effekten alltid är till sin natur linjär. Emedan om vi behåller detta och adderar på en icke-linjär komponent oavsett ev. övriga som används kan det innebära att vi ökat möjligheten till anpassningsbarheten mot indata.


Samtidigt gäller vad jag först skrev avseende grannskap i Kohonen-nät att sådant också är constraints. Vi begränsar mängden lösning vi när vägen väljs fortsatt kan ta och därmed också storleken på den mängd som motsvarar hela världen som antas existera. Desto hårdare constraints ju mer tenderar vi att lätt hamna där vi också antar att världen utanför vårt träningsdata är mindre än den egentligen är och har det betydelse i användningen av resultatet är det upp till svårt problematiskt.


Storleken på sådan potentiell övertränings-effekt är dock ordentligt varierad mellan metod. Tänker vi oss att vi alltid gör addition på tillstånd A för data medan vi subtraherar på tillstånd B om likhet B är större än A, och omvänt för data avsett tillstånd B. Och slumpar orden. Här är komplexiteten påverkar överträning potentiellt gigantisk: Potentiellt därför att det ej är säkert om resp. tillstånd A och B är konstant i antal bitar kan konvergera för att uttrycka detta (annat än ökande distansen mellan tillstånden accepterande förstörelse meningsfull information: Ex. att tillstånden vandrar "oändligt" långt ifrån varandra vilket dock i sådan extrem kräver en hel del klumpighet eller inkompetens för att klara om något villkor alls finns för när subtraktion görs alt. någon form av genomtänkt normalisering effekt mot totala mängden i resp. grupp A och B: För några exempel sådant jag märkt när jag hamnat i sådant som brukar lösa det). För att få hela möjligheten kan man behöva tillåta algoritmen att skapa fler tillstånd beskrivande resp. A och B när det behövs. Och på samma nivå potentiell komplexitet och storlek inducerad överträning möjlighet ligger många neuronnäts-algoritmer. Sätter vi dock threshold i absolutnivå likhet åtminstone för när vi subtraherar från tillstånd B har vi tagit ner denna potentiella komplexitet enormt. Och har vi det både på addition och subtraktion är den gigantiskt mindre. För grannskap kohonen-nät om denna funktion endast adderar är komplexiteten ej speciellt hög alls. Låter vi den också subtrahera (vilket jag sällan tror är annat än problem utan värde och jag prövade runt en hel del) när en viss distans nåtts.


Beräknar vi som alternativ medelvärde av vektorerna för träningsdata till tillstånd A tenderar sambandet normalt vara att med fler ord växer vi först i exakthet. När de ännu ej är över säg några hundra och väljs förhand. Därefter brukar jag se försämring orsakad av att man börjar få med ord som ej hör hemma i gruppen. Samtidigt som en del fel försvinner gäller därefter att vi når bättre resultat med mer data där vi når mest längst för grupper som i all verklighet inkluderar många ord och där definitionen av vad som hör till gruppen ej inkluderar något som till sin natur utnyttjar en icke-linjär form som ej finns i vektorerna (d.v.s. för distribuerade ordvektorer skapade normalt sätt ej grupper som är grammatiska till sin definition där effekten träningen av dessa skulle ha att göra med exakt vad vi har för ord snarare än ämnet som sådant resp. omvänt att vi här kan få effekten att ej ämnen utan ämnen + ordtyp visar sig irrationellt om ej hanterat ex. för post LSA eftertränande mer styrt utan tematiska - vad som har med ämnet att göra). Ökar vi mängden ord kommer vi dock ej öka exaktheten annat än att öka mängden riktiga inkluderingar relativt mängden defekta. Hur varierade gruppen är naturligt, resp. mängden icke-relevant data vektorerna innehåller, o.s.v. kan vi ej påverka. Så någon risk för överträning finns aldrig annat än i mening av att välja ett st. antaget perfekt ord istället för att titta på detta ords grannskap och där välja ut fler ord som hör till gruppen samtidigt som defekta ord som ej hör hemma där ej väljs till medelvärdet. Men de defekta orden vi kan se i generering per ord vi använder (eller för medelvärdet samlat) av närmaste grannar med högst similarity kvarstår även om de med lite tur fler ord kan späs ut. Överträningen i den mer kraftfulla algoritmen än medelvärde kan vi därför jämföra med att för jämförbart generering närmaste-grannar exkludera ej önskade ord, och inkludera önskade ord, på sådant sätt att generering för det färdiga tillståndet ej kommer inkludera på hög position en mängd av ord som borde varit där eller alternativt inkluderar en mängd ord som ej hör dit alls (för vektorer skapade med LSA från stora corpus kan vi ibland p.g.a. PMI se när träning färdiga vektorer görs för vanliga ord att vi i generering klar kan se väldigt udda ord eller tecken komma högt ex. som jag kan se för mina 400-vektorer tränande bara med vanliga engelska ord html-taggar m.m. som kan nå höga positioner eller ord från små-språkområden). Ett stort stycke av den potentiella informationen vi kan nå är ej beskriven, och det mer avvikande från det vanligare kommer mer sannolikt uppvisa något högre här.


Komplexitet träning kan ha samband till den komplexitet som påverkar risk överträning. Detta gäller ur-typiskt när många icke-linjära operationer sker pågående från start av träningen och över alla operationer som sker per träningsdata. Medan den är gigantiskt lägre än ex. flera tillstånd tränas uteslutande linjärt och därefter kombineras icke-linjärt under förutsättning att vi i och med den linjära träningen också når en "enklare" värld där det icke-övertränade / icke-perfekt-exakt-formade är meningsfullt och snarare ger ökad exakthet. Säg att vi från fyra tillstånd - motsvarande fyra dimensioner (i kontrast säg 300 dimensioner för vektorer träningsdata innan) - ska välja antingen 0 eller 1. Här är vi rent av ibland där bruteforce eller slumpade vikter, funktioner, kombinationer av dem o.s.v. kan användas.


Vad som gäller sådant jag gjort här har jag dålig känsla för. Men jag anar att den givet något vettigt tränat innan ej begränsar ner världen märkbart alls. Så länge ej varierat positioner utifrån divergerade mer än något börjar subtrahera på tillstånden medan andra kommer addera på samma positioner. Med subtraktion byggs icke-linjära samband som kan uttrycka mer flexibla former på "kurvan" mellan orden (i den mån det för vald effekt-funktion alls är meningsfullt möjligt) medan jag tror när vi endast väljer hur mycket vi adderar att sambandet endast skapas i relativ mening per position och ord. Jag tycker att en metodik som fungerar bra för mig för sådant här är att pröva en uppsjö enkla varianter eller som just här kombinationer av tre enkla metoder jag vet kan fungera bra. Emellertid föredrar eller har preferens mot vad jag kan visualisera formen eller förändringen av. Jag är dock lite osäker på om jag gör det bra för divergensen-komponenten per position bl.a. därför att jag ej är hemvan i formen på ordvektorerna rent allmänt på de olika positionerna och hur positionerna formar sig tillsammans. Sedan har jag ibland en preferens att önska två värden samtidigt men ej normalt förväntas kunna få samtidigt antagligen därför att det ibland visar sig möjligt vilket man minns medan man minns mer diffust och ofullständigt alla gånger det ej går även om jag egentligen aldrig trots att jag försöker riktigt tror att det kommer visa sig gå.


Oavsett hur addition och subtraktion används tidigare avser det ej i vilken riktning vi förändrar tillståndets vektor absolut utan tecknet vi sätter före L1-distansen (om vi förändrar tillståndet närmare som vid addition aktuellt stycke träningsdata). D.v.s. v(x) - alpha * ( u(x) - v(x) ) där vi ibland anropar funktionen med ( (-1) * alpha ) i vilket vi fall förändringen innebär att distansen ökar mellan tillståndet och vektorn för ordet vi just då tränar på. Vi noterar att riktning är relativt samma data vi förändrar från och bestämmer mängden förändring av men att det tänkbart kanske inte alltid behöver vara så.

Konvergens en neuron vs en grupp av neuroner

2017-04-18

Betrakta 1 st neuron bestående i förenkling endast av dendrit-träd resp. "grund-funktion". Dendrit-träd ger potentiellt vinkeln aktivitet inkommer med. Antar vi också kommunikation bakåt från dendrit-träd och grundfunktion kan vi likt Max-Planck (tror jag det var) spekulera om att biologiska neuronnät gör back-propagation (att något potentiellt elektro-kemisk information passerar bakåt tycks för mig sedan en 5 - 8 år cirka vara givet från hur jag bedömde det då publicerat. Men jag har föga och kanske inte alls följt upp det där efter).

D.v.s. säg att vi endast har en sändande neuron i lager bakom dendrit-träd vi betraktar. Var vi får centralitet i dendrit-träd är en approximation av hur långt ifrån mitten på lager bakom sändare finns om avståndet är känt mellan lagren. Antar vi ett medelvärdet av allt någonsin kommunicerat innan befinner sig nära nog exakt framför mitten på dendrit-trädet (vilket det i biologiska neuronnät kommer göra eftersom neuronen växer mot det som sänder) är avståndet (eller riktigare uttryckt dess funktionella motsvarighet) känd.

P.s.s. kan vi betrakta en grupp av neuroner. Där resp. neuron uttrycker inlärning av en variant (existerande som meningsfull) av vad neuron-gruppen övergripande handlar om. Ex. kan det som noterat via avbildning aktivitet biologiska neuronnät i människa i numera en myckenhet publicerat vara sådant som varianter av en välkänd människa. Så som en kändis.

Centralitet för aktivitet i grupp av neuron. Den position vi konvergerat till i gruppen när vi också i detekterande neuroner (kanske något likt vad spekulerat i Stanford researchers surprised to find how neural circuits identify information needed for decisions ytterst eller i ett eller flera strukturellt hierarkiska tänkta steg nedanför. Själva poängen i vad vi antar är även om ej riktigt relevant för vad vi diskuterar att relevanta konvergenser i hjärnan kan vara topologiskt tämligen distansierade vilket gör det svårt att utnyttja dem tillsammans utan just något övergripande strukturellt ej av samma typ som kan ta upp resp. konvergens på ett nytt övergripande lager) i och utanför gruppen betraktar den samlande aktiviteten för hela gruppen uttrycker en approximation av verkligheten just nu. D.v.s. aktivitet neuron i viktad med dess avstånd till centraliteten, aktivitet neuron ii viktad med dess avstånd centralitet o.s.v. Vi kan också jämföra detta med den förväntade centraliteten utifrån aktivitet detektor tränad mot den typiska mitten av neuron gruppen tar upp. Är aktivitets-vikten hela gruppen vad vi nöjer oss med att få i en dimension d.v.s. datatyp double / float snarare än en vektor av double / float datatyper räcker det bra med att nöja sig med aktivitet hos denna medan vi behöver utnyttja fler detektorer annars (också styrt av exakthet avbildning).

Traditionellt bra mycket relaterat inlärning koncept i vad som ger eller utnyttjar similarity vill gärna se varje koncept som i någon mening likvärdigt alla andra. Det har fördelen att vi potentiellt kan jämföra alla av dem. Eller enklare säga att ord A som knappt förekommer alls idag i dagligt tal är nästan eller troligt helt synonymt med ord B som är mycket vanligt idag men knappt förekom i någon bibel-variant äldre än 100-år.

Emellertid är nu resp. sådant koncept ej likvärdiga i nivå de potentiellt ex. kan uppröra någon. En person A representerad som oljemålning, tillfälle vi såg personen tala m.m. varianter som genom en personlig erfarenhet lätt konvergerar till en tydlig punkt upprepningsbar utan variationer för samma ny upplevelse är resp. ej lika "emotionella" (potentiellt upprörande / kvinnligt-tänkande - för att ge ett kanske enklare exempel - åtminstone billigt att skapa - resp. via komplettering pekande på kvinnor upprörda över erotika som säljs i butiker visande att intensiteten i sig har sina poler). D.v.s. vi kan se att:

  • Vi kan ha en semantisk mitt som har föga med hur upprörande någon semantisk variant av bakomliggande samma sak.
  • Konvergens i neuron-grupp har här föga med resp. inlärd variants emotionalitet.
  • Vi kan vikta en sådan konvergens över gruppen med denna punkts intensitet.

Detta är ofta en funktionell approximation av hur jag tror människa väldigt ofta fungerar. Undantag existerar emellertid och jag tror kanske alla dessa kan sammanfattas med upp- och ner-sidan av vad vi samlat väljer att kalla danger. Viktar vi resp. neuron i neuron-gruppen med dess emotionella intensitet gäller att vi troligare för samlad konvergens något godtyckligt som ej perfekt stämmer in med någon enskild neuron kommer att konvergera till en mitt som troligare är felaktig rent semantiskt. Betrakta en oljemålning av scen från Vietnamkriget får vi flash-back från personlig upplevelse av Vietnamkriget d.v.s. defekt användning av strategin tolkning. Medan denna mer kostsamma konvergens-algoritm - mer kostsam genom att den kommer ge en troligare per fall defekt konvergens som fordrar "manuell" kontroll av prefrontala kortex för att reflektera om fara / hot är verkligt - i andra situationer kan vara motiverad därför att vi i kontextuell information relevant vet att fara kan vara verklig.

För att förstå kostnaden sluter vi ögonen och visualiserar oss i en labyrint av mörker och smutsig lera under marken. Vi ser framför våra fötter ett färskt likt svagt upplyst av en svag lampa ovanför oss som med en svag smäll därefter dör. Vi hör ett svagt skrapande ljud ej i vår direkt närhet. Snarare i korsning till en tunnel 50 m bakom oss. När vi försöker vrida huvudet bakåt upptäcker vi att det sitter fast. Något är fastspänt vid halsen. När vi rycker till dras det åt likt en strypsnara. Varefter vi känner en hand nypande vår axel. Nästan trängande in genom huden. Det luktar illa. Ruttet som av mat så dålig att den är giftig.

"Working with dot-counting mice running through a virtual-reality maze, scientists from Harvard Medical School have found that in order to navigate space rodent brains rely on a cascade of neural signals that culminate in a single decision that prompts the animal to choose one direction over another.
[...]
'This winner-take-all view is elegant but perhaps somewhat oversimplified,' said study author Chris Harvey, assistant professor of neurobiology at Harvard Medical School. "Our findings suggest that groups of neurons keep track of all recently encountered visual cues and use this information to inform decisions. There needn't be an actual competition between two or more pathways, at least not in the areas of the brain thought to be involved in decision-making."

Från: Maze Runners

Att jämföra med mössens relativt nära släkting människans kulturella skapelse (som jag ej sett men tror mig begripa precis vilken arektypisk-film typ det är): The Maze Runner.

Den depressiva har vid denna punkt ingen kostnad därför att de ger upp. Övriga börjar via överdriven aktivitet bränna igenom möjligheter oavsett kostnader (här räknat om det hade varit verkligt antal döda neuroner vilket för varje sådan i sig kommer öka aktiviteten ytterligare då dödsfall av en neuron släpper fritt alla aktivitets-ökande kemikalier det har lagrat vilket per fall många magnituder överstiger aktivitets-reducerande). En del relaterat bl.a. aktivitet från döda neuroner kommer falla bort som contestant att ta sig ur problemet därför att de ej har erfarenhet etablerad strukturellt i dataprocessing för att klara plötsligt hög aktivitet utan börja bete sig irrationellt (d.v.s. upp till dör av strypsnaran). Andra kan ha specifik erfarenhet av problem-området som gör det hela "alldeles för enkelt" för att riktigt visa något av intresse (de kan ha övat att ta sig ut ur just sådana situationer via någon kroppslig rörelseenergi som uttrycks via spark-bakåt eller dylikt). Övriga kommer acceptera varje divergens, variant konvergens i strukturer av neuron-grupper utifrån vilken mängd kontextuell information från långtidsminne in i arbetsminne nuvarande situation som helst så länge de fortfarande lever och ej tagit sig ur situationen. Till vardags kräver sådant dock väldigt mycket och mer än vad som är effektivt när behovet saknas. Om det är ett val vi gör strategi väljer vi denna situation när ej nödvändig till priset av att vi ej kan se troligare alternativ d.v.s. alternativ också sannolikare får vår normala svensk korrekt funktionella (värden och möjligheter försvinner därför att föga troliga hot måste värderas: Därmed måste jag som gammal säkerhets-filosof och -expert säga långt ifrån alltid att det självklart är sämre att värdera även otroliga hot. Dock som individ krävs en del coping-skill om verkligheten under långa tidsperioder är att du lever under hot om det ej också ska innebära att du begränsar ditt liv. Optimalt ska ditt skill-set ej vara sämre än att när mer konkretiserat att du kan välja strategin riktat dig själv att gå ut och pissa ditt normala revir emedan om tvingad att hålla dig ifrån publikt rum accepterar du också viss kostnad i den psykologiska domänen så om det ej fortsatt ska riskera att påverka den världsbild behöver hanteras så att det ej sätter sig. Matematiska koncept som transformation till ett annat rum kan vara funktionellt och skalbart en mängd olika personligheter d.v.s. de kanske ej kan gå ut uttrycka ägande av sin verklighet acceptabelt säkert i staden i vilket land som helst just då men de kanske kan göra det i något jämförbart där faran är acceptabelt lägre med resultatet att när det större rummet är säkert klarar de föga störda av tiden problematiskt gå ut i den. Likväl får vi anta tidigare filtrering personer. En del personligheter kommer under de flesta möjligheter ej bra klara kontinuerliga hot, och också sådana som visat sig resilient många år slits gärna slutligen ner med varierat resultat att de gärna slår hårt och brett mot hot eller att de gärna flyr, eller mer stokastiskt varierat).

Men vad är kostnaden i en neurongrupp? Säg att en punkt vars aktivitet oavsett om semantisk centralitet kan öppna upp ett sökande i annan information för att försöka säkerställa / komplettera den högsta tänkbara aktiviteten som kan uttryckas. D.v.s. gående ner i information för att söka skatta aktiviteten. Där skattad fara sätter en yttre gräns för hur långt vi kan divergera in i otroliga förklaringar och otroligt användbar information vi någon gång mött.

Ett samspel divergens i andra nätverk av neuroner snarare än att omedelbart acceptera aktuell neurons inlärda mitt aktivitet under konvergens neurongruppen är vad vi antar är fallet. Något motsvarande torde vara fallet när konvergens i neurongruppen tycks när given ej stämma med andra konvergenser i andra neuron-grupper eller jämförbart i delsteg samma neurongrupp. D.v.s. om vad vi kommer fram till ej verkar stämma med given verklighet eller någon enkel minnesregel vi explicit eller implicit lärt oss (tycks förklaringen till situationen jag föreslog att man skulle föreställa sig vara att någon övernaturlig roll-typ är vad som sätter handen på oss kommer en del av oss kasta förklaringen utan att den ens görs medveten för oss medan den för andra personer kommer signaleras troligare än icke-övernaturliga förklaringar därför att de senare i konkret erfarenhet kan saknas fullständigt i allt som från sekundär erfarenhet skulle indikera det. D.v.s. att någon skulle göra arbetsinsats att försätta dig att vakna upp i verkligheten indikerar tycks för dummare mer automatiska delar av hjärnan mindre troligt än att det är demon / spöke som gjort det. Ett fåtal blir glatt upphetsade samtidigt som de rent kroppsligt slappnar av jämfört med annars under ej konkret hot snarast överspända av situationen: En mycket liten särgrupp parallell med de två tidigare refererade typerna vi ser som slitits ner under lång tid. Historik gör verklighet hot som en mindre kostsam verklighet än att vänta på den samtidigt som detta defekt ärvt något av en frisk verklighet tidigare verklig - i kontrast jämförbart med att reagera med regelmässig irrationellt flykt eller irrationellt angrepp vid minsta lilla indikation hot. Träning kan ibland ta vilken som helst av dessa rätt under hot även om de ej nödvändigtvis lätt kommer bra i vardagen.).

Vidare besläktat utnyttjas en motsvarighet (ofta väldigt icke-hantverksmässigt-optimalt) i generering av information. D.v.s. det tycks från hur vanligt detta är att det är föga kostsamt att försöka generera information pekande konvergens gjord via denna algoritm jfr att faktiskt själv konvergera denna typ. Här pekar man mer direkt på att givet något sammanfattat kontextuellt man kan ta för givet att ex. läsaren kan plocka fram är konvergens en viss fara given. Tekniken när utnyttjad mer normalt dåligt (som jag upplever fall när jag mäter effekt: Bryt punkt mellan dåligt och bra på ett års sikt ligger ungefär vid 500 st säkerställda personer som gått ut på gata och där på intensitet att de förekommit i nyheter publicerade av publicist i annat land. Under det ej energi-effektivt relativt kanal man når via om kanalen är sådan att den ej ligger under en rimlig räckvidd att betrakta möjligheten för d.v.s. för mig att vad vi bedömer effekt från gått ut via kanal som åtminstone är i minsta fall en av de skattat av mig 10 000 största publicisterna på nätet också förekommande tryckt. Med begränsningen självklar att vi kan se effekten som lika gärna ev. vara mer predikterande än orsakande där mer av know-how hantverket i sig uttryckt regler i discourse parsning än något jämförbart statistiskt antas särskilja det).

Jag valde bibel-ord som exempel för möjligheten att utanför exemplet varnat lite för stora ofta använda corpus etablerade från internet när det gäller grupper av ord vanliga i kristen-religion p.g.a. av diverse enorma kristna sajter som för enstaka i övrigt ej ovanliga ord kan störa separering ex. positivt - negativt / good - bad så som blessing eller bless vs hell, om man dessutom i råkat fått in ej ett fåtal andra ord med samma domän. Thee det har troligt koppling till ner-sidan av PMI i LSA d.v.s. jag ser det i mina 400-vektorer när känt för mig medan det är mina 300-vektorer skapade av de 400 som man upptäcker det via då riskerna PMI där naturligt reducerades via prioritering de 80 000 vanligaste orden på internet. Dock görande kontinuerligt subtraktioner mellan positivt / good och negativt / bad tillstånd tydliggörs det som problem krävande en balansering - om ej korrektare kastande problem-ord - icke-relaterad good-bad mellan resp. grupp ord för träning. Eller alt. kastande dem tillsammans med i, we, were m.m. som tillsammans approximerar förekomst med vilka ord som helst reducerande korrelation till tillstånden efter varje annan förändring om de går över tröskelvärde - som traditionellt gjort - eller som mer nytt alternativ istället alltid görs i parallell existens-linje för att slutligt jämföras och utnyttjas för reduktion som strukturell-information.

Nu blev det så att jag valde att mer eller mindre för eget (tänkbart) värde reflektera en del på vägen så jag kom ej riktigt så långt att jag nådde målsättningen att uttryckt nog information för att kunna avsluta med samma sak som i förra inlägget: Och därmed här publicerat är icke-patentering säkerställd.. Dessbättre är jag tämligen säker på att vi här tänkbart ej har behovet: Jag vet att jag publicerade för flera år sedan just här men att vi potentiellt ligger i några av ett antal inlägg jag flyttade iväg och ej publicerade igen och har ej kontrollerat oberoende arkivering. Men jag lär antar slutföra någon annan gång. Jag har annat att göra just nu.

Parallella gradient descent ~ Snabbare neuronnät: Förändrings-konstant som storlek minne bakåt i tiden

Värdet av att visualisera och/eller pröva uppenbara varianter. Om än med den gigantiska potentiella begränsningar i vad jag kallade sub-set. Notepad lika lite nu som för 25 år sedan klarar av att ge möjlighet att styra radbrytningar. Och jag ids inte korrigera alla här.

Säg att vi istället för vektorkvantifiering beräknar medelvärdet av slumpade vektorer viktade.

Är nu vikten - säg samma för alla - kortare än sekvensen är **minsta** minnet mindre än sekvensen.

Säg att vi samtidigt har oändligt resp. kortare minne. Och gör vektorkvantifiering.

För sekvens med kortare minne som uttrycker längre minne än **minsta** finns strukturell-information etablerad i dynamik slumpmässigt dragna vektorer och tillståndet.

Är det övertränat kan vi rent av ha flera "strukturella informations svartahål" etablerade det hela som uttryckt per tillstånd senast tilldelade närmaste dragna det kan slå mellan. Vi kan också få situationen att tar vi bort ett tillstånd återskapar övriga tillståndet och dragna tillståndet på upp till det mest olika tillståndet på några dragna. Jag upplever från detta att risken för att etablera överträning med neuronnät baserade back-propagation (utan att prövat eller kontrollerat det referenser) kan vara väldigt (enormt) hög jämfört med endast 1 st. linje med gradient descent.

Separerar vi två grupper med en linje har vi ej strukturell-information annat än på nivå det ev. går att särskilja från informationen övergripande.

Har jag oändligt minne samtidigt med vad helst normalt. Ev. flera även om ej alla nivåer använda bör vara nödvändiga. Kan det separeras. Godtyckliga cluster / kurvor. Precis som neuronnät med back-propagation (ev. sub-set där vi klarar det).

D.v.s. p.s.s. som neuronnät klarar det när flera lager kan vi approximera godtyckliga funktioner (tror jag: om vi ej är i ett subset till att fritt approximera alla kurvor / separera alla kluster önskade). Men några 1000-magnituder upp till miljoner-magnituder snabbare.

Från två vektor-kvantifierande gående parallellt är nog (ev. två).

Vilket spekulerar jag är förklaringen till att äldre metoder POS-taggning m.m. presterar över neuronnät.

De utnyttjar naturligt och direkt strukturell information etablerad av människa. Det är ju vad alla dessa egentligen alltid gör även när det ibland är indirekt så som utnyttjande något tränat innan på corpus eller hand-taggade texter.

Det är som att betrakta frågan som jag gjorde hur man uttrycker fenomenet att vektor-kvantifiering i någon variant liggande under avrundningsfel kan förbättra sig i vad det genererar (oavsett förändring tillstånden).
Nå det gäller givetvis endast under förutsättning att en människa Hans eller jämförbar finns som väljer när vi bryter från pågående effekt av något delvis slumpmässigt.

Dock helt olika frågan varför slumptal större eller lika med 0 men mindre 0 kan förändra saker mycket mer än slumptal större eller lika med 0 men mindre än 0.1 (Ubuntu pushar ut felaktigt rörande 32- resp. 64-bitar kompilerade paket vilket gör vad helst från challenge-response noise till Perl's rand-funktion defekta. Dessbättre utgår åtminstone inte jag från att kritiska datorer kan vara kopplade internet alls.). Den strukturella informationen ligger här i någon mening i katalogen apt-get använder.

Det slår mig att egentligen borde man kanske inte förvånas över det. Nu är neuronnät i back-propagation inte direkt vad jag någonsin riktigt kommit till att använda. Framför allt har jag upplevt dem förr långsamt även om jag kommit att förstå från diverse publicerat sista åren att de numera är mycket snabbare. Men som jag vill förstå vad jag minns av dem är det fortfarande i grund-mekanism i princip gradient descent men där vi dessutom gör quality assurance accounting från resultatet i varje lager från det sista (styrelse kontrollerar VD, VD kontrollerar vice-vd som manipulerar the books så att VD blir sparkad istället men det fallet här motsvarar mer att vi kodat algoritmen fel, utan denna kontrollerar neråt och korrekt att vi i resp. lager kan variera antalet enheter, utifrån vad vi från tidigare här skulle betrakta som hur mycket vi vill minnas).

Och därmed här publicerat är icke-patentering säkerställd.

Intensitet och påverkan förändring

Intensitet i mening händelse per tidsenhet där för resp. händelse utnyttjar viktsystem från befintlig historik för att ge det en default intensitet. Är ej trivialt när det kommer till bedömning av tid framåt. Emellertid på uppsidan har jag normalt aldrig sett det utmanande att komma riktigt i ordning händelser i framtid även om avstånden mellan dem i intensitet när betraktat från antal dagar istället för konkret mätt intensitet ses varit desto svårare. Det senare är i någon mening när förenklat när i komplexitet så långt att man själv kan betrakta det som människa ofta bra mycket lättare att komma rätt i, inte sällan när så enkelt inte vad som kräver mer än att titta på senaste 50 titlarna på säg Yahoo News! (Google News är dock helt värdelös här: Ev. relaterat till att det är den jag normalt använder vilket kanske stör något, eller allt. att den i algoritm gör för mycket vid sidan om att publicerings-tid ordna nyheterna).


Nå intensitet kan ibland ta saker i fel riktning. Oavsett det när stale även om intensiteten för närvarande tar saker i fel riktning om korrekt väg allmänt är sannolikare är rent principiellt mer intensitet även om bara noise (och jag använder här begreppet noise i mening säg descent, vektorkvantifiering, än att vi går ut i världen och adderar brus: Vilket i det senare snarast motsvarar att mer inträffar i en geo-region även om det så vitt vi kan se är icke-relaterat önskad väg framåt).


Eller för att ge perspektiv på förändring i den begränsande sidan här om Mr Vader hade tagit med sig 1000 personer som gick runt och bara gjorde vad helst de hade lust till på The Death Star störande och hindrande teknikerna. Eller om det faktiskt ökat hastigheten genom att samla folket till att lösa det problemet, uppleva lite vi-känsla, sluta oroa sig för att propagandan från divergenterna påstår att Mr Vader och Kejsaren är onda o.s.v.


Storlek övergripande population resp. hur lika den är globalt relativt grupperingar (cluster) unika nog för att inverka har givetvis betydelse. Finland är en liten population men mycket konvergent mot hela Finland i varje historiskt existerande del-divergens synlig idag (3 - 4 st om jag minns rätt, kontra argumenterat 50 - 75 st Sverige, eller 1000 - 1250 st Kina: 1 000 000 000 / 1000 = 1 000 000 st d.v.s. Kina ~ Finland ).


Moff Jerjerrod: Lord Vader. This is an unexpected pleasure. We are honored by your presence.
Darth Vader: You may dispense with the pleasantries, Commander. I am here to put you back on schedule.
Jerjerrod: I assure you, Lord Vader, my men are working as fast they can.
Vader: Perhaps I can find new ways to motivate them.