Låt oss "rita" neuronnäts-konceptet ganska annorlunda

2017-06-17

Säg att vi har "neuron" a, b och c i vad vi kallar lager i.


I lager två har vi "neuroner" av en annan typ där vi har en st som opererar på tillståndet / utvärdet / jämförbart från nod a och b. En som gör det nod a och c. O.s.v. i alla möjliga kombinationer föregående lager.


Vi väljer nu att sluta kalla neuronerna av typ två för neuroner. Istället kallar vi dem relationer / anslutningar. Och knoppar av vårt utvärde som vad vi sorterar utifrån någon eller båda neuroner de utnyttjar i föregående lager.


Varje sådan relation uttryckande / lärande sig mest nära tillhands att tänka sig korrelationen mellan dem ev. under en verklighet någonstans i andra lager efter oss önskat.


Givetvis kan man införa en tredje sorts neuron som hanterar en bunt tänkbara relationer till neuroner bakom dem abstraherat som samlat där. Kanske rent av mer naturligt om ens bas-datatyp är matris i Matlab, matematiken, eller jämförbart. Medan som skissat innan känns tror jag mer naturligt om vi tänker oss preferens i graf-datatyper och representationer.


Jag tror också att det kanske oftare är mer uppenbart vad den första strukturerings-typen egentligen gör. Samlar korrelation mellan två stycken saker. Vilket vi givetvis kan göra också per position i resp. ex. tillståndsvektor där. O.s.v.. Än när abstraktionen är en kallad neuron där en mängd sådana anslutningar via vikter i en matris mer "gömt" via gradient descent typiskt lär sig resp. vikt anslutnings-kombinationer.


Men jag har å andra sidan aldrig upplevt neuronnät som typiskt uttrycka naturliga för mig. Backpropagation tycker jag är en vettig inte helt ovanlig värdefull primitiv som jag förövrigt flera gånger använt utan att tänka på att det är samma sak som backpropagation. En bra ofta antagen mer magisk - och ovanpå det inlärning man helt unikt valt att kalla gömd för mellan-lager i neuronnäten emedan vi varken i hårdvara eller mjukvara pratar om gömda delstegment annars - men kan inte för allt i världen förstå hur man annat än att rita om ett neuronnät kan se hur och var det bygger sin korrelation. Jag kan ej visualisera mentalt som neuronnät men däremot grafer.


Korrelation mellan givet sorterade datakanaler, resp. och / eller positioner data där, och / eller positioner och datakanaler i varje kombination. Ev. abstraherat mer kämpat kanske tydliga kanaler eller tidsförskjutningar i korrelationer mellan korrelationer etablerade mellan kombinationer redan. Så som vad som händer tid i i mening korrelations-skattande till tiden i, och vad helst som uttrycker sig och vi önskar. Väldigt vanliga koncept i mängd varianter för en ej nod-bred värld i sådant som stokastiska processer, wiener processer m.m. Sedan är självklart begrepp som Deep Neuronnets helt icke-specifika. Medan koncept som Wienerprocesser tor jag har väldigt stor preferens att just göra operationer mellan "lager" (d.v.s. ett 1-dim. värde vid dag A, ett vid dag B, någon vikt kombinerande dem vid värdet idag o.s.v.) betraktade gärna som diskreta tidpunkter. Jag vågar ej riktigt stanna på egen-konvergens av att förstå koncepten Deep här som i princip vara processer över vad vi kan se ligga i vilken som helst preferens representation graf- / neuronnät / rörsystem för vatten-transport / eller vad helst nästan enligt tidigare. Det är väl kanske tecken på att det oavsett vad konceptet är i övrigt ej egentligen är mer resonemangs-optimerat än ANN var. Vill man ha magi man klarar att acceptera idag - och kanske rationellt stimulerande en del bra blackbox-tänk - är kanske representationer så som uttryckta i neuronnät kontra mer begripliga som är exakt samma sak.

Kineserna måste börja ta ut sina sopor: Det är ej rätt att det ska stinka för mig här i Sverige.

Jag upplever att det ej är rimligt att i någon praktisk beslutspåverkande mening utanför vad det nu har lokalt i diktaturens struktur eller Hpng Kong entiteten att mena att "PLA vairt och relevant storlek" giviet Hong Kong stabilitet många år. Rimligare är att mena att påståendet är desinformation och lögn.

PLA Helps Guard Hong Kong in ‘Challenging Times’


Ser vi PLA göra just vad man menar att de hållit på med redan en evighet spekulerar jag att man kan komma att tidigt se att förflyttning styrkor Hong Kong var ett felbeslut. Därför att det visar sig att dom hade behövts fastlandets storstäder. Mängden automatkarbiner tillverade industriellt i Kina är högst väsentligt. Jag kan inte annat än tro att bra många av dem genom åren gått ut i spreading activation. Samtidigt tycks så få hamnat i brottslighet. Så var är dom? Jag tror att medborgarna Shanghai och Beijing har dom hemma hos sig. Eller kanske i något community organiserat gemensamt litet förråd.
>/p>

Stadskriget är speciellt. Väldigt oönskat när goda vägar finns. Men också intressant i att det är ytterst utjämnande mellan aktörer. Har du automatkarbiner räcker det mycket långt kontra nästan vad som helst. Pansarvagnen är en dyr lösning som kan göra ingång lättare trots utspridda självorganiserade medborgare. Samtidigt föreslår jag att tunga kultor med i forskningskärnkraft skapade tunga grundämnen existerar skjutbara via vanligt standardgevär gående igenom allt, och lämnande omedelbart alla i dom döda från inandningen gaserna. Arena luften kan jag inte på samma sätt som arena enstaka personer taken kontra stridsvagnarna en utmaning. Men varande heller ej någon expert - knappt nedanför på nivå att jag kan namnen på åtminstone flertalet av de svenskar - avstår jag från att uttrycka varför jag det tycks så en icke-fråga.


Som en intresserad ej omedelbart där utomstående person i världen skulle jag välkomna att se hög intensitet. Jag tror kinesen skulle må bra av långsiktigt reducerande den moraliska kostnad de bär av att låta den risk-mängd diktatur över världens största nation nu spyr ut över världen därför att medborgarna Kina ej gjort vad moraliska förpliktelser kräver av dem och städat upp "statsskicket" deras förvirrade år tidigt 1900-talet lämnat efter sig. Om det nu kräver att de gör det med vapen är det knappast mitt ansvar att ifrågasätta eller lägga tid på söka hitta en lösning jag om mitt land hade tyckt varit bättre. Och mer spekulativt tycker jag kulturen känns "staled" - fastnat i någon lokal avart utan att orka därifrån - och jag kan uppleva det som kanske en egentligen effektivare och bättre lösning för dem att ta tag i det hela ordentligt nu utan att förvänta sig att fler år kommer visa på någon bättre lösning. Det är mitt perspektiv om jag argumenterar detta i år såväl som förra året: Jag tycker ni ska skaffa fram lite vapen och göra revolution.


Så kanske är det bra med PLA gående in i synligt stort antal in i säg Hong Kong. Eller vad helst nog i effekt-upplevelse för att få kulturbärande medborgarna där nere att resa sig istället för att sitta och vänta på att världen ska städa upp soporna åt dem.


Partiet kan visa sig i praktiskt verklighet lite av en gemensam riktnings-uppmuntrande entitet. Upplevelse av likhet i det avstånd kontra ideal önskade större än vad annars vanligt oavsett preferens statsskick kontra korruptionsutbetalning via partimedlems-lön eller liknande. Även om självklart väpnad making it happend för tror jag säkert mig såväl som dom där är det ej egentligen önskade - ej målet. Hong Kong bär också något av trojanen alla år sedan den kom åter från UK. Men vad kan den som sådan vara annat än vad som inducerar intensitet? När givna naturlagar om vad för intensitet som självklart kan leda till exakt rätt förändring. Gör man massor här finns möjligheten - ett smart, välutbildat folk fastland såväl som Hong Kong så jag tror nog det. PLA kan vara the shit här även om partiet utan tvivel alltid kommer ej våga just det steget utan snarare nu såväl som tidiga års strategi allmänt söker etablera närvaro i stort antal relativt domän steg för steg.


Jämför i kontrast gärna ö-skapandet kontra båtande ner två givna battle-groups och en halv som nu kommer i delar utanför det i USA's rörliga strategi vars värde är just när och var behövd men som ej kan vara sustainable på samma sätt som en fast struktur likt en ö - eller diverse militärer man bit för bit för in HK. Men lössna här. Jag kan aldrig argumentera rörelse här från en massa ej synligt marscherande in militärer innan de får dem där samlade visande upp sig. Det senare är nästan bättre då det kommer med spooking, plötsligt oväntat dykande upp, dold fara man ej såg o.s.v. Stor dynamik här hur man vill ha dem komma ut för att få igenom vvad vi kanske kan se som ett beslut men egentligen tycks vi se någon form av självorganisation troligt given när så oerhört många människor i aktuell nation handing out the guns som ej vidare diskuterar. Jag vill inte påstå att kinesen är lat lika lite som svenskarna. Men jag tänker att antagligen om 40 år givet att egentligen har kin esen ej för vad som är världens äldsta "civlisation" kommit sig för att få fram ett demokratiskt moraliskt sunt statsskick får man åldrad dom sista två - tre åren troligt kvar göra sig lite besvär och komma ner görande det hela åt dom. En krutdurk på nivå det är ska inte vara svårare än att man svär lite på flygplatsen över att rollatorn ej kommit av flyget för att nationen ska bränna sig ren från diktatur-sopberget. Ej svårt. Men det kan vara kollektiv kulturell feghet snarare än att dom kulturellt eller biologiskt är ett det lata folket i världen.

L1- och L2-distans tillsammans: Reward / cost-funktion över-vektor skalande L1-modifikation i gradient descent icke-linjärt

Similarity eller distans som funktion av resp. antingen similarity cosinus eller L2 resp. L1-distansen. Ett uttryck jag av och till experimenterat i väldigt skilda delar relaterat de vanligaste av de vanligaste algoritmerna inlärning och clustering. Och har verkligen en mycket skild natur jämfört med L2 eller sim. ensamt. För mina 300-vektorer ord kommer det exempelvis när inducerat via påverkan på träningskonstanten (d.v.s. renare kanske att hellre se via en implicit funktion stående "bakom" inlärningskonstanten i ex. diskriminant derivatan av en föreställd funktion vi deriverar: men i min kod logik för inverkan lik denna ofta vad som vairt enklast att inducera genom att manipulera träningskonstanten i resp. operations magnitud om än ej dennas epokförändrade grund-storlek) ge ut clustering oerhört dominant (väldigt olikt normalt förväntat dem eller vilka som helst normalt topic-kontext dominerade ordvektorer skapade på normala sätt) i flera av givet antal totala cluster ordtyper. Och ej nödvändigtvis självklart begränsat till eller ens självklart (med självorganiserade koncept aktuella för mig här) ens oftare än mindre mer udda grupper först stora sådana som adverb eller adjektiv. Tänker man seriöst över vad ex. ett adjektiv är och vilka grundkomponenter dessa ord kan ha och vilka av dessa (ungefär fem st. förövrigt med två närmast alltid där och ett par ej ovanligt ej aktuella för ord men absolut heller inte mindre vanliga än att om jag minns rätt mer än hälften av adjektiven bär dem) så kan man uppleva att man förstå en del cluster jag sett från det och varför dessa stora och som koncept så väldigt vanliga när vi talar om språk ej troligare (men ej heller troligare) än många andra mindre i storlek och "betydelse" som de första som troiligast kommer ut. Praktiskt har jag inte sett någon poäng alls med sådan cluster-sortering: Jag har redan ordentliga listor med allt från vanliga ordtyper till allt i övrigt säkerligen ej överdrivet långt ifrån allt publicerat ej överdrivet speciellt. Och jag har ej sett något kommande ut i mina försök just här heller som ej när uppenbart drivet ordtypsnära tänkta egenskaper snarare än topic i mening tillför något eller inducerar nytt-tänkande förståelse hos mig: Utan vad man sett redan och om mot förmodan när man behöver det ej redan bättre gjort i ett oftare där troligare männnisko-skapad lista nog så kan jag säkert sortera ut det ex. automatiserat (eller manuellt) så här eller lika troligt bra eller rent troligare bättre egentligen utnyttjande viktsystem och sannolikheter. D.v.s. intressant därför att jag annars aldrig sett det komma så direkt och renodlat. Egentligen ej vad jag på rakarm mindes alls i övrigt när självorganiserande stora mängder ord där naturligt ämnes-topic alltid är att förvänta när antalet cluster ej är stort extremt troligt kommer. Ovanligt och därför intressant men med mycket av udda-nyheter eller numera vanligare kanske udda filmklipp (oavsett om nu surfande hundar eller en person i en uppenbart överskapad avbildning av karikatyr överdriven stereotyp som fascinerar miljoner varande en så fullständigt extrem nörd och så löjlig utan att själ förstå sig som annat än oerhört cool - Förövrigt ej framgående om man ej kontrollerar själv lite och har nätverken för det i SEO-branschen släkting till en välkänt framgångsrik Youtube traffic-collector. Minns ej om vår tjocka svärdsviftande nörd var kusin eller något annat.).


Sedan gillar jag personligen idén att utnyttja både L1 och L2. Vi känner ju praktiska värden med båda. Och alltid när man behöver göra ett hårt val upplever jag lätt att en period av att pröva allt möjligt runt två motsatta koncept blir verklighet. Finns någon - kanske rent av lite men ej märkbart så sämre rent praktisk - kompromiss av båda är jag sällan helt främmande för den. En del kognitiv-dissonans och bedömnings-osäkerhet som besparas. Varande en god idealiserad svensk har jag ibland rent av svårt att helt släppa dessa "gränsöverskridande" kompromiss-lösningar. En konsekvens av att växt upp under Kalla Kriget inkluderande grundskoleinlärning i läroböckerna av den svenska "modellen av världspolitiken": Världen med sina divergerade block är var för sig ej riktigt rätt. Mitt emellan dem på den rektangulära kartan - om än konceptuellt mer udda på en glob - finns Sverige. Det är möjligt och mycket med diverse exempel 1900-talet med början 1970-talet exempel man kan mena sig uppleva ev. är sådana indikationer finns på att resp. divergerat block konvergerad till deras mitt. D.v.s. Sverige. L1 och L3 normerna och distanserna skulle vi korrekt svenskt därför bäst se som två divergerade koncept som är på väg att konvergera till ett distansmått som utnyttjar både L1 och L2 distansen: Sverige-distansen i nuvarande mitten (Låt oss kalla den för Milstolpen från vad den mindre moraliskt korrekta - och / eller kanske modigare - granne släpat hem till trädgården och gillar att prata och visa upp).


Men varför när det ej egentligen tar det pröva det på något ytterligare en gång? När ändå samtidigt skakande om pågående träning hoppande träningskonstant mellan punkter i större steg där man sedans tår ett tag och skyfflar data in och ut. Säg i denna variant:


ZH är Sverige distansen. Vår milstolpe förklarande vad avståndet är mellan två punkter i svenska-mil. Och vi definierar den ej omedelbart från L1 och L2 utan cosinus istället för L2 därför att av och till finns en skillnad trots att vi kan räkna mellan dem (personer med preferens säg 0,1 normalisering utnyttjande exp exp ( gaussiskt-distans ev. varians // bandvidds-normaliserad) hade antagligen föredragit L2 då mer rationellt). L1 väljer jag förövrigt som ett av flera alternativ ha max-normaliserad över alla under träningen levande vektorer träningsdata. Konkret är Milstolpen: sim / ( 1 + L1-distansen ) == likhet. D.v.s. lite olämpligt att jag kallade den för distans då vi i denna form ej utnyttjande L2 mer får similarity med riktning. Annars är ex. L1 / ( + sim ) också funktionellt.


Vi gör beslut utifrån vad vi kan välja att se är ett distans mått per vektor-position för att få en gradient i varje träningssteg. För mig testat uteslutande vad som i grunden är gradient descend men med diverse modifikationer i och nära runt om som gör att grundprincipen gradienten ej säkert är lätt ens för en mycket säkrare matematiker refreshad i området att få ut en funktion som integraler av. V beräknar här nu för vektor vi modifierar ett tillstånd med i gradient descent också L1 och cosinus similarity för och från det Sverige-i-mitten-är-ändå-vad-USA-och-Sovietunionen-resp-är-mest-lika-till-resp (låt oss kalla det SIM - Sweden in International Model - eller vad man vill föreställa sig att det står för bland läsare firande och starkt troende på den goda medborgaren Hans som alltid tar chansen att lyfta fram Riket: "En fin riktig svensk utan något av Skåningen eller Norrlänningens halvt-icke-svenska okulturs-störningar i beteende och språk: Det är det fina med Hans i ett nötskal.") fortsättningsvis) måttet som indikation bildat från övergripande alla positioner men utan att cross-beroende (ex. säg cross-talk alternativt) mellan positioner utnyttjas explicit ändå en gemensam samlad indikation korrekt praktiskt utanför träning i sin naturliga dimensionsreduktion till en position mycket mer funktionell för mer övergripande beslut än representation information: Jfr jämförelse ord med varandra eller uttryck för sannolikheter ett ord givet ett kontext (ett decimalt-tal är vad vi avser en position). Men opererar i träningen på varje position vektorerna utifrån konkret när jag testade L1-distansen (under dis-constraint att till varje ord-vektor omedelbart innan ej normaliserat görs beräkning: uu(i) = uu(i) + rand ( uu(i) * 0.10 ) - rand ( uu(i) * 0.10 ).


Hela tänket gradient descent är ju att derivatan är viktig. Och är vi L1 här med L2 i egentliga funktionen kan vi ännu tydligare konceptuellt se hur vi flyttar oss närmare vid behov medan ex. mer av en medelvärdesbildning kan tendera att sämre bilda en gemensamvektor för just diskriminering. Trots det görs följande operation av mig på denna L1-distans tänkt att vara gradienten. log ( 1 + e ( L1 ) ). Jag hade verkligen utan annat än fördel kunnat välja att ersätta L1 distansen med detta när sent i träningen men ej riktigt sista epokerna. Större värde ges emellertid när vi istället:


Beräknar: log ( 1 + e ( SIM * l1-distansen just för aktuell position i vektorn ) ). Och viktar andelen av den normala gradient-operationer vi låter påverka tillståndsvektorn med kontra samma tillståndsvektor i föregående tidssteg. Bieffekt är mera smooth övergång vilket kan vara mindre önskat ev. tidigt i träningen eftersom vi för in föregående tidsstegs-vektor. Normalt är dock denna bieffekt önskad i sig (varför jag valde att låta effekten realiseras via denna viktning snarare än manipulerande den gradient som faktiskt används vilket är den som normalt L1-beräknande: Även om arbetande med L2 distansen väljande cluster o.s.v. ska man dock absolut inte vara rädd att pröva att bortse helt från tänket att man laborerar med en L1-distans som är en derivering av en L2-distans för att experimentera med allmänt numeriska algoritmer enkla standard-grepp som ibland ger värde. Ex. sluta med L1 och istället använda L1 skalat icke-linjärt för att ge större effekt av antingen mindre eller större skillnader för resp. position kontra tillståndet som tränas fram - åtminstone om sent i träningen - vilket verkligen oftare än annars för känt praktiska funktioner kan öka upp andelen korrekta sorteringar såväl som att reducera andelen falska koncept upplevda hörande till kategorin. Men jag önskade ha en svag medelvärdes-effekt verkande utan att just detta steg i logiken konceptuellt så korrekt tilltalande enkelt börjad expandera i antal rader kod börjande närma sig några hundra från vad som i grunden kan vara en rad. Och effektiviserade ner operationerna där det kändes enklare att göra ett par man troligare av och till kan önska av resp. på normalt som jag bedömer det i ungefär samma del av träningen - tillsammans. Medelvärdesbilda själva gradienten ska dock ej ses som vad jag självklart på något sätt här ej rekommenderar troligare som vad man kanske hellre bör tänka och arbeta med. Görande potentiellt p.g.a. struktur ett flertal förändrande operationer - ej fler än värsta fall åtta och normalt 1 och mindre ofta två eller tre - från ett slumpmässigt draget ord är det dock ej praktiskt bra att arbeta med gradienterna här krävande att man tryggt ej förväxlar i koden skillnaden mellan steg som operation resp. steg som nytt ord m.m. medan vi med själva resultatet ej behöver något nytt quality assurance i assertions för att kontrollera rimligheten.).


Jag vill ej spekulera om vad för värde någon annan får av just denna operation. Den är vad jag tycker man ska se som en av en bunt enkla små modifikationer man kan pröva rent praktiskt för en given tillämpning och se om det ger mer värde. Utan att jag tycker det sunt (om man alls ska se matematikern som roll som sund för någon normalt frisk ej matematisk-person) att man ska uppleva behov av något teoretiskt resonemang runt dem var för sig. Jag har några bra sammanfattande journal-artiklar tillsammans täckande upp några av de mer basala (i mening att vi ex. där kan hitta grundformen funktion jag utnyttjade här men ej att vi där har den fortsatta varianten av att vi utnyttjar en skalning från similarity) grund-operationer ytterst vanliga såväl välkända oftare än inte ger åtminstone något lite värde antingen exakthet eller beräkning totalt nödvändig att nå åtminstone en extrempunkt (oavsett dess förhållande i storlek till en eller flera av ev. övriga extrempunkter. Jag anar lite att med tänkt L2-distans som funktion och definierande data för funktionen som är levande flergram producerande kontinuerligt varje dag är kanske koncept som lokalt minimum meningslöst och mer att vi har praktiskt approximativt ett oändligt antal extrempunkter något så när i chunk-cluster jämförbara i magnitud. Men tänker kanske fel. Under antagande att annan logik / personligt beslut ej relaterat funktionen i sig vi antar att vi uttrycker beslutar om mängden och vilket indata vi just nu för kommande pågående timmar träning för in i systemet. Verkar nördar coolt för dagen för vi in dom. Har Trump hört av sig om att köpa information kring koncept relaterade Världs-President år 2020 kör vi in data relaterat det. Ska vi tydliggöra moraliska problem med person i parti-diktatur kör vi in data aktuellt där. Vi kan i det automatiserade av logik se ex. konceptuell möjlighet att nära användning är vad logiken följer upp konkret effekt av pågående tillämpningen av vikterna - Började folk ställa sig och vänta på att Trump kommer och ska president-tala inför kommande konceptuella skapelse av världspresident-posten? -
Om inte kanske vi börjar sampla annorlunda men ej för det annat än förlorar på att kasta tillstånden där vi står som är mer av något större runt gradienterna i insvängningen mot att få den Goda människan i ledning av världen så att alla folkmord världen skådat, alla kostnader för alltid förutom Mexiko oskyldiga länder mexikanernas butikssnattande runt om i världens städer orsakande svält, gravt eftersatta regler om tax-free inköp av alkohol och tobak resp. alkoholbeskattning många länder har där istället alkohol-subventioner vore det allra bästa för folkhälsan, den dåliga myndighetsinformation flera länder har om dålig hand-hygien orsakande den Diger Död som rätt trump-i-kortleken som världspresident kunnat förhindrat - ej riktigt bra - och kanske ej helt överdrivna uttryck för den lite skakiga relevans-rimligheten vi kan ha tidigt här - men ej meningslös information att arbeta vidare från) tillsammans med sampling från levande internet-corpus ).























































































Bättre gradient descent opererande på distribuerade ordvektorer med grov skattning information in via addition och information ut via subtraktion

2017-06-15

Komplettering: Jag tror jag får följa upp med något exempel här för att göra enkelheten tydlig. Enkelt är inte alltid enklare att bra förklara. I övrigt kan läggas till att effekt för mig överstiger övriga optimeringar nära själva gradient descent delen av logiken d.v.s. medelvärdesbildningar gradienter, utnyttjande moment, förändrande träningskonstant utifrån riktning gradienter nära i tiden (positiv eller negativ riktning) o.s.v. bland normala optimeringar. Någon anledning att tro att samma värde finns för data som ej kommer från språk tror jag inte riktigt på men å andra sidan tror jag värdet gäller utan just någon skillnad effekt eller metod för alla distribuerade vektorrepresentationer ord och flergram (eller ämneskontext) skapade med alla normalt förekommande algoritmer.


Poängen med gradient descent är att den fungerar och tillåter hög abstraktion för människan. Nackdelen är att fokus forskning optimering resp. skapelser tenderar att hamna uteslutande i antingen själva abstraktionen (d.v.s. avseende metoder så som moment eller medelvärdesbildning), steget från en tänkt funktion vi deriverar (och är tänket vettigt avseende vad vi skjuter in i algoritmen från logiska regler för anrop resp. motsvarande derivatan kan man om ett eget värde ej finns gå långt utanför att anta att funktionen existerar eller frågor om den ser ut i mening av att man kan saker längre här genom att temporalt gå över till "varianter" av derivatan jfr för vad jag började med att pröva just här som exempel: Tänkbar modifikation av algoritm kvantifiering vektorer att använda mot slutet av träningen. Men att något jag prövat här egentligen är värt besväret utan medvetenhet om informationens form är troligen i allmänhet mindre vanligt annat än för resultat tänkta att användas längre tid.), medan samspel med själva informationen vi för in lämnas.


I särklass vanligast tvivlar jag inte på är att man funktionen antagen att deriveras är L2-distansen vilket ger oss att modifikation som sker följer L1-distansen i resp. steg. För vektorn opererar vi nu per position lämnande frågan om hur informationen ser ut till övrigt. En mängd varianter jag mentalt sorterar i samma grupp utnyttjar mer övergripande över resp. vektor kontra övrigt similarity ovanför vilket vi kan se som ett exempel på hur vi kan utnyttja informationens natur.


Nackdelen med alla dessa algoritmer är givetvis inte att de i allmänhet är så väl tilltalande enkla som mycket levererande i resultat utan att de liksom gradient descent tenderar att lura oss - eller mig tidigare åtminstone - att missa det mer uppenbara när det kommer till våra ordvektorer. Betänk gärna de mest grundläggande och triviala måtten på hur träning clustering går: bias och varians som indikation på var vi ligger i att avskilja motsvarande träningsdatat (d.v.s. risken / nivån av överträningen) kontra risk för inkludering defekt men också chansen / möjligheten (vad åtminstone jag i allt aktuellt språk tar som grundvärdet sökt) att också ej träningsdata men vad som motsvarar träningsdata inkluderas.


Tänk att vi nu har vår principiellt enkla träningsalgoritm resp. en bunt sinsemellan ganska jämförbara koncept närastående ovanför (ex. vektor-kvantifiering) men att vi kan ha missat en i enkelhet och prestanda jämförbart koncept. Ett koncept som tar in hänsynen till informationen kompletterande similarity som utnyttjat och föga kostsamt prestanda (knappt märkbart alls).


Givet att jag hade missat att se möjligheten om ej för att egentligen allt jag gjort efter 1997 cirka. Ungefär när jag började skriva Kryptering från början till slut. Alltid inkluderat var gång ej helt borta att göra att betrakta som tum-mått informationen utifrån komprimering.


Och i träningen här: Hur mycket information går in? D.v.s. via additionen av relevanta samples för som aktuellt just nu för mig några av mina "ML" / More-or-less - Positiv / Negativ - i 1-gram cirka 6000 vs 9000 i följande bias-engelskan för större uttryck frekvens positivt men med fler ord för negativt och sist kontrollerade precis som det ska vara (eller adderar jag timmar korrigerande) för alla core-ml försvarligt större än något publicerat -, Known / Unknown (Unknown ska jag återkomma till här: När den föreslår mig utbyggnader under träningen får man ett fascinerande "negativt" perspektiv av vek ekonomi: Kopplingen i extremt stort under vektorerna corpus mellan unknown som grund definierat och ekonomi överraskar mig fortfarande pågående regelbundet) - resp. ganska små i 1-gram krävande fler två gram för särskilt unknown och båda cirka 3000 - 4000 st, UP / Down ~ Active / Passive - båda "gigantiska" redan i ord ovanför 10000, Trust / Distrust - mindre men besläktade positive-negative cirka 4000 båda om jag minns rätt). Samt informationen vi tar ut när subtraktion sker d.v.s. för mig antingen:


  • Riktat. I de flesta fall att ex. "positiv" tar bort information från "negativ" därför att negativ för en ord-vektor uppvisar att den defekt känner sig mer hemma med ordet än positiv. Vad som kräver human-work-unit Hans att av och till kontrollera det hela eftersom samma del av algoritmen skapande träningsdata ibland fört in koncept folk ej i corpus tillräckligt rent använt jämförbart (samt att enstaka underligheter kan vara fallet). D.v.s. koncept humor visade sig exempelvis ej bra att behålla i positivt. Troligen därför att för mycket diskussion humor som kommersiell-produkt stör saker, att komedi kan handla om för positiv problematiska ämnen, samt en här visade sig försvarlig mängd corpus vi kan nöja oss med att säga är löst relaterat till konceptet skadeglädje (satire har något lite av samma problem men i kontrast ej i närheten av nivå att man behöver ta bort det från positiv).
  • Kontra mängden ML allmänt. D.v.s. koncept tränings-data någon ML men ej den kategori aktuellt för ordet och ej dess "motsatta" ML.
  • Kontra mängden alla existerande koncept. Där jag praktiskt valde att endast inkludera ord följande A-Z resp. ord A-Z med "-" där "-" i mina ordvektorer motsvarar bigram som jag valde att ta med utnyttjande detta som notation. Övrigt lämnande etniska uttryck (jfr åäö för svenska ord eller i mängd desto mer allt möjligt från Indien m.fl. länder) är i hög andel funktionella motsvarigheter till "-" men uteslutande avspeglande vissa kanal-preferenser så som diskussions-forum, nyhetstitlar o.s.v. Nyhetstitlar är mycket funktionella för att expandera ord åtminstone när de indikerar första ordet i titel liksom p.s.s. (jämförbart funktionella) indikerande citat. Indikerat forum där själva ordet avslutas "..." är mycket funktionella för expandera med manuellt för starkt emotionella koncept medan hela gruppen i övrigt visade sig för ML sämre att utnyttja (det förvånande mig verkligen eftersom ML-kategorierna är så emotionella till sin natur och gruppen i sig är funktionell för ämnen inom åtminstone politik för expansion följande grundordet) vilket också gäller allt relaterat corpus som har med diskussion i text att göra.

Jag upplever att sista subtraktions-typen som jag använt det ej är orelaterad till eller felaktig att se som en form av variant (men via algoritm använd i övrigt) till att grovt subtrahera bort någon form av viktad medelvärdes-skattning av hela världen.


Struntar jag i all subtraktion och dessutom väljer givet hyggligt färdiga tillstånd addera allt modifierande resp. stegs träningskonstant med ordets similarity får vi en mycket god skattning av hur ord allmänt motsvarar kategorin i similarity. Men med begränsningen av att särskiljandet mot andra kategorier snabbt försämras. Vi hamnar i vad som inkluderar och för in information från allt vi vet i positivt träningsdata. Hade det endast varit världen är det ej ett problem men som är typiskt är en stor del av värdet att kunna särskilja mot andra kategorier. Det är - motsvarande min arkitektur här - det naturliga andra steget att utnyttja "dagens" träning av händelser fortlöpande givet det första stegets träning till att uttrycka distributionen. Första steget ger möjligheten att särskilja en ML trovärdigt medan det andra givet att den klarar detta kan koncentrera sig på den kanske enklare utmaningen att uttrycka diverse viktade distributioner (så som hur lik ett koncept eller en grupp av koncept är till en ML, eller troligt uttryckt i världen enligt dagen, nivå spreadability o.s.v. motsvarande egentligen alla viktsystem jag annars genererar ut av och till).


Det intressanta i kontrasten lager ett och lager två är att i lager ett kan vi skatta mycket nära till slutlig effekt nivå överträning kontra inkludering okända men tillhörande koncept resp. antalet ej upplevt tillhörande koncept som rangordnas högt i similarity utifrån mängden mängden information adderad resp. subtraherad. Hade vi nu med mängden information avsett sannolikheten för en given vektor med "höggrad av medvetenhet" om korrelation mellan positioner o.s.v. eller intressantare dess "effekt-volym" (eller vad vi kallar det) i mening av totala likheten det uttrycker med ett antal eller alla av övriga ord existerande, så hade det varit mindre intressant därför att det hade kostat ganska försvarligt i beräkning nödvändig. Men menar man - och jag gör det - att mängden information mer är av ett degenererat koncept utnyttjande grova skattningar hörande hemma i antaganden om diverse samverkande normalfördelningar vi inte ens behöver trovärdiga skattningar av rörande varians-moment för (utan sådant är mer något vi för tidiga moment kan beräkna samtidigt) är praktiskt på samma nivå som övriga koncept utnyttjade: Det kräver ej mer än gradient descent eller similarity.


Och hur laborerar vi då med detta? Och här är själva kärnan av värdet. Träningen gör sitt. Av och till. Ganska sällan. Inte ens en av tio epoker. Kontrolleras grovt vad genomsnittlig likhet - cosinus-similarity - ligger på för orden som tränats mot respektive kategori i övrigt. Ligger det över något värde. Drar vi slumpmässiga ord - säg 1000 till 100000 st - tills mängden informaton vi subtraherat går över tröskelvärde.


Personlig tumregel att vi alltid kan göra addition (implementerande med en vettigt sund grundnivå vilket inte är givet i mycket man ser publicerat där överträning som koncept tycks ha definierats helt opraktiskt som vad man tror sig löst med ett held-back-corpus definierande det som problem vilka endast kan manifesteras på samma abstraktionsnivå som algoritmen man tränar med vilket nu ej är verkligheten: Stor fördel här i forsknings-områden där clustering är mer av en praktisk metod använd i ett "större" huvudsakligt mål så som medicin kontra där det är huvudsaken) utan att riskera att överträna (men självklart förande in typiskt för varje koncept i träningsdata en viss mängd junk-informationen ej bra för idealiseringen tillsammans med värdefull information). Medan när vi börjar subtrahera givet addition kommer alltid risk för överträning vara fallet. Personligen tycker jag att det är en excellent start-punkt demonstrerande att del-komponenter fungerar som de ska tillsammans. Arketypiska ord motsvarande träningsdata ger höga värden medan allt i övrigt ligger nedåt negativt i similarity oavsett om konceptuellt relaterade eller inte.


Vad jag vill se det som sker i algoritm-steg här är att vi drar bort vad motsvarar en skattning av mängden "allmän" och orelaterad junk-information ordvektorerna var för sig i liten utsträckning för in tillsammans med information relevant för idealiseringen:


1. Sund och god informationen i dom men just här ej relevant. Kategorier positiv och negativ kan ex. grov-tränas adderande allt varefter kategorier UP / DOWN subtraheras från dem. Det tar nu bort aktivitets-relaterad information. Gör vi det endast för UP får vi starkt uttryck likhet mot positiva ord som ej inkluderar att man gör något: Tänker vi visuellt koncept som har att göra med att slött titta på något avkopplande storslaget (och själva orden motsvarar i äldre Flickr corpus sådana bilder), eller ej aktiverande positiva koncept som har semester att göra. Ord som är "serene" (som låg någonstans topp tio):

"Peaceful, calm, unruffled.  [quotations ▼]
She looked at her students with joviality and a serene mentality.
Without worry or anxiety; unaffected by disturbance.
(archaic) fair and unclouded (as of the sky); clear; unobscured."

Wiktionary.
Notera ovan också "archaic sense" som i ML-kategorierna diskuterande är starkt "KNOWN".

Detta är information vi kan välja att avlägsna från resp. ord - eller en skattning av den - också pågående under träningen. Det är vad jag experimenterat med att göra utnyttjande att tillstånden börjat närma sig färdigt och därför var för sig ger goda skattningar. Adderar jag ord till positivt kontrollerar vi om också en negativ sense-definition eller användning (kontext i corpus) existerar, och om så försöker vi ta bort en mindre andel av den följande övergripande vektorns positioner korrelation till den som förenklat och skattat via similarity (snarare än cross-correlation vilket tenderar att vara i allmänhet om ej prövat här lite starkare men ej mer än att det ej är i närheten av värt kostnaden i beräkning det innebär att göra) mot negativ-idealiseringen (jämför med de algoritmer för ortogonalisering med ej ovanligt praktiskt användning så som Gram-Schmidt där jag avstår att länka Wikipedia som jag här minns som tungt inne i matematiska koncept utan särskilt mycket om just något alls av de många bredare praktiska användningar normalt använd för. När matematikern kommer och visar upp sina lemma m.m. svår-begripligt och väldigt tråkigt ska man precis som man pop-up fönster relaterade gratis film vara på sin vakt.). Konceptuellt är detta kostsamt och på det stora hela givet en del manuell-tid det tycks kräva (för mig åtminstone) högst tvivelaktigt ger något man ej med bättre resultat gör i diskreta tidpunkter eller sist när övrigt är färdigt. Orsaken är det ej är så mycket denna information som är problematisk. Är det relaterat på nivå att vi kan göra detta är avgränsbar och vi kan välja när vi tar bort den. Och att ta bort den pågående innebär att vi gör antagande om att vår similarity-operation klarar detta tillsammans med som normalt en enkel subtraktion utan att vi tappar värde i övrigt (bl.a. ökande antalet träningsoperationer nödvändiga från att resp. idealisering här delar viss för dem var och en korrekt information att ha kvar) vilket förvisso är funktionellt men i nivå defekt är relaterat till antalet koncept vi har i träningsdata aktuell kategori resp. kategori som skapar de idealiseringar vi avlägsnar likhet till resp. antalet gånger vi behöver göra det. I kontrast till att kunna utnyttja alla ord vektorer finns för, ej ha beroende till någon idealisering, och dessutom ej ha större beroende till idealisering vi avlägsnar information från än att man kan avstå från att kvantifiera likheten helt (för att istället reducera ner träningskonstant ytterligare och öka på antalet slumpmässigt dragna ord).


2. En viss mängd information troligt ytterst irrelevant för vilken som helst idealisering aktuell men som kommer i "form" uppvisa likhet till motsvarigheter hos ett ej oväsentligt antal andra ord i samma ML eller andra ML aktuella. Detta är information ytterst svår att enkelt se. I någon mening sker träning för att som väsentlig del av det eliminera effekten av denna information. Detta är information som kan få ett ord positivt att uppvisa hög likhet med ett ord negativt. Likheten är i allmän mening ej inkorrekt men den har ej med positivt och negativt att göra. Är informationen irrelevant är det lyckosamt - lyckosamt på ett sätt vanligt för språk och engelskan är snarare bättre här än språk allmänt - om den också när grundläggande kategoriseringar tas ut gärna förekommer jämförbart i mängden ord ej inkluderande som ord som har något att göra med kvantifieringen eller clusteringen vi gör. För distribuerade ordvektorer är det lätt att se exempel här, och är så pass tydlig att många förfallet ned till att välja att se vektorerna skapade enligt normala algoritmer som uttryckande just denna större grupp, i topics d.v.s. de ämnes-kontext som sker över ex. som aktuellt här emotionella-dimensioner orden uttrycker, eller som ej aktuellt grammatiska preferenser i språket (startar man från LSA skapande ordvektorerna följande normala algoritmer är det ej fallet att endast ämnen enkelt ges av vektorerna utan försvarliga mängder information relaterad såväl syntax, ordformer, grammatik m.m. ges också ej linjärt d.v.s. att särskilja i similarity exempelvis grateful mot ungrateful är alltid möjligt men kan normalt kräva att man antingen gör efter-processande av vektorerna eller gör någon beräkning mer än cosinus-similarity direkt på dem. Mängden relevant information som kommer med är rent sanslös i storlek och vad som normalt utnyttjas är normalt försvinnande lite av den. Tänk här för de 400 positioner jag började på efter LSA och därefter tog ner till 300 att vi fortfarande är på 300 * 64 bitar: 2^64 hade för något mindre begränsats till 1.8446744e+19 och antar vi att ingen information alls existerar som uttrycker samspel mellan resp. position kan vi multiplicera med 300. Emellertid är det just samspelet och där redan i själva corpus-texten definierande resp. kontext-sample som är grundprincipen vi komprimerar och dimensionsreducerar utifrån - så hellre att vi ska sätta yttre gräns överdrivet men konceptuellt mer korrekt betraktande vektorerna som 300 st double d.v.s. 2^(300 * 64) bitar vilket nära nog rymmer vad som helst).


3. Slutligen en viss mängd relaterat algoritmerna som skapade dem men ej sunt återspeglande indatat - d.v.s. för mig i första steget en variant av LSA utnyttjande givna sannolikheter till 400 * 64-bitars double följt av dimensionsreduktion igen till 300 * 64-bitars double via en variant av Kohonen-nät förädlande också till en-dimensionell topologisk-sortering som Human-work-unit Hans manuellt kan korrigera när behov visar sig ex. dominerar namn ett antal positioner i dom höga värdena och skulle mot förmodan säg "the" visa sig ligga högt där är det enkelt att ta ner det till en sund nivå för positioner ungefär där säg it ligger: Den mänskliga sidan av IT är så viktigt vilket är så vackert illustrerat också i världsekonomin i all outsourcing till låglöneländer - många människo-timmar motsvarar bättre IT ty naturen av IT är ej att spara tid utan att göra saker ungefär som att "göra" titta på film kostnadsfritt vilket också kräver att man lägger tid på att döda fönster med reklam för ponografi, ekonomiska bedrägerier o.s.v. Lite timmar == Dålig IT) tillsammans med egenheter corpus som mer är att se som ej uttryckande verkligheten). Ett värde med LSA här är också dess nedsida (varför man just ska ta som självklart att man ej använder grundvarianten av LSA utan gör sundare viktning för sannolikheter) i att problem corpus tenderar att flaggas upp via övertydliga uttryck för den större gruppen koncept detta kan vara aktuellt för: Ord som är ovanligt ovanliga och relativt få kontext fanns för (många människor tycks ha som ovana att sätta sig att leta upp ovanliga ord och sedan gå ut på nätet och okynnes skapa icke-representativa "medelvärden" för kontext normalt förväntade av människor: Det är ett förbannat dåligt sätt men inte mycket man kan göra åt för väldigt ovanliga ord).


Grupp ett hanterar algoritmen och kvarstår något besvärande hanterar vi det jämförbart eller bättre sist. Övriga två grupper tycks bl.a. för mina ML vara funktionella att anta är representativa i alla övriga ord i mening av att drar vi dem slumpmässigt får vi en representation av hur detta ser ut i ej små kategorier av träningsdata. Och behovet är skattningsbart från hur faktiskt träningsdata uttrycker sig kontra konkurrerande kategorier. Och operationen i sig medverkar ej tycks det alls till överträning: Tvärtom testande det tar det bort överträning om man tillåter effekten av det hela gå högre än normalt annars fallet för det. Ej heller över epoker påverkar det negativt genomsnittlig korrekthet - och mindre väntat ej heller väsentligt genomsnittlig likhet mot egen kategori (vilket annars är ett funktionellt mått på att man får effekt av många operationer inkluderande subtraktion: Vi kan ta bort information och öka korrektheten men kommer tendera att reducera magnituden för vektorerna vi idealiserar och alla ord's vektorer åker därför gärna ner en bit i sin similarity). Bra samspel med gradienten och funktionerna den antar sig laborera på derivatan under verklighet av program-logikens beslut (d.v.s. sådant som att vi bättre ej låter den få mer data och operera på sin approximation om konceptet vi just då har redan tycks beslutas i rätt cluster: lätt fascinerande har jag många gånger tycks - självklart när vi betraktar vad vi gör som att komprimerar information och här ej önskar ett onödigt svårt problem genom att också stoppa in information vi ej behöver d.v.s. kan vi fatta rätt beslut för ett sample så utmanar vi ej algoritmen med det mer. Men betraktat från att approximera funktionen L2-distans utnyttjande derivatan L1-distans känns det lite speciellt - det lämnar frågan om hur vektorernas positioner samverkar utanför hur vi vill se det trots att det är högst verkligt påverkande).


För gradient descent clustering online. Jämfört med moment, medelvärdesbildning gradienter och/eller tillstånd m.fl. standard-optimeringar vi kan göra av gradient-descent för som här clustering får man här ut ungefär 10 ggr mer än de samlat räknat från samlad similarity korrekta kontra defekta ord genererade tillstånden topp tio tusen. Förutsättande för allt andra metoder hanterande detta med resp. ej medtaget för övriga. Moment, förändring alpha upp eller ner något från riktning gradienter sista stegen innan m.m. har jag också tagit bort, medan jag behåller medelvärdesbildningarna vilka fortsatt tillför märkbart (men ej i nivå: jag tror dock att för kategorier färre i antal ord och/eller naturligt krävande färre epoker att de troligt levererar mer än såväl denna metod som moment m.m. I princip tycks de för mig sudda ut nersidan av online-träning på ordvektorer utan att värdet av det påverkas alls - om ej startande från påbörjade tillstånd spekulerar jag också att när de första tidiga epokerna är gjorda att medelvärdesbildningarna också en tid levererar väsentligt mer. Dock är jag tveksam till poängen alls att utnyttja min metod här tidigt under träningen där jag gärna ser att det hela för in mycket information mindre diskriminerande medan den svårare förädlingen avlägsnande ut irrelevant information bättre görs senare när det är givet att vad irrelevant kvar ej naturligt från god-algoritmen gick bort av sig själv). Det är lite speciellt - och just exempel på matematiska konceptuella frågor jag tror är väldigt sunt att avstå från att engagera sig i - varför moment blir i princip föga meningsfulla av vad vi gör här. Själva formen på vad vi kanske kan tänka oss som en kurva - lutningen mot någon extrempunkt - påverkas ej på ett självklart sätt (men i all rimlighet är det väl just inflygningen som förenklas här - mjukare med mindre lösningar man upplever sämre än vad man önskat fortfarande tänkbara tydliga nog för att slöa ner eller frysa utvecklingen).


En fråga är kanske hur värdet ser ut när gradient descent utnyttjas tillsammans med back-propagation. Back-propagation är funktionellt - och har kanske sitt större praktiska värde egentligen - utanför de arketypiska typerna av neuronnäten. Har vi ex. besläktade ML-kategorier (utan att just prövat detta) kan vi utnyttja det för att låta en förändring i sig positiv-del-kategori-1 inverkar på positiv-del-kategori-2. Jag tycker det känns mer naturligt att se det som en metod relaterad spreading-activation över godtyckliga grafer. Det är ej självklart för mig om metoden är problematisk med back-propagation eller fungerar helt jämförbart. Backpropagation till sin natur bär ju mycket av mer uttryckt värde i segment där utmaningen att garantera att idealiseringen klarar att inkludera godtyckliga okända koncept (ex. som här tränande på i huvudsak 1-gram och några två-gram trots det få en idealisering som kan bedöma godtyckliga ngram, eller lika gärna ett ej överdrivet stort chunk med ord upp till två-tre meningar med rimlig ambition och test av om träningen är klar) är föga och vi snarare är i problem där mindre storleksordningar på träningsdata är aktuella görande problematik rörande överträning enkelt. Men sådant har kanske egentligen mer att göra med att vad backpropagation normalt används för - d.v.s. neuronnät - ej bra klarar mycket stora kategorier av ord och gärna kan hamna i överträning (resultat i "gömt" delsteg i algoritmen i form av "neuron" vars effekt ingen människa någon ser tränar sig till att uttrycka noll på allt utom en position efter en egentlig gigantisk arbetsinsats träning ersättande en enkel människo-gjord if-sats - för generiskt vanligt i klassiska prototypiska neuronnät även om utvecklingen gått framåt ganska ordentligt sista åren efter att föreställningar om hur neuronnät "måste" / "ska" se ut passerade ut).


Betraktar vi endast ord som sådana finns egentligen föga värde av att alls skapa idealiserade vektor-representationer. Man kan lika gärna - och bättre egentligen - utnyttja viktsystem för ord och hantera frågan om vad inkluderat eller ej genom att sätta sig en vecka vid behov och sortera ytterligare en 10 000 ord (den vinnande "third world IT-out-sourcing" metoden men gjort ännu lite smartare reducerande kostnaden ytterligare en bit skärande bort Bangladesh-IT-arbetaren genom att göra det själv - säkrare än varianterna att gå förbi universitetet och utge sig för att komma från GODTYCKLIGT-COOLT-IT-FÖRETAG-MAN-VILL-ARBETA-OSS för att göra en tävling man kan VINNA-EN-EJ-OTROLIG-SAK-I-DVS-RIMLIG-I-VÄRDE-OCH-DÄR-ALLA-KÄNNER-ATT-DE-MER-ÄN-ANDRA-KOMMER-GÖRA-SIG-BESVÄR och lämna ut A4-blad med ord man behöver sorterade stående bakom ett bord: Moraliskt kan man givetvis ifrågasätta den senare metoden samtidigt minns jag ett år när jag gästföreläste i krypteringskursen och någon av studenterna stal min Microsoft-penna i silver jag några år innan köpt i Palo Alto. Så åtminstone för mig är just moral ej en fråga här: They - studenterna: i affär av idealisering av en kategori är generaliseringen svår att argumentera mot moraliskt givet att konceptet av de enskilda objekten ej existerar - own me. Flera timmar om inte hela deras liv i alla fall. Jag känner mig fortfarande lätt irriterad över penna-incidenten. Min långsinthet imponerar som alltid och dominerar lätt i ett fåtal saker som vuxen mina samlade minnen uppväxt + vuxna-år. Vore inte mer än rätt att göra några omgångar student-mining men kanske mer i kodutveckling: Varför jag ska behöva sitta och koda sämre motiverad saknande min silverpenna medan dom okynnes festar finns ej ett bra svar på att hitta i åtminstone min powering-up med moral och etik management-lära).

Reducerande risk överträning

2017-05-19

Vi betraktar likheten som uttryckt via cosinus-similarity som en form av korrelation (om än ej balanserad från medelvärde vilket är mindre önskvärt). Vi ser också risken för överträning samt hur redan komplexa icke-standardiserade neuronnät (d.v.s. ej följande någon generell princip utan skapade manuellt för tyngre utmaningar man är beredd att tänka specifikt för) kan expandera enormt i komplexitet och beräkningskostnad så fort risker överträning måste hanteras i regler.


Vi menar vidare att vi sitter med nät som i princip adderar inkludering via addition medan avlägsnar icke-relevant information via subtraktion av icke-relevanta vektorer (ex. felaktigt bedömde tillhöra en grupp, via några alltid för varje addition, och/eller en svag subtraktion för varje vektor alltid när dragen om den ej hör till gruppen vilka är mindre tre huvudsakliga grupper).


Vi tillför på försök regeln Z_HH i samband med ytterligare expansion regler träning gjort att känslan är att redundans minskande risk för överträning bör tillföras. Där tänket är att denna regel ska avsluta behovet permanent:


  • Z_HH aktiveras alltid när subtraktion sker.
  • Vi drar n-stycken (säg 5 - 6 st) positiva för den kategori vi subtraherar från.
  • För sex st. föregående drar vi 1 st som säkert ej hör till någon kategori (troligast namn medan verb, adjektiv, adverb m.m. normalt hör till någon kategori) samt ett par st. vilka som helst som ej hör till egna kategorin, och ibland 1 st. som kan höra till en motsatt kategori.
  • Vi avlägsnar "korrelationen" indikerade negativa ord från de positiva genom att först medelvärdesbilda positiva och negativa och därefter beräkna cosinus. Inte helt olika med hör man ofta gör ortogonalisering.

Vi kör detta som positivt sample för kategorin vi subtraherar från. Och raderar den ej d.v.s. ingår nu permanent som en existerande given under träningen. Så som kod gjorts är det ej via någon regel givet att processen någonsin kommer 100% säkert kommer avstanna. Z_HH kan i sig innebära att Z_HH anropas om motsatt kategorin upplever den höra till sig. Att träningsdata som ej hör till kategorin används och får reducera skapat sample utefter korrelation gör dock detta till väldigt osannolikt inträffande ens 1 - 3 gånger.


Total tillgång positiva samples i form av vektorer för ord är cirka 20 - 30 000 st, med ej färre än 2000 för någon kategori tror jag. Träningen samlad antas ge funktionella resultat ej bara för kategorisering ord utan också varje form av kombination av ord oavsett samples eller ej. Oavsett detta tror jag nog metoden i olika varianter är funktionell rent allmänt.

Tänkbar modifikation av algoritm kvantifiering vektorer att använda mot slutet av träningen

2017-04-26

För kohonen-nät är mitt intryck att vi utifrån grannskap i någon mening begränsar - sätter kanske inte alltid förstådd eller eftersträvade - constraints vilka inte självklart behöver ha något just med den topologiska egenskapen i mening av kulturen att visualisera resultatet (vilken jag själv av vad jag sett folk gjort tycker verkar tycker verkar oftare än annars obegriplig i vilket värde det skulle ge: jag använder inte algoritmen själv för visualisering eller gör näten 2D utan istället en eller 1D-lager).


Säg att vi antingen gjort ett kohonen eller vektor-kvantifiering med antingen bara positiv-tilldelning eller eventuellt (kanske intressantare för diskussionen) också negativ-förändring (d.v.s. om vektor X för ett ord hör till hög-intensitet tilldelar vi tillstånd hög och ev. om ej viktande förändringen ex. med sannolikhet, intensitet och liknande med krav på hur det ska påverka effekten på likhet när klar bedömt viktigare än ex. än mängden icke-ämnes-korrekta ord som kommer ligga på hög likhet - om likhet med tillståndet är lägre än något värde för lugnare mer tillförlitlig konvergens inkluderande mer lättförstådd och predikterad effekt rörande mängden okända riktiga ord resp. okända defekta ord som kommer gå över threshold med samband till den utnyttjad här - resp. när effekten är negativ om låg-intensitet och/eller icke-hög-intensitet visar högre likhet än något gränsvärde eller för låg-intensitet om låg-intensitet visar högre likhet än tillståndet för hög-intensitet). Och att detta är klart.


Säg att vi tränade det klart utnyttjande för att bestämma effekten förutom träningskonstanten (epok-beroende) med skillnaden L1 mellan varje position i vektorn d.v.s. v(i) = v(i) + alpha * ( u(i) - v(i) ) (med v som vektorn för tillstånd och u för ord).


Varje position för en vektor oberoende av övriga och tillståndet värderas i vilken effekt det p.s.s. Något man kan göra sent i träningen (upplever jag som ibland meningsfullt men kräver att man tittar till det ofta) är att låta likheten och samma likhet som fick bestämma (som i kohonen-nätet) vilket tillstånd vi gör förändringen på. Gör man samma sak tidigt i träningen blir resultatet sällan bra ämnes-sorterat och konvergensen kan gå till vilket underligt gravt övertränat resultat som helst. Men sent med lågt alpha kan det ibland kanske ge något.


Det tycks troligt att vi sent kan ha vissa positioner i vektorerna eller samband mellan positioner som är mer värdefulla medan diverse andra samlat på sig junk eller bara är mindre meningsfulla. Vektorkvantifieringen i sig söker nu bestämma detta. Men kanske kan vi nå bättre finstämda konvergenser om vi mot slute söker värdera detta. Jag kan tänka mig väldigt bra sätt att göra detta på men varande mer komplexa över statistiska samband är min tumregel från erfarenhet att om de gör en enkel algoritm komplicerad kommer de ej otroligt förstöra mer än de ger och om inte ej vara värt tiden.


Men man kan ju också pröva något enkelt i sig lika lite tagande hänsyn till något annat än värdet för tillståndet och ordet för resp. position. Jag prövade lite med en variant av u(i) * log ( 1 + e(z(u(i)) ) p.s.s. sätt att mindre förändringar värderas ner absolut mindre än stora förändringar. Vilket jag ej märkte just något värde stort nog för att förändra sorteringen av orden i träningen utifrån similarity per epok.


Medan jag ännu är osäker på om denna variant kanske adderar en del värde. Startande från ett övertränat färdigt tillstånd på ett lågt alpha tycks det kanske ge något efter några varv. Men varande övertränat behöver det stå ett tag. Kan det få ut mer exakthet på något gravt övertränat bör det kanske visa det värt att pröva i övrigt.


1. Vi kan här anta att trots att resp. vektor position är [-1,1] att inga positioner varken i tillstånd eller vektorer ord är annat än ]0,1[.

2. Trots vanligt att göra så normaliserar vi ej vektorerna till att summera ett. Vi ser dem ej trots att varje position kan ses som kontext ej som sannolikheter konkurrerande med varandra (d.v.s. antar vi att en position uttrycker något runt namn och var de hör till olika kulturer, och ett annat arbete och roller, menar vi att de kan vara samtidigt verkliga såväl relevanta samtidigt).

3. Istället ev. men ej säkert teoretiskt skakigt ser vi resp. position som en sannolikhet approximerad av värdet (vilket är per vektor L2-normaliserade cosinus-similarity värden) för att igenkänna eller bedöma pureness av något för den, eller just här (för vektor-typen 300-WW) sannolikhet att vi ser dem i detta kontext (tror jag är vad jag minns rätt från när jag gjorde dem).

4. I någon mening har vi nu (tror jag) för varje position 1 st. fördelning som kan ha ett värde (här i träning medan världen är större för alla vektorer). Vi kan visst se alla värden för allt träningsdata per position representera fördelningen för målsättningen men det är den approximation vi nått när vi börjar här som vi kan laborera med utan att just behöva göra en massa komplicerat sparande serier av värden.


5. Beta (Mathematics Handbook) gav (ev. med någon notation rörande tvåan jag ej minns längre) summeringen av f(x) * f(x) * log ( f(x) / g(x) ) för KL-divergensen. Jag definierade om den till f(x) * g(x) * log ( f(x) / g(x) ) + g(x) * f(x) * log ( g(x) / f(x) ) (men kontrollerade inte att det blev som jag förväntade men antagligen ok).


6. Värderar vi träningens effekt utifrån denna divergens positivt är det något mer lämpat tidigare innan i princip klar med träningen. En uppsjö alternativ till att påverka effekten finns här utan tvivel i huvudsak bättre och de flesta antagligen om ej mängden data är gigantiskt eller konfigurationen komplex med flera parallella gradienter ej särskilt värdefulla jämfört med att låta det gå långsamt nedåt av och till kontrollerande det hela och vid behov gående upp igen ev. till ett tidigare mer sällan sparat tillstånd.


7. Värderar vi upp det hela får vi ej någon lokal effekt per position. Emellertid kan resp. värde del av summan utnyttjas per position. Jag prövade några stycken mer eller mindre uppenbara varianter av detta och körde ett tag på resp. tills jag nådde denna variant.


8.1. Vi inför först en särskild "distans" besläktad med en variant jag ofta har använt (men ej fungerade bra här - tränande vad som är tänkt att gå kontinuerligt fortsatt för att uttrycka intensitet i världen resp. ge skattningar som kan användas för dekomposition av ex. enskilda ords vektorer eller kontext - i just aktuellt här positivt, negativt, tillförlitligt, ej tillförlitligt, upp i intensitet, ner i intensitet, och fara men där problemen distansen mer lågt i ett antal breda ämnen associerade förändring rörande större världsproblem så som ex. religion, krig, hälsa m.m. där distansen gav en ej lämplig preferens mot sortering ordtyp ej önskad: L1-distans / ( 1 + cos-similarity) ): KL-divergensen-omdefinierad-Hans-för-alla-positioner-tillsammans / ( 1 + cos-similarity ).


8.2. Testkörning nu använder dock ej distans som beror av cos-sim då jag vill se effekten också utan detta, och ej är säker på att KL-divergensen kan skala cos--sim över många epoker utan att olämpliga konvergenser uppstår.


8.3. Distansen används ej för annat än att skala förändringen ett ord tillåts att göra på tillståndet.


8.4. Vidare för varje position skalar vi förändringen enligt: ( C - divergens(i) / max_divergens ) eller i besläktad variant ( C - max_divergens * 0.5 - divergens(i) * 0.5 ). Där max_divergens är det största värdet en position i ord-vektorn har för divergensen. Jag prövade också varianter utnyttjande medelvärdet: Dock utnyttjar vi ju redan summan i distans-måttet.


8.5. Sätter vi C till ett värde mindre än 1 kommer vi som vi använder måttet subtrahera för positioner som är kraftigt divergerade. Medelvärde divergenserna för ett ord ligger ofta runt 0.02 - 0.03 (och ej normalt ovanför 0.05) medan max-värdet ofta tycks (tidiga epoker) ligga 0.4 - 0.8. För åtminstone C mindre än 0.95 tycks det hela falla i bitar till något ej önskat. Varianter med lägre värden och ej utnyttjande negativa värden kändes ej heller bra. Jag tog därför C till 1.


8.6. Och tillsammans får vi effekt-påverkan KL-divergensen har som: ( C - max_divergens * 0.5 - divergens(i) * 0.5 ) / distans. Vilket vi multiplicerar med träningskonstanten alpha.


9. Allt för resp. förändring per position i: v(i) = v(i) - alpha * ( u(i) - v(i) ) * ( C - max_divergens * 0.5 - divergens(i) * 0.5 ) / distans


Att få båda världar samtidigt: Både träna tillståndet till att motsvara indata d.v.s. med nödvändighet förändra sig utifrån indata om ej perfekt från start, samtidigt som vi kan värdera upp indata och positioner vektorer som är bättre är svårt om vi ej vill utnyttja något annan vetskap än själv det tillstånd vi bygger upp. Jag upplever det ej som rimligt att kunna förvänta sig att det ska gå bra. Återvänder vi till mitt ex. att ibland pröva att värdera upp med cos-similarity är förutom riskerna med det kanske så normalt (ev. alltid för mig) att vad man sent under träningen ev. uppnår i huvudsak är att snabba upp konvergensen.


Samtidigt om vi ej låter algoritmen fritt välja tillstånd att förändra. Och ej utnyttjar ex. grannskap, eller håller flera "kurvor" av gradient-förändrade tillstånd som uttrycker något ex. kontextuellt eller tidsmässigt annorlunda men besläktat. Gäller att effekten alltid är till sin natur linjär. Emedan om vi behåller detta och adderar på en icke-linjär komponent oavsett ev. övriga som används kan det innebära att vi ökat möjligheten till anpassningsbarheten mot indata.


Samtidigt gäller vad jag först skrev avseende grannskap i Kohonen-nät att sådant också är constraints. Vi begränsar mängden lösning vi när vägen väljs fortsatt kan ta och därmed också storleken på den mängd som motsvarar hela världen som antas existera. Desto hårdare constraints ju mer tenderar vi att lätt hamna där vi också antar att världen utanför vårt träningsdata är mindre än den egentligen är och har det betydelse i användningen av resultatet är det upp till svårt problematiskt.


Storleken på sådan potentiell övertränings-effekt är dock ordentligt varierad mellan metod. Tänker vi oss att vi alltid gör addition på tillstånd A för data medan vi subtraherar på tillstånd B om likhet B är större än A, och omvänt för data avsett tillstånd B. Och slumpar orden. Här är komplexiteten påverkar överträning potentiellt gigantisk: Potentiellt därför att det ej är säkert om resp. tillstånd A och B är konstant i antal bitar kan konvergera för att uttrycka detta (annat än ökande distansen mellan tillstånden accepterande förstörelse meningsfull information: Ex. att tillstånden vandrar "oändligt" långt ifrån varandra vilket dock i sådan extrem kräver en hel del klumpighet eller inkompetens för att klara om något villkor alls finns för när subtraktion görs alt. någon form av genomtänkt normalisering effekt mot totala mängden i resp. grupp A och B: För några exempel sådant jag märkt när jag hamnat i sådant som brukar lösa det). För att få hela möjligheten kan man behöva tillåta algoritmen att skapa fler tillstånd beskrivande resp. A och B när det behövs. Och på samma nivå potentiell komplexitet och storlek inducerad överträning möjlighet ligger många neuronnäts-algoritmer. Sätter vi dock threshold i absolutnivå likhet åtminstone för när vi subtraherar från tillstånd B har vi tagit ner denna potentiella komplexitet enormt. Och har vi det både på addition och subtraktion är den gigantiskt mindre. För grannskap kohonen-nät om denna funktion endast adderar är komplexiteten ej speciellt hög alls. Låter vi den också subtrahera (vilket jag sällan tror är annat än problem utan värde och jag prövade runt en hel del) när en viss distans nåtts.


Beräknar vi som alternativ medelvärde av vektorerna för träningsdata till tillstånd A tenderar sambandet normalt vara att med fler ord växer vi först i exakthet. När de ännu ej är över säg några hundra och väljs förhand. Därefter brukar jag se försämring orsakad av att man börjar få med ord som ej hör hemma i gruppen. Samtidigt som en del fel försvinner gäller därefter att vi når bättre resultat med mer data där vi når mest längst för grupper som i all verklighet inkluderar många ord och där definitionen av vad som hör till gruppen ej inkluderar något som till sin natur utnyttjar en icke-linjär form som ej finns i vektorerna (d.v.s. för distribuerade ordvektorer skapade normalt sätt ej grupper som är grammatiska till sin definition där effekten träningen av dessa skulle ha att göra med exakt vad vi har för ord snarare än ämnet som sådant resp. omvänt att vi här kan få effekten att ej ämnen utan ämnen + ordtyp visar sig irrationellt om ej hanterat ex. för post LSA eftertränande mer styrt utan tematiska - vad som har med ämnet att göra). Ökar vi mängden ord kommer vi dock ej öka exaktheten annat än att öka mängden riktiga inkluderingar relativt mängden defekta. Hur varierade gruppen är naturligt, resp. mängden icke-relevant data vektorerna innehåller, o.s.v. kan vi ej påverka. Så någon risk för överträning finns aldrig annat än i mening av att välja ett st. antaget perfekt ord istället för att titta på detta ords grannskap och där välja ut fler ord som hör till gruppen samtidigt som defekta ord som ej hör hemma där ej väljs till medelvärdet. Men de defekta orden vi kan se i generering per ord vi använder (eller för medelvärdet samlat) av närmaste grannar med högst similarity kvarstår även om de med lite tur fler ord kan späs ut. Överträningen i den mer kraftfulla algoritmen än medelvärde kan vi därför jämföra med att för jämförbart generering närmaste-grannar exkludera ej önskade ord, och inkludera önskade ord, på sådant sätt att generering för det färdiga tillståndet ej kommer inkludera på hög position en mängd av ord som borde varit där eller alternativt inkluderar en mängd ord som ej hör dit alls (för vektorer skapade med LSA från stora corpus kan vi ibland p.g.a. PMI se när träning färdiga vektorer görs för vanliga ord att vi i generering klar kan se väldigt udda ord eller tecken komma högt ex. som jag kan se för mina 400-vektorer tränande bara med vanliga engelska ord html-taggar m.m. som kan nå höga positioner eller ord från små-språkområden). Ett stort stycke av den potentiella informationen vi kan nå är ej beskriven, och det mer avvikande från det vanligare kommer mer sannolikt uppvisa något högre här.


Komplexitet träning kan ha samband till den komplexitet som påverkar risk överträning. Detta gäller ur-typiskt när många icke-linjära operationer sker pågående från start av träningen och över alla operationer som sker per träningsdata. Medan den är gigantiskt lägre än ex. flera tillstånd tränas uteslutande linjärt och därefter kombineras icke-linjärt under förutsättning att vi i och med den linjära träningen också når en "enklare" värld där det icke-övertränade / icke-perfekt-exakt-formade är meningsfullt och snarare ger ökad exakthet. Säg att vi från fyra tillstånd - motsvarande fyra dimensioner (i kontrast säg 300 dimensioner för vektorer träningsdata innan) - ska välja antingen 0 eller 1. Här är vi rent av ibland där bruteforce eller slumpade vikter, funktioner, kombinationer av dem o.s.v. kan användas.


Vad som gäller sådant jag gjort här har jag dålig känsla för. Men jag anar att den givet något vettigt tränat innan ej begränsar ner världen märkbart alls. Så länge ej varierat positioner utifrån divergerade mer än något börjar subtrahera på tillstånden medan andra kommer addera på samma positioner. Med subtraktion byggs icke-linjära samband som kan uttrycka mer flexibla former på "kurvan" mellan orden (i den mån det för vald effekt-funktion alls är meningsfullt möjligt) medan jag tror när vi endast väljer hur mycket vi adderar att sambandet endast skapas i relativ mening per position och ord. Jag tycker att en metodik som fungerar bra för mig för sådant här är att pröva en uppsjö enkla varianter eller som just här kombinationer av tre enkla metoder jag vet kan fungera bra. Emellertid föredrar eller har preferens mot vad jag kan visualisera formen eller förändringen av. Jag är dock lite osäker på om jag gör det bra för divergensen-komponenten per position bl.a. därför att jag ej är hemvan i formen på ordvektorerna rent allmänt på de olika positionerna och hur positionerna formar sig tillsammans. Sedan har jag ibland en preferens att önska två värden samtidigt men ej normalt förväntas kunna få samtidigt antagligen därför att det ibland visar sig möjligt vilket man minns medan man minns mer diffust och ofullständigt alla gånger det ej går även om jag egentligen aldrig trots att jag försöker riktigt tror att det kommer visa sig gå.


Oavsett hur addition och subtraktion används tidigare avser det ej i vilken riktning vi förändrar tillståndets vektor absolut utan tecknet vi sätter före L1-distansen (om vi förändrar tillståndet närmare som vid addition aktuellt stycke träningsdata). D.v.s. v(x) - alpha * ( u(x) - v(x) ) där vi ibland anropar funktionen med ( (-1) * alpha ) i vilket vi fall förändringen innebär att distansen ökar mellan tillståndet och vektorn för ordet vi just då tränar på. Vi noterar att riktning är relativt samma data vi förändrar från och bestämmer mängden förändring av men att det tänkbart kanske inte alltid behöver vara så.

Konvergens en neuron vs en grupp av neuroner

2017-04-18

Betrakta 1 st neuron bestående i förenkling endast av dendrit-träd resp. "grund-funktion". Dendrit-träd ger potentiellt vinkeln aktivitet inkommer med. Antar vi också kommunikation bakåt från dendrit-träd och grundfunktion kan vi likt Max-Planck (tror jag det var) spekulera om att biologiska neuronnät gör back-propagation (att något potentiellt elektro-kemisk information passerar bakåt tycks för mig sedan en 5 - 8 år cirka vara givet från hur jag bedömde det då publicerat. Men jag har föga och kanske inte alls följt upp det där efter).

D.v.s. säg att vi endast har en sändande neuron i lager bakom dendrit-träd vi betraktar. Var vi får centralitet i dendrit-träd är en approximation av hur långt ifrån mitten på lager bakom sändare finns om avståndet är känt mellan lagren. Antar vi ett medelvärdet av allt någonsin kommunicerat innan befinner sig nära nog exakt framför mitten på dendrit-trädet (vilket det i biologiska neuronnät kommer göra eftersom neuronen växer mot det som sänder) är avståndet (eller riktigare uttryckt dess funktionella motsvarighet) känd.

P.s.s. kan vi betrakta en grupp av neuroner. Där resp. neuron uttrycker inlärning av en variant (existerande som meningsfull) av vad neuron-gruppen övergripande handlar om. Ex. kan det som noterat via avbildning aktivitet biologiska neuronnät i människa i numera en myckenhet publicerat vara sådant som varianter av en välkänd människa. Så som en kändis.

Centralitet för aktivitet i grupp av neuron. Den position vi konvergerat till i gruppen när vi också i detekterande neuroner (kanske något likt vad spekulerat i Stanford researchers surprised to find how neural circuits identify information needed for decisions ytterst eller i ett eller flera strukturellt hierarkiska tänkta steg nedanför. Själva poängen i vad vi antar är även om ej riktigt relevant för vad vi diskuterar att relevanta konvergenser i hjärnan kan vara topologiskt tämligen distansierade vilket gör det svårt att utnyttja dem tillsammans utan just något övergripande strukturellt ej av samma typ som kan ta upp resp. konvergens på ett nytt övergripande lager) i och utanför gruppen betraktar den samlande aktiviteten för hela gruppen uttrycker en approximation av verkligheten just nu. D.v.s. aktivitet neuron i viktad med dess avstånd till centraliteten, aktivitet neuron ii viktad med dess avstånd centralitet o.s.v. Vi kan också jämföra detta med den förväntade centraliteten utifrån aktivitet detektor tränad mot den typiska mitten av neuron gruppen tar upp. Är aktivitets-vikten hela gruppen vad vi nöjer oss med att få i en dimension d.v.s. datatyp double / float snarare än en vektor av double / float datatyper räcker det bra med att nöja sig med aktivitet hos denna medan vi behöver utnyttja fler detektorer annars (också styrt av exakthet avbildning).

Traditionellt bra mycket relaterat inlärning koncept i vad som ger eller utnyttjar similarity vill gärna se varje koncept som i någon mening likvärdigt alla andra. Det har fördelen att vi potentiellt kan jämföra alla av dem. Eller enklare säga att ord A som knappt förekommer alls idag i dagligt tal är nästan eller troligt helt synonymt med ord B som är mycket vanligt idag men knappt förekom i någon bibel-variant äldre än 100-år.

Emellertid är nu resp. sådant koncept ej likvärdiga i nivå de potentiellt ex. kan uppröra någon. En person A representerad som oljemålning, tillfälle vi såg personen tala m.m. varianter som genom en personlig erfarenhet lätt konvergerar till en tydlig punkt upprepningsbar utan variationer för samma ny upplevelse är resp. ej lika "emotionella" (potentiellt upprörande / kvinnligt-tänkande - för att ge ett kanske enklare exempel - åtminstone billigt att skapa - resp. via komplettering pekande på kvinnor upprörda över erotika som säljs i butiker visande att intensiteten i sig har sina poler). D.v.s. vi kan se att:

  • Vi kan ha en semantisk mitt som har föga med hur upprörande någon semantisk variant av bakomliggande samma sak.
  • Konvergens i neuron-grupp har här föga med resp. inlärd variants emotionalitet.
  • Vi kan vikta en sådan konvergens över gruppen med denna punkts intensitet.

Detta är ofta en funktionell approximation av hur jag tror människa väldigt ofta fungerar. Undantag existerar emellertid och jag tror kanske alla dessa kan sammanfattas med upp- och ner-sidan av vad vi samlat väljer att kalla danger. Viktar vi resp. neuron i neuron-gruppen med dess emotionella intensitet gäller att vi troligare för samlad konvergens något godtyckligt som ej perfekt stämmer in med någon enskild neuron kommer att konvergera till en mitt som troligare är felaktig rent semantiskt. Betrakta en oljemålning av scen från Vietnamkriget får vi flash-back från personlig upplevelse av Vietnamkriget d.v.s. defekt användning av strategin tolkning. Medan denna mer kostsamma konvergens-algoritm - mer kostsam genom att den kommer ge en troligare per fall defekt konvergens som fordrar "manuell" kontroll av prefrontala kortex för att reflektera om fara / hot är verkligt - i andra situationer kan vara motiverad därför att vi i kontextuell information relevant vet att fara kan vara verklig.

För att förstå kostnaden sluter vi ögonen och visualiserar oss i en labyrint av mörker och smutsig lera under marken. Vi ser framför våra fötter ett färskt likt svagt upplyst av en svag lampa ovanför oss som med en svag smäll därefter dör. Vi hör ett svagt skrapande ljud ej i vår direkt närhet. Snarare i korsning till en tunnel 50 m bakom oss. När vi försöker vrida huvudet bakåt upptäcker vi att det sitter fast. Något är fastspänt vid halsen. När vi rycker till dras det åt likt en strypsnara. Varefter vi känner en hand nypande vår axel. Nästan trängande in genom huden. Det luktar illa. Ruttet som av mat så dålig att den är giftig.

"Working with dot-counting mice running through a virtual-reality maze, scientists from Harvard Medical School have found that in order to navigate space rodent brains rely on a cascade of neural signals that culminate in a single decision that prompts the animal to choose one direction over another.
[...]
'This winner-take-all view is elegant but perhaps somewhat oversimplified,' said study author Chris Harvey, assistant professor of neurobiology at Harvard Medical School. "Our findings suggest that groups of neurons keep track of all recently encountered visual cues and use this information to inform decisions. There needn't be an actual competition between two or more pathways, at least not in the areas of the brain thought to be involved in decision-making."

Från: Maze Runners

Att jämföra med mössens relativt nära släkting människans kulturella skapelse (som jag ej sett men tror mig begripa precis vilken arektypisk-film typ det är): The Maze Runner.

Den depressiva har vid denna punkt ingen kostnad därför att de ger upp. Övriga börjar via överdriven aktivitet bränna igenom möjligheter oavsett kostnader (här räknat om det hade varit verkligt antal döda neuroner vilket för varje sådan i sig kommer öka aktiviteten ytterligare då dödsfall av en neuron släpper fritt alla aktivitets-ökande kemikalier det har lagrat vilket per fall många magnituder överstiger aktivitets-reducerande). En del relaterat bl.a. aktivitet från döda neuroner kommer falla bort som contestant att ta sig ur problemet därför att de ej har erfarenhet etablerad strukturellt i dataprocessing för att klara plötsligt hög aktivitet utan börja bete sig irrationellt (d.v.s. upp till dör av strypsnaran). Andra kan ha specifik erfarenhet av problem-området som gör det hela "alldeles för enkelt" för att riktigt visa något av intresse (de kan ha övat att ta sig ut ur just sådana situationer via någon kroppslig rörelseenergi som uttrycks via spark-bakåt eller dylikt). Övriga kommer acceptera varje divergens, variant konvergens i strukturer av neuron-grupper utifrån vilken mängd kontextuell information från långtidsminne in i arbetsminne nuvarande situation som helst så länge de fortfarande lever och ej tagit sig ur situationen. Till vardags kräver sådant dock väldigt mycket och mer än vad som är effektivt när behovet saknas. Om det är ett val vi gör strategi väljer vi denna situation när ej nödvändig till priset av att vi ej kan se troligare alternativ d.v.s. alternativ också sannolikare får vår normala svensk korrekt funktionella (värden och möjligheter försvinner därför att föga troliga hot måste värderas: Därmed måste jag som gammal säkerhets-filosof och -expert säga långt ifrån alltid att det självklart är sämre att värdera även otroliga hot. Dock som individ krävs en del coping-skill om verkligheten under långa tidsperioder är att du lever under hot om det ej också ska innebära att du begränsar ditt liv. Optimalt ska ditt skill-set ej vara sämre än att när mer konkretiserat att du kan välja strategin riktat dig själv att gå ut och pissa ditt normala revir emedan om tvingad att hålla dig ifrån publikt rum accepterar du också viss kostnad i den psykologiska domänen så om det ej fortsatt ska riskera att påverka den världsbild behöver hanteras så att det ej sätter sig. Matematiska koncept som transformation till ett annat rum kan vara funktionellt och skalbart en mängd olika personligheter d.v.s. de kanske ej kan gå ut uttrycka ägande av sin verklighet acceptabelt säkert i staden i vilket land som helst just då men de kanske kan göra det i något jämförbart där faran är acceptabelt lägre med resultatet att när det större rummet är säkert klarar de föga störda av tiden problematiskt gå ut i den. Likväl får vi anta tidigare filtrering personer. En del personligheter kommer under de flesta möjligheter ej bra klara kontinuerliga hot, och också sådana som visat sig resilient många år slits gärna slutligen ner med varierat resultat att de gärna slår hårt och brett mot hot eller att de gärna flyr, eller mer stokastiskt varierat).

Men vad är kostnaden i en neurongrupp? Säg att en punkt vars aktivitet oavsett om semantisk centralitet kan öppna upp ett sökande i annan information för att försöka säkerställa / komplettera den högsta tänkbara aktiviteten som kan uttryckas. D.v.s. gående ner i information för att söka skatta aktiviteten. Där skattad fara sätter en yttre gräns för hur långt vi kan divergera in i otroliga förklaringar och otroligt användbar information vi någon gång mött.

Ett samspel divergens i andra nätverk av neuroner snarare än att omedelbart acceptera aktuell neurons inlärda mitt aktivitet under konvergens neurongruppen är vad vi antar är fallet. Något motsvarande torde vara fallet när konvergens i neurongruppen tycks när given ej stämma med andra konvergenser i andra neuron-grupper eller jämförbart i delsteg samma neurongrupp. D.v.s. om vad vi kommer fram till ej verkar stämma med given verklighet eller någon enkel minnesregel vi explicit eller implicit lärt oss (tycks förklaringen till situationen jag föreslog att man skulle föreställa sig vara att någon övernaturlig roll-typ är vad som sätter handen på oss kommer en del av oss kasta förklaringen utan att den ens görs medveten för oss medan den för andra personer kommer signaleras troligare än icke-övernaturliga förklaringar därför att de senare i konkret erfarenhet kan saknas fullständigt i allt som från sekundär erfarenhet skulle indikera det. D.v.s. att någon skulle göra arbetsinsats att försätta dig att vakna upp i verkligheten indikerar tycks för dummare mer automatiska delar av hjärnan mindre troligt än att det är demon / spöke som gjort det. Ett fåtal blir glatt upphetsade samtidigt som de rent kroppsligt slappnar av jämfört med annars under ej konkret hot snarast överspända av situationen: En mycket liten särgrupp parallell med de två tidigare refererade typerna vi ser som slitits ner under lång tid. Historik gör verklighet hot som en mindre kostsam verklighet än att vänta på den samtidigt som detta defekt ärvt något av en frisk verklighet tidigare verklig - i kontrast jämförbart med att reagera med regelmässig irrationellt flykt eller irrationellt angrepp vid minsta lilla indikation hot. Träning kan ibland ta vilken som helst av dessa rätt under hot även om de ej nödvändigtvis lätt kommer bra i vardagen.).

Vidare besläktat utnyttjas en motsvarighet (ofta väldigt icke-hantverksmässigt-optimalt) i generering av information. D.v.s. det tycks från hur vanligt detta är att det är föga kostsamt att försöka generera information pekande konvergens gjord via denna algoritm jfr att faktiskt själv konvergera denna typ. Här pekar man mer direkt på att givet något sammanfattat kontextuellt man kan ta för givet att ex. läsaren kan plocka fram är konvergens en viss fara given. Tekniken när utnyttjad mer normalt dåligt (som jag upplever fall när jag mäter effekt: Bryt punkt mellan dåligt och bra på ett års sikt ligger ungefär vid 500 st säkerställda personer som gått ut på gata och där på intensitet att de förekommit i nyheter publicerade av publicist i annat land. Under det ej energi-effektivt relativt kanal man når via om kanalen är sådan att den ej ligger under en rimlig räckvidd att betrakta möjligheten för d.v.s. för mig att vad vi bedömer effekt från gått ut via kanal som åtminstone är i minsta fall en av de skattat av mig 10 000 största publicisterna på nätet också förekommande tryckt. Med begränsningen självklar att vi kan se effekten som lika gärna ev. vara mer predikterande än orsakande där mer av know-how hantverket i sig uttryckt regler i discourse parsning än något jämförbart statistiskt antas särskilja det).

Jag valde bibel-ord som exempel för möjligheten att utanför exemplet varnat lite för stora ofta använda corpus etablerade från internet när det gäller grupper av ord vanliga i kristen-religion p.g.a. av diverse enorma kristna sajter som för enstaka i övrigt ej ovanliga ord kan störa separering ex. positivt - negativt / good - bad så som blessing eller bless vs hell, om man dessutom i råkat fått in ej ett fåtal andra ord med samma domän. Thee det har troligt koppling till ner-sidan av PMI i LSA d.v.s. jag ser det i mina 400-vektorer när känt för mig medan det är mina 300-vektorer skapade av de 400 som man upptäcker det via då riskerna PMI där naturligt reducerades via prioritering de 80 000 vanligaste orden på internet. Dock görande kontinuerligt subtraktioner mellan positivt / good och negativt / bad tillstånd tydliggörs det som problem krävande en balansering - om ej korrektare kastande problem-ord - icke-relaterad good-bad mellan resp. grupp ord för träning. Eller alt. kastande dem tillsammans med i, we, were m.m. som tillsammans approximerar förekomst med vilka ord som helst reducerande korrelation till tillstånden efter varje annan förändring om de går över tröskelvärde - som traditionellt gjort - eller som mer nytt alternativ istället alltid görs i parallell existens-linje för att slutligt jämföras och utnyttjas för reduktion som strukturell-information.

Nu blev det så att jag valde att mer eller mindre för eget (tänkbart) värde reflektera en del på vägen så jag kom ej riktigt så långt att jag nådde målsättningen att uttryckt nog information för att kunna avsluta med samma sak som i förra inlägget: Och därmed här publicerat är icke-patentering säkerställd.. Dessbättre är jag tämligen säker på att vi här tänkbart ej har behovet: Jag vet att jag publicerade för flera år sedan just här men att vi potentiellt ligger i några av ett antal inlägg jag flyttade iväg och ej publicerade igen och har ej kontrollerat oberoende arkivering. Men jag lär antar slutföra någon annan gång. Jag har annat att göra just nu.

Parallella gradient descent ~ Snabbare neuronnät: Förändrings-konstant som storlek minne bakåt i tiden

Värdet av att visualisera och/eller pröva uppenbara varianter. Om än med den gigantiska potentiella begränsningar i vad jag kallade sub-set. Notepad lika lite nu som för 25 år sedan klarar av att ge möjlighet att styra radbrytningar. Och jag ids inte korrigera alla här.

Säg att vi istället för vektorkvantifiering beräknar medelvärdet av slumpade vektorer viktade.

Är nu vikten - säg samma för alla - kortare än sekvensen är **minsta** minnet mindre än sekvensen.

Säg att vi samtidigt har oändligt resp. kortare minne. Och gör vektorkvantifiering.

För sekvens med kortare minne som uttrycker längre minne än **minsta** finns strukturell-information etablerad i dynamik slumpmässigt dragna vektorer och tillståndet.

Är det övertränat kan vi rent av ha flera "strukturella informations svartahål" etablerade det hela som uttryckt per tillstånd senast tilldelade närmaste dragna det kan slå mellan. Vi kan också få situationen att tar vi bort ett tillstånd återskapar övriga tillståndet och dragna tillståndet på upp till det mest olika tillståndet på några dragna. Jag upplever från detta att risken för att etablera överträning med neuronnät baserade back-propagation (utan att prövat eller kontrollerat det referenser) kan vara väldigt (enormt) hög jämfört med endast 1 st. linje med gradient descent.

Separerar vi två grupper med en linje har vi ej strukturell-information annat än på nivå det ev. går att särskilja från informationen övergripande.

Har jag oändligt minne samtidigt med vad helst normalt. Ev. flera även om ej alla nivåer använda bör vara nödvändiga. Kan det separeras. Godtyckliga cluster / kurvor. Precis som neuronnät med back-propagation (ev. sub-set där vi klarar det).

D.v.s. p.s.s. som neuronnät klarar det när flera lager kan vi approximera godtyckliga funktioner (tror jag: om vi ej är i ett subset till att fritt approximera alla kurvor / separera alla kluster önskade). Men några 1000-magnituder upp till miljoner-magnituder snabbare.

Från två vektor-kvantifierande gående parallellt är nog (ev. två).

Vilket spekulerar jag är förklaringen till att äldre metoder POS-taggning m.m. presterar över neuronnät.

De utnyttjar naturligt och direkt strukturell information etablerad av människa. Det är ju vad alla dessa egentligen alltid gör även när det ibland är indirekt så som utnyttjande något tränat innan på corpus eller hand-taggade texter.

Det är som att betrakta frågan som jag gjorde hur man uttrycker fenomenet att vektor-kvantifiering i någon variant liggande under avrundningsfel kan förbättra sig i vad det genererar (oavsett förändring tillstånden).
Nå det gäller givetvis endast under förutsättning att en människa Hans eller jämförbar finns som väljer när vi bryter från pågående effekt av något delvis slumpmässigt.

Dock helt olika frågan varför slumptal större eller lika med 0 men mindre 0 kan förändra saker mycket mer än slumptal större eller lika med 0 men mindre än 0.1 (Ubuntu pushar ut felaktigt rörande 32- resp. 64-bitar kompilerade paket vilket gör vad helst från challenge-response noise till Perl's rand-funktion defekta. Dessbättre utgår åtminstone inte jag från att kritiska datorer kan vara kopplade internet alls.). Den strukturella informationen ligger här i någon mening i katalogen apt-get använder.

Det slår mig att egentligen borde man kanske inte förvånas över det. Nu är neuronnät i back-propagation inte direkt vad jag någonsin riktigt kommit till att använda. Framför allt har jag upplevt dem förr långsamt även om jag kommit att förstå från diverse publicerat sista åren att de numera är mycket snabbare. Men som jag vill förstå vad jag minns av dem är det fortfarande i grund-mekanism i princip gradient descent men där vi dessutom gör quality assurance accounting från resultatet i varje lager från det sista (styrelse kontrollerar VD, VD kontrollerar vice-vd som manipulerar the books så att VD blir sparkad istället men det fallet här motsvarar mer att vi kodat algoritmen fel, utan denna kontrollerar neråt och korrekt att vi i resp. lager kan variera antalet enheter, utifrån vad vi från tidigare här skulle betrakta som hur mycket vi vill minnas).

Och därmed här publicerat är icke-patentering säkerställd.

Intensitet och påverkan förändring

Intensitet i mening händelse per tidsenhet där för resp. händelse utnyttjar viktsystem från befintlig historik för att ge det en default intensitet. Är ej trivialt när det kommer till bedömning av tid framåt. Emellertid på uppsidan har jag normalt aldrig sett det utmanande att komma riktigt i ordning händelser i framtid även om avstånden mellan dem i intensitet när betraktat från antal dagar istället för konkret mätt intensitet ses varit desto svårare. Det senare är i någon mening när förenklat när i komplexitet så långt att man själv kan betrakta det som människa ofta bra mycket lättare att komma rätt i, inte sällan när så enkelt inte vad som kräver mer än att titta på senaste 50 titlarna på säg Yahoo News! (Google News är dock helt värdelös här: Ev. relaterat till att det är den jag normalt använder vilket kanske stör något, eller allt. att den i algoritm gör för mycket vid sidan om att publicerings-tid ordna nyheterna).


Nå intensitet kan ibland ta saker i fel riktning. Oavsett det när stale även om intensiteten för närvarande tar saker i fel riktning om korrekt väg allmänt är sannolikare är rent principiellt mer intensitet även om bara noise (och jag använder här begreppet noise i mening säg descent, vektorkvantifiering, än att vi går ut i världen och adderar brus: Vilket i det senare snarast motsvarar att mer inträffar i en geo-region även om det så vitt vi kan se är icke-relaterat önskad väg framåt).


Eller för att ge perspektiv på förändring i den begränsande sidan här om Mr Vader hade tagit med sig 1000 personer som gick runt och bara gjorde vad helst de hade lust till på The Death Star störande och hindrande teknikerna. Eller om det faktiskt ökat hastigheten genom att samla folket till att lösa det problemet, uppleva lite vi-känsla, sluta oroa sig för att propagandan från divergenterna påstår att Mr Vader och Kejsaren är onda o.s.v.


Storlek övergripande population resp. hur lika den är globalt relativt grupperingar (cluster) unika nog för att inverka har givetvis betydelse. Finland är en liten population men mycket konvergent mot hela Finland i varje historiskt existerande del-divergens synlig idag (3 - 4 st om jag minns rätt, kontra argumenterat 50 - 75 st Sverige, eller 1000 - 1250 st Kina: 1 000 000 000 / 1000 = 1 000 000 st d.v.s. Kina ~ Finland ).


Moff Jerjerrod: Lord Vader. This is an unexpected pleasure. We are honored by your presence.
Darth Vader: You may dispense with the pleasantries, Commander. I am here to put you back on schedule.
Jerjerrod: I assure you, Lord Vader, my men are working as fast they can.
Vader: Perhaps I can find new ways to motivate them.

Ett UK som driver iväg för långt ifrån UK kan bli problem

2017-04-04

Ska vi se EU som ett bredare europeiskt alternativ in i framtiden vilket det känns mer nu som viktigt än jämfört med för bara ett år sedan är det inte tillfredsställande alls att UK hamnar för långt ifrån EU. Det blir dessutom rent löjligt över så kortsiktiga rena struntsaker som kan vara aktuella i ett avtal av den här typen: det berör ju inte konkret säkerhetspolitik samtidigt som UK i sig trots storlek ekonomi i sig givet magnitud på såväl EU: samlade ekonomi resp. storleken på problematiska delar däri kan introducera några särskilda risker (tvärtom).


Vi vill inte att ett av de i storlek och förmåga att agera väsentliga svävar för långt ifrån oss. Vi vill därför att de "lämnar oss" endast i det mindre väsentliga men gör så med en god känsla av att vi minns det värde som de genom åren givit oss och med en förståelse av att vi är deras viktigaste gemenskap i Europa, och på sikt primära samarbetspartner.


Väldigt konkret tror jag att EU kan hamna ej sunt balanserat jfr andra stora aktörer som USA och Kina i annat fall. Det är lätt att ej tänka på det när EU fortfarande är anmärkningsvärt inåt fokuserade. Men det behöver ej handla om alls många år innan det här blir viktigare. Vi ska också se att vi har ett generationsskifte i bl.a. Spanien, Italien m.fl. länder politiskt som kommer vilket möjligt förändrar lite hur man ser på betydelsen av balansen utanför EU av EU relativt andra aktörer.



Förövrigt när vi betraktar UK utanför EU rörande händelseavtal m.m. så givetvis att hela området där kan tyckas tungt för UK. Och antagligen fortfarande så verkar för dem. Men jag tvivlar verkligen på att det kommer visa sig innebära svårigheter i närheten av som det typiskt framställs. Förutom den anglo-saxiska sfären inte uteslutande därför att UK är mer central internationellt än man alltid tänker på utan också bara därför att UK är en tämligen stor ekonomi som antagligen kommer utnyttja det förhållandevis stora utrymmet för nationella investeringar man har.


För euro-valutan kan det kanske tyckas underligt om man skulle mena att det samarbetet är mer osäkert om man ej bra hanterar UK. Men jag kan se om än föga troligt ändå en givet magnitud risk att se att samarbetet kan komma att bli mer ifrågasatt i övriga världen åren som kommer. Och jag menar här ej UK alls - likväl känns det givet hela det området att ej låta UK driva iväg för långt. Vi kan komma att behöva dem i mening att det kanske gör saker stabilare och vid problem något lite enklare att lösa.

LDA och LSA med Noise-Kohonen: Samt buffer-overflow-outing Ubuntu's CM för 32- vs 64-bitars kompilering

2017-03-25

Efter att det blev av att betrakta närmare PCA - Kohonen jämförelsen - att se Kohonen som en mot en stream men i övrigt kanske onödigt tidskrävande variant av PCA om man egentligen vill göra det - fick jag min anpassning av Kohonen (som jag alltid gör linjär - endimensionell, och numera med 300 double per tillstånd längs linjen - att göra intressantare något som otvetydigt kan konvergera och normalt gör så mot LDA resp. mindre intressant p.s.s. som jag tycker PSA kopplingen är det LSA).


Intressantare och antar jag trivialare för något som arbetar fel kring sådant här. Och med fel menar jag att tänka sig att man i metodik börjar med att sitta och härleda något runt matematiska relationer som när implementerade är triviala, snarare än att börja med att för enkla ekvationer testa igenom alla uppenbara varianter av dem som inte gör beräkningarna relevant mer komplexa. Så slipper man fundera över varför en av de mest effektiva composition operatorerna för semantiska vektorer ej mer beräknings-komplex än egentligen addition och multiplikation tillsammans ej berörs i publicerat om det nu inte är därför att p.s.s. sätt varför den blir blandningen av linjärt och icke-linjärt så lär den vara direkt smärtsamt svår att bevisa samband för eller rörande icke-bevisad konvergens referera till alla tusen artiklar refererande detta för Kohonen allmänt (för jämförelse snarare än just relevant composition oftast) är att jag ändrat default formen för min tidigare Kohonen-anpassning.


I princip för exempel betraktande min 300-WW variant d.v.s. ord vektorerna vilka är cirka 300 000 st (medan 300-CC och 300-FF över flergram är ett antal miljoner) för ord i indata och tänkande oss att vi tränar något där vi önskar antingen konvergens för tillstånd mot tematiska cluster eller POS. För de senare är min erfarenhet för mina 300-WW (minns ej hur det var i mina 400 stokastiska LSA vektorer de gjordes av) att få konvergens mot POS är en fråga om förhållandet mellan L1 och L2 (med 300-WW dim. reducerade via min Kohonen från 400 dim LSA i sista steget klara görande en kvadrat på varje sim värde mot resp. tillstånd och därefter L2-normerande dem, och ej betraktande normal skew för allt neuralt eller gradient som vad jag behöver hantera saknande annat än undantagsvis negativa värden med rymden efter kvadrat ungefär med medelvärde SIM på 0.5, konkret görande just kvadrat som jag senare fick gå tillbaka att verifiera eftersom det slog mig att kvadrat istället för X * abs (X) kanske inte är helt bra för värden fördelade möjligt [-1,1]) utnyttjar jag noise.


Se det så här. Clustrande eller dimensions-reducerande med Kohonen accepterar vi givet med problemet en ökad mängd smoothing / inexakthet eller hur vi vill se det. Vi får en centralitet utryckande ex. ett ämne allmänt potentiellt istället för en mängd enskilda vektorer. Lite som att se det som att vi skär en mängd decimaler. Med mina 300-vektorer gjorda Kohonen är varje dimension meningsfull att betrakta för människa. Och för något där som också var en vinnare (emedan jag för 300 dimensionerna färdiga ej hanterar vinnare annorlunda - bara likheten mellan 400 tillstånd concept och 400 tillstånd utnyttjas) inser vi att det samlade similarity värdet kan ta en försvarlig mängd slumpmässighet upp eller ner i relativ mening mot det absoluta värdet (så mycket som 10% gör relevant skillnad för vem som vinner bara för en mindre andel när vi är nära i tid - säg sista 20% av tiden d.v.s. för 300-WW cirka 2 veckor men absolut att det går att göra snabbare men jag hade 10 - 20 liknande processer som gick).


Men det är ej noise på sim jag arbetat med utan noise på hur tillståndsvektorn flyttas. Men jag vill gärna se detta jämförbart. Vi har ett utrymme runt resp. troligt korrekt tilldelad vektor som normalt oftast också är en korrekt tilldelning. Genom att addera in noise som slumpmässigt hamnar någonstans i detta utrymme täcker vi också in detta.


Säg att jag utnyttjat detta när jag gjorde mina 300-WW. Jag har cirka 300 - 400 000 400-dimensionella vektorer in och gör ungefär lika många 300-WW. Varje ord (samt en hel del URL:er också för den delen samt säg 50 - 100 000 flergram faktiskt skapat med bindestreck då jag tyckte det var lika bra praktiska skapande topics samt härledande konstanter för composition som jag trodde ev. behövdes) som finns i denna värd är en vektor så vad skulle värdet vara? Värdet är att blandningar av ord uttryckande ex. en nyhet eller ett ämne blir bättre. Det existerar en oerhörd mängd vektorer som ej är existerande ord som kommer förekomma praktiskt.


Två idéer förklarande värdet (lämnande att hindra överträning vilket ej varit en fråga för mig förrän nyligen) jag reflekterat men ej metod-defekt begått misstaget att sitta och matematisera är att:


1. För 300-WW kan vi tänka oss att ett cluster väsentligt kortare än 300 dimensioner - säg 30 - 60 eller mindre - utnyttjar i huvudsak 1 - 10 st. 300-dimensioner styrande ett tema. D.v.s. variationer på lågt värderade dimensioner kan existera. Kanske är dessa uttryckande en hel del likhet för ett ej helt litet antal i praktiken påverkande en del ej rörande mängden vinnare men när vi ställer den färdiga dimensionen relativt alla vektorer som i verkligheten kommer in inkluderande också kombinationer av många ord. Med noise kommer dessa i absolutvärde små dimensioner ej inverka om noise är ej helt litet jämfört med säg för varje vektor minsta värde.


2. Enligt som diskuterat tidigare att en stor yta / sträcka ut från de flesta sim-värden finns också samma dimension oavsett om just varje värde existerar för ett ord gäller att höga värden snarare är sällsynta exempel på vektorer som kan förekomma praktiskt vilka också är ord.


Om jag adderar noise för en position på vektorn i Perl med:


    ( rand ( 0 ) - rand ( 0 ) )

Inser man att Ubuntu's configuration management igen är helt defunct och rörande ett ämne (separera 32-bitar och 64-bitar kompilering) som till sin natur pratar buffer overflow nära nog var helst. Men praktiskt är ungefär för mig den yttersta gränsen om tränings-konstant är låg och vi är nära klara som kan accepteras (64-bitars Linux - Perl från Ubuntu apt-get utan tvivel då definition av rand är upp till argument som största värde kompilerat felaktigt: Kontrollerande Perl manual har de noterat risken här för rand men har troligt fattat det hela delvis felaktigt. Säkerhetsriskerna är dock primärt i mängd ej lokaliserat Perl då det demonstrerar att Ubuntu CM är defunct bortom all rimlighet om ansträngande sig ens litet och begripande något lite i grunderna i minne och vad det har att göra med kompilering: Jag menar varför inte kompilera allt 32-bitar och därefter kompilera om allt 64-bitar som ej gick att starta på en 64-bitars Linux? Jag hade ej gjort så normalt även om jag kanske ej ids kompilera om eller ladda ner rätt Perl på debug-datorn men är du dum i huvudet, okunnig gör du kanske så eller om mot all förmodan ej aktuellt Ubuntu är något Ubuntish annnat).


Men oavsett 0 som argument är formen för noise det jag använder. För att fånga tänkbart värde 2. i mitt resonemang förklarande värde från experiment utnyttjar jag varje position för indata-vektorn värde som övre-gräns. Vidare utnyttjar jag det minsta värdet över hela vektorn. Samt i flera varianter kvadraten av varje absolut-värde. Ett polynom antar jag att en matematiker skulle uppleva att det blir men praktiskt snarare tre olika lösningar som söker addera tre olika värden som tänkbart har betydelse.


Praktiskt resultat i särklass tydligast är:


  • Från träning cirka 30 - 50 000 ord fördelade 60 dimensioner.
  • Gäller nära klart att för höga similarity värden mot resp. tillstånd för alla 300 - 350 000 ord som har vektorer.
  • Att oavsett om resp. sådant ord är vinnare under träningen eller ens existerande bland träningsdatat är det vad man upplevt naturligt hör dit om tilldelad vinnare för tillståndet beräknande för alla ord. Samma fenomen märks när vi tilldelar värdet sim oavsett vinnare eller inte men cirka 0.05 - 0.10 i off-set similarity ovanför att vi ser några underliga (för mig typiskt off-set html-taggar, forum-talspråk, nummer och liknade vilka ej förekom alls i träningen).

Medan frågan om avvägning bias / förmåga att inkludera korrekt / antal felaktigt tilldelade först börjar bli något som existerar som fråga nedanför (säg riktigare alla dim. 0.35 +/- 0.05 - vid 0.40 finns inga för någon dimension jag sett) men tveklöst similarity av 0.35 - 0.40, med genomsnitt alla vinnare. Skillnaden är värde är enorm.


Men värdet är ej unikt för denna metod. Om jag tränat 50 000 st. lika mycket utan detta hade jag fått något jämförbart i ej felaktigt höga. Och också om överträning och andra ej helt olika problem relaterade ex. om ej Kohonen utan vanlig vektor-kvantifiering den negativa termen när felaktigt tilldelat under träningen är väsentligt svårare att hamna i för Kohonen hade vi dock (och jag har prövat just för detta exempel) haft brutala värde-reduktioner p.g.a. just sådant här d.v.s. en mängd (tiotusentals) ord-koncept som korrekt borde vara höga för en dimension som ligger lågt - och detta oavsett om körande Kohonen-anpassningen utan grannskap eller vektor-kvantifiering med cirka 20 - 30 000 av träningsdatat med cirka 10 000 tveklöst felaktiga.


Typ exempel på hur värdefulla metoder man praktiskt har nytta av ser ut: Snabba, ej adderande komplexitet kod och allt jämförbart. Men där värdet jag avser ej har med dom värdena att göra. Utan dessa värden är mer typiska kännetecken för vad som ger stora värden typiskt i övrigt.


I övrigt betraktande exempel variationer av Kohonen publicerande kännetecknas dessa av att författarna haft svårt för att Kohonen ej är vektor-kvantifering och försökt göra en variant av Kohonen som fungerar som vektor-kvantifiering. Delvis antagligen därför att de känner sig tvungna om publicerande något alls att behöva härleda diverse vilket de upplever svårt om ej klart från start som för vektor-kvantifiering.


Jag vill dock föreslå - oavsett att en del upplevt att de bevisat att det ej är så - att det går att bevisa att Kohonen kan konvergera. Nu är jag direkt värdelöst på hela området matematiska bevis och har egentligen ej varit i kulturen alls sedan teknisk fysik. Men jag fick för mig att jag gjorde det anpassande konceptet för något helt annat. I någon mening kan vi (kanske: vi använder troligen kanske och i någon mening fortsatt lite överallt) se Kohonen som Markov-processer. Vi vet ju också att ibland kan vi bevisa något om vi kan visa det för n resp. n + 1, eller något liknande. Vändande på tilldelnings-ordningen via Bayes sats (n kontra n+1), uttryckande det som Markov-process, och därefter visande konvergens för n och n + 1, och därefter räknande tillbaka visa Bayes-sats har vi förutom att ev. / något jag trodde att jag kanske gjorde då visat konvergensen har vi kod-logiken för vad jag gjorde anpassningen för. Svårt för mig givet tid att säga säkert eftersom jag vet att det som jag parametriserar för 300-WW/CC/FF att det alltid konvergerar. Jag lär ju ej sitta och göra samma sak för algoritmer där något praktiskt kan visa mig felaktig eftersom jag ej känner till några jag behöver där frågan är öppen teoretisk.


Hur som helst får vi samma utökade värde görande LDA med Kohonen-anpassningen med noise. Här gäller dock att man / jag tveklöst kommer få mycket större värde genom att generera noise följande statistiska distributioner från språket i nyheterna.


QED. Eller hur det ibland känns som något fint för läsarnas utveckling att visa vem som är the Big Dog (så kan andra med ibland framtränande osäker självbild se hur man korrigerar upp det). Och för att understryka det lite extra - och kanske för framtiden stimulera NSA eller liknande som tänkbara kunder systemet genom att peka på hur bonus-give-a-ways ser ut: Förutom att jag nu publicerat OpenSSL defekterna redan för år sedan - outing Ubuntu.


Noise, noise, noise. == Information, information, information. Även när perfekt slumpmässigt strikt lika med mer korrekt information samlad i resultatet. Här i alla fall.


PS. PSA får mig alltid att tänka på Nobelpriset (i Kemi tror jag). 1993 - 1994 kanske? Förkortningen är troligen lite fel dock. Vad vi ex. använder för att få fler exemplar av ett stycke DNA-information. Var och lyssnande på dem föreläsande om det i Uppsala minns jag.