Låt oss "rita" neuronnäts-konceptet ganska annorlunda

2017-06-17

Säg att vi har "neuron" a, b och c i vad vi kallar lager i.


I lager två har vi "neuroner" av en annan typ där vi har en st som opererar på tillståndet / utvärdet / jämförbart från nod a och b. En som gör det nod a och c. O.s.v. i alla möjliga kombinationer föregående lager.


Vi väljer nu att sluta kalla neuronerna av typ två för neuroner. Istället kallar vi dem relationer / anslutningar. Och knoppar av vårt utvärde som vad vi sorterar utifrån någon eller båda neuroner de utnyttjar i föregående lager.


Varje sådan relation uttryckande / lärande sig mest nära tillhands att tänka sig korrelationen mellan dem ev. under en verklighet någonstans i andra lager efter oss önskat.


Givetvis kan man införa en tredje sorts neuron som hanterar en bunt tänkbara relationer till neuroner bakom dem abstraherat som samlat där. Kanske rent av mer naturligt om ens bas-datatyp är matris i Matlab, matematiken, eller jämförbart. Medan som skissat innan känns tror jag mer naturligt om vi tänker oss preferens i graf-datatyper och representationer.


Jag tror också att det kanske oftare är mer uppenbart vad den första strukturerings-typen egentligen gör. Samlar korrelation mellan två stycken saker. Vilket vi givetvis kan göra också per position i resp. ex. tillståndsvektor där. O.s.v.. Än när abstraktionen är en kallad neuron där en mängd sådana anslutningar via vikter i en matris mer "gömt" via gradient descent typiskt lär sig resp. vikt anslutnings-kombinationer.


Men jag har å andra sidan aldrig upplevt neuronnät som typiskt uttrycka naturliga för mig. Backpropagation tycker jag är en vettig inte helt ovanlig värdefull primitiv som jag förövrigt flera gånger använt utan att tänka på att det är samma sak som backpropagation. En bra ofta antagen mer magisk - och ovanpå det inlärning man helt unikt valt att kalla gömd för mellan-lager i neuronnäten emedan vi varken i hårdvara eller mjukvara pratar om gömda delstegment annars - men kan inte för allt i världen förstå hur man annat än att rita om ett neuronnät kan se hur och var det bygger sin korrelation. Jag kan ej visualisera mentalt som neuronnät men däremot grafer.


Korrelation mellan givet sorterade datakanaler, resp. och / eller positioner data där, och / eller positioner och datakanaler i varje kombination. Ev. abstraherat mer kämpat kanske tydliga kanaler eller tidsförskjutningar i korrelationer mellan korrelationer etablerade mellan kombinationer redan. Så som vad som händer tid i i mening korrelations-skattande till tiden i, och vad helst som uttrycker sig och vi önskar. Väldigt vanliga koncept i mängd varianter för en ej nod-bred värld i sådant som stokastiska processer, wiener processer m.m. Sedan är självklart begrepp som Deep Neuronnets helt icke-specifika. Medan koncept som Wienerprocesser tor jag har väldigt stor preferens att just göra operationer mellan "lager" (d.v.s. ett 1-dim. värde vid dag A, ett vid dag B, någon vikt kombinerande dem vid värdet idag o.s.v.) betraktade gärna som diskreta tidpunkter. Jag vågar ej riktigt stanna på egen-konvergens av att förstå koncepten Deep här som i princip vara processer över vad vi kan se ligga i vilken som helst preferens representation graf- / neuronnät / rörsystem för vatten-transport / eller vad helst nästan enligt tidigare. Det är väl kanske tecken på att det oavsett vad konceptet är i övrigt ej egentligen är mer resonemangs-optimerat än ANN var. Vill man ha magi man klarar att acceptera idag - och kanske rationellt stimulerande en del bra blackbox-tänk - är kanske representationer så som uttryckta i neuronnät kontra mer begripliga som är exakt samma sak.

Kineserna måste börja ta ut sina sopor: Det är ej rätt att det ska stinka för mig här i Sverige.

Jag upplever att det ej är rimligt att i någon praktisk beslutspåverkande mening utanför vad det nu har lokalt i diktaturens struktur eller Hpng Kong entiteten att mena att "PLA vairt och relevant storlek" giviet Hong Kong stabilitet många år. Rimligare är att mena att påståendet är desinformation och lögn.

PLA Helps Guard Hong Kong in ‘Challenging Times’


Ser vi PLA göra just vad man menar att de hållit på med redan en evighet spekulerar jag att man kan komma att tidigt se att förflyttning styrkor Hong Kong var ett felbeslut. Därför att det visar sig att dom hade behövts fastlandets storstäder. Mängden automatkarbiner tillverade industriellt i Kina är högst väsentligt. Jag kan inte annat än tro att bra många av dem genom åren gått ut i spreading activation. Samtidigt tycks så få hamnat i brottslighet. Så var är dom? Jag tror att medborgarna Shanghai och Beijing har dom hemma hos sig. Eller kanske i något community organiserat gemensamt litet förråd.
>/p>

Stadskriget är speciellt. Väldigt oönskat när goda vägar finns. Men också intressant i att det är ytterst utjämnande mellan aktörer. Har du automatkarbiner räcker det mycket långt kontra nästan vad som helst. Pansarvagnen är en dyr lösning som kan göra ingång lättare trots utspridda självorganiserade medborgare. Samtidigt föreslår jag att tunga kultor med i forskningskärnkraft skapade tunga grundämnen existerar skjutbara via vanligt standardgevär gående igenom allt, och lämnande omedelbart alla i dom döda från inandningen gaserna. Arena luften kan jag inte på samma sätt som arena enstaka personer taken kontra stridsvagnarna en utmaning. Men varande heller ej någon expert - knappt nedanför på nivå att jag kan namnen på åtminstone flertalet av de svenskar - avstår jag från att uttrycka varför jag det tycks så en icke-fråga.


Som en intresserad ej omedelbart där utomstående person i världen skulle jag välkomna att se hög intensitet. Jag tror kinesen skulle må bra av långsiktigt reducerande den moraliska kostnad de bär av att låta den risk-mängd diktatur över världens största nation nu spyr ut över världen därför att medborgarna Kina ej gjort vad moraliska förpliktelser kräver av dem och städat upp "statsskicket" deras förvirrade år tidigt 1900-talet lämnat efter sig. Om det nu kräver att de gör det med vapen är det knappast mitt ansvar att ifrågasätta eller lägga tid på söka hitta en lösning jag om mitt land hade tyckt varit bättre. Och mer spekulativt tycker jag kulturen känns "staled" - fastnat i någon lokal avart utan att orka därifrån - och jag kan uppleva det som kanske en egentligen effektivare och bättre lösning för dem att ta tag i det hela ordentligt nu utan att förvänta sig att fler år kommer visa på någon bättre lösning. Det är mitt perspektiv om jag argumenterar detta i år såväl som förra året: Jag tycker ni ska skaffa fram lite vapen och göra revolution.


Så kanske är det bra med PLA gående in i synligt stort antal in i säg Hong Kong. Eller vad helst nog i effekt-upplevelse för att få kulturbärande medborgarna där nere att resa sig istället för att sitta och vänta på att världen ska städa upp soporna åt dem.


Partiet kan visa sig i praktiskt verklighet lite av en gemensam riktnings-uppmuntrande entitet. Upplevelse av likhet i det avstånd kontra ideal önskade större än vad annars vanligt oavsett preferens statsskick kontra korruptionsutbetalning via partimedlems-lön eller liknande. Även om självklart väpnad making it happend för tror jag säkert mig såväl som dom där är det ej egentligen önskade - ej målet. Hong Kong bär också något av trojanen alla år sedan den kom åter från UK. Men vad kan den som sådan vara annat än vad som inducerar intensitet? När givna naturlagar om vad för intensitet som självklart kan leda till exakt rätt förändring. Gör man massor här finns möjligheten - ett smart, välutbildat folk fastland såväl som Hong Kong så jag tror nog det. PLA kan vara the shit här även om partiet utan tvivel alltid kommer ej våga just det steget utan snarare nu såväl som tidiga års strategi allmänt söker etablera närvaro i stort antal relativt domän steg för steg.


Jämför i kontrast gärna ö-skapandet kontra båtande ner två givna battle-groups och en halv som nu kommer i delar utanför det i USA's rörliga strategi vars värde är just när och var behövd men som ej kan vara sustainable på samma sätt som en fast struktur likt en ö - eller diverse militärer man bit för bit för in HK. Men lössna här. Jag kan aldrig argumentera rörelse här från en massa ej synligt marscherande in militärer innan de får dem där samlade visande upp sig. Det senare är nästan bättre då det kommer med spooking, plötsligt oväntat dykande upp, dold fara man ej såg o.s.v. Stor dynamik här hur man vill ha dem komma ut för att få igenom vvad vi kanske kan se som ett beslut men egentligen tycks vi se någon form av självorganisation troligt given när så oerhört många människor i aktuell nation handing out the guns som ej vidare diskuterar. Jag vill inte påstå att kinesen är lat lika lite som svenskarna. Men jag tänker att antagligen om 40 år givet att egentligen har kin esen ej för vad som är världens äldsta "civlisation" kommit sig för att få fram ett demokratiskt moraliskt sunt statsskick får man åldrad dom sista två - tre åren troligt kvar göra sig lite besvär och komma ner görande det hela åt dom. En krutdurk på nivå det är ska inte vara svårare än att man svär lite på flygplatsen över att rollatorn ej kommit av flyget för att nationen ska bränna sig ren från diktatur-sopberget. Ej svårt. Men det kan vara kollektiv kulturell feghet snarare än att dom kulturellt eller biologiskt är ett det lata folket i världen.

L1- och L2-distans tillsammans: Reward / cost-funktion över-vektor skalande L1-modifikation i gradient descent icke-linjärt

Similarity eller distans som funktion av resp. antingen similarity cosinus eller L2 resp. L1-distansen. Ett uttryck jag av och till experimenterat i väldigt skilda delar relaterat de vanligaste av de vanligaste algoritmerna inlärning och clustering. Och har verkligen en mycket skild natur jämfört med L2 eller sim. ensamt. För mina 300-vektorer ord kommer det exempelvis när inducerat via påverkan på träningskonstanten (d.v.s. renare kanske att hellre se via en implicit funktion stående "bakom" inlärningskonstanten i ex. diskriminant derivatan av en föreställd funktion vi deriverar: men i min kod logik för inverkan lik denna ofta vad som vairt enklast att inducera genom att manipulera träningskonstanten i resp. operations magnitud om än ej dennas epokförändrade grund-storlek) ge ut clustering oerhört dominant (väldigt olikt normalt förväntat dem eller vilka som helst normalt topic-kontext dominerade ordvektorer skapade på normala sätt) i flera av givet antal totala cluster ordtyper. Och ej nödvändigtvis självklart begränsat till eller ens självklart (med självorganiserade koncept aktuella för mig här) ens oftare än mindre mer udda grupper först stora sådana som adverb eller adjektiv. Tänker man seriöst över vad ex. ett adjektiv är och vilka grundkomponenter dessa ord kan ha och vilka av dessa (ungefär fem st. förövrigt med två närmast alltid där och ett par ej ovanligt ej aktuella för ord men absolut heller inte mindre vanliga än att om jag minns rätt mer än hälften av adjektiven bär dem) så kan man uppleva att man förstå en del cluster jag sett från det och varför dessa stora och som koncept så väldigt vanliga när vi talar om språk ej troligare (men ej heller troligare) än många andra mindre i storlek och "betydelse" som de första som troiligast kommer ut. Praktiskt har jag inte sett någon poäng alls med sådan cluster-sortering: Jag har redan ordentliga listor med allt från vanliga ordtyper till allt i övrigt säkerligen ej överdrivet långt ifrån allt publicerat ej överdrivet speciellt. Och jag har ej sett något kommande ut i mina försök just här heller som ej när uppenbart drivet ordtypsnära tänkta egenskaper snarare än topic i mening tillför något eller inducerar nytt-tänkande förståelse hos mig: Utan vad man sett redan och om mot förmodan när man behöver det ej redan bättre gjort i ett oftare där troligare männnisko-skapad lista nog så kan jag säkert sortera ut det ex. automatiserat (eller manuellt) så här eller lika troligt bra eller rent troligare bättre egentligen utnyttjande viktsystem och sannolikheter. D.v.s. intressant därför att jag annars aldrig sett det komma så direkt och renodlat. Egentligen ej vad jag på rakarm mindes alls i övrigt när självorganiserande stora mängder ord där naturligt ämnes-topic alltid är att förvänta när antalet cluster ej är stort extremt troligt kommer. Ovanligt och därför intressant men med mycket av udda-nyheter eller numera vanligare kanske udda filmklipp (oavsett om nu surfande hundar eller en person i en uppenbart överskapad avbildning av karikatyr överdriven stereotyp som fascinerar miljoner varande en så fullständigt extrem nörd och så löjlig utan att själ förstå sig som annat än oerhört cool - Förövrigt ej framgående om man ej kontrollerar själv lite och har nätverken för det i SEO-branschen släkting till en välkänt framgångsrik Youtube traffic-collector. Minns ej om vår tjocka svärdsviftande nörd var kusin eller något annat.).


Sedan gillar jag personligen idén att utnyttja både L1 och L2. Vi känner ju praktiska värden med båda. Och alltid när man behöver göra ett hårt val upplever jag lätt att en period av att pröva allt möjligt runt två motsatta koncept blir verklighet. Finns någon - kanske rent av lite men ej märkbart så sämre rent praktisk - kompromiss av båda är jag sällan helt främmande för den. En del kognitiv-dissonans och bedömnings-osäkerhet som besparas. Varande en god idealiserad svensk har jag ibland rent av svårt att helt släppa dessa "gränsöverskridande" kompromiss-lösningar. En konsekvens av att växt upp under Kalla Kriget inkluderande grundskoleinlärning i läroböckerna av den svenska "modellen av världspolitiken": Världen med sina divergerade block är var för sig ej riktigt rätt. Mitt emellan dem på den rektangulära kartan - om än konceptuellt mer udda på en glob - finns Sverige. Det är möjligt och mycket med diverse exempel 1900-talet med början 1970-talet exempel man kan mena sig uppleva ev. är sådana indikationer finns på att resp. divergerat block konvergerad till deras mitt. D.v.s. Sverige. L1 och L3 normerna och distanserna skulle vi korrekt svenskt därför bäst se som två divergerade koncept som är på väg att konvergera till ett distansmått som utnyttjar både L1 och L2 distansen: Sverige-distansen i nuvarande mitten (Låt oss kalla den för Milstolpen från vad den mindre moraliskt korrekta - och / eller kanske modigare - granne släpat hem till trädgården och gillar att prata och visa upp).


Men varför när det ej egentligen tar det pröva det på något ytterligare en gång? När ändå samtidigt skakande om pågående träning hoppande träningskonstant mellan punkter i större steg där man sedans tår ett tag och skyfflar data in och ut. Säg i denna variant:


ZH är Sverige distansen. Vår milstolpe förklarande vad avståndet är mellan två punkter i svenska-mil. Och vi definierar den ej omedelbart från L1 och L2 utan cosinus istället för L2 därför att av och till finns en skillnad trots att vi kan räkna mellan dem (personer med preferens säg 0,1 normalisering utnyttjande exp exp ( gaussiskt-distans ev. varians // bandvidds-normaliserad) hade antagligen föredragit L2 då mer rationellt). L1 väljer jag förövrigt som ett av flera alternativ ha max-normaliserad över alla under träningen levande vektorer träningsdata. Konkret är Milstolpen: sim / ( 1 + L1-distansen ) == likhet. D.v.s. lite olämpligt att jag kallade den för distans då vi i denna form ej utnyttjande L2 mer får similarity med riktning. Annars är ex. L1 / ( + sim ) också funktionellt.


Vi gör beslut utifrån vad vi kan välja att se är ett distans mått per vektor-position för att få en gradient i varje träningssteg. För mig testat uteslutande vad som i grunden är gradient descend men med diverse modifikationer i och nära runt om som gör att grundprincipen gradienten ej säkert är lätt ens för en mycket säkrare matematiker refreshad i området att få ut en funktion som integraler av. V beräknar här nu för vektor vi modifierar ett tillstånd med i gradient descent också L1 och cosinus similarity för och från det Sverige-i-mitten-är-ändå-vad-USA-och-Sovietunionen-resp-är-mest-lika-till-resp (låt oss kalla det SIM - Sweden in International Model - eller vad man vill föreställa sig att det står för bland läsare firande och starkt troende på den goda medborgaren Hans som alltid tar chansen att lyfta fram Riket: "En fin riktig svensk utan något av Skåningen eller Norrlänningens halvt-icke-svenska okulturs-störningar i beteende och språk: Det är det fina med Hans i ett nötskal.") fortsättningsvis) måttet som indikation bildat från övergripande alla positioner men utan att cross-beroende (ex. säg cross-talk alternativt) mellan positioner utnyttjas explicit ändå en gemensam samlad indikation korrekt praktiskt utanför träning i sin naturliga dimensionsreduktion till en position mycket mer funktionell för mer övergripande beslut än representation information: Jfr jämförelse ord med varandra eller uttryck för sannolikheter ett ord givet ett kontext (ett decimalt-tal är vad vi avser en position). Men opererar i träningen på varje position vektorerna utifrån konkret när jag testade L1-distansen (under dis-constraint att till varje ord-vektor omedelbart innan ej normaliserat görs beräkning: uu(i) = uu(i) + rand ( uu(i) * 0.10 ) - rand ( uu(i) * 0.10 ).


Hela tänket gradient descent är ju att derivatan är viktig. Och är vi L1 här med L2 i egentliga funktionen kan vi ännu tydligare konceptuellt se hur vi flyttar oss närmare vid behov medan ex. mer av en medelvärdesbildning kan tendera att sämre bilda en gemensamvektor för just diskriminering. Trots det görs följande operation av mig på denna L1-distans tänkt att vara gradienten. log ( 1 + e ( L1 ) ). Jag hade verkligen utan annat än fördel kunnat välja att ersätta L1 distansen med detta när sent i träningen men ej riktigt sista epokerna. Större värde ges emellertid när vi istället:


Beräknar: log ( 1 + e ( SIM * l1-distansen just för aktuell position i vektorn ) ). Och viktar andelen av den normala gradient-operationer vi låter påverka tillståndsvektorn med kontra samma tillståndsvektor i föregående tidssteg. Bieffekt är mera smooth övergång vilket kan vara mindre önskat ev. tidigt i träningen eftersom vi för in föregående tidsstegs-vektor. Normalt är dock denna bieffekt önskad i sig (varför jag valde att låta effekten realiseras via denna viktning snarare än manipulerande den gradient som faktiskt används vilket är den som normalt L1-beräknande: Även om arbetande med L2 distansen väljande cluster o.s.v. ska man dock absolut inte vara rädd att pröva att bortse helt från tänket att man laborerar med en L1-distans som är en derivering av en L2-distans för att experimentera med allmänt numeriska algoritmer enkla standard-grepp som ibland ger värde. Ex. sluta med L1 och istället använda L1 skalat icke-linjärt för att ge större effekt av antingen mindre eller större skillnader för resp. position kontra tillståndet som tränas fram - åtminstone om sent i träningen - vilket verkligen oftare än annars för känt praktiska funktioner kan öka upp andelen korrekta sorteringar såväl som att reducera andelen falska koncept upplevda hörande till kategorin. Men jag önskade ha en svag medelvärdes-effekt verkande utan att just detta steg i logiken konceptuellt så korrekt tilltalande enkelt börjad expandera i antal rader kod börjande närma sig några hundra från vad som i grunden kan vara en rad. Och effektiviserade ner operationerna där det kändes enklare att göra ett par man troligare av och till kan önska av resp. på normalt som jag bedömer det i ungefär samma del av träningen - tillsammans. Medelvärdesbilda själva gradienten ska dock ej ses som vad jag självklart på något sätt här ej rekommenderar troligare som vad man kanske hellre bör tänka och arbeta med. Görande potentiellt p.g.a. struktur ett flertal förändrande operationer - ej fler än värsta fall åtta och normalt 1 och mindre ofta två eller tre - från ett slumpmässigt draget ord är det dock ej praktiskt bra att arbeta med gradienterna här krävande att man tryggt ej förväxlar i koden skillnaden mellan steg som operation resp. steg som nytt ord m.m. medan vi med själva resultatet ej behöver något nytt quality assurance i assertions för att kontrollera rimligheten.).


Jag vill ej spekulera om vad för värde någon annan får av just denna operation. Den är vad jag tycker man ska se som en av en bunt enkla små modifikationer man kan pröva rent praktiskt för en given tillämpning och se om det ger mer värde. Utan att jag tycker det sunt (om man alls ska se matematikern som roll som sund för någon normalt frisk ej matematisk-person) att man ska uppleva behov av något teoretiskt resonemang runt dem var för sig. Jag har några bra sammanfattande journal-artiklar tillsammans täckande upp några av de mer basala (i mening att vi ex. där kan hitta grundformen funktion jag utnyttjade här men ej att vi där har den fortsatta varianten av att vi utnyttjar en skalning från similarity) grund-operationer ytterst vanliga såväl välkända oftare än inte ger åtminstone något lite värde antingen exakthet eller beräkning totalt nödvändig att nå åtminstone en extrempunkt (oavsett dess förhållande i storlek till en eller flera av ev. övriga extrempunkter. Jag anar lite att med tänkt L2-distans som funktion och definierande data för funktionen som är levande flergram producerande kontinuerligt varje dag är kanske koncept som lokalt minimum meningslöst och mer att vi har praktiskt approximativt ett oändligt antal extrempunkter något så när i chunk-cluster jämförbara i magnitud. Men tänker kanske fel. Under antagande att annan logik / personligt beslut ej relaterat funktionen i sig vi antar att vi uttrycker beslutar om mängden och vilket indata vi just nu för kommande pågående timmar träning för in i systemet. Verkar nördar coolt för dagen för vi in dom. Har Trump hört av sig om att köpa information kring koncept relaterade Världs-President år 2020 kör vi in data relaterat det. Ska vi tydliggöra moraliska problem med person i parti-diktatur kör vi in data aktuellt där. Vi kan i det automatiserade av logik se ex. konceptuell möjlighet att nära användning är vad logiken följer upp konkret effekt av pågående tillämpningen av vikterna - Började folk ställa sig och vänta på att Trump kommer och ska president-tala inför kommande konceptuella skapelse av världspresident-posten? -
Om inte kanske vi börjar sampla annorlunda men ej för det annat än förlorar på att kasta tillstånden där vi står som är mer av något större runt gradienterna i insvängningen mot att få den Goda människan i ledning av världen så att alla folkmord världen skådat, alla kostnader för alltid förutom Mexiko oskyldiga länder mexikanernas butikssnattande runt om i världens städer orsakande svält, gravt eftersatta regler om tax-free inköp av alkohol och tobak resp. alkoholbeskattning många länder har där istället alkohol-subventioner vore det allra bästa för folkhälsan, den dåliga myndighetsinformation flera länder har om dålig hand-hygien orsakande den Diger Död som rätt trump-i-kortleken som världspresident kunnat förhindrat - ej riktigt bra - och kanske ej helt överdrivna uttryck för den lite skakiga relevans-rimligheten vi kan ha tidigt här - men ej meningslös information att arbeta vidare från) tillsammans med sampling från levande internet-corpus ).























































































Bättre gradient descent opererande på distribuerade ordvektorer med grov skattning information in via addition och information ut via subtraktion

2017-06-15

Komplettering: Jag tror jag får följa upp med något exempel här för att göra enkelheten tydlig. Enkelt är inte alltid enklare att bra förklara. I övrigt kan läggas till att effekt för mig överstiger övriga optimeringar nära själva gradient descent delen av logiken d.v.s. medelvärdesbildningar gradienter, utnyttjande moment, förändrande träningskonstant utifrån riktning gradienter nära i tiden (positiv eller negativ riktning) o.s.v. bland normala optimeringar. Någon anledning att tro att samma värde finns för data som ej kommer från språk tror jag inte riktigt på men å andra sidan tror jag värdet gäller utan just någon skillnad effekt eller metod för alla distribuerade vektorrepresentationer ord och flergram (eller ämneskontext) skapade med alla normalt förekommande algoritmer.


Poängen med gradient descent är att den fungerar och tillåter hög abstraktion för människan. Nackdelen är att fokus forskning optimering resp. skapelser tenderar att hamna uteslutande i antingen själva abstraktionen (d.v.s. avseende metoder så som moment eller medelvärdesbildning), steget från en tänkt funktion vi deriverar (och är tänket vettigt avseende vad vi skjuter in i algoritmen från logiska regler för anrop resp. motsvarande derivatan kan man om ett eget värde ej finns gå långt utanför att anta att funktionen existerar eller frågor om den ser ut i mening av att man kan saker längre här genom att temporalt gå över till "varianter" av derivatan jfr för vad jag började med att pröva just här som exempel: Tänkbar modifikation av algoritm kvantifiering vektorer att använda mot slutet av träningen. Men att något jag prövat här egentligen är värt besväret utan medvetenhet om informationens form är troligen i allmänhet mindre vanligt annat än för resultat tänkta att användas längre tid.), medan samspel med själva informationen vi för in lämnas.


I särklass vanligast tvivlar jag inte på är att man funktionen antagen att deriveras är L2-distansen vilket ger oss att modifikation som sker följer L1-distansen i resp. steg. För vektorn opererar vi nu per position lämnande frågan om hur informationen ser ut till övrigt. En mängd varianter jag mentalt sorterar i samma grupp utnyttjar mer övergripande över resp. vektor kontra övrigt similarity ovanför vilket vi kan se som ett exempel på hur vi kan utnyttja informationens natur.


Nackdelen med alla dessa algoritmer är givetvis inte att de i allmänhet är så väl tilltalande enkla som mycket levererande i resultat utan att de liksom gradient descent tenderar att lura oss - eller mig tidigare åtminstone - att missa det mer uppenbara när det kommer till våra ordvektorer. Betänk gärna de mest grundläggande och triviala måtten på hur träning clustering går: bias och varians som indikation på var vi ligger i att avskilja motsvarande träningsdatat (d.v.s. risken / nivån av överträningen) kontra risk för inkludering defekt men också chansen / möjligheten (vad åtminstone jag i allt aktuellt språk tar som grundvärdet sökt) att också ej träningsdata men vad som motsvarar träningsdata inkluderas.


Tänk att vi nu har vår principiellt enkla träningsalgoritm resp. en bunt sinsemellan ganska jämförbara koncept närastående ovanför (ex. vektor-kvantifiering) men att vi kan ha missat en i enkelhet och prestanda jämförbart koncept. Ett koncept som tar in hänsynen till informationen kompletterande similarity som utnyttjat och föga kostsamt prestanda (knappt märkbart alls).


Givet att jag hade missat att se möjligheten om ej för att egentligen allt jag gjort efter 1997 cirka. Ungefär när jag började skriva Kryptering från början till slut. Alltid inkluderat var gång ej helt borta att göra att betrakta som tum-mått informationen utifrån komprimering.


Och i träningen här: Hur mycket information går in? D.v.s. via additionen av relevanta samples för som aktuellt just nu för mig några av mina "ML" / More-or-less - Positiv / Negativ - i 1-gram cirka 6000 vs 9000 i följande bias-engelskan för större uttryck frekvens positivt men med fler ord för negativt och sist kontrollerade precis som det ska vara (eller adderar jag timmar korrigerande) för alla core-ml försvarligt större än något publicerat -, Known / Unknown (Unknown ska jag återkomma till här: När den föreslår mig utbyggnader under träningen får man ett fascinerande "negativt" perspektiv av vek ekonomi: Kopplingen i extremt stort under vektorerna corpus mellan unknown som grund definierat och ekonomi överraskar mig fortfarande pågående regelbundet) - resp. ganska små i 1-gram krävande fler två gram för särskilt unknown och båda cirka 3000 - 4000 st, UP / Down ~ Active / Passive - båda "gigantiska" redan i ord ovanför 10000, Trust / Distrust - mindre men besläktade positive-negative cirka 4000 båda om jag minns rätt). Samt informationen vi tar ut när subtraktion sker d.v.s. för mig antingen:


  • Riktat. I de flesta fall att ex. "positiv" tar bort information från "negativ" därför att negativ för en ord-vektor uppvisar att den defekt känner sig mer hemma med ordet än positiv. Vad som kräver human-work-unit Hans att av och till kontrollera det hela eftersom samma del av algoritmen skapande träningsdata ibland fört in koncept folk ej i corpus tillräckligt rent använt jämförbart (samt att enstaka underligheter kan vara fallet). D.v.s. koncept humor visade sig exempelvis ej bra att behålla i positivt. Troligen därför att för mycket diskussion humor som kommersiell-produkt stör saker, att komedi kan handla om för positiv problematiska ämnen, samt en här visade sig försvarlig mängd corpus vi kan nöja oss med att säga är löst relaterat till konceptet skadeglädje (satire har något lite av samma problem men i kontrast ej i närheten av nivå att man behöver ta bort det från positiv).
  • Kontra mängden ML allmänt. D.v.s. koncept tränings-data någon ML men ej den kategori aktuellt för ordet och ej dess "motsatta" ML.
  • Kontra mängden alla existerande koncept. Där jag praktiskt valde att endast inkludera ord följande A-Z resp. ord A-Z med "-" där "-" i mina ordvektorer motsvarar bigram som jag valde att ta med utnyttjande detta som notation. Övrigt lämnande etniska uttryck (jfr åäö för svenska ord eller i mängd desto mer allt möjligt från Indien m.fl. länder) är i hög andel funktionella motsvarigheter till "-" men uteslutande avspeglande vissa kanal-preferenser så som diskussions-forum, nyhetstitlar o.s.v. Nyhetstitlar är mycket funktionella för att expandera ord åtminstone när de indikerar första ordet i titel liksom p.s.s. (jämförbart funktionella) indikerande citat. Indikerat forum där själva ordet avslutas "..." är mycket funktionella för expandera med manuellt för starkt emotionella koncept medan hela gruppen i övrigt visade sig för ML sämre att utnyttja (det förvånande mig verkligen eftersom ML-kategorierna är så emotionella till sin natur och gruppen i sig är funktionell för ämnen inom åtminstone politik för expansion följande grundordet) vilket också gäller allt relaterat corpus som har med diskussion i text att göra.

Jag upplever att sista subtraktions-typen som jag använt det ej är orelaterad till eller felaktig att se som en form av variant (men via algoritm använd i övrigt) till att grovt subtrahera bort någon form av viktad medelvärdes-skattning av hela världen.


Struntar jag i all subtraktion och dessutom väljer givet hyggligt färdiga tillstånd addera allt modifierande resp. stegs träningskonstant med ordets similarity får vi en mycket god skattning av hur ord allmänt motsvarar kategorin i similarity. Men med begränsningen av att särskiljandet mot andra kategorier snabbt försämras. Vi hamnar i vad som inkluderar och för in information från allt vi vet i positivt träningsdata. Hade det endast varit världen är det ej ett problem men som är typiskt är en stor del av värdet att kunna särskilja mot andra kategorier. Det är - motsvarande min arkitektur här - det naturliga andra steget att utnyttja "dagens" träning av händelser fortlöpande givet det första stegets träning till att uttrycka distributionen. Första steget ger möjligheten att särskilja en ML trovärdigt medan det andra givet att den klarar detta kan koncentrera sig på den kanske enklare utmaningen att uttrycka diverse viktade distributioner (så som hur lik ett koncept eller en grupp av koncept är till en ML, eller troligt uttryckt i världen enligt dagen, nivå spreadability o.s.v. motsvarande egentligen alla viktsystem jag annars genererar ut av och till).


Det intressanta i kontrasten lager ett och lager två är att i lager ett kan vi skatta mycket nära till slutlig effekt nivå överträning kontra inkludering okända men tillhörande koncept resp. antalet ej upplevt tillhörande koncept som rangordnas högt i similarity utifrån mängden mängden information adderad resp. subtraherad. Hade vi nu med mängden information avsett sannolikheten för en given vektor med "höggrad av medvetenhet" om korrelation mellan positioner o.s.v. eller intressantare dess "effekt-volym" (eller vad vi kallar det) i mening av totala likheten det uttrycker med ett antal eller alla av övriga ord existerande, så hade det varit mindre intressant därför att det hade kostat ganska försvarligt i beräkning nödvändig. Men menar man - och jag gör det - att mängden information mer är av ett degenererat koncept utnyttjande grova skattningar hörande hemma i antaganden om diverse samverkande normalfördelningar vi inte ens behöver trovärdiga skattningar av rörande varians-moment för (utan sådant är mer något vi för tidiga moment kan beräkna samtidigt) är praktiskt på samma nivå som övriga koncept utnyttjade: Det kräver ej mer än gradient descent eller similarity.


Och hur laborerar vi då med detta? Och här är själva kärnan av värdet. Träningen gör sitt. Av och till. Ganska sällan. Inte ens en av tio epoker. Kontrolleras grovt vad genomsnittlig likhet - cosinus-similarity - ligger på för orden som tränats mot respektive kategori i övrigt. Ligger det över något värde. Drar vi slumpmässiga ord - säg 1000 till 100000 st - tills mängden informaton vi subtraherat går över tröskelvärde.


Personlig tumregel att vi alltid kan göra addition (implementerande med en vettigt sund grundnivå vilket inte är givet i mycket man ser publicerat där överträning som koncept tycks ha definierats helt opraktiskt som vad man tror sig löst med ett held-back-corpus definierande det som problem vilka endast kan manifesteras på samma abstraktionsnivå som algoritmen man tränar med vilket nu ej är verkligheten: Stor fördel här i forsknings-områden där clustering är mer av en praktisk metod använd i ett "större" huvudsakligt mål så som medicin kontra där det är huvudsaken) utan att riskera att överträna (men självklart förande in typiskt för varje koncept i träningsdata en viss mängd junk-informationen ej bra för idealiseringen tillsammans med värdefull information). Medan när vi börjar subtrahera givet addition kommer alltid risk för överträning vara fallet. Personligen tycker jag att det är en excellent start-punkt demonstrerande att del-komponenter fungerar som de ska tillsammans. Arketypiska ord motsvarande träningsdata ger höga värden medan allt i övrigt ligger nedåt negativt i similarity oavsett om konceptuellt relaterade eller inte.


Vad jag vill se det som sker i algoritm-steg här är att vi drar bort vad motsvarar en skattning av mängden "allmän" och orelaterad junk-information ordvektorerna var för sig i liten utsträckning för in tillsammans med information relevant för idealiseringen:


1. Sund och god informationen i dom men just här ej relevant. Kategorier positiv och negativ kan ex. grov-tränas adderande allt varefter kategorier UP / DOWN subtraheras från dem. Det tar nu bort aktivitets-relaterad information. Gör vi det endast för UP får vi starkt uttryck likhet mot positiva ord som ej inkluderar att man gör något: Tänker vi visuellt koncept som har att göra med att slött titta på något avkopplande storslaget (och själva orden motsvarar i äldre Flickr corpus sådana bilder), eller ej aktiverande positiva koncept som har semester att göra. Ord som är "serene" (som låg någonstans topp tio):

"Peaceful, calm, unruffled.  [quotations ▼]
She looked at her students with joviality and a serene mentality.
Without worry or anxiety; unaffected by disturbance.
(archaic) fair and unclouded (as of the sky); clear; unobscured."

Wiktionary.
Notera ovan också "archaic sense" som i ML-kategorierna diskuterande är starkt "KNOWN".

Detta är information vi kan välja att avlägsna från resp. ord - eller en skattning av den - också pågående under träningen. Det är vad jag experimenterat med att göra utnyttjande att tillstånden börjat närma sig färdigt och därför var för sig ger goda skattningar. Adderar jag ord till positivt kontrollerar vi om också en negativ sense-definition eller användning (kontext i corpus) existerar, och om så försöker vi ta bort en mindre andel av den följande övergripande vektorns positioner korrelation till den som förenklat och skattat via similarity (snarare än cross-correlation vilket tenderar att vara i allmänhet om ej prövat här lite starkare men ej mer än att det ej är i närheten av värt kostnaden i beräkning det innebär att göra) mot negativ-idealiseringen (jämför med de algoritmer för ortogonalisering med ej ovanligt praktiskt användning så som Gram-Schmidt där jag avstår att länka Wikipedia som jag här minns som tungt inne i matematiska koncept utan särskilt mycket om just något alls av de många bredare praktiska användningar normalt använd för. När matematikern kommer och visar upp sina lemma m.m. svår-begripligt och väldigt tråkigt ska man precis som man pop-up fönster relaterade gratis film vara på sin vakt.). Konceptuellt är detta kostsamt och på det stora hela givet en del manuell-tid det tycks kräva (för mig åtminstone) högst tvivelaktigt ger något man ej med bättre resultat gör i diskreta tidpunkter eller sist när övrigt är färdigt. Orsaken är det ej är så mycket denna information som är problematisk. Är det relaterat på nivå att vi kan göra detta är avgränsbar och vi kan välja när vi tar bort den. Och att ta bort den pågående innebär att vi gör antagande om att vår similarity-operation klarar detta tillsammans med som normalt en enkel subtraktion utan att vi tappar värde i övrigt (bl.a. ökande antalet träningsoperationer nödvändiga från att resp. idealisering här delar viss för dem var och en korrekt information att ha kvar) vilket förvisso är funktionellt men i nivå defekt är relaterat till antalet koncept vi har i träningsdata aktuell kategori resp. kategori som skapar de idealiseringar vi avlägsnar likhet till resp. antalet gånger vi behöver göra det. I kontrast till att kunna utnyttja alla ord vektorer finns för, ej ha beroende till någon idealisering, och dessutom ej ha större beroende till idealisering vi avlägsnar information från än att man kan avstå från att kvantifiera likheten helt (för att istället reducera ner träningskonstant ytterligare och öka på antalet slumpmässigt dragna ord).


2. En viss mängd information troligt ytterst irrelevant för vilken som helst idealisering aktuell men som kommer i "form" uppvisa likhet till motsvarigheter hos ett ej oväsentligt antal andra ord i samma ML eller andra ML aktuella. Detta är information ytterst svår att enkelt se. I någon mening sker träning för att som väsentlig del av det eliminera effekten av denna information. Detta är information som kan få ett ord positivt att uppvisa hög likhet med ett ord negativt. Likheten är i allmän mening ej inkorrekt men den har ej med positivt och negativt att göra. Är informationen irrelevant är det lyckosamt - lyckosamt på ett sätt vanligt för språk och engelskan är snarare bättre här än språk allmänt - om den också när grundläggande kategoriseringar tas ut gärna förekommer jämförbart i mängden ord ej inkluderande som ord som har något att göra med kvantifieringen eller clusteringen vi gör. För distribuerade ordvektorer är det lätt att se exempel här, och är så pass tydlig att många förfallet ned till att välja att se vektorerna skapade enligt normala algoritmer som uttryckande just denna större grupp, i topics d.v.s. de ämnes-kontext som sker över ex. som aktuellt här emotionella-dimensioner orden uttrycker, eller som ej aktuellt grammatiska preferenser i språket (startar man från LSA skapande ordvektorerna följande normala algoritmer är det ej fallet att endast ämnen enkelt ges av vektorerna utan försvarliga mängder information relaterad såväl syntax, ordformer, grammatik m.m. ges också ej linjärt d.v.s. att särskilja i similarity exempelvis grateful mot ungrateful är alltid möjligt men kan normalt kräva att man antingen gör efter-processande av vektorerna eller gör någon beräkning mer än cosinus-similarity direkt på dem. Mängden relevant information som kommer med är rent sanslös i storlek och vad som normalt utnyttjas är normalt försvinnande lite av den. Tänk här för de 400 positioner jag började på efter LSA och därefter tog ner till 300 att vi fortfarande är på 300 * 64 bitar: 2^64 hade för något mindre begränsats till 1.8446744e+19 och antar vi att ingen information alls existerar som uttrycker samspel mellan resp. position kan vi multiplicera med 300. Emellertid är det just samspelet och där redan i själva corpus-texten definierande resp. kontext-sample som är grundprincipen vi komprimerar och dimensionsreducerar utifrån - så hellre att vi ska sätta yttre gräns överdrivet men konceptuellt mer korrekt betraktande vektorerna som 300 st double d.v.s. 2^(300 * 64) bitar vilket nära nog rymmer vad som helst).


3. Slutligen en viss mängd relaterat algoritmerna som skapade dem men ej sunt återspeglande indatat - d.v.s. för mig i första steget en variant av LSA utnyttjande givna sannolikheter till 400 * 64-bitars double följt av dimensionsreduktion igen till 300 * 64-bitars double via en variant av Kohonen-nät förädlande också till en-dimensionell topologisk-sortering som Human-work-unit Hans manuellt kan korrigera när behov visar sig ex. dominerar namn ett antal positioner i dom höga värdena och skulle mot förmodan säg "the" visa sig ligga högt där är det enkelt att ta ner det till en sund nivå för positioner ungefär där säg it ligger: Den mänskliga sidan av IT är så viktigt vilket är så vackert illustrerat också i världsekonomin i all outsourcing till låglöneländer - många människo-timmar motsvarar bättre IT ty naturen av IT är ej att spara tid utan att göra saker ungefär som att "göra" titta på film kostnadsfritt vilket också kräver att man lägger tid på att döda fönster med reklam för ponografi, ekonomiska bedrägerier o.s.v. Lite timmar == Dålig IT) tillsammans med egenheter corpus som mer är att se som ej uttryckande verkligheten). Ett värde med LSA här är också dess nedsida (varför man just ska ta som självklart att man ej använder grundvarianten av LSA utan gör sundare viktning för sannolikheter) i att problem corpus tenderar att flaggas upp via övertydliga uttryck för den större gruppen koncept detta kan vara aktuellt för: Ord som är ovanligt ovanliga och relativt få kontext fanns för (många människor tycks ha som ovana att sätta sig att leta upp ovanliga ord och sedan gå ut på nätet och okynnes skapa icke-representativa "medelvärden" för kontext normalt förväntade av människor: Det är ett förbannat dåligt sätt men inte mycket man kan göra åt för väldigt ovanliga ord).


Grupp ett hanterar algoritmen och kvarstår något besvärande hanterar vi det jämförbart eller bättre sist. Övriga två grupper tycks bl.a. för mina ML vara funktionella att anta är representativa i alla övriga ord i mening av att drar vi dem slumpmässigt får vi en representation av hur detta ser ut i ej små kategorier av träningsdata. Och behovet är skattningsbart från hur faktiskt träningsdata uttrycker sig kontra konkurrerande kategorier. Och operationen i sig medverkar ej tycks det alls till överträning: Tvärtom testande det tar det bort överträning om man tillåter effekten av det hela gå högre än normalt annars fallet för det. Ej heller över epoker påverkar det negativt genomsnittlig korrekthet - och mindre väntat ej heller väsentligt genomsnittlig likhet mot egen kategori (vilket annars är ett funktionellt mått på att man får effekt av många operationer inkluderande subtraktion: Vi kan ta bort information och öka korrektheten men kommer tendera att reducera magnituden för vektorerna vi idealiserar och alla ord's vektorer åker därför gärna ner en bit i sin similarity). Bra samspel med gradienten och funktionerna den antar sig laborera på derivatan under verklighet av program-logikens beslut (d.v.s. sådant som att vi bättre ej låter den få mer data och operera på sin approximation om konceptet vi just då har redan tycks beslutas i rätt cluster: lätt fascinerande har jag många gånger tycks - självklart när vi betraktar vad vi gör som att komprimerar information och här ej önskar ett onödigt svårt problem genom att också stoppa in information vi ej behöver d.v.s. kan vi fatta rätt beslut för ett sample så utmanar vi ej algoritmen med det mer. Men betraktat från att approximera funktionen L2-distans utnyttjande derivatan L1-distans känns det lite speciellt - det lämnar frågan om hur vektorernas positioner samverkar utanför hur vi vill se det trots att det är högst verkligt påverkande).


För gradient descent clustering online. Jämfört med moment, medelvärdesbildning gradienter och/eller tillstånd m.fl. standard-optimeringar vi kan göra av gradient-descent för som här clustering får man här ut ungefär 10 ggr mer än de samlat räknat från samlad similarity korrekta kontra defekta ord genererade tillstånden topp tio tusen. Förutsättande för allt andra metoder hanterande detta med resp. ej medtaget för övriga. Moment, förändring alpha upp eller ner något från riktning gradienter sista stegen innan m.m. har jag också tagit bort, medan jag behåller medelvärdesbildningarna vilka fortsatt tillför märkbart (men ej i nivå: jag tror dock att för kategorier färre i antal ord och/eller naturligt krävande färre epoker att de troligt levererar mer än såväl denna metod som moment m.m. I princip tycks de för mig sudda ut nersidan av online-träning på ordvektorer utan att värdet av det påverkas alls - om ej startande från påbörjade tillstånd spekulerar jag också att när de första tidiga epokerna är gjorda att medelvärdesbildningarna också en tid levererar väsentligt mer. Dock är jag tveksam till poängen alls att utnyttja min metod här tidigt under träningen där jag gärna ser att det hela för in mycket information mindre diskriminerande medan den svårare förädlingen avlägsnande ut irrelevant information bättre görs senare när det är givet att vad irrelevant kvar ej naturligt från god-algoritmen gick bort av sig själv). Det är lite speciellt - och just exempel på matematiska konceptuella frågor jag tror är väldigt sunt att avstå från att engagera sig i - varför moment blir i princip föga meningsfulla av vad vi gör här. Själva formen på vad vi kanske kan tänka oss som en kurva - lutningen mot någon extrempunkt - påverkas ej på ett självklart sätt (men i all rimlighet är det väl just inflygningen som förenklas här - mjukare med mindre lösningar man upplever sämre än vad man önskat fortfarande tänkbara tydliga nog för att slöa ner eller frysa utvecklingen).


En fråga är kanske hur värdet ser ut när gradient descent utnyttjas tillsammans med back-propagation. Back-propagation är funktionellt - och har kanske sitt större praktiska värde egentligen - utanför de arketypiska typerna av neuronnäten. Har vi ex. besläktade ML-kategorier (utan att just prövat detta) kan vi utnyttja det för att låta en förändring i sig positiv-del-kategori-1 inverkar på positiv-del-kategori-2. Jag tycker det känns mer naturligt att se det som en metod relaterad spreading-activation över godtyckliga grafer. Det är ej självklart för mig om metoden är problematisk med back-propagation eller fungerar helt jämförbart. Backpropagation till sin natur bär ju mycket av mer uttryckt värde i segment där utmaningen att garantera att idealiseringen klarar att inkludera godtyckliga okända koncept (ex. som här tränande på i huvudsak 1-gram och några två-gram trots det få en idealisering som kan bedöma godtyckliga ngram, eller lika gärna ett ej överdrivet stort chunk med ord upp till två-tre meningar med rimlig ambition och test av om träningen är klar) är föga och vi snarare är i problem där mindre storleksordningar på träningsdata är aktuella görande problematik rörande överträning enkelt. Men sådant har kanske egentligen mer att göra med att vad backpropagation normalt används för - d.v.s. neuronnät - ej bra klarar mycket stora kategorier av ord och gärna kan hamna i överträning (resultat i "gömt" delsteg i algoritmen i form av "neuron" vars effekt ingen människa någon ser tränar sig till att uttrycka noll på allt utom en position efter en egentlig gigantisk arbetsinsats träning ersättande en enkel människo-gjord if-sats - för generiskt vanligt i klassiska prototypiska neuronnät även om utvecklingen gått framåt ganska ordentligt sista åren efter att föreställningar om hur neuronnät "måste" / "ska" se ut passerade ut).


Betraktar vi endast ord som sådana finns egentligen föga värde av att alls skapa idealiserade vektor-representationer. Man kan lika gärna - och bättre egentligen - utnyttja viktsystem för ord och hantera frågan om vad inkluderat eller ej genom att sätta sig en vecka vid behov och sortera ytterligare en 10 000 ord (den vinnande "third world IT-out-sourcing" metoden men gjort ännu lite smartare reducerande kostnaden ytterligare en bit skärande bort Bangladesh-IT-arbetaren genom att göra det själv - säkrare än varianterna att gå förbi universitetet och utge sig för att komma från GODTYCKLIGT-COOLT-IT-FÖRETAG-MAN-VILL-ARBETA-OSS för att göra en tävling man kan VINNA-EN-EJ-OTROLIG-SAK-I-DVS-RIMLIG-I-VÄRDE-OCH-DÄR-ALLA-KÄNNER-ATT-DE-MER-ÄN-ANDRA-KOMMER-GÖRA-SIG-BESVÄR och lämna ut A4-blad med ord man behöver sorterade stående bakom ett bord: Moraliskt kan man givetvis ifrågasätta den senare metoden samtidigt minns jag ett år när jag gästföreläste i krypteringskursen och någon av studenterna stal min Microsoft-penna i silver jag några år innan köpt i Palo Alto. Så åtminstone för mig är just moral ej en fråga här: They - studenterna: i affär av idealisering av en kategori är generaliseringen svår att argumentera mot moraliskt givet att konceptet av de enskilda objekten ej existerar - own me. Flera timmar om inte hela deras liv i alla fall. Jag känner mig fortfarande lätt irriterad över penna-incidenten. Min långsinthet imponerar som alltid och dominerar lätt i ett fåtal saker som vuxen mina samlade minnen uppväxt + vuxna-år. Vore inte mer än rätt att göra några omgångar student-mining men kanske mer i kodutveckling: Varför jag ska behöva sitta och koda sämre motiverad saknande min silverpenna medan dom okynnes festar finns ej ett bra svar på att hitta i åtminstone min powering-up med moral och etik management-lära).

Reducerande risk överträning

2017-05-19

Vi betraktar likheten som uttryckt via cosinus-similarity som en form av korrelation (om än ej balanserad från medelvärde vilket är mindre önskvärt). Vi ser också risken för överträning samt hur redan komplexa icke-standardiserade neuronnät (d.v.s. ej följande någon generell princip utan skapade manuellt för tyngre utmaningar man är beredd att tänka specifikt för) kan expandera enormt i komplexitet och beräkningskostnad så fort risker överträning måste hanteras i regler.


Vi menar vidare att vi sitter med nät som i princip adderar inkludering via addition medan avlägsnar icke-relevant information via subtraktion av icke-relevanta vektorer (ex. felaktigt bedömde tillhöra en grupp, via några alltid för varje addition, och/eller en svag subtraktion för varje vektor alltid när dragen om den ej hör till gruppen vilka är mindre tre huvudsakliga grupper).


Vi tillför på försök regeln Z_HH i samband med ytterligare expansion regler träning gjort att känslan är att redundans minskande risk för överträning bör tillföras. Där tänket är att denna regel ska avsluta behovet permanent:


  • Z_HH aktiveras alltid när subtraktion sker.
  • Vi drar n-stycken (säg 5 - 6 st) positiva för den kategori vi subtraherar från.
  • För sex st. föregående drar vi 1 st som säkert ej hör till någon kategori (troligast namn medan verb, adjektiv, adverb m.m. normalt hör till någon kategori) samt ett par st. vilka som helst som ej hör till egna kategorin, och ibland 1 st. som kan höra till en motsatt kategori.
  • Vi avlägsnar "korrelationen" indikerade negativa ord från de positiva genom att först medelvärdesbilda positiva och negativa och därefter beräkna cosinus. Inte helt olika med hör man ofta gör ortogonalisering.

Vi kör detta som positivt sample för kategorin vi subtraherar från. Och raderar den ej d.v.s. ingår nu permanent som en existerande given under träningen. Så som kod gjorts är det ej via någon regel givet att processen någonsin kommer 100% säkert kommer avstanna. Z_HH kan i sig innebära att Z_HH anropas om motsatt kategorin upplever den höra till sig. Att träningsdata som ej hör till kategorin används och får reducera skapat sample utefter korrelation gör dock detta till väldigt osannolikt inträffande ens 1 - 3 gånger.


Total tillgång positiva samples i form av vektorer för ord är cirka 20 - 30 000 st, med ej färre än 2000 för någon kategori tror jag. Träningen samlad antas ge funktionella resultat ej bara för kategorisering ord utan också varje form av kombination av ord oavsett samples eller ej. Oavsett detta tror jag nog metoden i olika varianter är funktionell rent allmänt.