Visar inlägg med etikett gradient descent. Visa alla inlägg
Visar inlägg med etikett gradient descent. Visa alla inlägg

Regularisering under antagande av vad?

2017-08-24

Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty. Emellertid gör vi gradient descent på funktion där vi praktiskt hamnat i själva approximationen förflyttande L1 gäller att "regularisering" L1 i mening L1 över varje vektor-position är relaterad till information vi effektivt approximerar under ett antagande om effektivitet mellan "per position" i vektorn ( d.v.s. | x(i) - y(i) | ) relativt övergripande vektorn ( d.v.s. relaterat summan eller jämförbart med hänsyn hela vektorn sum ( | ( x(i) - y(i) | ).


Och kan vara - föredrar jag att uttrycka det ( vanligen klokt) - relaterat rent kulturella preferenser i dom områden där man oftare kommit som jag förstått det att använda den. D.v.s. natural language processing så menad i samma artikel tidigare länkad där nu också som välkänt enormt "bias" att använda LSA finns. Antag nu att vi istället efter processar LSA vektorer ( för att ta rätt av vad jag föredrog att göra med mina 400 double vektorer LSA sorterande dem topologiskt till 300 dimensioner ) så gäller nu att effektiviteten att informationen tänkbart ( osäker vad som gäller för mig här men intrycket där resp. allmänt för metoden jag använde är att om grannskapet utnyttjat är långt så fördelas kostnaden / effektiviteten ut "jämnt" relaterat mot constraint att fördela max-likhet tilldelningen jämnt mellan varje vektor-position).


Men även om jag gärna upplever att man för diverse vanliga algoritmer skapat vektorerna man opererar på kan göra en straff-term rimligt som beskriven ( och egentligen kanske i övrigt när ej fungerande troligt alls ändå är som allmänt här i domän där man för bra resultat behöver människan som i diverse som går in och ställer diverse för att nå exceptionell idealisering utan överträning - ej förlorar något på att pröva en till konfiguration kastad) finns också många ej ovanliga där det knappast heller just för L1 är vad jag upplever ( för att välja ett bra ord lämnande en god andel av ansvaret till läsaren ) är möjligt.


Jag har lite särskilt intresse just här. Man kanske hellre möter när man gjort sig besvär att tematiskt topologiskt sorterat sina vektorer. Det gör egentligen just L1 lite speciellt jämfört med alla börjande L2. Det speciellt är upplever jag ett tänkbart större värde av att använda som komplement till L2 val / träning för att undvika överträning eller jämförbara problem ( medan vi åtminstone efter människan-Hans-val kan välja att köra träning övergripande L2 beslutande en tid L3, L4, ... eller högre för att tvinga fram "överuttryckt" prioritering av färre positioner i vektorn med höga värden medan ett större flertal med låga värden minskar i påverkan genom att de så kraftigt reduceras i magnitud). Tar vi istället de 400-double LSA (eller egentligen ICA men med vikter sannolikhet ej relaterade corpus) vektorer som jag använde skapande mina 300 double så gäller ej riktigt samma sak här. Vi har samband mellan positioner implicit resp. därefter i högre utsträckning explicit.


Viss skillnad mellan betraktande L1 som absolut-belopp skillnad ( på vektorer L2-normaliserade ) mot att betrakta L1 som resp. vektor först normaliserad summan ( lite som med sannolikheter ) och därefter absolut-belopp skillnad p.s.s. gäller praktiskt tränande. Antar vi tränande constraints L2 och därefter brytande in med constraints L1 gäller att vi i den första varianten får gärna ordentligt större skillnaden antal rätt och fel under pågående träning när befintligt ett relativt litet antal fel görs ( utan egentlig överträning detekterbar ) medan vi för variant två där större "bort-hantering" av magnitud enskilda positioner relativt alla positioner gäller får ordentligt mindre skillnad. Jag föreslår att man här kan vinna en del på att när allmänt ej ovettigt utnyttja första varianten kompletterande L2 under träningen för att få in något av relationen till informationsmängden per position.


Om möjligt kanske mest upplever jag vettigt när enorm skillnad i storlek antal koncept träning (såväl kanske storlek kategorier naturligt att förvänta antal ord eller jämförbart) finns. Men också där det kanske är svårare att använda. D.v.s. tränar jag mot varandra en kategori ord med 20 - 50 ord och en med cirka 1100 ( som aktuellt just nu samtidigt med eu bunt andra för smidigt utan att behöva göra ny kod få den större av den att bestraffa andra kategorier på högre likhet ) kan L2 och högre kröka rummet lite hur som helst och ogärna ha någon svårighet med L1 heller. Men om den mindre kategorin ej är helt "orimligt" liten men ändå gigantiskt mindre och vi bryter in L1 kommer det omedelbart ge väldigt tydliga dispergenser. Jag vill minnas ( men är ej säker ) att de aldrig var lika tydliga med mina 400.


Annars är en god tumregel lämnande regularisering ( eller möjligen för någon klokare användare det bättre: Jag har alltid känt att om man är cool och väldigt heterosexuell som jag använder man det inte ) får mig att antingen mycket väl uttryckta kategorier ( i mening träningsdata d.v.s. exempelvis för mig mina positiva och negativa med vardera cirka 3000 - pos - kontra 9000 neg. där vektorerna 300 har flera mer direkt motsvarande positioner ) följer från L2 hög andel rätt ungefär jämförbart ( skiljande upp till 10 procent-enheter nedåt med säg 97 - 99% för L2 som träningsbeslut görs för). Medan när vissa problem finns tydlighet träningsdata så som min variant UP kontra DOWN ( där jag försökte uttrycka dem lite annorlunda givet en annan tydligare bredare definition dominerande träningsdata innebärande att UP ej längre är högre aktivitet och visa versa utan mer högre aktivitet under motsvarande idealt hög-konjunktur och visa-versa innebärande att vi kan ha hög och låg aktivitet i resp. UP och DOWN: Låg aktivitet UP mer av avkopplad över-ätet lugn, och hög aktivitet under DOWN mer av stressad katastrof-aktivitet) så gäller att andelen fel under träningen gärna är väsentligt större för såväl L1 som L3 och L4.


D.v.s. spekulerar jag utan att suttit och tittat på tillståndsvektorerna (åtminstone inte insiktsfullt) så hamnar vi i UP vs DOWN med större preferens att träningen kröker rummet mot tänkta referenspunkter. Vilket för vad som egentligen givet naturligt större kategorier inkludernade många fler ord och en egenskap väsentligt mer allmän egenskap ej ger en enklare ( men naturligt mindre exakt ) idealisering utan istället något som om ej hanterat kan resultera i påtvingad motsvarande överträning.


Kvantifierar vi mängden information denna "påtvingade överträning" motsvarar hanterar vi detta tror jag enklast genom att randomisera varje träningsdata i motsvarande utsträckning. Är vektorerna som för mina 300 topologiskt organiserade gäller att höga värden en position motsvarar omedelbart tematiskt större tillhörighet dit utan mer komplexa samband med andra positioner ( förutom avstånd position vilket upplever jag ej behöver hanteras särskilt här) och mängden randomisering i absolut mening kan vara större ( d.v.s. variansen genererande normalfördelade tal är större med själva vektorn som medelvärdet). Vilket jag förövrigt allmänt gör av andra orsaker: Särskilt därför att det när topologiskt sorterade blir möjligt på ett helt annat sätt där det omedelbart innebär att motsvarande existerande eller icke-existerande vektorer ex. ord ( men för den delen också givet ord-vektorer eller flergrams-vektorer kombinationer av flera sådana tillsammans ) ej existerande träningsdata täcks upp indirekt i variationer av dom identifierade. Jag antar att med hantering avrundning på diverse beräkning skulle en del av behovet och värdet ( men ej huvud-delen om än förvånande större andel än implementationer neuronnät jag sett andra hanterar alls ännu ger oss: Säg 1-lager d.v.s. gradient descent över 10000 vektorer a 64 double att det motsvarar 20-procent-enheter vilket är tja större än man gärna tänker sig men inte mer än att givet metod randomisering att jag hellre avstår avrundning givet prestanda-kostnad min Perl-implementation av det - förvånande slött för något så enkelt. Propagerar så det heter duga utan sund avrundning: Jag menar "early stopping" men ej avrunda - behövs det ens...).


Vi ser i sist uttrycket värdet jag får börja topologiskt sorterade där positioner mer gärna uttrycker magnitud motsvarande något ämne med mindre beroenden andra positioner vilka ej kan lämnas därhän i meningsfullhet förståelse en position att viss frihet kontra en given kategori så som definierad träningsdata ges. Vet jag att motsvarighet väldigt direkt finns till topologiska positioner vektorn kan vi tvinga fram högre prioritet genom att gå upp från L2 (kanske initialt med en mindre andel av träningsdata mycket uttryckta väl i dessa) och stimulera motsvarande positioner att få höga- / låga-värden på nivåer ej annars lika gärna enkelt att uppnå med rimlig ansträngning gradient descent. Omvänt för smutsiga kategorier av samma typ av vektorer har vi gärna mycket varierade magnituder över tematiska områden motsvarande positioner med en tänkt övergripande kategorier ej motsvarande en enskild position ( jfr UP / DOWN tidigare som går in i alla - eller de ordtyper som man gärna ofta gör till stopp-ord ex. it, a, an m.fl.) kan man se experimenterande tagande L2 till L4 (vilket jag nyligen gjorde) hur liten uppnådd skillnad (tränande p.s.s. som tidigare praktiskt flyttande tillstånd L1 d.v.s. som derivata exempelvis vad som relaterar 2 * L2) kan ge abnorma förskjutningar L1 ( storlek minne kan påverka här: Oändligt minne med oändlig beräkningskapacitet kanske ej ger detta uttryck: Praktiskt körde jag "lite" - några dagar vardera - på såväl praktiskt höga som låga träningskonstanter) i mening andel rätt resp. fel beslut.


Egentligen allmänt är väl dock avrundningen det mer anmärkningsvärda. Från såväl gymnasium och tidigare så som en del initiala kurser Teknisk fysik vill man ju gärna tro att hela konceptet mest är något junk man förväntas göra på inlämnade labbar utan mycket till praktiskt värde, eller mer lärt senare en metodik för att lura av 50-öringar från butiksbiträden. Att det hade någon effekt-motsvarighet verklighet i numeriska beräkning förvånade verkligen.

L1- och L2-distans tillsammans: Reward / cost-funktion över-vektor skalande L1-modifikation i gradient descent icke-linjärt

2017-06-17

Similarity eller distans som funktion av resp. antingen similarity cosinus eller L2 resp. L1-distansen. Ett uttryck jag av och till experimenterat i väldigt skilda delar relaterat de vanligaste av de vanligaste algoritmerna inlärning och clustering. Och har verkligen en mycket skild natur jämfört med L2 eller sim. ensamt. För mina 300-vektorer ord kommer det exempelvis när inducerat via påverkan på träningskonstanten (d.v.s. renare kanske att hellre se via en implicit funktion stående "bakom" inlärningskonstanten i ex. diskriminant derivatan av en föreställd funktion vi deriverar: men i min kod logik för inverkan lik denna ofta vad som vairt enklast att inducera genom att manipulera träningskonstanten i resp. operations magnitud om än ej dennas epokförändrade grund-storlek) ge ut clustering oerhört dominant (väldigt olikt normalt förväntat dem eller vilka som helst normalt topic-kontext dominerade ordvektorer skapade på normala sätt) i flera av givet antal totala cluster ordtyper. Och ej nödvändigtvis självklart begränsat till eller ens självklart (med självorganiserade koncept aktuella för mig här) ens oftare än mindre mer udda grupper först stora sådana som adverb eller adjektiv. Tänker man seriöst över vad ex. ett adjektiv är och vilka grundkomponenter dessa ord kan ha och vilka av dessa (ungefär fem st. förövrigt med två närmast alltid där och ett par ej ovanligt ej aktuella för ord men absolut heller inte mindre vanliga än att om jag minns rätt mer än hälften av adjektiven bär dem) så kan man uppleva att man förstå en del cluster jag sett från det och varför dessa stora och som koncept så väldigt vanliga när vi talar om språk ej troligare (men ej heller troligare) än många andra mindre i storlek och "betydelse" som de första som troiligast kommer ut. Praktiskt har jag inte sett någon poäng alls med sådan cluster-sortering: Jag har redan ordentliga listor med allt från vanliga ordtyper till allt i övrigt säkerligen ej överdrivet långt ifrån allt publicerat ej överdrivet speciellt. Och jag har ej sett något kommande ut i mina försök just här heller som ej när uppenbart drivet ordtypsnära tänkta egenskaper snarare än topic i mening tillför något eller inducerar nytt-tänkande förståelse hos mig: Utan vad man sett redan och om mot förmodan när man behöver det ej redan bättre gjort i ett oftare där troligare männnisko-skapad lista nog så kan jag säkert sortera ut det ex. automatiserat (eller manuellt) så här eller lika troligt bra eller rent troligare bättre egentligen utnyttjande viktsystem och sannolikheter. D.v.s. intressant därför att jag annars aldrig sett det komma så direkt och renodlat. Egentligen ej vad jag på rakarm mindes alls i övrigt när självorganiserande stora mängder ord där naturligt ämnes-topic alltid är att förvänta när antalet cluster ej är stort extremt troligt kommer. Ovanligt och därför intressant men med mycket av udda-nyheter eller numera vanligare kanske udda filmklipp (oavsett om nu surfande hundar eller en person i en uppenbart överskapad avbildning av karikatyr överdriven stereotyp som fascinerar miljoner varande en så fullständigt extrem nörd och så löjlig utan att själ förstå sig som annat än oerhört cool - Förövrigt ej framgående om man ej kontrollerar själv lite och har nätverken för det i SEO-branschen släkting till en välkänt framgångsrik Youtube traffic-collector. Minns ej om vår tjocka svärdsviftande nörd var kusin eller något annat.).


Sedan gillar jag personligen idén att utnyttja både L1 och L2. Vi känner ju praktiska värden med båda. Och alltid när man behöver göra ett hårt val upplever jag lätt att en period av att pröva allt möjligt runt två motsatta koncept blir verklighet. Finns någon - kanske rent av lite men ej märkbart så sämre rent praktisk - kompromiss av båda är jag sällan helt främmande för den. En del kognitiv-dissonans och bedömnings-osäkerhet som besparas. Varande en god idealiserad svensk har jag ibland rent av svårt att helt släppa dessa "gränsöverskridande" kompromiss-lösningar. En konsekvens av att växt upp under Kalla Kriget inkluderande grundskoleinlärning i läroböckerna av den svenska "modellen av världspolitiken": Världen med sina divergerade block är var för sig ej riktigt rätt. Mitt emellan dem på den rektangulära kartan - om än konceptuellt mer udda på en glob - finns Sverige. Det är möjligt och mycket med diverse exempel 1900-talet med början 1970-talet exempel man kan mena sig uppleva ev. är sådana indikationer finns på att resp. divergerat block konvergerad till deras mitt. D.v.s. Sverige. L1 och L3 normerna och distanserna skulle vi korrekt svenskt därför bäst se som två divergerade koncept som är på väg att konvergera till ett distansmått som utnyttjar både L1 och L2 distansen: Sverige-distansen i nuvarande mitten (Låt oss kalla den för Milstolpen från vad den mindre moraliskt korrekta - och / eller kanske modigare - granne släpat hem till trädgården och gillar att prata och visa upp).


Men varför när det ej egentligen tar det pröva det på något ytterligare en gång? När ändå samtidigt skakande om pågående träning hoppande träningskonstant mellan punkter i större steg där man sedans tår ett tag och skyfflar data in och ut. Säg i denna variant:


ZH är Sverige distansen. Vår milstolpe förklarande vad avståndet är mellan två punkter i svenska-mil. Och vi definierar den ej omedelbart från L1 och L2 utan cosinus istället för L2 därför att av och till finns en skillnad trots att vi kan räkna mellan dem (personer med preferens säg 0,1 normalisering utnyttjande exp exp ( gaussiskt-distans ev. varians // bandvidds-normaliserad) hade antagligen föredragit L2 då mer rationellt). L1 väljer jag förövrigt som ett av flera alternativ ha max-normaliserad över alla under träningen levande vektorer träningsdata. Konkret är Milstolpen: sim / ( 1 + L1-distansen ) == likhet. D.v.s. lite olämpligt att jag kallade den för distans då vi i denna form ej utnyttjande L2 mer får similarity med riktning. Annars är ex. L1 / ( + sim ) också funktionellt.


Vi gör beslut utifrån vad vi kan välja att se är ett distans mått per vektor-position för att få en gradient i varje träningssteg. För mig testat uteslutande vad som i grunden är gradient descend men med diverse modifikationer i och nära runt om som gör att grundprincipen gradienten ej säkert är lätt ens för en mycket säkrare matematiker refreshad i området att få ut en funktion som integraler av. V beräknar här nu för vektor vi modifierar ett tillstånd med i gradient descent också L1 och cosinus similarity för och från det Sverige-i-mitten-är-ändå-vad-USA-och-Sovietunionen-resp-är-mest-lika-till-resp (låt oss kalla det SIM - Sweden in International Model - eller vad man vill föreställa sig att det står för bland läsare firande och starkt troende på den goda medborgaren Hans som alltid tar chansen att lyfta fram Riket: "En fin riktig svensk utan något av Skåningen eller Norrlänningens halvt-icke-svenska okulturs-störningar i beteende och språk: Det är det fina med Hans i ett nötskal.") fortsättningsvis) måttet som indikation bildat från övergripande alla positioner men utan att cross-beroende (ex. säg cross-talk alternativt) mellan positioner utnyttjas explicit ändå en gemensam samlad indikation korrekt praktiskt utanför träning i sin naturliga dimensionsreduktion till en position mycket mer funktionell för mer övergripande beslut än representation information: Jfr jämförelse ord med varandra eller uttryck för sannolikheter ett ord givet ett kontext (ett decimalt-tal är vad vi avser en position). Men opererar i träningen på varje position vektorerna utifrån konkret när jag testade L1-distansen (under dis-constraint att till varje ord-vektor omedelbart innan ej normaliserat görs beräkning: uu(i) = uu(i) + rand ( uu(i) * 0.10 ) - rand ( uu(i) * 0.10 ).


Hela tänket gradient descent är ju att derivatan är viktig. Och är vi L1 här med L2 i egentliga funktionen kan vi ännu tydligare konceptuellt se hur vi flyttar oss närmare vid behov medan ex. mer av en medelvärdesbildning kan tendera att sämre bilda en gemensamvektor för just diskriminering. Trots det görs följande operation av mig på denna L1-distans tänkt att vara gradienten. log ( 1 + e ( L1 ) ). Jag hade verkligen utan annat än fördel kunnat välja att ersätta L1 distansen med detta när sent i träningen men ej riktigt sista epokerna. Större värde ges emellertid när vi istället:


Beräknar: log ( 1 + e ( SIM * l1-distansen just för aktuell position i vektorn ) ). Och viktar andelen av den normala gradient-operationer vi låter påverka tillståndsvektorn med kontra samma tillståndsvektor i föregående tidssteg. Bieffekt är mera smooth övergång vilket kan vara mindre önskat ev. tidigt i träningen eftersom vi för in föregående tidsstegs-vektor. Normalt är dock denna bieffekt önskad i sig (varför jag valde att låta effekten realiseras via denna viktning snarare än manipulerande den gradient som faktiskt används vilket är den som normalt L1-beräknande: Även om arbetande med L2 distansen väljande cluster o.s.v. ska man dock absolut inte vara rädd att pröva att bortse helt från tänket att man laborerar med en L1-distans som är en derivering av en L2-distans för att experimentera med allmänt numeriska algoritmer enkla standard-grepp som ibland ger värde. Ex. sluta med L1 och istället använda L1 skalat icke-linjärt för att ge större effekt av antingen mindre eller större skillnader för resp. position kontra tillståndet som tränas fram - åtminstone om sent i träningen - vilket verkligen oftare än annars för känt praktiska funktioner kan öka upp andelen korrekta sorteringar såväl som att reducera andelen falska koncept upplevda hörande till kategorin. Men jag önskade ha en svag medelvärdes-effekt verkande utan att just detta steg i logiken konceptuellt så korrekt tilltalande enkelt börjad expandera i antal rader kod börjande närma sig några hundra från vad som i grunden kan vara en rad. Och effektiviserade ner operationerna där det kändes enklare att göra ett par man troligare av och till kan önska av resp. på normalt som jag bedömer det i ungefär samma del av träningen - tillsammans. Medelvärdesbilda själva gradienten ska dock ej ses som vad jag självklart på något sätt här ej rekommenderar troligare som vad man kanske hellre bör tänka och arbeta med. Görande potentiellt p.g.a. struktur ett flertal förändrande operationer - ej fler än värsta fall åtta och normalt 1 och mindre ofta två eller tre - från ett slumpmässigt draget ord är det dock ej praktiskt bra att arbeta med gradienterna här krävande att man tryggt ej förväxlar i koden skillnaden mellan steg som operation resp. steg som nytt ord m.m. medan vi med själva resultatet ej behöver något nytt quality assurance i assertions för att kontrollera rimligheten.).


Jag vill ej spekulera om vad för värde någon annan får av just denna operation. Den är vad jag tycker man ska se som en av en bunt enkla små modifikationer man kan pröva rent praktiskt för en given tillämpning och se om det ger mer värde. Utan att jag tycker det sunt (om man alls ska se matematikern som roll som sund för någon normalt frisk ej matematisk-person) att man ska uppleva behov av något teoretiskt resonemang runt dem var för sig. Jag har några bra sammanfattande journal-artiklar tillsammans täckande upp några av de mer basala (i mening att vi ex. där kan hitta grundformen funktion jag utnyttjade här men ej att vi där har den fortsatta varianten av att vi utnyttjar en skalning från similarity) grund-operationer ytterst vanliga såväl välkända oftare än inte ger åtminstone något lite värde antingen exakthet eller beräkning totalt nödvändig att nå åtminstone en extrempunkt (oavsett dess förhållande i storlek till en eller flera av ev. övriga extrempunkter. Jag anar lite att med tänkt L2-distans som funktion och definierande data för funktionen som är levande flergram producerande kontinuerligt varje dag är kanske koncept som lokalt minimum meningslöst och mer att vi har praktiskt approximativt ett oändligt antal extrempunkter något så när i chunk-cluster jämförbara i magnitud. Men tänker kanske fel. Under antagande att annan logik / personligt beslut ej relaterat funktionen i sig vi antar att vi uttrycker beslutar om mängden och vilket indata vi just nu för kommande pågående timmar träning för in i systemet. Verkar nördar coolt för dagen för vi in dom. Har Trump hört av sig om att köpa information kring koncept relaterade Världs-President år 2020 kör vi in data relaterat det. Ska vi tydliggöra moraliska problem med person i parti-diktatur kör vi in data aktuellt där. Vi kan i det automatiserade av logik se ex. konceptuell möjlighet att nära användning är vad logiken följer upp konkret effekt av pågående tillämpningen av vikterna - Började folk ställa sig och vänta på att Trump kommer och ska president-tala inför kommande konceptuella skapelse av världspresident-posten? -
Om inte kanske vi börjar sampla annorlunda men ej för det annat än förlorar på att kasta tillstånden där vi står som är mer av något större runt gradienterna i insvängningen mot att få den Goda människan i ledning av världen så att alla folkmord världen skådat, alla kostnader för alltid förutom Mexiko oskyldiga länder mexikanernas butikssnattande runt om i världens städer orsakande svält, gravt eftersatta regler om tax-free inköp av alkohol och tobak resp. alkoholbeskattning många länder har där istället alkohol-subventioner vore det allra bästa för folkhälsan, den dåliga myndighetsinformation flera länder har om dålig hand-hygien orsakande den Diger Död som rätt trump-i-kortleken som världspresident kunnat förhindrat - ej riktigt bra - och kanske ej helt överdrivna uttryck för den lite skakiga relevans-rimligheten vi kan ha tidigt här - men ej meningslös information att arbeta vidare från) tillsammans med sampling från levande internet-corpus ).























































































Bättre gradient descent opererande på distribuerade ordvektorer med grov skattning information in via addition och information ut via subtraktion

2017-06-15

Komplettering: Jag tror jag får följa upp med något exempel här för att göra enkelheten tydlig. Enkelt är inte alltid enklare att bra förklara. I övrigt kan läggas till att effekt för mig överstiger övriga optimeringar nära själva gradient descent delen av logiken d.v.s. medelvärdesbildningar gradienter, utnyttjande moment, förändrande träningskonstant utifrån riktning gradienter nära i tiden (positiv eller negativ riktning) o.s.v. bland normala optimeringar. Någon anledning att tro att samma värde finns för data som ej kommer från språk tror jag inte riktigt på men å andra sidan tror jag värdet gäller utan just någon skillnad effekt eller metod för alla distribuerade vektorrepresentationer ord och flergram (eller ämneskontext) skapade med alla normalt förekommande algoritmer.


Poängen med gradient descent är att den fungerar och tillåter hög abstraktion för människan. Nackdelen är att fokus forskning optimering resp. skapelser tenderar att hamna uteslutande i antingen själva abstraktionen (d.v.s. avseende metoder så som moment eller medelvärdesbildning), steget från en tänkt funktion vi deriverar (och är tänket vettigt avseende vad vi skjuter in i algoritmen från logiska regler för anrop resp. motsvarande derivatan kan man om ett eget värde ej finns gå långt utanför att anta att funktionen existerar eller frågor om den ser ut i mening av att man kan saker längre här genom att temporalt gå över till "varianter" av derivatan jfr för vad jag började med att pröva just här som exempel: Tänkbar modifikation av algoritm kvantifiering vektorer att använda mot slutet av träningen. Men att något jag prövat här egentligen är värt besväret utan medvetenhet om informationens form är troligen i allmänhet mindre vanligt annat än för resultat tänkta att användas längre tid.), medan samspel med själva informationen vi för in lämnas.


I särklass vanligast tvivlar jag inte på är att man funktionen antagen att deriveras är L2-distansen vilket ger oss att modifikation som sker följer L1-distansen i resp. steg. För vektorn opererar vi nu per position lämnande frågan om hur informationen ser ut till övrigt. En mängd varianter jag mentalt sorterar i samma grupp utnyttjar mer övergripande över resp. vektor kontra övrigt similarity ovanför vilket vi kan se som ett exempel på hur vi kan utnyttja informationens natur.


Nackdelen med alla dessa algoritmer är givetvis inte att de i allmänhet är så väl tilltalande enkla som mycket levererande i resultat utan att de liksom gradient descent tenderar att lura oss - eller mig tidigare åtminstone - att missa det mer uppenbara när det kommer till våra ordvektorer. Betänk gärna de mest grundläggande och triviala måtten på hur träning clustering går: bias och varians som indikation på var vi ligger i att avskilja motsvarande träningsdatat (d.v.s. risken / nivån av överträningen) kontra risk för inkludering defekt men också chansen / möjligheten (vad åtminstone jag i allt aktuellt språk tar som grundvärdet sökt) att också ej träningsdata men vad som motsvarar träningsdata inkluderas.


Tänk att vi nu har vår principiellt enkla träningsalgoritm resp. en bunt sinsemellan ganska jämförbara koncept närastående ovanför (ex. vektor-kvantifiering) men att vi kan ha missat en i enkelhet och prestanda jämförbart koncept. Ett koncept som tar in hänsynen till informationen kompletterande similarity som utnyttjat och föga kostsamt prestanda (knappt märkbart alls).


Givet att jag hade missat att se möjligheten om ej för att egentligen allt jag gjort efter 1997 cirka. Ungefär när jag började skriva Kryptering från början till slut. Alltid inkluderat var gång ej helt borta att göra att betrakta som tum-mått informationen utifrån komprimering.


Och i träningen här: Hur mycket information går in? D.v.s. via additionen av relevanta samples för som aktuellt just nu för mig några av mina "ML" / More-or-less - Positiv / Negativ - i 1-gram cirka 6000 vs 9000 i följande bias-engelskan för större uttryck frekvens positivt men med fler ord för negativt och sist kontrollerade precis som det ska vara (eller adderar jag timmar korrigerande) för alla core-ml försvarligt större än något publicerat -, Known / Unknown (Unknown ska jag återkomma till här: När den föreslår mig utbyggnader under träningen får man ett fascinerande "negativt" perspektiv av vek ekonomi: Kopplingen i extremt stort under vektorerna corpus mellan unknown som grund definierat och ekonomi överraskar mig fortfarande pågående regelbundet) - resp. ganska små i 1-gram krävande fler två gram för särskilt unknown och båda cirka 3000 - 4000 st, UP / Down ~ Active / Passive - båda "gigantiska" redan i ord ovanför 10000, Trust / Distrust - mindre men besläktade positive-negative cirka 4000 båda om jag minns rätt). Samt informationen vi tar ut när subtraktion sker d.v.s. för mig antingen:


  • Riktat. I de flesta fall att ex. "positiv" tar bort information från "negativ" därför att negativ för en ord-vektor uppvisar att den defekt känner sig mer hemma med ordet än positiv. Vad som kräver human-work-unit Hans att av och till kontrollera det hela eftersom samma del av algoritmen skapande träningsdata ibland fört in koncept folk ej i corpus tillräckligt rent använt jämförbart (samt att enstaka underligheter kan vara fallet). D.v.s. koncept humor visade sig exempelvis ej bra att behålla i positivt. Troligen därför att för mycket diskussion humor som kommersiell-produkt stör saker, att komedi kan handla om för positiv problematiska ämnen, samt en här visade sig försvarlig mängd corpus vi kan nöja oss med att säga är löst relaterat till konceptet skadeglädje (satire har något lite av samma problem men i kontrast ej i närheten av nivå att man behöver ta bort det från positiv).
  • Kontra mängden ML allmänt. D.v.s. koncept tränings-data någon ML men ej den kategori aktuellt för ordet och ej dess "motsatta" ML.
  • Kontra mängden alla existerande koncept. Där jag praktiskt valde att endast inkludera ord följande A-Z resp. ord A-Z med "-" där "-" i mina ordvektorer motsvarar bigram som jag valde att ta med utnyttjande detta som notation. Övrigt lämnande etniska uttryck (jfr åäö för svenska ord eller i mängd desto mer allt möjligt från Indien m.fl. länder) är i hög andel funktionella motsvarigheter till "-" men uteslutande avspeglande vissa kanal-preferenser så som diskussions-forum, nyhetstitlar o.s.v. Nyhetstitlar är mycket funktionella för att expandera ord åtminstone när de indikerar första ordet i titel liksom p.s.s. (jämförbart funktionella) indikerande citat. Indikerat forum där själva ordet avslutas "..." är mycket funktionella för expandera med manuellt för starkt emotionella koncept medan hela gruppen i övrigt visade sig för ML sämre att utnyttja (det förvånande mig verkligen eftersom ML-kategorierna är så emotionella till sin natur och gruppen i sig är funktionell för ämnen inom åtminstone politik för expansion följande grundordet) vilket också gäller allt relaterat corpus som har med diskussion i text att göra.

Jag upplever att sista subtraktions-typen som jag använt det ej är orelaterad till eller felaktig att se som en form av variant (men via algoritm använd i övrigt) till att grovt subtrahera bort någon form av viktad medelvärdes-skattning av hela världen.


Struntar jag i all subtraktion och dessutom väljer givet hyggligt färdiga tillstånd addera allt modifierande resp. stegs träningskonstant med ordets similarity får vi en mycket god skattning av hur ord allmänt motsvarar kategorin i similarity. Men med begränsningen av att särskiljandet mot andra kategorier snabbt försämras. Vi hamnar i vad som inkluderar och för in information från allt vi vet i positivt träningsdata. Hade det endast varit världen är det ej ett problem men som är typiskt är en stor del av värdet att kunna särskilja mot andra kategorier. Det är - motsvarande min arkitektur här - det naturliga andra steget att utnyttja "dagens" träning av händelser fortlöpande givet det första stegets träning till att uttrycka distributionen. Första steget ger möjligheten att särskilja en ML trovärdigt medan det andra givet att den klarar detta kan koncentrera sig på den kanske enklare utmaningen att uttrycka diverse viktade distributioner (så som hur lik ett koncept eller en grupp av koncept är till en ML, eller troligt uttryckt i världen enligt dagen, nivå spreadability o.s.v. motsvarande egentligen alla viktsystem jag annars genererar ut av och till).


Det intressanta i kontrasten lager ett och lager två är att i lager ett kan vi skatta mycket nära till slutlig effekt nivå överträning kontra inkludering okända men tillhörande koncept resp. antalet ej upplevt tillhörande koncept som rangordnas högt i similarity utifrån mängden mängden information adderad resp. subtraherad. Hade vi nu med mängden information avsett sannolikheten för en given vektor med "höggrad av medvetenhet" om korrelation mellan positioner o.s.v. eller intressantare dess "effekt-volym" (eller vad vi kallar det) i mening av totala likheten det uttrycker med ett antal eller alla av övriga ord existerande, så hade det varit mindre intressant därför att det hade kostat ganska försvarligt i beräkning nödvändig. Men menar man - och jag gör det - att mängden information mer är av ett degenererat koncept utnyttjande grova skattningar hörande hemma i antaganden om diverse samverkande normalfördelningar vi inte ens behöver trovärdiga skattningar av rörande varians-moment för (utan sådant är mer något vi för tidiga moment kan beräkna samtidigt) är praktiskt på samma nivå som övriga koncept utnyttjade: Det kräver ej mer än gradient descent eller similarity.


Och hur laborerar vi då med detta? Och här är själva kärnan av värdet. Träningen gör sitt. Av och till. Ganska sällan. Inte ens en av tio epoker. Kontrolleras grovt vad genomsnittlig likhet - cosinus-similarity - ligger på för orden som tränats mot respektive kategori i övrigt. Ligger det över något värde. Drar vi slumpmässiga ord - säg 1000 till 100000 st - tills mängden informaton vi subtraherat går över tröskelvärde.


Personlig tumregel att vi alltid kan göra addition (implementerande med en vettigt sund grundnivå vilket inte är givet i mycket man ser publicerat där överträning som koncept tycks ha definierats helt opraktiskt som vad man tror sig löst med ett held-back-corpus definierande det som problem vilka endast kan manifesteras på samma abstraktionsnivå som algoritmen man tränar med vilket nu ej är verkligheten: Stor fördel här i forsknings-områden där clustering är mer av en praktisk metod använd i ett "större" huvudsakligt mål så som medicin kontra där det är huvudsaken) utan att riskera att överträna (men självklart förande in typiskt för varje koncept i träningsdata en viss mängd junk-informationen ej bra för idealiseringen tillsammans med värdefull information). Medan när vi börjar subtrahera givet addition kommer alltid risk för överträning vara fallet. Personligen tycker jag att det är en excellent start-punkt demonstrerande att del-komponenter fungerar som de ska tillsammans. Arketypiska ord motsvarande träningsdata ger höga värden medan allt i övrigt ligger nedåt negativt i similarity oavsett om konceptuellt relaterade eller inte.


Vad jag vill se det som sker i algoritm-steg här är att vi drar bort vad motsvarar en skattning av mängden "allmän" och orelaterad junk-information ordvektorerna var för sig i liten utsträckning för in tillsammans med information relevant för idealiseringen:


1. Sund och god informationen i dom men just här ej relevant. Kategorier positiv och negativ kan ex. grov-tränas adderande allt varefter kategorier UP / DOWN subtraheras från dem. Det tar nu bort aktivitets-relaterad information. Gör vi det endast för UP får vi starkt uttryck likhet mot positiva ord som ej inkluderar att man gör något: Tänker vi visuellt koncept som har att göra med att slött titta på något avkopplande storslaget (och själva orden motsvarar i äldre Flickr corpus sådana bilder), eller ej aktiverande positiva koncept som har semester att göra. Ord som är "serene" (som låg någonstans topp tio):

"Peaceful, calm, unruffled.  [quotations ▼]
She looked at her students with joviality and a serene mentality.
Without worry or anxiety; unaffected by disturbance.
(archaic) fair and unclouded (as of the sky); clear; unobscured."

Wiktionary.
Notera ovan också "archaic sense" som i ML-kategorierna diskuterande är starkt "KNOWN".

Detta är information vi kan välja att avlägsna från resp. ord - eller en skattning av den - också pågående under träningen. Det är vad jag experimenterat med att göra utnyttjande att tillstånden börjat närma sig färdigt och därför var för sig ger goda skattningar. Adderar jag ord till positivt kontrollerar vi om också en negativ sense-definition eller användning (kontext i corpus) existerar, och om så försöker vi ta bort en mindre andel av den följande övergripande vektorns positioner korrelation till den som förenklat och skattat via similarity (snarare än cross-correlation vilket tenderar att vara i allmänhet om ej prövat här lite starkare men ej mer än att det ej är i närheten av värt kostnaden i beräkning det innebär att göra) mot negativ-idealiseringen (jämför med de algoritmer för ortogonalisering med ej ovanligt praktiskt användning så som Gram-Schmidt där jag avstår att länka Wikipedia som jag här minns som tungt inne i matematiska koncept utan särskilt mycket om just något alls av de många bredare praktiska användningar normalt använd för. När matematikern kommer och visar upp sina lemma m.m. svår-begripligt och väldigt tråkigt ska man precis som man pop-up fönster relaterade gratis film vara på sin vakt.). Konceptuellt är detta kostsamt och på det stora hela givet en del manuell-tid det tycks kräva (för mig åtminstone) högst tvivelaktigt ger något man ej med bättre resultat gör i diskreta tidpunkter eller sist när övrigt är färdigt. Orsaken är det ej är så mycket denna information som är problematisk. Är det relaterat på nivå att vi kan göra detta är avgränsbar och vi kan välja när vi tar bort den. Och att ta bort den pågående innebär att vi gör antagande om att vår similarity-operation klarar detta tillsammans med som normalt en enkel subtraktion utan att vi tappar värde i övrigt (bl.a. ökande antalet träningsoperationer nödvändiga från att resp. idealisering här delar viss för dem var och en korrekt information att ha kvar) vilket förvisso är funktionellt men i nivå defekt är relaterat till antalet koncept vi har i träningsdata aktuell kategori resp. kategori som skapar de idealiseringar vi avlägsnar likhet till resp. antalet gånger vi behöver göra det. I kontrast till att kunna utnyttja alla ord vektorer finns för, ej ha beroende till någon idealisering, och dessutom ej ha större beroende till idealisering vi avlägsnar information från än att man kan avstå från att kvantifiera likheten helt (för att istället reducera ner träningskonstant ytterligare och öka på antalet slumpmässigt dragna ord).


2. En viss mängd information troligt ytterst irrelevant för vilken som helst idealisering aktuell men som kommer i "form" uppvisa likhet till motsvarigheter hos ett ej oväsentligt antal andra ord i samma ML eller andra ML aktuella. Detta är information ytterst svår att enkelt se. I någon mening sker träning för att som väsentlig del av det eliminera effekten av denna information. Detta är information som kan få ett ord positivt att uppvisa hög likhet med ett ord negativt. Likheten är i allmän mening ej inkorrekt men den har ej med positivt och negativt att göra. Är informationen irrelevant är det lyckosamt - lyckosamt på ett sätt vanligt för språk och engelskan är snarare bättre här än språk allmänt - om den också när grundläggande kategoriseringar tas ut gärna förekommer jämförbart i mängden ord ej inkluderande som ord som har något att göra med kvantifieringen eller clusteringen vi gör. För distribuerade ordvektorer är det lätt att se exempel här, och är så pass tydlig att många förfallet ned till att välja att se vektorerna skapade enligt normala algoritmer som uttryckande just denna större grupp, i topics d.v.s. de ämnes-kontext som sker över ex. som aktuellt här emotionella-dimensioner orden uttrycker, eller som ej aktuellt grammatiska preferenser i språket (startar man från LSA skapande ordvektorerna följande normala algoritmer är det ej fallet att endast ämnen enkelt ges av vektorerna utan försvarliga mängder information relaterad såväl syntax, ordformer, grammatik m.m. ges också ej linjärt d.v.s. att särskilja i similarity exempelvis grateful mot ungrateful är alltid möjligt men kan normalt kräva att man antingen gör efter-processande av vektorerna eller gör någon beräkning mer än cosinus-similarity direkt på dem. Mängden relevant information som kommer med är rent sanslös i storlek och vad som normalt utnyttjas är normalt försvinnande lite av den. Tänk här för de 400 positioner jag började på efter LSA och därefter tog ner till 300 att vi fortfarande är på 300 * 64 bitar: 2^64 hade för något mindre begränsats till 1.8446744e+19 och antar vi att ingen information alls existerar som uttrycker samspel mellan resp. position kan vi multiplicera med 300. Emellertid är det just samspelet och där redan i själva corpus-texten definierande resp. kontext-sample som är grundprincipen vi komprimerar och dimensionsreducerar utifrån - så hellre att vi ska sätta yttre gräns överdrivet men konceptuellt mer korrekt betraktande vektorerna som 300 st double d.v.s. 2^(300 * 64) bitar vilket nära nog rymmer vad som helst).


3. Slutligen en viss mängd relaterat algoritmerna som skapade dem men ej sunt återspeglande indatat - d.v.s. för mig i första steget en variant av LSA utnyttjande givna sannolikheter till 400 * 64-bitars double följt av dimensionsreduktion igen till 300 * 64-bitars double via en variant av Kohonen-nät förädlande också till en-dimensionell topologisk-sortering som Human-work-unit Hans manuellt kan korrigera när behov visar sig ex. dominerar namn ett antal positioner i dom höga värdena och skulle mot förmodan säg "the" visa sig ligga högt där är det enkelt att ta ner det till en sund nivå för positioner ungefär där säg it ligger: Den mänskliga sidan av IT är så viktigt vilket är så vackert illustrerat också i världsekonomin i all outsourcing till låglöneländer - många människo-timmar motsvarar bättre IT ty naturen av IT är ej att spara tid utan att göra saker ungefär som att "göra" titta på film kostnadsfritt vilket också kräver att man lägger tid på att döda fönster med reklam för ponografi, ekonomiska bedrägerier o.s.v. Lite timmar == Dålig IT) tillsammans med egenheter corpus som mer är att se som ej uttryckande verkligheten). Ett värde med LSA här är också dess nedsida (varför man just ska ta som självklart att man ej använder grundvarianten av LSA utan gör sundare viktning för sannolikheter) i att problem corpus tenderar att flaggas upp via övertydliga uttryck för den större gruppen koncept detta kan vara aktuellt för: Ord som är ovanligt ovanliga och relativt få kontext fanns för (många människor tycks ha som ovana att sätta sig att leta upp ovanliga ord och sedan gå ut på nätet och okynnes skapa icke-representativa "medelvärden" för kontext normalt förväntade av människor: Det är ett förbannat dåligt sätt men inte mycket man kan göra åt för väldigt ovanliga ord).


Grupp ett hanterar algoritmen och kvarstår något besvärande hanterar vi det jämförbart eller bättre sist. Övriga två grupper tycks bl.a. för mina ML vara funktionella att anta är representativa i alla övriga ord i mening av att drar vi dem slumpmässigt får vi en representation av hur detta ser ut i ej små kategorier av träningsdata. Och behovet är skattningsbart från hur faktiskt träningsdata uttrycker sig kontra konkurrerande kategorier. Och operationen i sig medverkar ej tycks det alls till överträning: Tvärtom testande det tar det bort överträning om man tillåter effekten av det hela gå högre än normalt annars fallet för det. Ej heller över epoker påverkar det negativt genomsnittlig korrekthet - och mindre väntat ej heller väsentligt genomsnittlig likhet mot egen kategori (vilket annars är ett funktionellt mått på att man får effekt av många operationer inkluderande subtraktion: Vi kan ta bort information och öka korrektheten men kommer tendera att reducera magnituden för vektorerna vi idealiserar och alla ord's vektorer åker därför gärna ner en bit i sin similarity). Bra samspel med gradienten och funktionerna den antar sig laborera på derivatan under verklighet av program-logikens beslut (d.v.s. sådant som att vi bättre ej låter den få mer data och operera på sin approximation om konceptet vi just då har redan tycks beslutas i rätt cluster: lätt fascinerande har jag många gånger tycks - självklart när vi betraktar vad vi gör som att komprimerar information och här ej önskar ett onödigt svårt problem genom att också stoppa in information vi ej behöver d.v.s. kan vi fatta rätt beslut för ett sample så utmanar vi ej algoritmen med det mer. Men betraktat från att approximera funktionen L2-distans utnyttjande derivatan L1-distans känns det lite speciellt - det lämnar frågan om hur vektorernas positioner samverkar utanför hur vi vill se det trots att det är högst verkligt påverkande).


För gradient descent clustering online. Jämfört med moment, medelvärdesbildning gradienter och/eller tillstånd m.fl. standard-optimeringar vi kan göra av gradient-descent för som här clustering får man här ut ungefär 10 ggr mer än de samlat räknat från samlad similarity korrekta kontra defekta ord genererade tillstånden topp tio tusen. Förutsättande för allt andra metoder hanterande detta med resp. ej medtaget för övriga. Moment, förändring alpha upp eller ner något från riktning gradienter sista stegen innan m.m. har jag också tagit bort, medan jag behåller medelvärdesbildningarna vilka fortsatt tillför märkbart (men ej i nivå: jag tror dock att för kategorier färre i antal ord och/eller naturligt krävande färre epoker att de troligt levererar mer än såväl denna metod som moment m.m. I princip tycks de för mig sudda ut nersidan av online-träning på ordvektorer utan att värdet av det påverkas alls - om ej startande från påbörjade tillstånd spekulerar jag också att när de första tidiga epokerna är gjorda att medelvärdesbildningarna också en tid levererar väsentligt mer. Dock är jag tveksam till poängen alls att utnyttja min metod här tidigt under träningen där jag gärna ser att det hela för in mycket information mindre diskriminerande medan den svårare förädlingen avlägsnande ut irrelevant information bättre görs senare när det är givet att vad irrelevant kvar ej naturligt från god-algoritmen gick bort av sig själv). Det är lite speciellt - och just exempel på matematiska konceptuella frågor jag tror är väldigt sunt att avstå från att engagera sig i - varför moment blir i princip föga meningsfulla av vad vi gör här. Själva formen på vad vi kanske kan tänka oss som en kurva - lutningen mot någon extrempunkt - påverkas ej på ett självklart sätt (men i all rimlighet är det väl just inflygningen som förenklas här - mjukare med mindre lösningar man upplever sämre än vad man önskat fortfarande tänkbara tydliga nog för att slöa ner eller frysa utvecklingen).


En fråga är kanske hur värdet ser ut när gradient descent utnyttjas tillsammans med back-propagation. Back-propagation är funktionellt - och har kanske sitt större praktiska värde egentligen - utanför de arketypiska typerna av neuronnäten. Har vi ex. besläktade ML-kategorier (utan att just prövat detta) kan vi utnyttja det för att låta en förändring i sig positiv-del-kategori-1 inverkar på positiv-del-kategori-2. Jag tycker det känns mer naturligt att se det som en metod relaterad spreading-activation över godtyckliga grafer. Det är ej självklart för mig om metoden är problematisk med back-propagation eller fungerar helt jämförbart. Backpropagation till sin natur bär ju mycket av mer uttryckt värde i segment där utmaningen att garantera att idealiseringen klarar att inkludera godtyckliga okända koncept (ex. som här tränande på i huvudsak 1-gram och några två-gram trots det få en idealisering som kan bedöma godtyckliga ngram, eller lika gärna ett ej överdrivet stort chunk med ord upp till två-tre meningar med rimlig ambition och test av om träningen är klar) är föga och vi snarare är i problem där mindre storleksordningar på träningsdata är aktuella görande problematik rörande överträning enkelt. Men sådant har kanske egentligen mer att göra med att vad backpropagation normalt används för - d.v.s. neuronnät - ej bra klarar mycket stora kategorier av ord och gärna kan hamna i överträning (resultat i "gömt" delsteg i algoritmen i form av "neuron" vars effekt ingen människa någon ser tränar sig till att uttrycka noll på allt utom en position efter en egentlig gigantisk arbetsinsats träning ersättande en enkel människo-gjord if-sats - för generiskt vanligt i klassiska prototypiska neuronnät även om utvecklingen gått framåt ganska ordentligt sista åren efter att föreställningar om hur neuronnät "måste" / "ska" se ut passerade ut).


Betraktar vi endast ord som sådana finns egentligen föga värde av att alls skapa idealiserade vektor-representationer. Man kan lika gärna - och bättre egentligen - utnyttja viktsystem för ord och hantera frågan om vad inkluderat eller ej genom att sätta sig en vecka vid behov och sortera ytterligare en 10 000 ord (den vinnande "third world IT-out-sourcing" metoden men gjort ännu lite smartare reducerande kostnaden ytterligare en bit skärande bort Bangladesh-IT-arbetaren genom att göra det själv - säkrare än varianterna att gå förbi universitetet och utge sig för att komma från GODTYCKLIGT-COOLT-IT-FÖRETAG-MAN-VILL-ARBETA-OSS för att göra en tävling man kan VINNA-EN-EJ-OTROLIG-SAK-I-DVS-RIMLIG-I-VÄRDE-OCH-DÄR-ALLA-KÄNNER-ATT-DE-MER-ÄN-ANDRA-KOMMER-GÖRA-SIG-BESVÄR och lämna ut A4-blad med ord man behöver sorterade stående bakom ett bord: Moraliskt kan man givetvis ifrågasätta den senare metoden samtidigt minns jag ett år när jag gästföreläste i krypteringskursen och någon av studenterna stal min Microsoft-penna i silver jag några år innan köpt i Palo Alto. Så åtminstone för mig är just moral ej en fråga här: They - studenterna: i affär av idealisering av en kategori är generaliseringen svår att argumentera mot moraliskt givet att konceptet av de enskilda objekten ej existerar - own me. Flera timmar om inte hela deras liv i alla fall. Jag känner mig fortfarande lätt irriterad över penna-incidenten. Min långsinthet imponerar som alltid och dominerar lätt i ett fåtal saker som vuxen mina samlade minnen uppväxt + vuxna-år. Vore inte mer än rätt att göra några omgångar student-mining men kanske mer i kodutveckling: Varför jag ska behöva sitta och koda sämre motiverad saknande min silverpenna medan dom okynnes festar finns ej ett bra svar på att hitta i åtminstone min powering-up med moral och etik management-lära).

Parallella gradient descent ~ Snabbare neuronnät: Förändrings-konstant som storlek minne bakåt i tiden

2017-04-18
Värdet av att visualisera och/eller pröva uppenbara varianter. Om än med den gigantiska potentiella begränsningar i vad jag kallade sub-set. Notepad lika lite nu som för 25 år sedan klarar av att ge möjlighet att styra radbrytningar. Och jag ids inte korrigera alla här.

Säg att vi istället för vektorkvantifiering beräknar medelvärdet av slumpade vektorer viktade.

Är nu vikten - säg samma för alla - kortare än sekvensen är **minsta** minnet mindre än sekvensen.

Säg att vi samtidigt har oändligt resp. kortare minne. Och gör vektorkvantifiering.

För sekvens med kortare minne som uttrycker längre minne än **minsta** finns strukturell-information etablerad i dynamik slumpmässigt dragna vektorer och tillståndet.

Är det övertränat kan vi rent av ha flera "strukturella informations svartahål" etablerade det hela som uttryckt per tillstånd senast tilldelade närmaste dragna det kan slå mellan. Vi kan också få situationen att tar vi bort ett tillstånd återskapar övriga tillståndet och dragna tillståndet på upp till det mest olika tillståndet på några dragna. Jag upplever från detta att risken för att etablera överträning med neuronnät baserade back-propagation (utan att prövat eller kontrollerat det referenser) kan vara väldigt (enormt) hög jämfört med endast 1 st. linje med gradient descent.

Separerar vi två grupper med en linje har vi ej strukturell-information annat än på nivå det ev. går att särskilja från informationen övergripande.

Har jag oändligt minne samtidigt med vad helst normalt. Ev. flera även om ej alla nivåer använda bör vara nödvändiga. Kan det separeras. Godtyckliga cluster / kurvor. Precis som neuronnät med back-propagation (ev. sub-set där vi klarar det).

D.v.s. p.s.s. som neuronnät klarar det när flera lager kan vi approximera godtyckliga funktioner (tror jag: om vi ej är i ett subset till att fritt approximera alla kurvor / separera alla kluster önskade). Men några 1000-magnituder upp till miljoner-magnituder snabbare.

Från två vektor-kvantifierande gående parallellt är nog (ev. två).

Vilket spekulerar jag är förklaringen till att äldre metoder POS-taggning m.m. presterar över neuronnät.

De utnyttjar naturligt och direkt strukturell information etablerad av människa. Det är ju vad alla dessa egentligen alltid gör även när det ibland är indirekt så som utnyttjande något tränat innan på corpus eller hand-taggade texter.

Det är som att betrakta frågan som jag gjorde hur man uttrycker fenomenet att vektor-kvantifiering i någon variant liggande under avrundningsfel kan förbättra sig i vad det genererar (oavsett förändring tillstånden).
Nå det gäller givetvis endast under förutsättning att en människa Hans eller jämförbar finns som väljer när vi bryter från pågående effekt av något delvis slumpmässigt.

Dock helt olika frågan varför slumptal större eller lika med 0 men mindre 0 kan förändra saker mycket mer än slumptal större eller lika med 0 men mindre än 0.1 (Ubuntu pushar ut felaktigt rörande 32- resp. 64-bitar kompilerade paket vilket gör vad helst från challenge-response noise till Perl's rand-funktion defekta. Dessbättre utgår åtminstone inte jag från att kritiska datorer kan vara kopplade internet alls.). Den strukturella informationen ligger här i någon mening i katalogen apt-get använder.

Det slår mig att egentligen borde man kanske inte förvånas över det. Nu är neuronnät i back-propagation inte direkt vad jag någonsin riktigt kommit till att använda. Framför allt har jag upplevt dem förr långsamt även om jag kommit att förstå från diverse publicerat sista åren att de numera är mycket snabbare. Men som jag vill förstå vad jag minns av dem är det fortfarande i grund-mekanism i princip gradient descent men där vi dessutom gör quality assurance accounting från resultatet i varje lager från det sista (styrelse kontrollerar VD, VD kontrollerar vice-vd som manipulerar the books så att VD blir sparkad istället men det fallet här motsvarar mer att vi kodat algoritmen fel, utan denna kontrollerar neråt och korrekt att vi i resp. lager kan variera antalet enheter, utifrån vad vi från tidigare här skulle betrakta som hur mycket vi vill minnas).

Och därmed här publicerat är icke-patentering säkerställd.