Parallella gradient descent ~ Snabbare neuronnät: Förändrings-konstant som storlek minne bakåt i tiden

2017-04-18
Värdet av att visualisera och/eller pröva uppenbara varianter. Om än med den gigantiska potentiella begränsningar i vad jag kallade sub-set. Notepad lika lite nu som för 25 år sedan klarar av att ge möjlighet att styra radbrytningar. Och jag ids inte korrigera alla här.

Säg att vi istället för vektorkvantifiering beräknar medelvärdet av slumpade vektorer viktade.

Är nu vikten - säg samma för alla - kortare än sekvensen är **minsta** minnet mindre än sekvensen.

Säg att vi samtidigt har oändligt resp. kortare minne. Och gör vektorkvantifiering.

För sekvens med kortare minne som uttrycker längre minne än **minsta** finns strukturell-information etablerad i dynamik slumpmässigt dragna vektorer och tillståndet.

Är det övertränat kan vi rent av ha flera "strukturella informations svartahål" etablerade det hela som uttryckt per tillstånd senast tilldelade närmaste dragna det kan slå mellan. Vi kan också få situationen att tar vi bort ett tillstånd återskapar övriga tillståndet och dragna tillståndet på upp till det mest olika tillståndet på några dragna. Jag upplever från detta att risken för att etablera överträning med neuronnät baserade back-propagation (utan att prövat eller kontrollerat det referenser) kan vara väldigt (enormt) hög jämfört med endast 1 st. linje med gradient descent.

Separerar vi två grupper med en linje har vi ej strukturell-information annat än på nivå det ev. går att särskilja från informationen övergripande.

Har jag oändligt minne samtidigt med vad helst normalt. Ev. flera även om ej alla nivåer använda bör vara nödvändiga. Kan det separeras. Godtyckliga cluster / kurvor. Precis som neuronnät med back-propagation (ev. sub-set där vi klarar det).

D.v.s. p.s.s. som neuronnät klarar det när flera lager kan vi approximera godtyckliga funktioner (tror jag: om vi ej är i ett subset till att fritt approximera alla kurvor / separera alla kluster önskade). Men några 1000-magnituder upp till miljoner-magnituder snabbare.

Från två vektor-kvantifierande gående parallellt är nog (ev. två).

Vilket spekulerar jag är förklaringen till att äldre metoder POS-taggning m.m. presterar över neuronnät.

De utnyttjar naturligt och direkt strukturell information etablerad av människa. Det är ju vad alla dessa egentligen alltid gör även när det ibland är indirekt så som utnyttjande något tränat innan på corpus eller hand-taggade texter.

Det är som att betrakta frågan som jag gjorde hur man uttrycker fenomenet att vektor-kvantifiering i någon variant liggande under avrundningsfel kan förbättra sig i vad det genererar (oavsett förändring tillstånden).
Nå det gäller givetvis endast under förutsättning att en människa Hans eller jämförbar finns som väljer när vi bryter från pågående effekt av något delvis slumpmässigt.

Dock helt olika frågan varför slumptal större eller lika med 0 men mindre 0 kan förändra saker mycket mer än slumptal större eller lika med 0 men mindre än 0.1 (Ubuntu pushar ut felaktigt rörande 32- resp. 64-bitar kompilerade paket vilket gör vad helst från challenge-response noise till Perl's rand-funktion defekta. Dessbättre utgår åtminstone inte jag från att kritiska datorer kan vara kopplade internet alls.). Den strukturella informationen ligger här i någon mening i katalogen apt-get använder.

Det slår mig att egentligen borde man kanske inte förvånas över det. Nu är neuronnät i back-propagation inte direkt vad jag någonsin riktigt kommit till att använda. Framför allt har jag upplevt dem förr långsamt även om jag kommit att förstå från diverse publicerat sista åren att de numera är mycket snabbare. Men som jag vill förstå vad jag minns av dem är det fortfarande i grund-mekanism i princip gradient descent men där vi dessutom gör quality assurance accounting från resultatet i varje lager från det sista (styrelse kontrollerar VD, VD kontrollerar vice-vd som manipulerar the books så att VD blir sparkad istället men det fallet här motsvarar mer att vi kodat algoritmen fel, utan denna kontrollerar neråt och korrekt att vi i resp. lager kan variera antalet enheter, utifrån vad vi från tidigare här skulle betrakta som hur mycket vi vill minnas).

Och därmed här publicerat är icke-patentering säkerställd.