Vi började med 400-dimensionella "probalistisk PCA" skapade vektorer koncept i några varianter. Därefter igen dimensions-reducerade till 300 tematiskt topologiskt sorterade (i en cirkel snarare än den annars populära disken) för meningsfullt sorterat människan Hans (för enstaka förändringar nyckelkoncept, noterande problem m.m. långsiktigt underhåll tillbaka till varifrån det skapats från) och bättre prestanda än 400 ger. Någonstans 300 - 400 förväntar man sig också om ej arbetande med mer konkreta relationer mellan koncept att en för normal användning god avvägning uttryck exakthet resp. förmåga att ge meningsfulla "sammanfattningar" så att säga: Är vi väldigt exakta många dimensioner svårare att få stabila allmängiltiga positioner som kan kombineras linjärt för ämnen utan att behöva träna fram någon ny viktning för varje användning. Generaliserar bra.
Versionen 300 för ord ( mycket mer sådant än fler-grams-varianten resp. flergrams- och relations-varianten bl.a. därför att den med endast några hundra tusen ord lättare fick mer manuell tid med mång-miljon flergrammen gick: Förväntar mig vanligen inte att få ens värden annat än -1, 1 men hr kommer de 0,1 ). Tränande geografiska representationer personer, platser resp. en del språk-specifikt - cirka 70 000 antaget positiva i tämligen hög andel kontrollerade resp. vanligen 47 000 någon subtraktions-operation sker på - vidare önskande testa ett par koncept vidare organisation presenterar sig tre möten väldigt abstrakta koncept direkt gående in i konkret lösning från dels mycket direkt relaterat resp. unification av temporal discounting, med bl.a. medicinska-behandlings-modeller, samt organisation information och perception direkt, via erfarenheten över- och underträning. Lämnande det till om här alls sist använder vi emellertid för att inleda istället något annat än visualisering från denna unification.
Vi tänker oss en enkel två två-dimensionell kurva beskrivande något data. Säg nu att datat är parabeln för ett föremål som kastas i rummet. Vi antar nu ett barn med koncentrationssvårigheter som antingen är medicinskt under- eller överbehandlad ex. metylfenidat (eller jämförbart påverkande via kända enkla modeller temporal discounting reward value via modifikation dopamin).
Överbehandlad kan hyper-koncentration uppstå (eller för missbrukaren tror jag att en motsvarighet sökande erfarenhet nätet kallas punda: Vilket är ett ord jag känt tidigare men ej detaljförstått. Troligen samma sak men mer absurt övertränat till discounting reward mer eller mindre ej en fråga under säg en dags-tid.). Koncentrationen kommer åtminstone om hyper-fokus inducerats i förändring dosering (vi kan spekulera att för konkret perception är så pass tydlig direkt effekt annars mindre trolig oavsett om själva den medicinska frågan för läkaren om att bestämma rätt dos föreligger vilket vi här ej bryr oss i.) föranleda att föremålet följs väldigt exakt. Lite samma effekt lärare och föräldrar gärna efterfrågar.
Temporal discounting verkar i motsatt riktning. Reward längre ifrån oss tidsmässigt reduceras i vår upplevelse i mening påverkande beteende och tänkande just nu ju längre fram i tiden. I väldigt kort tid kan färsk information om vi istället för hyperfokus har nedsatt koncentrationsförmåga tendera att passera förbi här om discounting är hög. Är discounting hög för pågående händelse är vi också mer benägna att lämna aktiviteten tidigare också rent prospektivt utan säkert värde. Är information från en sådan alternativ "händelse" vi kan delta i ny eller kommande snabbt är vi mer benägna att processa den kognitivt adderande något till perceptions mer för oss automatiska hantering. Vi flyttar uppmärksamheten till ett plötsligt ljud. Värderar vi ett långsiktigt värde mycket högt med föga discounting - säg att vi är en kirurg som skär i någon dödlig del av kroppen - när ett ljud vi annars reagerar för inträffar (därför det kanske indikerar en omedelbara) kan ibland extrem koncentration vara möjligt. Kirurgen varande mer eller mindre närmare övertränad på åtminstone basala ingrepp ej nya för honom efter en åtta års grundutbildning kanske lättare klarar detta.
Säg nu att vi skattar något som ska motsvara vår kurva. Övertränar vi får vi gärna något exakt. Men kan p.g.a. komplexiteten i förhållande till mängden information hamna i stora svårigheter för varje ny bit "tid" eller geografiskt avstånd som vi därefter ska försöka tillämpa vår skattning på. Det klarar normalt sämre av att generalisera. Är det undertränat får vi en dålig beskrivning normalt redan av kurvan vi använder för att göra skattningen, och normalt lika dålig på okänt data. Ibland gäller att övertränat kan fungera bitvis bra för att plötsligt "irrationellt" förändra sig fullständigt på förändringar träningsdata ej behövde använda eller hade.
Söker vi nu topologiskt organisera koncepten diskuterade tidigt och gärna gillande en geografisk motsvarighet hur saker ligger i världen kan man pröva lite av varje och få vad man söker ganska lätt för säg länder m.m. Inte minst om man utgår bara från deras konkreta position på jordklotet. Vill vi emellertid att det meningsfullt generaliserar sig till personer, kulturella fenomen, språk o.s.v. utan att behöva engagera sig i varje dimension i 300-vektorerna vi utgår från blir det gärna (åtminstone lite tidsödande givetvis) mycket mer en fråga om att undvika för effektiv information.
Det hela kan självorganisera sig utmärkt i princip användande en eller ett fåtal givna 300 positioner i vektorerna. Särskilt om vi säg utgår från 4000 mer väsentliga geografiska koncept (länder existerande, som existerat, större städer, vissa folkslag o.s.v.). Konceptens vektorer har utan tvivel vad helst information nödvändig för att få ut kopplingar till övriga kulturella fenomen som kan vara nödvändiga för det färdiga senare att kunna använda för att rätt sortera vad helst rätt (pottery, chinese-style porslin, westerned-styled democracy, indo-indian relationer, Cassius, Bokassa, typiska namn över kulturerna o.s.v. Saker en anmänbildad antikvitetshandlare eller krämare av begagnade böcker kan tänkas klara i begränsade områden för viktigare kulturer de möter. Den tyska inredes-designers kan igenkänna en svensk björkmöbel hemmasnickrad under något ej brutalt långt ifrån våra svältperioder).
Antar vi att varje vektor-position är ensamt meningsfull är det hela på många sätt enklare när åtminstone en färdig sortering kända koncept finns för något avgränsat kulturellt. De är sorterade ut över sina ämnen. Emellertid är poängen med 300 ej just detta i sig utan att de tillsammans klarar att uttrycka en mängd "mellan-relaterade-ämnen" som ej ryms i 300 positioner att fått en färdig 400 dimensionell vektor tränad som sedan värdena kan skapas via.
Kommer Tyskland in för att användas för att sortera upp och extrahera ut representationer. Har den kraftfulla uttryck särskilt rörande en del geo-politiskt (w-ii resp. post-w-ii organisationen av världspolitik jag i så mycket sett saker gärna i vad helst geo-politiskt man önskat sortera kommer fram om ej specifikt ej önskak: Här med de färre 4000 så slöts exempelvis världen i cirkeln med ett litet "geografiskt hopp" dock på andra sätt begripligt när man sett det här tidigare genom att Japan fick bli brygga till Europa anslutande Tyskland som närmast centralitet. Lika gärna att de hade kunnat av samma orsaker blivit USA som mellan-brygga medan de här kom att ansluta Japan konkurrerande Kina ej helt tillfredsställande poå andra sidan och avbrutet innan det hela bestämt sig helt). Låter vi nu saker träna sig fritt som det vill överuttrycks den information som är bäst när konceptet Tyskland ensamt används som det är med övrigt försämras i hur det återanvänds. Självorganiserar vi sorteringen besläktat med hur 300 gjordes med ej sprider sorteringen brett nog kan vi också troligt få personer, länder, föremål, oavsett om geografiskt nära-liggande sorterande var för sig. Här såg jag det aldrig med hindrande det redan i första försöket.
Man kan pröva lite av varje för att lösa det här. Man kan tänka sig mer avancerade lösningar - i mening krävande att man för-planerar dem längre tid snarare än att pröva dem praktiskt enkelt kontrollerande effekten - men ett fåtal enkla tycks ha räckt mer än väl. Ej säkert för resp. att alla är nödvändiga eftersom de typiskt tillförts antingen vid demonstrerat behov eller när de tidsmässigt kommit nära där behov uppstår. Exempelvis rörande tunga positioners inverkan är det egentligen mindre en fråga tidigt i organisationen eftersom dessa fungerar väl för att ge samlande över alla positioners sortering. Utan problemen uppstår lokalt vilket är en växande problematik ju fler förändringar som sker lokalt en plats från konceptet kontra hur mycket det inverkar övergripande sortering.
1. En konceptuell blandning av bulk och online görs. Vi kan vi storleken här delvis delvis från andra lösningar nedanför styra prioritet övergripande sortering kontra enskilda positioner. Liten bulk med stor påverkan alla positioner prioriterar övergripande sortering mer effektivt - särskilt om saker ej konvergerar som riktigt önskat - medan stor bulk ger större effektivitet lokalt.
2. Därför att bulk kommer normaliseras och storleks-frågor på dem mer direkt motsvarande online-lärning eller alla koncept i en bulk finns inte riktigt på samma sätt. Har vi ej påverkan ut är skillnaden mellan ett bulk-koncept lokalt gjort av 10 eller 10000 koncept ej helt - men delvis - samma sak som om vi tränar dem var för sig. Under förutsättning att L2 normaliseringen sker på de adderade koncepten.
3. Ett sunt sätt att förstå regularisering är tycker jag egentligen fysikens modeller för partikel-sönderfall m.m. Decay av vad vi redan lärt. En kulturell slump mer sannolik i den lokala kulturen givet preferens att förstå och resonera med gradient descent ger dock att det vanligen förklaras via andra modeller vilket ger stark preferens användning för L1 resp. L2 normalisering. Det kan rent av tyckas att annan regularisering bör bli samma sak som den eller den andra. Praktiskt är det knappast i någon situation där regularisering mot överträning krävs någonsin fallet att konvergenser teoretiskt visade av den här typen inträffar. Och även om jag använder L2 just nu går det mycket väl att snabba upp regularsering när högre värden än önskat viat sig (med endast Kohonen såväl som den vidare byggda lösningen här är en period av hårdare regularisering aldrig ett problem under förutsättning att positionen alls hinnder med d.v.s. så länge vi ej drar bort mer än som kommer in: Förändras det samma över positionerna fortsätter organisationen omedelbart där den låg och effekten kan enkelt följas.) av "1.25 - 1.5" regularisering. D.v.s. önskande en polynom effekt så att vi ej gör decay utifrån en procent-andel (så som momsen) utan att decay är större om värdet är högt (så som marginalskatt) då låga värden ej är problemet eller vad vi enkelt ens kan bedöma ensamma om de är bra eller dåliga (dessutom tenderar L1 om annan regularisering är låg eller ej sker att döda positioner för att samla träningen till ett fåtal positioner d.v.s. görande den dimensionella överträning vi här ej är intresserade av. Ibland använt för att identifiera features även om jag tror även om det värdet ofta diskuteras att L1-regularisering används av ungefär samma orsaker som L2 och vanligen görs lugnare kombinerat annat så den endast håller ner värde-tillväxt så "evigt minne" ej blir resultatet). x * ( 1 - abs ( x ) ) kontra x ( 1 - ( abs (x) )**0.5 ) har i det senare värdet praktiskt när snabb effekt önskas att vi för värden under 1 för x får ut något mer substantiellt likt L1 men fortfarande i beroende storleken på X. Stora värden
reduceras mer. utan att behöva kombinera L2 med L1 vilket lätt tycks praktiskt men praktiskt är otympligt i hantering träningskonstanter. 1.5 har aldrig givit mig andra problem än L2 lika gärna kan (äver threshold så kan upp till hamna att allt sorteras i en stor hög därför övriga subtraherats relativt snabbare.).
Regularisering skiljande lokalt sättande resp. spread för övergripande sortering prövade jag men gillade ej prestanda-förlusten. Jag tror ej jag förlorade något på det heller. Separering tycks såväl elegant som kraftfullt och flexibelt. Men praktiskt tror jag mig se bakåt att man får allt värde ändå bytande över lösning. Ej otroligt bättre praktiskt därför att man gör det förhand i samband med att utsträckning spread förändras.
Träningskonstanter nivå regularisering via polynom hanterades bäst via automatiskt lösning utnyttjande norm för L1, resp. högre normer ex. L3 och L4 tillsammans. Tittande bl.a. på skillnaden i storlek mellan en låg norm (som L1) och en hög norm (som L4). L1 adderar värdenas absolut-belopp. Medan L4 adderar värdena upphöjt till fyra. Så har en eller flera positioner onormalt höga värden än normalt förväntat kommer det förändra förhållande mellan ex. L1 och L4 normen. Dock är värdet av prestanda man vinner på att beräkna vilken som helst av dom hellre än två till fyra upplevt större än värdet av att det bättre sköter sig självt i inställning konstanterna. Tagande bara en och ej helt att det ej fodrar att man ändrar om av och till när spread-mängd ändrats eller ett ej litet antal koncept tidigare positiv träning flyttats till negativa. En variant prövad tidig som jag ej minns hur väl den var jämfört med flera andra prövade för kombinationer kommer av en den similarity-variant jag ibland använder: Distans-l1 / ( 1 + similarity-cosinus ). Jag tror utan någon teoretisk-tanke bakom det att om bara en norm används får man ut mer av att ej använda värdet för samma polynom vi använder på positionen.
Vi reflekterar här att om vi tränar endast en representation utan sortering över positioner med positiva och negativa samples gäller att regularisering endast egentligen för en position har att göra med övriga positioner. Vi kan dra ifrån mer för en position med större värde relativt övriga. Här när vi tränar en mängd sådana samtidigt där de är topologiskt relaterade varandra är belopp-storleken på ex. norm beräkningar (eller kanske något annat meningsfullt) vad som ger ett sammanfattat uttryckt hela vektorn som kan jämföras övriga befinnande sig på samma "abstraktionsnivå".
4- För förändring koncept-vektorerna. Resp. värde huvudsakligen förändrat via x**(0.08) ). D.v.s. tagande upp låga värden mycket medan höga värden ej förändras lika mycket. Om pottery relaterade dimensioner är något mindre för någon region där mycket hittats än säg en senare oljefyndighet är ej relevant i samma storleksskillnad som värdefull i andra sammanhang. Båda ska kunna geo-sorteras. 300 vektorerna efter-behan dlades bl.a. med en log-oöperation (minns ej vilken) men ganska normal för sådant utan tvekan. Det här är verkligen av samma natur.
3. och 4. kommer här ge typiska värden för en position så att det högsta värdet kanske ligger 0.07 - 0.08.
5. Frihet att kunna välja om samples för bulk dras med eller utan återläggning över alla positiva samples ger att negativa samples alltid dras med återläggning. Vilka icke-diskriminerande, ej utnyttjande likhet, subtraheras från den bulk som föredraget en viss position (d.v.s. ej relaterat något omedelbart när likhet beräknades eller konceptens egna representationer). Meningsfull inlärning men ej lika värdefull givande stor frihet i antal och vilken vikt vi drar ifrån med (här 0.10 till 0.25 lite varierat och cirka 2500 med återläggning dragna varje gång). Också givande viss robusthet mot vissa former av överträning som ibland uppstår om sortering tar lång tid kontra antalet operationer som sker lokalt på vinnande position. Samma mängd negativa samples alla positioner drar ifrån men var och en drar alltid en färsk uppsättning. Vi kan se resultatet om vi så vill samlat nära slutet som varande istället en tänkbar ensemble av representationer skattande den som ska uppdateras (särskilt med stor bulk).
6.1. Att först skapa en bra geo-organisation från goda geo-koncept som länder. Och därefter fylla på med från 4000 till cirka 80 000 koncept visade sig fungera väl som det verkar utan att störa organisationen. Ev. problem i övrigt har ej bedömts i övrigt. Inga personer m.m. sorterade separat. Ingen lösning i övrigt. Och flera av typerna regularisering ovan avslagna.
6.2. Alternativ lösning utgick från samma karta men tog bort 30 stycken för bättre prestanda - landande 108 (den andra 148: Färre är prestanda värde praktisk användning processande text) - och tränande sedan med full spridd vilket är brutalt tidsödande. För den får man ej bra lösning utan fler åtgärder. Följande ensamt räcker antagligen i sig självt - tycks så - utan några säkra problem (även om jag tror en lätt mer avancerad variant handbedömande ut några grupper av vektor-positioner som behandlas lite olika):
Högsta värdet i vektorn används ej. Givet regularisering i övrigt tar det geo-relaterade positioner i övrigt för ex. en person till ungefär jämförbara med de som när största värde har med kart-geo-koncept att göra. Information i övrigt tycks räcka mer än väl.
I variant medelvärdesbildad omedelbart näraliggande. Och vissa positioner om de är vinnare görs ingen förändring för utan de används alltid.
Jag upplevde - någon perceptionell-mönsterigenkänning säkerligen för mig och många andra oftare rätt än alla matematiska bevis som flera år ansågs av så många som påverkade ens information var som den naturliga helheten i varje problemlösning - när jag läste artikeln nedan att värdet där demonstrerat någonstans antagligen är besläktat med vad jag gör när jag kastar det också värdet i vektorn för tränings-konceptet.
All-but-the-Top: Simple and Effective Postprocessing for Word Representations | arXiv:1702.01417v1 [cs.CL] 5 Feb 2017
Jiaqi Mu, Suma Bhat, and Pramod Viswanath, University of Illinois at Urbana Champaign.
Självregularisering. Blir lite osäker på lyriken här men kan miss-minnas. 16 in the clip and one in the whole. Ungefär samtidigt här var ju glock med den egenskapen mer funktionell minns jag från Soldat-läroboken (dock saknande husqvarna fina svenska ursprung såväl som av och till stokastiskt när åldrade spännande pann-skade-incidenter. Idag gör de kylskåp åtminstone. Osäker om motor och vapen-industrin alls finns kvar hos dem. Många svenskar tror jag egentligen önskar en Landsledare som likt jag tycker att en svensk soldat förtjänar en svensk-pistol och ingen tysk-plast-leksak såväl som en massa bra saker för alla andra också förtjänade sedan år men evigt som det är evigt försenat. Bättre filmer och musik, artig kassapersonal, god tillväxt utan något av dagens kultur av att jaga upp varandra och sedan grina i tidningarna om helvetetes-ekonomin ECB, EU m.fl. lagt sig till med. För svåra världs-frågor som sådant kan nog många önska Världs-Hans. Svenskar tidigt hjälpta här kan få flera egna år av bra vulgär-kultur och artig kassa-personal. Och det är mer både absolut och relativt. Ev. ungdoms-kulturen som är orsaken alla problemen listade. Sämre generationer helt enkelt än under Guldåldern vi bestulits på.). Nå lyriken är nog korrekt. Fick för mig 15 + 1.