HANS HUSMAN OM MEDIA

En bunt med enklare modeller

Med varierat 10 - 15 ord-koncept emotionella indikationer tränade som just ord och med modellerna testade pupp till meningar utan just förekomst fel alls i enkla avgöranden så som om positivt eller negativt är det ändå för flexibilitet och ekonomisk-effektivitet i att göra nytta av det träningsdata man tämligen tidsödande samlat att betrakta möjligheten att spänna ut enklare modeller i ej helt litet antal för att skapa fler möjligheter resp. redundans i korrekthet (utan att behöva laborera direkt med de typer av algoritmer vilka gärna ger lösningar ytterst specifika till formen på datat och gärna udda felaktigt i övrigt så som neuronnät och diverse andra flexibelt formande lösningar).

Jaag vet egentligen inte om jag tycker att hur man resonerar kring de enklare mer uppenbara metodenra för att skapa ensemble's är naturlig för mig som metod att tänka. Ofta resonerar man här rörande neuronnät och vi kan här kanske istället resonera mer praktiskt (och funktionellt jämförbart för mig utan tvivel oavsett vad man väljer).

Vi ser först som ett enkelt fall en medelvärdesbildning av ett antal vektorer för ord. Bildar vi dessa över fler ord eller längre vektorer gäller normalt att vi får större tendens att inkludera mer uttryck över något värde för likhet till medelvärdet för ord helt främmande för vad vi bilade medelvärdet från. Även ganska små uttryck för enskilda features i vektorerna (kanske motsvarande position i vissa fall) kan tillsammans nå något som ej relevant bieffekt över fler ord när algoritmen ej har någon möjlighet att hantera det.

Bildar vi istället flera grupper av data utan återläggning. Säg att vi självorganiserat låter det sortera till påverkan där maximal likhet gäller. Eller att vi enklare med eller utan återläggning slumpar några grupper av datat. Gäller att om vi tillräckligt låter mängden ord i varje vara lägre kan vi nå något högre exakthet upp till för vväldigt få en väldig exakthet med extrem-fallet en grupp för varje ord vi har träningsdata. Men om vi fortfarande medelvärdesbildar når vi svårare en god idealisering där väsentliga egenskaper gemensamma prototypiska för de större egenskaper karakteristiskt gemensamt för vad vi avbildar i människan (säg bland känslor i text: hat, ökad aktivitet, positivt i bred mening, positivt i mening "rföretagskultur / marketing-kultur" - med ex. många av de koncept man möter bland konsultbolaget över åren eller egentligen ganska jämförbart paradigm för systemutveckling, ex. relaterat men längre ifrån vad som får folk att överbetala ruskigt för hårdvara i mobiltelefonerna räknat i processor och minneskapacitet om den kommer från Apple positivt i mening känt i kontrast till mmotsatta dimensionen som har mer av okänt, smygande fara, defaitism, vad som delar delar av träningsdata med föregåendes motsatta i distrust men lika ofta minst ej gör det: något av den natur om vi lämnar mer riskabla situationer här och nu och verkliga resp. horror-movies, fantasy-movies (de senare väldigt uttrycksfulla i internet-corpus: Värst är hoberna - kommer hoberna vandrande där de ej hör hemma kan det bara vara enklast att kasta sista 500 orden handsatta snarare än att försöka hitta var de myglat sig fram ifrån - eller 50 - 100 i alla fall) m.m. den otrevliga okända faran i mening otydlig men ändå vad vi har benämning för i negativ ekonomisk förändring ( vad som också får oss att tillskriva ekonomin psykiatriska sjukdomstillstånd: Ekonomin var ej bara deprimerad utan var melankolisk sedan flera år och Herr och Fru NN ska därför ej dömas till annat än väsentligt lägre ansvar för att ätit sin övriga familj i försök att undvika svält utan att ligga den i såväl glada ekonomiska år som deprimerade glömiga skogs-kommunala-ekonomin till last: Medborligt nödvärn och samhällsplikt. Om vi tänker oss det hela längre tillbaka i historien från tider där corpus saknas.), positivt i mening the need for speed (i särklass största dimensionen i träningsdata med cirka 45 000 ord efter "expansioner" från cirka 25 000 ord till att inkludera punkt m.m. med orden). Är idealisering vek - att vi i någon mening är för exakta i det specifika ej generiskt relevant för ett större antal tillämpningar får vi ex. troligt problem att ta en modell tränad med ord till att fungera på flergram, meningar, stycken o.s.v. i det att den trots mer exakt i situationen vi tränar på kommer missa att positivt detektera "chunk" av grupper med positiva uttryck p.g.a. egentligen rena petitesser som att en viss feature associerad negativ värderas udda högt för att ha passat in bara kanske några hundra eller färre ord och därmed orsakar problem med många fler ord egentligen varken positiva eller negativa som förekommer tillsammans med antingen eller båda sorterna.

Vi vill gärna ha en god idealisering men med föga icke-relevant junk som mer data och ej helt korta (kortare i mening förutom faktisk längd att de kortare i sig mer idealiserande och därmed mindre gärna ger oss over-fitting och alla besläktade problem).

Betraktar vi nu istället gradient descent där den funktion vi ser som derivata av något ges av endast en förändring i addition online ( x - y ). vilket inte otroligt är den vanligaste gäller att vi under vissa förutsättningar kommer konvergera medelvärde för indata. Rent praktiskt tycks det fungera för mig att tänka mig att det här gärna kan gå i denna riktning också när helt lämnande frågan om situationen egentligen uppfyller kraven för detta.

När ensemble diskuteras neuronnät ska vi komma ihåg att neuronnäten ofta använder gradient descent med back-propagation. Och får en hel del här tror jag man hamnar i att ungefär som att antingen med eller utan återläggning skapa medelvärdes-liknande representationer för subset av data. Under förutsättning att frågan om val av features lämnas. Det är i sig inte något problem. Egentligen en ganska trygg och enklare tillämpad tillförlitlig egenskap praktiskt hos något. Ger det föga inkluderade falska träffar ska saker vara ganska osunt i något för att lyckas ha gjort överträning med additiva medelvärden på ett ej helt fåtal vektorer. Givetvis just för neuronnät behöver det ej vara riktigt självklart vad de kommer skapa för motsvarande antal grupper och antalet motsvarande träningsord vi skulle använda för att approximera en motsvarighet till den delen av nätet. Men det är en sak för sig.

Det ger oss en ganska enkel princip som man - eller jag åtminstone - väldigt enkelt kan skapa snabba kompletterande modeller från som ej kräver någon tid träning. De är ej lika bra men tillsammans kompletterar de ändå huv udmodell väsentligt. Genom att varken välja träningsdata slumpmässigt med eller utan återläggning. Utan utifrån olika viktsystem för orden välja de oord för vilka jag där har vikter givna direkt från deras skapelse (innan för flera bredare över många fler ord vikterna skapats vidare "sämre" ). Det ger också en vettig kombination mellan modellerna genom att uttrycka träningsdatat effektivare i mening av fler aspekter från data ( vikterna ) redan givet utnyttjande träningsdatat här igen. Effektivare även utanför liten tidskostnad i det att här åtminstone gäller att vektorerna ej uttrycker något av dessa aspekter. Förutom viktsystem relaterat olika frekvensuttryck )inkl hit-counts sökmotorer), ett flertal idf-besläktade vikter, entropier m.m) åtminstone tre relaterade emotionella uttryck i text jag skapat genom åren i form av emotionell intensitet, resp. den äldre jag ibland kallar ismorfologisk som jag gjorde från associations-studier ord, samt en vikt som uttrycker något av benägenheten hos ett ord att "sprida" något vidare (lite som association men bredare mening).

Intressant testade några varianter här (säg 30 vikter och kombinationer med vardera 30 experimentiella sätt att utnyttja medelvärde resp. varianser på) fick jag totalt cirka 1500 nya ord att inkludera i träningsdata från att fler aspekter av det innan givna träningsdatat uttrycks än innan möjligt frpn huuvdmodell.

En del av dessa varianter gav data men var lätt udda. Så som ett par varianter som för positivt gav en bred i typ negativt laddade ord relaterade olika former (här är vi typ breda: från site-width text sajter, emotionellt laddade diskusioner, internet marketing , "forex-trading" länkar - Lite svenska iavsett var i värden vill jag mminnas kanske? Trolling m.m. spam. Negativt gav istället i toppen mycket relaterat religiösa uttryck och om jag minns rätt en del politiskt. Jag ska ta och publicera toppen på båda några hundra. De är intressantare än mycket annat. Jag tror jag väl förstår vad det gavs av från egenskaper jag noterat förr internet-corpus och hur det uttrycks genom lsa, pca m.m. Här framtaget genom att förutom utnyttja varians över positionerna också normalisera varje vektorn mot sig själv genom att subtrahera i del operationer dess egna medelvärde för faktiskt värde resp. varianserna. D.v.s. dess magnitud för resp. position som här har hög närhet mot en faktisk mening reduceras. Det går att ligga ganska lågt i många "meningar" för ett ord och ändå klara en god magnitud samlat när dess varians för positionerna hanteras vi någon av varianterna jag såg detta för.

Frågan slutligen att om vi tänker oss föra samman alla små-modeller till ett uttryck en vektor om vi genererande ut denna som likhet till alla kända ord och flergram får mer eller mindre junk än innan. I sig ska det för ord ej vara svårt att klara om vi tänker oss tränande vikter efter modellerna som värderar dem men där behöver man antingen lägga mer tid eller vara i risk för att tappa idealisering genom att aanpassa sig till en struktur på träningsdata som ej generaliserar sig bredare ( d.v.s. att vi arbetar här på ord medan vi vill kunna använda resultatet fritt över flergram till mening eller större chunk. En myckenhet algoritmer finns publicerat men jag tror följande enklare kommer fungera och ge ungeäfr vad som förväntat här. Där vi ser värde om antalet fel som begås hos modellerna samlat är väsentligt bättre än den av dessa ( lämnande huvudmodell utanför resonemanget ) somm använder störst andel av träningsdata och där när kontrollerande om färre fel kom med bibehållen generalisering ( som vi förväntar när resp. modell ej skapats mer exakt än medelvärde) vet att det 'ända som kan tagit bort felaktiga positiva är att junk-data gått ur det.

1. Värderar varje modell för ett viktsystem lika. Värdet av dem tycks för mig betraktande generering för samlat tränignsdata övriga dimensioner men ej aktuell dimension och dess motsats vara väldigt varierat. Men jag tror för mer utmanande ord att det blir ungefär rätt (lite relaterat mänsklig arbetsinsats också) tt värdera dem lika.

2. Gärna först prövande att värdera varje viktsystems modeller lika relativt varandra. Men ev. krävande något mer här. Kanske värderande ner något viktsystem med väsentligt fler eller färre ord använda. Det är i naturen av många modeller ej självklart att de viktsystem som har vikter flr fler ord adderar mer värde än de mindre om dessa åtminstone ej är "för små". Det har också lite att göra med hur väl vikterna motsvarar features relevanta för dimensionen. De emotionella är ensamma mycket funktionella var för sig här och presterar bättre än frekvens och ids-relaterade också i olika kombinationer. När jag är frisk från första febern och förkylningen på cirka 12 år ska jag dock titta över det igen och se om det ej går att få ut mer värde av frekvens och idf i någon variant tillsammans med dem. Vanligen brukar det ge mer att kombinera dessa med emotionella intensitets-mått än de senare eller förra ensamma.

3. För resp. motsatt dimension (lämnande frågan för en del andra) får de därefter rösta. Och troligen på sådant sätt att när alla värderas ett gäller att för resp. par att en ganska uppenbar ganska tydlig gräns finns för när ett antal avvikande röster - en stor minoritet - finns gäller att vi hellre kastar ordet som ej förstått än väljande antingen den eller den andra. Eller alternativt vissa andra applikationer väljande den som fick flest röster ( nära 50% har de dock ej uppvisat för något av 70 000 ord jag prövat på ännu - dessa var dock endast ord som också är träningsdata för minst en dimension vilka tenderar till att vara enklare ord för andra dimensioner att också fatta rätt beslut för även om de ej har med dem att göra: Ex. gäller att en bunt emotionaliteter i någon mening är positivt-upp-bättre-ekonomi resp. negativt-ner-sämre-ekonomi eller innovativ-revolution eller kanske innovativ-politisk-revolution - sådan bredd applikation är ett värde en bunt enklare modeller kan hjälpa att komplettera med -- kanske och klarar normalt varandras ord rätt också för ett större antal vanliga adjektiv men hanterar specialiseringar lite bättre.).