Visar inlägg med etikett Spreadability. Visa alla inlägg
Visar inlägg med etikett Spreadability. Visa alla inlägg

En bunt med enklare modeller

2017-09-21

Med varierat 10 - 15 ord-koncept emotionella indikationer tränade som just ord och med modellerna testade pupp till meningar utan just förekomst fel alls i enkla avgöranden så som om positivt eller negativt är det ändå för flexibilitet och ekonomisk-effektivitet i att göra nytta av det träningsdata man tämligen tidsödande samlat att betrakta möjligheten att spänna ut enklare modeller i ej helt litet antal för att skapa fler möjligheter resp. redundans i korrekthet (utan att behöva laborera direkt med de typer av algoritmer vilka gärna ger lösningar ytterst specifika till formen på datat och gärna udda felaktigt i övrigt så som neuronnät och diverse andra flexibelt formande lösningar).


Jaag vet egentligen inte om jag tycker att hur man resonerar kring de enklare mer uppenbara metodenra för att skapa ensemble's är naturlig för mig som metod att tänka. Ofta resonerar man här rörande neuronnät och vi kan här kanske istället resonera mer praktiskt (och funktionellt jämförbart för mig utan tvivel oavsett vad man väljer).


Vi ser först som ett enkelt fall en medelvärdesbildning av ett antal vektorer för ord. Bildar vi dessa över fler ord eller längre vektorer gäller normalt att vi får större tendens att inkludera mer uttryck över något värde för likhet till medelvärdet för ord helt främmande för vad vi bilade medelvärdet från. Även ganska små uttryck för enskilda features i vektorerna (kanske motsvarande position i vissa fall) kan tillsammans nå något som ej relevant bieffekt över fler ord när algoritmen ej har någon möjlighet att hantera det.


Bildar vi istället flera grupper av data utan återläggning. Säg att vi självorganiserat låter det sortera till påverkan där maximal likhet gäller. Eller att vi enklare med eller utan återläggning slumpar några grupper av datat. Gäller att om vi tillräckligt låter mängden ord i varje vara lägre kan vi nå något högre exakthet upp till för vväldigt få en väldig exakthet med extrem-fallet en grupp för varje ord vi har träningsdata. Men om vi fortfarande medelvärdesbildar når vi svårare en god idealisering där väsentliga egenskaper gemensamma prototypiska för de större egenskaper karakteristiskt gemensamt för vad vi avbildar i människan (säg bland känslor i text: hat, ökad aktivitet, positivt i bred mening, positivt i mening "rföretagskultur / marketing-kultur" - med ex. många av de koncept man möter bland konsultbolaget över åren eller egentligen ganska jämförbart paradigm för systemutveckling, ex. relaterat men längre ifrån vad som får folk att överbetala ruskigt för hårdvara i mobiltelefonerna räknat i processor och minneskapacitet om den kommer från Apple positivt i mening känt i kontrast till mmotsatta dimensionen som har mer av okänt, smygande fara, defaitism, vad som delar delar av träningsdata med föregåendes motsatta i distrust men lika ofta minst ej gör det: något av den natur om vi lämnar mer riskabla situationer här och nu och verkliga resp. horror-movies, fantasy-movies (de senare väldigt uttrycksfulla i internet-corpus: Värst är hoberna - kommer hoberna vandrande där de ej hör hemma kan det bara vara enklast att kasta sista 500 orden handsatta snarare än att försöka hitta var de myglat sig fram ifrån - eller 50 - 100 i alla fall) m.m. den otrevliga okända faran i mening otydlig men ändå vad vi har benämning för i negativ ekonomisk förändring ( vad som också får oss att tillskriva ekonomin psykiatriska sjukdomstillstånd: Ekonomin var ej bara deprimerad utan var melankolisk sedan flera år och Herr och Fru NN ska därför ej dömas till annat än väsentligt lägre ansvar för att ätit sin övriga familj i försök att undvika svält utan att ligga den i såväl glada ekonomiska år som deprimerade glömiga skogs-kommunala-ekonomin till last: Medborligt nödvärn och samhällsplikt. Om vi tänker oss det hela längre tillbaka i historien från tider där corpus saknas.), positivt i mening the need for speed (i särklass största dimensionen i träningsdata med cirka 45 000 ord efter "expansioner" från cirka 25 000 ord till att inkludera punkt m.m. med orden). Är idealisering vek - att vi i någon mening är för exakta i det specifika ej generiskt relevant för ett större antal tillämpningar får vi ex. troligt problem att ta en modell tränad med ord till att fungera på flergram, meningar, stycken o.s.v. i det att den trots mer exakt i situationen vi tränar på kommer missa att positivt detektera "chunk" av grupper med positiva uttryck p.g.a. egentligen rena petitesser som att en viss feature associerad negativ värderas udda högt för att ha passat in bara kanske några hundra eller färre ord och därmed orsakar problem med många fler ord egentligen varken positiva eller negativa som förekommer tillsammans med antingen eller båda sorterna.


Vi vill gärna ha en god idealisering men med föga icke-relevant junk som mer data och ej helt korta (kortare i mening förutom faktisk längd att de kortare i sig mer idealiserande och därmed mindre gärna ger oss over-fitting och alla besläktade problem).


Betraktar vi nu istället gradient descent där den funktion vi ser som derivata av något ges av endast en förändring i addition online ( x - y ). vilket inte otroligt är den vanligaste gäller att vi under vissa förutsättningar kommer konvergera medelvärde för indata. Rent praktiskt tycks det fungera för mig att tänka mig att det här gärna kan gå i denna riktning också när helt lämnande frågan om situationen egentligen uppfyller kraven för detta.


När ensemble diskuteras neuronnät ska vi komma ihåg att neuronnäten ofta använder gradient descent med back-propagation. Och får en hel del här tror jag man hamnar i att ungefär som att antingen med eller utan återläggning skapa medelvärdes-liknande representationer för subset av data. Under förutsättning att frågan om val av features lämnas. Det är i sig inte något problem. Egentligen en ganska trygg och enklare tillämpad tillförlitlig egenskap praktiskt hos något. Ger det föga inkluderade falska träffar ska saker vara ganska osunt i något för att lyckas ha gjort överträning med additiva medelvärden på ett ej helt fåtal vektorer. Givetvis just för neuronnät behöver det ej vara riktigt självklart vad de kommer skapa för motsvarande antal grupper och antalet motsvarande träningsord vi skulle använda för att approximera en motsvarighet till den delen av nätet. Men det är en sak för sig.


Det ger oss en ganska enkel princip som man - eller jag åtminstone - väldigt enkelt kan skapa snabba kompletterande modeller från som ej kräver någon tid träning. De är ej lika bra men tillsammans kompletterar de ändå huv udmodell väsentligt. Genom att varken välja träningsdata slumpmässigt med eller utan återläggning. Utan utifrån olika viktsystem för orden välja de oord för vilka jag där har vikter givna direkt från deras skapelse (innan för flera bredare över många fler ord vikterna skapats vidare "sämre" ). Det ger också en vettig kombination mellan modellerna genom att uttrycka träningsdatat effektivare i mening av fler aspekter från data ( vikterna ) redan givet utnyttjande träningsdatat här igen. Effektivare även utanför liten tidskostnad i det att här åtminstone gäller att vektorerna ej uttrycker något av dessa aspekter. Förutom viktsystem relaterat olika frekvensuttryck )inkl hit-counts sökmotorer), ett flertal idf-besläktade vikter, entropier m.m) åtminstone tre relaterade emotionella uttryck i text jag skapat genom åren i form av emotionell intensitet, resp. den äldre jag ibland kallar ismorfologisk som jag gjorde från associations-studier ord, samt en vikt som uttrycker något av benägenheten hos ett ord att "sprida" något vidare (lite som association men bredare mening).


Intressant testade några varianter här (säg 30 vikter och kombinationer med vardera 30 experimentiella sätt att utnyttja medelvärde resp. varianser på) fick jag totalt cirka 1500 nya ord att inkludera i träningsdata från att fler aspekter av det innan givna träningsdatat uttrycks än innan möjligt frpn huuvdmodell.


'

En del av dessa varianter gav data men var lätt udda. Så som ett par varianter som för positivt gav en bred i typ negativt laddade ord relaterade olika former (här är vi typ breda: från site-width text sajter, emotionellt laddade diskusioner, internet marketing , "forex-trading" länkar - Lite svenska iavsett var i värden vill jag mminnas kanske? Trolling m.m. spam. Negativt gav istället i toppen mycket relaterat religiösa uttryck och om jag minns rätt en del politiskt. Jag ska ta och publicera toppen på båda några hundra. De är intressantare än mycket annat. Jag tror jag väl förstår vad det gavs av från egenskaper jag noterat förr internet-corpus och hur det uttrycks genom lsa, pca m.m. Här framtaget genom att förutom utnyttja varians över positionerna också normalisera varje vektorn mot sig själv genom att subtrahera i del operationer dess egna medelvärde för faktiskt värde resp. varianserna. D.v.s. dess magnitud för resp. position som här har hög närhet mot en faktisk mening reduceras. Det går att ligga ganska lågt i många "meningar" för ett ord och ändå klara en god magnitud samlat när dess varians för positionerna hanteras vi någon av varianterna jag såg detta för.


Frågan slutligen att om vi tänker oss föra samman alla små-modeller till ett uttryck en vektor om vi genererande ut denna som likhet till alla kända ord och flergram får mer eller mindre junk än innan. I sig ska det för ord ej vara svårt att klara om vi tänker oss tränande vikter efter modellerna som värderar dem men där behöver man antingen lägga mer tid eller vara i risk för att tappa idealisering genom att aanpassa sig till en struktur på träningsdata som ej generaliserar sig bredare ( d.v.s. att vi arbetar här på ord medan vi vill kunna använda resultatet fritt över flergram till mening eller större chunk. En myckenhet algoritmer finns publicerat men jag tror följande enklare kommer fungera och ge ungeäfr vad som förväntat här. Där vi ser värde om antalet fel som begås hos modellerna samlat är väsentligt bättre än den av dessa ( lämnande huvudmodell utanför resonemanget ) somm använder störst andel av träningsdata och där när kontrollerande om färre fel kom med bibehållen generalisering ( som vi förväntar när resp. modell ej skapats mer exakt än medelvärde) vet att det 'ända som kan tagit bort felaktiga positiva är att junk-data gått ur det.


1. Värderar varje modell för ett viktsystem lika. Värdet av dem tycks för mig betraktande generering för samlat tränignsdata övriga dimensioner men ej aktuell dimension och dess motsats vara väldigt varierat. Men jag tror för mer utmanande ord att det blir ungefär rätt (lite relaterat mänsklig arbetsinsats också) tt värdera dem lika.


2. Gärna först prövande att värdera varje viktsystems modeller lika relativt varandra. Men ev. krävande något mer här. Kanske värderande ner något viktsystem med väsentligt fler eller färre ord använda. Det är i naturen av många modeller ej självklart att de viktsystem som har vikter flr fler ord adderar mer värde än de mindre om dessa åtminstone ej är "för små". Det har också lite att göra med hur väl vikterna motsvarar features relevanta för dimensionen. De emotionella är ensamma mycket funktionella var för sig här och presterar bättre än frekvens och ids-relaterade också i olika kombinationer. När jag är frisk från första febern och förkylningen på cirka 12 år ska jag dock titta över det igen och se om det ej går att få ut mer värde av frekvens och idf i någon variant tillsammans med dem. Vanligen brukar det ge mer att kombinera dessa med emotionella intensitets-mått än de senare eller förra ensamma.


3. För resp. motsatt dimension (lämnande frågan för en del andra) får de därefter rösta. Och troligen på sådant sätt att när alla värderas ett gäller att för resp. par att en ganska uppenbar ganska tydlig gräns finns för när ett antal avvikande röster - en stor minoritet - finns gäller att vi hellre kastar ordet som ej förstått än väljande antingen den eller den andra. Eller alternativt vissa andra applikationer väljande den som fick flest röster ( nära 50% har de dock ej uppvisat för något av 70 000 ord jag prövat på ännu - dessa var dock endast ord som också är träningsdata för minst en dimension vilka tenderar till att vara enklare ord för andra dimensioner att också fatta rätt beslut för även om de ej har med dem att göra: Ex. gäller att en bunt emotionaliteter i någon mening är positivt-upp-bättre-ekonomi resp. negativt-ner-sämre-ekonomi eller innovativ-revolution eller kanske innovativ-politisk-revolution - sådan bredd applikation är ett värde en bunt enklare modeller kan hjälpa att komplettera med -- kanske och klarar normalt varandras ord rätt också för ett större antal vanliga adjektiv men hanterar specialiseringar lite bättre.).

Värdet av promiskuösa noder utanför det lägre som feature omedelbar diskriminerbarhet

2017-03-01

Följande från en handbok data mining är värt att diskutera:


"Removing pizza nodes (i.e. very high-degree nodes) is likely to be an essential prior component to get useful results. Intuitively, a pizza node is likely to be a large impersonal entity like a pizza parlour or an electricity supplier: the fact that two people both communicate with the pizza node gives us no reason to think that they are linked socially."

Eventuellt (jag läste ej artikeln i detalj där länken fanns som jag nådde från nyheten sist d.v.s. dokumentet två steg ifrån denna) är dokumentet ej publicerad korrekt utan del av något läckage av information. Det tycks dock fått text genomgående borttagen rörande detaljer organisationer m.m. resp. rör ämne där det är troligt och normalt (och troligen ekonomiskt resp. från perspektiv konkurrerande andra entiteter som en givet stor och stark entiteter effektivt genom att stimulera kunskapsbyggande i samhället allmänt man kan utnyttja - ej heller tekniskt särskilt avancerat eller särskiljande sig i nivå eller erfarenhet från allmän kunskap) så jag kan tänka mig och tror det troligast att det publicerats korrekt.

Från: HIMR Data Mining Research Problem Book, OPC-MCR, GCHQ (PDF)

De kan emellertid vara utmärkta som generella features för att beskriva entiteter meningsfullt för typbestämning. Kommunikation mot ex. en uppsättning stora entiteter av myndighetstyp kan tillsammans ge indikation av sådant som medborgarskap. Tjänsteleverantörer tillsammans för geografisk lokalisering. O.s.v.


För 300-FF har vi exempel på det genom ingen särskild viktning diskriminerande dessa typer av noder (och viktning via förekomst tillsammans resp. likheter via de 400-längd vektorer som används som indata vid träningen) vilket tycks mycket funktionellt utan problem. Utnyttjande annat men besläktat common sense med varje form av sense mellan namngivna kategorier (vilket är allmänt för många: Innan ungefär följande för struktur Wordnet) och clustrande resp. dessa med 300-FF och Kohonen med fast antal cluster grovt grupperade efter hur vanliga de är eller hur breda de är (6 st vanligast, små-kategorier 3 st, samt ett fåtal 12 st). Totalt cirka 10 - 20000 kategorier indata för lokal clustering. Därefter clustrande resp. av resultaten tillsammans och vi har fortfarande i utdata inget problem att få geografisk-gruppering, gruppering personer, roller och övriga entiteter, resp. ej heller mer av topic-natur som matematiska begrepp.


Vilket jag tror men har inte försökt prövat om det stämmer skulle vara mycket svårare utan att från början inkluderat de stora noderna. Det ger ju något gemensamt över många noder utan behov av att expanderande bygga träd nedanför direkta relationer d.v.s. mycket lägre komplexitet. Samtidigt som när relationen ej är binär utan bygger på förekomsten det kan fungera diskriminerande också där. Du kan (för att ge exempel för en typ av relation ej aktuell för 300 riktigt på samma sätt utan mer på applikation av handboken jag citerade) tänka dig att du får indikation för relationerna att en entitet är person och svensk medborgare men också en medborgare (han / hon tycks ha "hög bandbredd" mot svenska institutioner) men han uttrycker låg intensitet kontakt med myndigheter (d.v.s. exempelvis enkel-person rörande deklaration o.s.v. Skatteverket, föga kriminell så som känt, ej politiskt intresserad o.s.v.) så antingen en ekonomiskt-effektiv medborgare (eller kanske misstänkt välanpassad) och / eller mycket tråkig.


Så som exempel clustering av Earthlight kan vi se möjlighet att betrakta relationerna som vad som kan strukturera sig mellan varandra i närmare ontologisk-mening där stora (nästan promiskuösa noder givet en population: Så ex. om vi redan vet att en person är svensk faller en del av meningen bort här - Samtidigt vet vi ej enkelt innan vad dessa relationer här kommer säga i övrigt) där stora noder kan uttrycka djupare / bredare möjlighet till exakthet från smalare mer diskriminerande relationer (de senare vad som normalt bör ha mycket högre inverse document frequency i mening av att behandla varje nod som ett dokument och varje relation som en frekvens förekomst ev. viktat med förekomst - och de första mycket låg idf).


Också gäller vilket är praktiskt enkelt att förstå om vi fortsätter tänker oss ett land (men oftast normalt gäller allmänt för allt mänskligt relaterat i grafer) stora noder gärna uttrycka spridd av aktivitet som är resulterande detekterbart nära dem. D.v.s. om ex. en nations militära organisationer börjar agera mer är det att förvänta att vi ser omedelbart i noder i nära relationer till nationen (ex. deras övriga statliga funktioner såväl som företag m.m. inom landet, medborgare o.s.v.) högre aktivitet nära i tiden. Medan över hela grafen för människan över världen och historien mindre troligt ser särskilt höjd aktivitet på större distans. Medan aktivitet för mindre noder när spridd aktivitet av någon aktivitet vi kan se som uttrycka något vi kan betrakta som en aktivitets-typ klarar att nå något förändrande i ej trivial mening ej alls självklart eller troligt ser det nära inpå dem: Ex. i den mån en person klarar att förändra något i världen som märks där vi bryr oss är det föga troligt något i hans omedelbara relationer av vad som där är typiska relationer för honom (ex. aktivitet inom familjen så som att han mördar en familjemedlem är ytterst sällan vad som kommer bli märkbart) utan märks det är det snarare på större avstånd (i samma mening som för nära relationer: Medan distansen i mening av antal steg om vi ej som föreslaget i citatet kastat promiskuösa noder mycket väl kan ha omedelbar kontakt) ex. byggt ett företag påverkande alla möjliga städer där de har kontor eller stora kunder eller som utbytesstudent i annat land flyget ett flygplan in i en stor byggnad. Jag är osäker på om någon koppling till (eller möjlighet till argumenterbar rationalisering av potensen stereotypen Small and Spreadable har).


Det tycks troligt för mig att promiskuösa noder är nödvändiga eller användbart för att försöka bedöma var ev. / tänkbar större aktivitet för ej i sig promiskuösa noder (där det mig är givet så även om säkert andra vägar enklare finns här lika bra) utan istället små noder med få relationer. Preferensen allmänt kulturellt sedan många år för att när features identifieras och utnyttjas använda de mer diskriminerande och värdera dem högre (ex. som med idf) är dock mycket stor. Och förvisso att det förenklar saker och ting men det har också gjort att mindre arbete skett för att få ut värdet av promiskuösa noder.


Man kan ju löst relaterat se att i skogen finns träden. Och ett träd kan vara en nod vi expanderar ut till dess omedelbara relationer. Och en del av skogen är den spridning och konvergens av aktivitet vi där ser mellan träden. Och att en skog i ett land ej uttrycks med samma ord som i ett annat. Benämning av saker och ting är inte alltid så självklara när de ej förklarats i detalj som man kan tro från hur begrepp används allmänt i en kultur man har given. Särskilt utmanande blir det när samma begrepp används för samma lösning med båda verkande. Därmed inte sagt att jag har någon preferens för att tro om tolkningen i artikeln nedan rörande algoritm är korrekt eller inte (särskilt har jag inte läst dokumentet citerat först i detalj eller något alls i övrigt relaterat det - utan mer en allmän reflektion från vad min känsla är för vad man kanske troligare använder från egentligen föga information hos mig etablerat sista fem - sju åren eller så, och osäker här om implicit inkluderat analysen jag gjorde för väldigt mycket data bl.a. relaterat inköp av saker och ting vilket bl.a. - och allmänt just nätverk med sensorer - var mycket talande rörande etablering av infrastruktur avlyssning för trafik till och från USA långt innan något konkret blivit känt).



Rörande journalisten diskuterad inser vi ju förövrigt att i ett givet subset av entiteter som entiteter kan ha relationer till kan han kanske ses som en promiskuös nod. På tema av samma exempel-typ som tidigare med bland kan vi tänka oss relationer till honom av viss typ (ex. personer han skrivit något om) uttrycker features för dessa som motsvarar något relaterat till journalistens preferens för ämnen och organisationer han skriver.

Att beräkna RT utifrån vikter "ungefär" av typen IDF och frekvens

2015-10-29

Är upplevde jag inte lätt men görligt. Värdet är för mig i alla fall inte alls att beräkna värden för fallet när sunda (vilket jag tvingas återkomma till tvivlande för sekvenser av RT-värden ovanför cirka 800 ms) RT-värden finns utan när inga värden existerar mätta på människor. D.v.s. komplettera dessa med vettiga (om än oftare sämre skattningar).


Återkopplar vi till RT från vilken (eller vilka) frekvens / sannolikhet för ordet? fick jag göra följande lilla förändring varefter det hela löste sig på en timme efter en tråkig mängd tid:


  • SUBTLEX mått CD var ej funktionellt för mig på det sätt jag önskade använda det. Förövrigt noterade jag efter ett par timmars förvirring att det är viktigt att läsa publicerade artiklar om SUBTLEX (och kanske andra databaser i domänen) innan man tar något namngivet Zipf för någon form av funktion av rank-beroende (det är bara frekvensen normaliserad per X token och så log-10)
  • Istället använde jag ett större IDF-liknande mått jag beräknande från ett mycket bredare och större corpus (och som dessutom till cirka 5% i mening av samplingar - där vi kan se sampling som ex. titel + abstract + keywords för forskning eller snippet i sökmotor-resultat - från cirka 100 av internets större sökmotorer om än i toppen ej just Google som är minst sagt "försiktig" i sin hantering).
  • Egentligen hade jag för värden svårt att riktigt se var den avgörande skillnaden låg.
  • Emellertid kanske mindre optimalt (men gissningsvis för ord snarare än godtyckliga ngram tror jag tvärtom) använde jag SUBTLEX frekvens-mått.

Rörande RT-värden hittade jag dem också just på crr.ugent.be och kompletterade dem ej med RT från flera andra studier utnyttjande ex. Amazon (vilket jag relaktigt trodde ett tag medan jag mer skadade medelvärdet eftersom jag insåg dem redan ingående i det första - Och ännu mer "variansen" / informationen).


För RT-värden upplevde jag mig slutligen efter bytet av "spreadability" till mitt befintliga från CD få acceptabla värden (även om jag också ser tydligare jfr för kortare ord vinner man på att använda sannolikheter relaterade ljud där utan tvivel bättre alternativ bör finnas än måttet jag använde tidigare: Dock tvivlar jag på att just några väsentliga ord utan RT-värden saknas) när jag vid beräkningen för jämförelse med dom faktiska RT-värdena också krävde:


  • Ej större än 800 ms.
  • Givet det kan jag bara multiplicera 800 ms med måttet från spreadability och frekvens.

Att jag använder termen spreadability som lokalt i min databas istället för "IDF-komplexitet-liknande" (vilket jag annars inte gör) beror av följande:


  • Manipulerar man värdena för RT för att skatta ut ett informations-liknande mått (d.v.s. för att få formen av något-p-liknande-mellan-0-1 * log (något-p-liknande-mellan-0-1)).
  • Får man liknande form på kurvan som jag längre tillbaka (och hoppas gå ifrån en del av ej relaterade skäl) som jag tenderar att få för generering av blue light intensity (BLI).
  • För BLI finns därför att det är ett enormt nätverk av koncept med relationer ett gigantiskt nästan helt styrande samband med just närliggande nätverk av andra koncept.

D.v.s. det finns tror jag säkert ett stort beroende av något form av nätverk runt orden för RT även om jag inte valde att försöka experimentera med det (värdena jag får ut givet nu över 55 000 RT-värden redan mätta på människa duger tyckte jag). Och det torde vara att en del av detta beroende finns med på köptet med spreadability.


Varför värden över 800 ms ej är tillförlitliga vill jag egentligen inte våga spekulera bra om här då jag egentligen borde läsa upp mig på RT av aktuella typer. Emellertid:


  • Laborerar jag med två potenser. Och vi har ju 400 ms som jag tror ligger på minsta görliga att tillförlitligt mäta på de typer av studier man gör på RT p.g.a. N400.
  • Det är därför inte sunt att försöka passa in något mindre.
  • P.s.s. om vi börjar gå upp ovanför kan man få in annat liggande på minsta gemensamma upprepning inkluderande 400 ms.
  • Vidare jämförbart börjar det kanske här bli mer varierat rörande orsakerna till varför det tar mer tid. Typiska försökspersoner tenderade förr innan Amazon's Mechanical Turk vara en ganska väldefinierad grupp: studenter.

Så alla RT-värden ovanför 800 ms kastade jag som värdelösa för jämförelse. Det ger tillsammans med att jag också önskar "mitt vanligaste ord" vara "RT-snabbast" i skattning (även om RT-data har snabbare ord) följande effekt tidigt (som någon mer matematiskt motiverad troligen hade kunnat korrigera bort utan att störa utvecklingen längre bort):



D.v.s. för the börjar vi på N400. Vill vi rationalisera det kan vi kanske "(bort-)förklara" det med att the helt saknar mening i sig utan efterföljande ord och därför direkt ger en respons utan att behöva behandla nätverket runt det: Bara att vänta på nästa ord.


Vi kan också rationalisera det med att jag ej önskade peta runt med det hela när nu värdena efter små-orden faller in ganska snabbt till ej att ej problematiskt avvika (särskilt som att ord som RT-värden saknas för är vad jag räknar naturligt ska ligga långt upp):



Jämför vi värden längst till höger ("riktiga") med skattade i kolumnen direkt till vänster kan vi också se ett par kraftiga avvikelser. Dessa ser vi emellertid är orsakade av SUBTLEX frekvens-värden snarare än spreadability som där troligen ensamt hade givit närmare korrekt värden. Jag såg det ej tidigare och det pekar kanske på att man bör ersätta det eller troligare kombinera med mina vanliga frekvens mått (då jag är ganska säker på att SUBTLEX för just ord adderar värde många fall: För ord använder jag det normalt). darkrooms är ett exempel.


Hur tänkte jag då när resp. vikt användes?


  • Vi har ett motsvarande nätverk runt orden i det biologiska neuronnätet.
  • Det är resultat av inlärning såväl glömska vilka båda följer learning curve (eller omvänt i decay).
  • Resp. spreadability och frekvens skattar nätverket i mening av deras information.
  • Så de är bara att kombinera så att deras varians d.v.s. en grov tillräcklig om än sämre än alternativ skattning av inlärningen.
  • Hur gjort mer exakt framgår säkert direkt från kolumnerna i bilden.
  • Jag gör kanske en elegantare lösning om några dagar när jag nu såg att det fungerande (vilket jag slösade tid på att försöka normalisera innan jag insåg att det här CD-måttet inte var vad jag trodde).

Nedan en bunt värden mer i mitten eller i alla fall för någon av dem en bit in efter små-orden i toppen. Vi noterar hur vikt härledd från SUBTLEX för bl.a. don ej känns sunt p.s.s. som indikerat tidigare: don är mycket stort precis som la, los, le, san m.m. ty allt som förekommer i ortsnamn som ej är Myggträsk, Skåne (för att börja jämna ut olämpliga uttryck för negativa stereotyper om Norrland jag kan ha uttryckt tidigare genom åren utan att uppdaterat mitt intryck av Norrland på mer än 20 år) utan städer med många miljoner innevånare är stora oavsett typisk vanlig användning i övrigt. Spanska är förövrigt väldigt stort även om man inte kommer i närheten av att "medvetet" sampla det (i mening av väldigt lite "spansk-text" som kanske någon gång flytit in via datasamlingar GOV, research vid spanska universitet o.s.v. OAI fick jag in en hel del på spanska men tror ej det skadade relativt hela mängden data via den kanalen: Kanske 100 - 200 datakällor som ej detekterades spanska).



Troligen kan man få värdena också bättre genom att se till att resp. vikt från spreadability och frekvens bättre följer samma magnitud och skala. Jag känner dock att det kanske inte just behöver gör någon skillnad för dom ord d.v.s. dom som riktiga RT-värden saknas för. Dessutom var hela RT-vikt-området inte trevligt: Jag ger det bara 1.5 plus av fem. Inget jag rekommenderar. För att kunna garantera samma upplevelse fullt ut stoppade jag in några taggar för sådant jag hade tänkt använda men skar mot slutet. Så man utgår från rätt ambition för att riktigt få samma upplevelse (innan man mer korrekt ej nöjer sig med en mer praktisk än egentligen riktigt bra nivå: Snarare än att förvirra så att man inte gör något bättre än här vilket jag när görligt brukar försöka undvika - Jag tycker det är en god målsättning som skribent).


På plus-sidan hoppas jag att detta är åtminstone hälften till att avsluta en flera år lång process av att försöka hitta en lösning man kan generera ut komplexitet för några hundra tusen ord skalbara därifrån enkelt fler flergram utan att behöva göra det själv. För mycket forskning tycks det handla om att beskriva sitt data snarare än att beskriva hur jag gör något med det. Jag har dessutom lite svårt för hela området power laws och allt besläktat (här är vi mer i besläktat) då jag är van med att sådana relationer kommer ut naturligt från nätverken runt orden utan att man behöva sitta och peta runt med rank och skatta parametrar från indirekta värden. Jag vill verkligen rekommendera allmänt att man tar som god inspiration om vad man bör fokusera praktiska diskussioner i det väldigt konkreta runt rörande forskning rörande såväl språk och hjärna utifrån områden jag diskuterar: Det är nog en bra indikation om precis vad många fler är intresserade av såväl när det kommer till finansiering forskning, media (glöm ej student-intagningen: det är indirekt viktigt för din finansiering av forskning - Det gäller att märkas bra), referenser m.m. Ta chansen att se mina problem och gör dem till dina och det finns guld att hämta. Lös ett riktigt djävligt problem och behövs det ser jag fan själv till att du får publicera i Nature eller vad som nu känns rätt för dig.