Att beräkna RT utifrån vikter "ungefär" av typen IDF och frekvens

2015-10-29

Är upplevde jag inte lätt men görligt. Värdet är för mig i alla fall inte alls att beräkna värden för fallet när sunda (vilket jag tvingas återkomma till tvivlande för sekvenser av RT-värden ovanför cirka 800 ms) RT-värden finns utan när inga värden existerar mätta på människor. D.v.s. komplettera dessa med vettiga (om än oftare sämre skattningar).


Återkopplar vi till RT från vilken (eller vilka) frekvens / sannolikhet för ordet? fick jag göra följande lilla förändring varefter det hela löste sig på en timme efter en tråkig mängd tid:


  • SUBTLEX mått CD var ej funktionellt för mig på det sätt jag önskade använda det. Förövrigt noterade jag efter ett par timmars förvirring att det är viktigt att läsa publicerade artiklar om SUBTLEX (och kanske andra databaser i domänen) innan man tar något namngivet Zipf för någon form av funktion av rank-beroende (det är bara frekvensen normaliserad per X token och så log-10)
  • Istället använde jag ett större IDF-liknande mått jag beräknande från ett mycket bredare och större corpus (och som dessutom till cirka 5% i mening av samplingar - där vi kan se sampling som ex. titel + abstract + keywords för forskning eller snippet i sökmotor-resultat - från cirka 100 av internets större sökmotorer om än i toppen ej just Google som är minst sagt "försiktig" i sin hantering).
  • Egentligen hade jag för värden svårt att riktigt se var den avgörande skillnaden låg.
  • Emellertid kanske mindre optimalt (men gissningsvis för ord snarare än godtyckliga ngram tror jag tvärtom) använde jag SUBTLEX frekvens-mått.

Rörande RT-värden hittade jag dem också just på crr.ugent.be och kompletterade dem ej med RT från flera andra studier utnyttjande ex. Amazon (vilket jag relaktigt trodde ett tag medan jag mer skadade medelvärdet eftersom jag insåg dem redan ingående i det första - Och ännu mer "variansen" / informationen).


För RT-värden upplevde jag mig slutligen efter bytet av "spreadability" till mitt befintliga från CD få acceptabla värden (även om jag också ser tydligare jfr för kortare ord vinner man på att använda sannolikheter relaterade ljud där utan tvivel bättre alternativ bör finnas än måttet jag använde tidigare: Dock tvivlar jag på att just några väsentliga ord utan RT-värden saknas) när jag vid beräkningen för jämförelse med dom faktiska RT-värdena också krävde:


  • Ej större än 800 ms.
  • Givet det kan jag bara multiplicera 800 ms med måttet från spreadability och frekvens.

Att jag använder termen spreadability som lokalt i min databas istället för "IDF-komplexitet-liknande" (vilket jag annars inte gör) beror av följande:


  • Manipulerar man värdena för RT för att skatta ut ett informations-liknande mått (d.v.s. för att få formen av något-p-liknande-mellan-0-1 * log (något-p-liknande-mellan-0-1)).
  • Får man liknande form på kurvan som jag längre tillbaka (och hoppas gå ifrån en del av ej relaterade skäl) som jag tenderar att få för generering av blue light intensity (BLI).
  • För BLI finns därför att det är ett enormt nätverk av koncept med relationer ett gigantiskt nästan helt styrande samband med just närliggande nätverk av andra koncept.

D.v.s. det finns tror jag säkert ett stort beroende av något form av nätverk runt orden för RT även om jag inte valde att försöka experimentera med det (värdena jag får ut givet nu över 55 000 RT-värden redan mätta på människa duger tyckte jag). Och det torde vara att en del av detta beroende finns med på köptet med spreadability.


Varför värden över 800 ms ej är tillförlitliga vill jag egentligen inte våga spekulera bra om här då jag egentligen borde läsa upp mig på RT av aktuella typer. Emellertid:


  • Laborerar jag med två potenser. Och vi har ju 400 ms som jag tror ligger på minsta görliga att tillförlitligt mäta på de typer av studier man gör på RT p.g.a. N400.
  • Det är därför inte sunt att försöka passa in något mindre.
  • P.s.s. om vi börjar gå upp ovanför kan man få in annat liggande på minsta gemensamma upprepning inkluderande 400 ms.
  • Vidare jämförbart börjar det kanske här bli mer varierat rörande orsakerna till varför det tar mer tid. Typiska försökspersoner tenderade förr innan Amazon's Mechanical Turk vara en ganska väldefinierad grupp: studenter.

Så alla RT-värden ovanför 800 ms kastade jag som värdelösa för jämförelse. Det ger tillsammans med att jag också önskar "mitt vanligaste ord" vara "RT-snabbast" i skattning (även om RT-data har snabbare ord) följande effekt tidigt (som någon mer matematiskt motiverad troligen hade kunnat korrigera bort utan att störa utvecklingen längre bort):



D.v.s. för the börjar vi på N400. Vill vi rationalisera det kan vi kanske "(bort-)förklara" det med att the helt saknar mening i sig utan efterföljande ord och därför direkt ger en respons utan att behöva behandla nätverket runt det: Bara att vänta på nästa ord.


Vi kan också rationalisera det med att jag ej önskade peta runt med det hela när nu värdena efter små-orden faller in ganska snabbt till ej att ej problematiskt avvika (särskilt som att ord som RT-värden saknas för är vad jag räknar naturligt ska ligga långt upp):



Jämför vi värden längst till höger ("riktiga") med skattade i kolumnen direkt till vänster kan vi också se ett par kraftiga avvikelser. Dessa ser vi emellertid är orsakade av SUBTLEX frekvens-värden snarare än spreadability som där troligen ensamt hade givit närmare korrekt värden. Jag såg det ej tidigare och det pekar kanske på att man bör ersätta det eller troligare kombinera med mina vanliga frekvens mått (då jag är ganska säker på att SUBTLEX för just ord adderar värde många fall: För ord använder jag det normalt). darkrooms är ett exempel.


Hur tänkte jag då när resp. vikt användes?


  • Vi har ett motsvarande nätverk runt orden i det biologiska neuronnätet.
  • Det är resultat av inlärning såväl glömska vilka båda följer learning curve (eller omvänt i decay).
  • Resp. spreadability och frekvens skattar nätverket i mening av deras information.
  • Så de är bara att kombinera så att deras varians d.v.s. en grov tillräcklig om än sämre än alternativ skattning av inlärningen.
  • Hur gjort mer exakt framgår säkert direkt från kolumnerna i bilden.
  • Jag gör kanske en elegantare lösning om några dagar när jag nu såg att det fungerande (vilket jag slösade tid på att försöka normalisera innan jag insåg att det här CD-måttet inte var vad jag trodde).

Nedan en bunt värden mer i mitten eller i alla fall för någon av dem en bit in efter små-orden i toppen. Vi noterar hur vikt härledd från SUBTLEX för bl.a. don ej känns sunt p.s.s. som indikerat tidigare: don är mycket stort precis som la, los, le, san m.m. ty allt som förekommer i ortsnamn som ej är Myggträsk, Skåne (för att börja jämna ut olämpliga uttryck för negativa stereotyper om Norrland jag kan ha uttryckt tidigare genom åren utan att uppdaterat mitt intryck av Norrland på mer än 20 år) utan städer med många miljoner innevånare är stora oavsett typisk vanlig användning i övrigt. Spanska är förövrigt väldigt stort även om man inte kommer i närheten av att "medvetet" sampla det (i mening av väldigt lite "spansk-text" som kanske någon gång flytit in via datasamlingar GOV, research vid spanska universitet o.s.v. OAI fick jag in en hel del på spanska men tror ej det skadade relativt hela mängden data via den kanalen: Kanske 100 - 200 datakällor som ej detekterades spanska).



Troligen kan man få värdena också bättre genom att se till att resp. vikt från spreadability och frekvens bättre följer samma magnitud och skala. Jag känner dock att det kanske inte just behöver gör någon skillnad för dom ord d.v.s. dom som riktiga RT-värden saknas för. Dessutom var hela RT-vikt-området inte trevligt: Jag ger det bara 1.5 plus av fem. Inget jag rekommenderar. För att kunna garantera samma upplevelse fullt ut stoppade jag in några taggar för sådant jag hade tänkt använda men skar mot slutet. Så man utgår från rätt ambition för att riktigt få samma upplevelse (innan man mer korrekt ej nöjer sig med en mer praktisk än egentligen riktigt bra nivå: Snarare än att förvirra så att man inte gör något bättre än här vilket jag när görligt brukar försöka undvika - Jag tycker det är en god målsättning som skribent).


På plus-sidan hoppas jag att detta är åtminstone hälften till att avsluta en flera år lång process av att försöka hitta en lösning man kan generera ut komplexitet för några hundra tusen ord skalbara därifrån enkelt fler flergram utan att behöva göra det själv. För mycket forskning tycks det handla om att beskriva sitt data snarare än att beskriva hur jag gör något med det. Jag har dessutom lite svårt för hela området power laws och allt besläktat (här är vi mer i besläktat) då jag är van med att sådana relationer kommer ut naturligt från nätverken runt orden utan att man behöva sitta och peta runt med rank och skatta parametrar från indirekta värden. Jag vill verkligen rekommendera allmänt att man tar som god inspiration om vad man bör fokusera praktiska diskussioner i det väldigt konkreta runt rörande forskning rörande såväl språk och hjärna utifrån områden jag diskuterar: Det är nog en bra indikation om precis vad många fler är intresserade av såväl när det kommer till finansiering forskning, media (glöm ej student-intagningen: det är indirekt viktigt för din finansiering av forskning - Det gäller att märkas bra), referenser m.m. Ta chansen att se mina problem och gör dem till dina och det finns guld att hämta. Lös ett riktigt djävligt problem och behövs det ser jag fan själv till att du får publicera i Nature eller vad som nu känns rätt för dig.

RT från vilken (eller vilka) frekvens / sannolikhet för ordet?

Det finns en lång rad fenomen relaterade hur vi upplever och använder (åtminstone) ord som vi kan beskriva på formen:


a / ( b + c * n (rank ) )K

Jag fick för mig kanske mest praktiskt nära relaterat "komplexitet" för att läsa eller skriva ett ord att försöka ta samman dem på formen ovan (d.v.s. om nödvändigt som förväntat tillåta varierade konstanter).


Det var varken min tro eller icke-tro att jag utan att behöva känna till någon algoritm skulle kunna utan svårighet skatta parametrarna men kunde konstatera att jag inte kom riktigt fram till något (eller egentligen ens så långt här).


Emellertid under processen av att försöka få klart för mig hur man gör sådant bra använda jag data för RT (cirka 55 000 ord) och beräknade hur mycket rank i genomsnitt avvek mot denna rank för bl.a. frekvens ord som i SUBTlEX (korrekt var det US snarare än UK men det har knappast betydelse här och kan enkelt hittas), min frekvens från mycket större corpus (men tycks det saknande ord jfr vad jag hade RT värden för: Ev. någon defekt byggande databas-filerna senast), och intressantare en sannolikhet beräknad från sphinx representationen som kommer med CMU dict. Sphinx har färre symboler än den normala representationen i CMU dict (d.v.s. ljudsymboler för orden).


Sannolikheten för ljud-symbolerna skattade jag ej från något relaterat förekomst av själva ordet utan resp. ljudsymbol givet positionen i ordet utan hänsyn till föregående eller framförvarande ljudsymbol (vilket man ev. kanske vinner på givet att de åtminstone i tal flyter samman något). En egentligen inte alls spännande fråga är hur storleken på alfabetet för ljuden inverkar här: Jag har ej ett bra svar här.


Rörande SUBTlEX CD mått en relativt trolig användning myckenhet finns publicerad om har jag en använt den för komplexitet tidigare men sett relevant likhet för hur inverse document frequency används för att bygga index i sökmotorn och skapade ett mått ej riktigt CD eller IDF men funktionellt bättre anpassad för mitt behov. Därav bildade jag dessutom:


  • f ( CD ) * log ( freq ) / log ( 2 )
  • f ( CD ) * sqrt ( 1 + freq )

Jag prövade f ( CD ) enligt uppenbara: log ( frekvens av the som har störst CD / CD för aktuellt ord ) / log ( 2 ). Men kom troligen av någon anledning att använda log ( CD för aktuellt ord ) / log ( 2 ).


Linjär kombination av log ljud-sannolikhet tillsammans med f ( CD ) * log ( freq ) / log ( 2 ) var något lite bättre än f ( CD ) * sqrt ( freq ) / log ( 2 ) (men minskande så om man skär höga värden vilket eventuellt också för den första gav något bättre resultat). D.v.s. bättre i mening genomsnittligt rank-fel. Och ordentligt mycket bättre än alla kombinationer av CD och frekvens.


Jag trodde fenomenet kanske hade något att göra med att frekvens och/eller CD kommer fel för korta ord där ljud-sannolikheten kanske tänkte jag mig kompenserande det hela på något sätt. Men jag klarade ej ut att se var effekten kommer sig av.


Inte heller klarade jag att kombinera det hela på sådant sätt att jag faktiskt fick konkreta värden som är meningsfulla att använda. Bara själva rank-felet som hamnade neråt 4000 för totalt cirka 55 000 ord. Huruvida rank-felet är lågt eller högt jämfört med en vettigt skattad funktion som Zipf-Mandelbrot kan jag ej heller säga men det tycks troligt för mig att om man kastar största och minsta värden för RT (kanske 50 på vardera sidan eller ev. fler) går det nog att för resp. eller tillsammans frekvens och CD komma bättre också i rank-position fel (men å andra sidan kanske det också gäller ljud-sannolikheten).


Jag undrar egentligen mest vad effekten kom sig av. Själva kombinationen med f ( CD )... var inte mer avancerad än addition efter viss normalisering. Därav att jag funderade om det var korta ord som var förklaringen.


Det tråkiga med RT-värden är att...

Om vi söker beräkna förändringen av dem som funktion av föregående värde d.v.s. enkelt försöka skatta exponten i funktionen tidigt ligger de högt för de lägsta resp. högsta RT med ett minimum "mot mitten" (i väldigt grov mening).


Det kanske har att göra med hur jag laborerade med beräkningen. Men kändes kanske också som något man även kände igen från en del annat.


Jag vill egentligen inte säga för mycket om det här åtminstone innan jag skaffat fram varifrån jag fick RT värdena från början och ladda ner dem igen med all meta-information om dem.