Att beräkna RT utifrån vikter "ungefär" av typen IDF och frekvens

2015-10-29

Är upplevde jag inte lätt men görligt. Värdet är för mig i alla fall inte alls att beräkna värden för fallet när sunda (vilket jag tvingas återkomma till tvivlande för sekvenser av RT-värden ovanför cirka 800 ms) RT-värden finns utan när inga värden existerar mätta på människor. D.v.s. komplettera dessa med vettiga (om än oftare sämre skattningar).


Återkopplar vi till RT från vilken (eller vilka) frekvens / sannolikhet för ordet? fick jag göra följande lilla förändring varefter det hela löste sig på en timme efter en tråkig mängd tid:


  • SUBTLEX mått CD var ej funktionellt för mig på det sätt jag önskade använda det. Förövrigt noterade jag efter ett par timmars förvirring att det är viktigt att läsa publicerade artiklar om SUBTLEX (och kanske andra databaser i domänen) innan man tar något namngivet Zipf för någon form av funktion av rank-beroende (det är bara frekvensen normaliserad per X token och så log-10)
  • Istället använde jag ett större IDF-liknande mått jag beräknande från ett mycket bredare och större corpus (och som dessutom till cirka 5% i mening av samplingar - där vi kan se sampling som ex. titel + abstract + keywords för forskning eller snippet i sökmotor-resultat - från cirka 100 av internets större sökmotorer om än i toppen ej just Google som är minst sagt "försiktig" i sin hantering).
  • Egentligen hade jag för värden svårt att riktigt se var den avgörande skillnaden låg.
  • Emellertid kanske mindre optimalt (men gissningsvis för ord snarare än godtyckliga ngram tror jag tvärtom) använde jag SUBTLEX frekvens-mått.

Rörande RT-värden hittade jag dem också just på crr.ugent.be och kompletterade dem ej med RT från flera andra studier utnyttjande ex. Amazon (vilket jag relaktigt trodde ett tag medan jag mer skadade medelvärdet eftersom jag insåg dem redan ingående i det första - Och ännu mer "variansen" / informationen).


För RT-värden upplevde jag mig slutligen efter bytet av "spreadability" till mitt befintliga från CD få acceptabla värden (även om jag också ser tydligare jfr för kortare ord vinner man på att använda sannolikheter relaterade ljud där utan tvivel bättre alternativ bör finnas än måttet jag använde tidigare: Dock tvivlar jag på att just några väsentliga ord utan RT-värden saknas) när jag vid beräkningen för jämförelse med dom faktiska RT-värdena också krävde:


  • Ej större än 800 ms.
  • Givet det kan jag bara multiplicera 800 ms med måttet från spreadability och frekvens.

Att jag använder termen spreadability som lokalt i min databas istället för "IDF-komplexitet-liknande" (vilket jag annars inte gör) beror av följande:


  • Manipulerar man värdena för RT för att skatta ut ett informations-liknande mått (d.v.s. för att få formen av något-p-liknande-mellan-0-1 * log (något-p-liknande-mellan-0-1)).
  • Får man liknande form på kurvan som jag längre tillbaka (och hoppas gå ifrån en del av ej relaterade skäl) som jag tenderar att få för generering av blue light intensity (BLI).
  • För BLI finns därför att det är ett enormt nätverk av koncept med relationer ett gigantiskt nästan helt styrande samband med just närliggande nätverk av andra koncept.

D.v.s. det finns tror jag säkert ett stort beroende av något form av nätverk runt orden för RT även om jag inte valde att försöka experimentera med det (värdena jag får ut givet nu över 55 000 RT-värden redan mätta på människa duger tyckte jag). Och det torde vara att en del av detta beroende finns med på köptet med spreadability.


Varför värden över 800 ms ej är tillförlitliga vill jag egentligen inte våga spekulera bra om här då jag egentligen borde läsa upp mig på RT av aktuella typer. Emellertid:


  • Laborerar jag med två potenser. Och vi har ju 400 ms som jag tror ligger på minsta görliga att tillförlitligt mäta på de typer av studier man gör på RT p.g.a. N400.
  • Det är därför inte sunt att försöka passa in något mindre.
  • P.s.s. om vi börjar gå upp ovanför kan man få in annat liggande på minsta gemensamma upprepning inkluderande 400 ms.
  • Vidare jämförbart börjar det kanske här bli mer varierat rörande orsakerna till varför det tar mer tid. Typiska försökspersoner tenderade förr innan Amazon's Mechanical Turk vara en ganska väldefinierad grupp: studenter.

Så alla RT-värden ovanför 800 ms kastade jag som värdelösa för jämförelse. Det ger tillsammans med att jag också önskar "mitt vanligaste ord" vara "RT-snabbast" i skattning (även om RT-data har snabbare ord) följande effekt tidigt (som någon mer matematiskt motiverad troligen hade kunnat korrigera bort utan att störa utvecklingen längre bort):



D.v.s. för the börjar vi på N400. Vill vi rationalisera det kan vi kanske "(bort-)förklara" det med att the helt saknar mening i sig utan efterföljande ord och därför direkt ger en respons utan att behöva behandla nätverket runt det: Bara att vänta på nästa ord.


Vi kan också rationalisera det med att jag ej önskade peta runt med det hela när nu värdena efter små-orden faller in ganska snabbt till ej att ej problematiskt avvika (särskilt som att ord som RT-värden saknas för är vad jag räknar naturligt ska ligga långt upp):



Jämför vi värden längst till höger ("riktiga") med skattade i kolumnen direkt till vänster kan vi också se ett par kraftiga avvikelser. Dessa ser vi emellertid är orsakade av SUBTLEX frekvens-värden snarare än spreadability som där troligen ensamt hade givit närmare korrekt värden. Jag såg det ej tidigare och det pekar kanske på att man bör ersätta det eller troligare kombinera med mina vanliga frekvens mått (då jag är ganska säker på att SUBTLEX för just ord adderar värde många fall: För ord använder jag det normalt). darkrooms är ett exempel.


Hur tänkte jag då när resp. vikt användes?


  • Vi har ett motsvarande nätverk runt orden i det biologiska neuronnätet.
  • Det är resultat av inlärning såväl glömska vilka båda följer learning curve (eller omvänt i decay).
  • Resp. spreadability och frekvens skattar nätverket i mening av deras information.
  • Så de är bara att kombinera så att deras varians d.v.s. en grov tillräcklig om än sämre än alternativ skattning av inlärningen.
  • Hur gjort mer exakt framgår säkert direkt från kolumnerna i bilden.
  • Jag gör kanske en elegantare lösning om några dagar när jag nu såg att det fungerande (vilket jag slösade tid på att försöka normalisera innan jag insåg att det här CD-måttet inte var vad jag trodde).

Nedan en bunt värden mer i mitten eller i alla fall för någon av dem en bit in efter små-orden i toppen. Vi noterar hur vikt härledd från SUBTLEX för bl.a. don ej känns sunt p.s.s. som indikerat tidigare: don är mycket stort precis som la, los, le, san m.m. ty allt som förekommer i ortsnamn som ej är Myggträsk, Skåne (för att börja jämna ut olämpliga uttryck för negativa stereotyper om Norrland jag kan ha uttryckt tidigare genom åren utan att uppdaterat mitt intryck av Norrland på mer än 20 år) utan städer med många miljoner innevånare är stora oavsett typisk vanlig användning i övrigt. Spanska är förövrigt väldigt stort även om man inte kommer i närheten av att "medvetet" sampla det (i mening av väldigt lite "spansk-text" som kanske någon gång flytit in via datasamlingar GOV, research vid spanska universitet o.s.v. OAI fick jag in en hel del på spanska men tror ej det skadade relativt hela mängden data via den kanalen: Kanske 100 - 200 datakällor som ej detekterades spanska).



Troligen kan man få värdena också bättre genom att se till att resp. vikt från spreadability och frekvens bättre följer samma magnitud och skala. Jag känner dock att det kanske inte just behöver gör någon skillnad för dom ord d.v.s. dom som riktiga RT-värden saknas för. Dessutom var hela RT-vikt-området inte trevligt: Jag ger det bara 1.5 plus av fem. Inget jag rekommenderar. För att kunna garantera samma upplevelse fullt ut stoppade jag in några taggar för sådant jag hade tänkt använda men skar mot slutet. Så man utgår från rätt ambition för att riktigt få samma upplevelse (innan man mer korrekt ej nöjer sig med en mer praktisk än egentligen riktigt bra nivå: Snarare än att förvirra så att man inte gör något bättre än här vilket jag när görligt brukar försöka undvika - Jag tycker det är en god målsättning som skribent).


På plus-sidan hoppas jag att detta är åtminstone hälften till att avsluta en flera år lång process av att försöka hitta en lösning man kan generera ut komplexitet för några hundra tusen ord skalbara därifrån enkelt fler flergram utan att behöva göra det själv. För mycket forskning tycks det handla om att beskriva sitt data snarare än att beskriva hur jag gör något med det. Jag har dessutom lite svårt för hela området power laws och allt besläktat (här är vi mer i besläktat) då jag är van med att sådana relationer kommer ut naturligt från nätverken runt orden utan att man behöva sitta och peta runt med rank och skatta parametrar från indirekta värden. Jag vill verkligen rekommendera allmänt att man tar som god inspiration om vad man bör fokusera praktiska diskussioner i det väldigt konkreta runt rörande forskning rörande såväl språk och hjärna utifrån områden jag diskuterar: Det är nog en bra indikation om precis vad många fler är intresserade av såväl när det kommer till finansiering forskning, media (glöm ej student-intagningen: det är indirekt viktigt för din finansiering av forskning - Det gäller att märkas bra), referenser m.m. Ta chansen att se mina problem och gör dem till dina och det finns guld att hämta. Lös ett riktigt djävligt problem och behövs det ser jag fan själv till att du får publicera i Nature eller vad som nu känns rätt för dig.