Visar inlägg med etikett Frekvens. Visa alla inlägg
Visar inlägg med etikett Frekvens. Visa alla inlägg

Komplexitet för koncept: Frekvens koncept tillsammans med sekventiella ord-modeller

2015-10-30

En till lite annorlunda komplexitet har vi för koncept av godtyckligt antal ord: Ex. en stad likt New York bestående av New + York.


Att ha frekvens för faktiskt förekomst av New York är praktiskt ytterst kraftfullt för mycket praktiskt. Emellertid för en människa gäller nu att för koncept vi har mindre erfarenhet kan vi ha föga representation av det tidigare eller aldrig förr mött. Och om konceptet representeras av ej få ord går efter "några tänkta steg" (säg för enkelheten några ord i konceptet) värdet av erfarenheten av själva konceptet som representerats av dess ord ner och vi får ut tidigare mer av att läsa ord för ord med mindre prediktion direkt till konceptet.


Ett trivialt exempel även om det kanske avviker något från vad man alltid vill se som koncept i den här meningen är om vi tillåter operatorer likt in, from m.m. i vad vi representerar (kanske därför att vi parsar ut dem och sitter och läser Wikipedia så mycket att de får lite egen mening så de kommer in våra biologiska nätverk). Exempelvis Persons of some type born in something who have visited New York.


Fortfarande tycks för mig övergripande frekvens (som parameter till något) vara i sig indikerande nog om ej låg (men förvisso om låg också sägande något). Här kommer likväl själva orden eller sub-ngram-av-hela konceptet i all rimlighet börja spela in och påverka övergripande komplexitet för hur enkelt vi läser såväl som tolkar ut exakt vad som avses (frågar någon dig senare om ett koncept som ovan minns vi det sämre än New York - Om du nu inte många gånger genom åren läst konceptet i vilket fall du säkert kan repetera det exakt).


Att väga resp. väg här mot varandra kan man uppleva är enkelt (vilket det egentligen också är även om det givet mängden koncept kan ta tid om man fel-tolkar sin förmåga att se programmerings-fel, logiska fel m.m. och sitter och genererar ut 500 MG tio gånger innan man börjar se värdet ännu en gång av att generera ut tidiga värden innan man låter saker generera ut dimensioner storleks-sorterade efter en mängd tid beräkning).


Önskvärt om än inte ända sättet eller för den delen det från alla tänkbara praktiska värden bästa sättet är att betrakta det enkelt så tillvida att vi endast väljer att använda frekvenserna för koncepten. Är dessa sämre kanske man dock väljer att komplettera med något extra för orden men jag såg ingen poäng med det (bl.a. därför att jag önskade dessa värden genererade ut från koncept-sannolikheterna: Att beräkna RT utifrån vikter "ungefär" av typen IDF och frekvens). Annars kan ljud-mönster eller kanske också mer esoteriska idéer om vad som påverkar något (troligen för de flesta föga praktiskt påverkande) som själva formen på orden, hur gamka små sample grupper av personer tycks vara när de lär sig ord m.m.


Så vi bildar sannolikheterna för ord på resp. position utnyttjande sannolikheten för resp. koncept. P ( Ord X på position Y | Konceptet det är del av ) o.s.v. över alla koncept.


Om vi som människa ska "välja" (implicit) att hellre utnyttja sannolikheterna för orden så att någon indikation av arbetet kan ges av lämplig vidare beräkning från P (första ordet på position 1 ) * ... * P ( sista ordet på position sist om inte när vi väljer att förenkla nöjer oss med första sannolikheten om konceptet endast består av ett ord) måste:


  • En skillnad som gör det meningsfullt finnas.

Märker vi ingen skillnad finns heller inte någon skillnad. Men det behöver ej innebära att ingen skillnad finns mellan resp. värde vi ska välja hur vi utnyttjar tillsammans. Primärt gäller att om en kontextuell påverkan finns upparbetad kan hela konceptet eller delar få större påverkan: Vi lägger märke till dem bättre - Kanske direkt ser ett del koncept - sub-sträng - av det större konceptet.


En myckenhet tämligen komplexa möjligheter rörande sådant finns närmare att text parsas men för ganska generella vikter vill man (eller jag) helst undvika det eftersom nu just inget kontext är känt.


Likväl bör en skillnad vi kan detektera och märka finnas. Annars varför skulle någon skillnad att beräkna finnas om meningsfull?


Jag föredrar verkligen den normalt betraktad som lite "sämre" äldre formen för hur sådant kan skattas: Weber's law. En orsak är att när ii som här (även om ej utnyttjat just här) har nätverk med sannolikhets-, similarity-relationer m.m. i sig uttryckande distanser, resp. distanser framåt i tid predikterad såväl som tid bakåt formas mycket av logaritiska och power-relationer i sig. Även om det ej egentligen ska hindra användning vidare tenderar jag att förutom exp för decay ofta virra till det och om kostnad beräkning eller under- / over-flow ej verkar troligt föredrar jag att undvika det därför. Vidare när man skattar framåt i tiden och försöker utnyttja samma relationer är den korrektare tycks det för mig rent praktiskt än man åtminstone enkelt för diverse andra former (inte otroligt relaterat risk att virra till det) medan där vi får "avvikelser" jämfört med bättre funktionsformer ligger vi ändå i domäner där mer kostsamma investeringar i beräkning krävs (lite som att vi löpande tidigt och sent behöver skatta exponent för power-laws även för något trivialt som frekvens - resp. kontinuerligt kontrollera om man går in i en ny domän från kontext eller bara förändring globalt över allt i alla sammanhang).


Så därav delta (eller om vi vill derivatan för den som från resultaten önskar integrera från övriga jämförbara "lagar" - skattningar hellre så undviker man onödig komplexitet utan praktiskt värde) av den effekt frekvenserna skattade från resp. typ har (via lämplig funktion utnyttjande dem). I relation till en normalitet vi bedömer det från.


Normalitet att bedöma det från är upp till potentiellt ganska svårt. Är det ett långt koncept och vi sitter med ett papper skymmande alla ord tre ord framåt är kanske dessa en god indikation. Lägger vi istället märke till något i mitten är det kanske indikationen? Men för enkelheten skillnaden mellan den totala skattningen över resp. ord relativt för konceptet som sådant.


Är skillnaden stor säger det oss (typiskt men jag vågar inte säga alltid här) att koncept-sannolikheten är ovanligt låg görande det "billigare" att tolka samman orden var för sig.


Är koncept-sannolikheten hög är komplexiteten lägre. Är ord-sannolikheten samlat hög är komplexiteten låg. Om koncept sannolikheten är hög är troligen ord-sannolikheten försvinnande liten jämfört med den. Så:


abs ( f ( koncept-sannolikhet ) - g ( ord-sannolikheten ) ) / f ( koncept-sannolikhet ) + g ( ord-sannolikheten ) )

Det roliga med mycket diskuterat i en mängd publicerade teser om hur vi tolkar ord och koncept genom åren. Med väldigt utna tvekan riktigt arbetsamma lösningar för att väga samman alla möjliga faktorer är att om man har riktigt mycket data av ett fåtal typer som just bara förekomsten av koncepten tenderar det i sig att göra bra mycket annat ofta försumbart. Det är lite skillnad praktiskt om man börjar för udda latinska beteckningar på något långt ner på några frekvenser mot när knappt bigram frekvenser håller värde. Värdet av det som dimension ökar. Mängden ord och koncept vi som människa möter är inser vi av det riktigt ordentligt.


Språk i hemmen för barn räcker knappast. Adderar vi tv och film skattande inlärningen tidigt räcker det ej heller. Skolan tar ju en försvarlig del av dagen. O.s.v. upp genom åldrarna.


Man behöver allt. Allt. Verkligen att många aktörer har ett ansvar de föga lever upp till här. Journal-huis m.fl. bör självklart i den mån ej mer än abstract, titel m.m. görs tillgängligt sammanfatta ner sin statistik regelbundet så man kan hämta ner den.


Nå mycket data är bra. Så är det.


Huruvida denna enkla skattningen jag gjorde återstår emellertid att se då jag ej försökt stämma av den mot andra typer av skattningar som kan tänkas vara relevanta. Mitt primära intresse är att tillföra bättre skattningar för en del koncept man kan misstänka ligger en aning lågt. Det är i all rimlighet bättre att göra det med någon metod som har motsvarighet för den jämförbara situationen hos människa: Om min skattningen av ett ovanligt koncept är ovanligt p.g.a. dålig sampling medan personer känner det bättre falerar de flesta modeller på många koncept när vi för samman det med koncept-sannolikheter. Emellertid om det ej är troligt gäller p.s.s. att man bör motsvara hur koncepten tolkas och förstås när de möts av människa (som default utan preferens till någon särskild praktisk användning utan flera olika med varierad kvalitetskrav ibland lägre än så här).


Måttet ovan tivlar jag på ger just något i sådan avstämning men ger hoppas jag en vettig indikation om åtminstone magnituden mellan dem. Och jag blir ej förvånad om det stämmer ganska väl med hur vi tolkar och förstår koncept i mening av arbetsinsats att läsa resp. minnas dem (troligen mer det sista särskilt för "ord-långa" koncept).


Dessutom sorterade det elegant upp några hundra defekta koncept där tab som separering någon gång har fallit bort för blanksteg. Vilka blir enormt komplexa. Både oerhört osannolika från 35 - 50 ord såväl som helt otroliga att hitta i någon verklig text. Hade man nu ej tagit hänsyn till positionen vid beräkningen av ord-sannolikheten hade det blivit en annan sak eftersom en del (men ej överdrivet många) väldigt långa koncept faktiskt existerar naturligt (med också verkliga förekomster: Och ej bara inom kemi, biologi m.m. utan en hel del andra särskilda delar av den samlade mängden språk man finner i text). Eftersom de nu består av koncept - ofta nog också per ord - i sig förekommande i gedigen mängd.


Att dela data är ett politiskt och kommersiellt ansvar vi förvaltar för våra barn: Det kan bota sjukdomar, hindra krig och lära oss om språk

Nu har jag gjort mitt i alla fall och delat något med affärskritiskt värde för inte minst journalhusen ej open rörande deras långsiktiga överlevnad. Ingenting är så viktigt som att kapitalisera på data de kontrollerar. Men kontaktyta mot deras kärnverksamhet med författarna till allt som publiceras får ej underskattas. Därmed gäller det att dela rå-data som ex. koncept m.m. som förekommer medan man samtidigt drar djupare slutsatser själv. Så är det bara att vänta på att man tar sitt moraliska ansvar här och förenklar för världen att skapa en djupare förståelse om våra problem och hur de kan lösas. Dela data bra - Gömma data är dåligt och lite misstänkt (jag menar vad gör de egentligen med allt sitt data om allt från fysik till biologi jag ej kostnadseffektivt når? Kanske tillverkar de nya värre massförstörelsevapen än vi ännu sett? Jag kan tänka mig att de är mindre troligt än inte men kostnaden för realiserad risk är ju enorm: Kanske krävs lagstiftning globalt? Något FN borde engagera sig tycker jag - Eller kanske EFTA, GATT, Läkare utan gränser, Skandinavien m.m. ersatt av nyare koncept som EU o.s.v. och verkar helt dött men spekulerar jag ändå har en massa overksamma medarbetare - Från Frihandel till Fritt Data det skulle visa EU vem som är störst... Data utan gränser: För att bota sjukdomar i tid...).


En stor aktör bör självklart inte förfalla till sådana kvalitetsmässiga vkea och helt undermåliga lösningar för att dela data som bilder (d.v.s. ej som jag gjorde just i Att beräkna RT utifrån vikter "ungefär" av typen IDF och frekvens utan mer som när jag delar CSV-filer tab-separerade gärna komprimerade ej krävande något bökigt och slött API) m.m. Sådant är verkligen bara pinsamt att behöva se hos stora aktörer oavsett delar av artiklar eller något annat. Det genererar vi läsare på internet. Man tycker lite sund om sådana aktörer. Är dom så tekniskt efterblivna att de inte kan bättre tänker man när ma ej hittar allt relevant data till studien bra presenterat tillsammans med ord-förekomster m.m. i artikeln sammanfattat tillsammans med statistik för besökare via navigering, intern-sökning m.m. Vem vill egentligen läsa så här?


Bra fördömen är i kontrast:



Gäng har börjat missbruka data på nya otäcka sätt

En otrevlighet som blivit coolt tycks det i flera gäng-bildningar bland journal-publisiter sista halvåret är att kasta kategorisering och keywords i presentation av abstrakt och titlar. Ingen gillar sådant och tråkigt nog drabbar det också helt oskyldiga läsare och data-läsare. Det är verkligen inte sunt för dom själva heller. Ingen tycker det är tufft att dom tror att dom klarar att representera sitt material utan ämneskategorisering. Bara barnsligt.


Det får inte bli att man börjar se data som vad man bedriver rovdrift på. Data är något vi ärver från världens alla människor och förvaltar inför framtiden. Se Hillary's e-post som ett fint exempel: Det är data som framtidens människor - Våra barn - kan läsa och räkna ord i. Vilken skillnad det blir om hon blir president jämfört med den här små-snåla Obama och Bush vi har nu resp. tidigare. Förutom enstaka e-post jag misstänker är auto-skickade från Whitehouse.gov har jag likt de flesta inte fått läsa många av deras e-post. Två per år kanske och med bilder, udda fonter m.m. Jag vill ha e-post antingen som text eller ex. json, och i en stor zip-fil med alla e-post skickade, och inte just till en enstaka person. Det är ju vad data handlar om... En demokrat som Obama borde ju tänka tycker man på de beräknings-fattiga som ej kan prioritera att ta ut mening av bilder effektivt i sin parsning av datat.


Egentligen är det surt att man inte kan implementera någon kortsiktig kostnad för data-rovdrifts-aktörer. Lite som terror åren under Franska revolutionen men utan våldet riktat människor. Mer som under Kulturrevolutionen kanske utelämnande våldet och svälten med efterföljd tvångsförvaltning eller ett medborgar-garde som tar hand om aktuella politikers e-post. Facebook är ju dock ganska enkel att hämta data från så eventuellt borde man ta ut något aktuellt där igen: Kanske är det här redan på väg? Jag kan tänka mig det så en klok publicist såväl som coola politiker väljarna gillar tänker bäst efter hur de gör med sina artiklar, ämnes-kategorier och e-post (publicera enkelt på nätet).


När det gäller ditt data behöver du höra upp på dina verkliga vänner: Dom som tar sig tid att förklara världen för dig

Det går inte att räkna med att alla är snälla och tar sig tid och förklarar sådant här heller för de teknik-fördröjda aktörerna som ännu inte riktigt förstått vad internet handlar om. Så ta chansen här och dela världen ditt data (coolt för den som förstår internet: zip-filer, csv, och med vettig ej överdriven meta-information).


Skiss komiskt segment:

1. Understryka värdet av dela data.

2. Men göra det indikerande värdet samtidigt som små irritera under komiskt effekt-påverkan. 

3. Görande data jag redan har mer värdefullt genom att förslöa utvecklingen mot open-data. 

4. Bör också hantera ev. misstankar. Understrykande min människo-vänliga sida. Hans din vän. Härskaren du älskar. 

Kategorisering: World Domination, The Global Hans State.

One data to rule it all. My data. It's all mine or should be. Mitt eller borde vara. Kommer bli. 
Redundans är risk i reduktion scarce. Unikhet är värde. Ett stycke data i en instans kontrollerad av The Global Hans State. 
Så känslosamt jobbigt när törsten efter den fullständiga makten plågar mig. 
Må när världen är samplad och klar bör den fullständiga strategin realisera sig själv som självklar. 

Notering: Addera något sist för att reducera risken att någon börjar snoka runt Hans World State. Något lite kul men inte för bra. Sådant gillar folk.

Att beräkna RT utifrån vikter "ungefär" av typen IDF och frekvens

2015-10-29

Är upplevde jag inte lätt men görligt. Värdet är för mig i alla fall inte alls att beräkna värden för fallet när sunda (vilket jag tvingas återkomma till tvivlande för sekvenser av RT-värden ovanför cirka 800 ms) RT-värden finns utan när inga värden existerar mätta på människor. D.v.s. komplettera dessa med vettiga (om än oftare sämre skattningar).


Återkopplar vi till RT från vilken (eller vilka) frekvens / sannolikhet för ordet? fick jag göra följande lilla förändring varefter det hela löste sig på en timme efter en tråkig mängd tid:


  • SUBTLEX mått CD var ej funktionellt för mig på det sätt jag önskade använda det. Förövrigt noterade jag efter ett par timmars förvirring att det är viktigt att läsa publicerade artiklar om SUBTLEX (och kanske andra databaser i domänen) innan man tar något namngivet Zipf för någon form av funktion av rank-beroende (det är bara frekvensen normaliserad per X token och så log-10)
  • Istället använde jag ett större IDF-liknande mått jag beräknande från ett mycket bredare och större corpus (och som dessutom till cirka 5% i mening av samplingar - där vi kan se sampling som ex. titel + abstract + keywords för forskning eller snippet i sökmotor-resultat - från cirka 100 av internets större sökmotorer om än i toppen ej just Google som är minst sagt "försiktig" i sin hantering).
  • Egentligen hade jag för värden svårt att riktigt se var den avgörande skillnaden låg.
  • Emellertid kanske mindre optimalt (men gissningsvis för ord snarare än godtyckliga ngram tror jag tvärtom) använde jag SUBTLEX frekvens-mått.

Rörande RT-värden hittade jag dem också just på crr.ugent.be och kompletterade dem ej med RT från flera andra studier utnyttjande ex. Amazon (vilket jag relaktigt trodde ett tag medan jag mer skadade medelvärdet eftersom jag insåg dem redan ingående i det första - Och ännu mer "variansen" / informationen).


För RT-värden upplevde jag mig slutligen efter bytet av "spreadability" till mitt befintliga från CD få acceptabla värden (även om jag också ser tydligare jfr för kortare ord vinner man på att använda sannolikheter relaterade ljud där utan tvivel bättre alternativ bör finnas än måttet jag använde tidigare: Dock tvivlar jag på att just några väsentliga ord utan RT-värden saknas) när jag vid beräkningen för jämförelse med dom faktiska RT-värdena också krävde:


  • Ej större än 800 ms.
  • Givet det kan jag bara multiplicera 800 ms med måttet från spreadability och frekvens.

Att jag använder termen spreadability som lokalt i min databas istället för "IDF-komplexitet-liknande" (vilket jag annars inte gör) beror av följande:


  • Manipulerar man värdena för RT för att skatta ut ett informations-liknande mått (d.v.s. för att få formen av något-p-liknande-mellan-0-1 * log (något-p-liknande-mellan-0-1)).
  • Får man liknande form på kurvan som jag längre tillbaka (och hoppas gå ifrån en del av ej relaterade skäl) som jag tenderar att få för generering av blue light intensity (BLI).
  • För BLI finns därför att det är ett enormt nätverk av koncept med relationer ett gigantiskt nästan helt styrande samband med just närliggande nätverk av andra koncept.

D.v.s. det finns tror jag säkert ett stort beroende av något form av nätverk runt orden för RT även om jag inte valde att försöka experimentera med det (värdena jag får ut givet nu över 55 000 RT-värden redan mätta på människa duger tyckte jag). Och det torde vara att en del av detta beroende finns med på köptet med spreadability.


Varför värden över 800 ms ej är tillförlitliga vill jag egentligen inte våga spekulera bra om här då jag egentligen borde läsa upp mig på RT av aktuella typer. Emellertid:


  • Laborerar jag med två potenser. Och vi har ju 400 ms som jag tror ligger på minsta görliga att tillförlitligt mäta på de typer av studier man gör på RT p.g.a. N400.
  • Det är därför inte sunt att försöka passa in något mindre.
  • P.s.s. om vi börjar gå upp ovanför kan man få in annat liggande på minsta gemensamma upprepning inkluderande 400 ms.
  • Vidare jämförbart börjar det kanske här bli mer varierat rörande orsakerna till varför det tar mer tid. Typiska försökspersoner tenderade förr innan Amazon's Mechanical Turk vara en ganska väldefinierad grupp: studenter.

Så alla RT-värden ovanför 800 ms kastade jag som värdelösa för jämförelse. Det ger tillsammans med att jag också önskar "mitt vanligaste ord" vara "RT-snabbast" i skattning (även om RT-data har snabbare ord) följande effekt tidigt (som någon mer matematiskt motiverad troligen hade kunnat korrigera bort utan att störa utvecklingen längre bort):



D.v.s. för the börjar vi på N400. Vill vi rationalisera det kan vi kanske "(bort-)förklara" det med att the helt saknar mening i sig utan efterföljande ord och därför direkt ger en respons utan att behöva behandla nätverket runt det: Bara att vänta på nästa ord.


Vi kan också rationalisera det med att jag ej önskade peta runt med det hela när nu värdena efter små-orden faller in ganska snabbt till ej att ej problematiskt avvika (särskilt som att ord som RT-värden saknas för är vad jag räknar naturligt ska ligga långt upp):



Jämför vi värden längst till höger ("riktiga") med skattade i kolumnen direkt till vänster kan vi också se ett par kraftiga avvikelser. Dessa ser vi emellertid är orsakade av SUBTLEX frekvens-värden snarare än spreadability som där troligen ensamt hade givit närmare korrekt värden. Jag såg det ej tidigare och det pekar kanske på att man bör ersätta det eller troligare kombinera med mina vanliga frekvens mått (då jag är ganska säker på att SUBTLEX för just ord adderar värde många fall: För ord använder jag det normalt). darkrooms är ett exempel.


Hur tänkte jag då när resp. vikt användes?


  • Vi har ett motsvarande nätverk runt orden i det biologiska neuronnätet.
  • Det är resultat av inlärning såväl glömska vilka båda följer learning curve (eller omvänt i decay).
  • Resp. spreadability och frekvens skattar nätverket i mening av deras information.
  • Så de är bara att kombinera så att deras varians d.v.s. en grov tillräcklig om än sämre än alternativ skattning av inlärningen.
  • Hur gjort mer exakt framgår säkert direkt från kolumnerna i bilden.
  • Jag gör kanske en elegantare lösning om några dagar när jag nu såg att det fungerande (vilket jag slösade tid på att försöka normalisera innan jag insåg att det här CD-måttet inte var vad jag trodde).

Nedan en bunt värden mer i mitten eller i alla fall för någon av dem en bit in efter små-orden i toppen. Vi noterar hur vikt härledd från SUBTLEX för bl.a. don ej känns sunt p.s.s. som indikerat tidigare: don är mycket stort precis som la, los, le, san m.m. ty allt som förekommer i ortsnamn som ej är Myggträsk, Skåne (för att börja jämna ut olämpliga uttryck för negativa stereotyper om Norrland jag kan ha uttryckt tidigare genom åren utan att uppdaterat mitt intryck av Norrland på mer än 20 år) utan städer med många miljoner innevånare är stora oavsett typisk vanlig användning i övrigt. Spanska är förövrigt väldigt stort även om man inte kommer i närheten av att "medvetet" sampla det (i mening av väldigt lite "spansk-text" som kanske någon gång flytit in via datasamlingar GOV, research vid spanska universitet o.s.v. OAI fick jag in en hel del på spanska men tror ej det skadade relativt hela mängden data via den kanalen: Kanske 100 - 200 datakällor som ej detekterades spanska).



Troligen kan man få värdena också bättre genom att se till att resp. vikt från spreadability och frekvens bättre följer samma magnitud och skala. Jag känner dock att det kanske inte just behöver gör någon skillnad för dom ord d.v.s. dom som riktiga RT-värden saknas för. Dessutom var hela RT-vikt-området inte trevligt: Jag ger det bara 1.5 plus av fem. Inget jag rekommenderar. För att kunna garantera samma upplevelse fullt ut stoppade jag in några taggar för sådant jag hade tänkt använda men skar mot slutet. Så man utgår från rätt ambition för att riktigt få samma upplevelse (innan man mer korrekt ej nöjer sig med en mer praktisk än egentligen riktigt bra nivå: Snarare än att förvirra så att man inte gör något bättre än här vilket jag när görligt brukar försöka undvika - Jag tycker det är en god målsättning som skribent).


På plus-sidan hoppas jag att detta är åtminstone hälften till att avsluta en flera år lång process av att försöka hitta en lösning man kan generera ut komplexitet för några hundra tusen ord skalbara därifrån enkelt fler flergram utan att behöva göra det själv. För mycket forskning tycks det handla om att beskriva sitt data snarare än att beskriva hur jag gör något med det. Jag har dessutom lite svårt för hela området power laws och allt besläktat (här är vi mer i besläktat) då jag är van med att sådana relationer kommer ut naturligt från nätverken runt orden utan att man behöva sitta och peta runt med rank och skatta parametrar från indirekta värden. Jag vill verkligen rekommendera allmänt att man tar som god inspiration om vad man bör fokusera praktiska diskussioner i det väldigt konkreta runt rörande forskning rörande såväl språk och hjärna utifrån områden jag diskuterar: Det är nog en bra indikation om precis vad många fler är intresserade av såväl när det kommer till finansiering forskning, media (glöm ej student-intagningen: det är indirekt viktigt för din finansiering av forskning - Det gäller att märkas bra), referenser m.m. Ta chansen att se mina problem och gör dem till dina och det finns guld att hämta. Lös ett riktigt djävligt problem och behövs det ser jag fan själv till att du får publicera i Nature eller vad som nu känns rätt för dig.

RT från vilken (eller vilka) frekvens / sannolikhet för ordet?

Det finns en lång rad fenomen relaterade hur vi upplever och använder (åtminstone) ord som vi kan beskriva på formen:


a / ( b + c * n (rank ) )K

Jag fick för mig kanske mest praktiskt nära relaterat "komplexitet" för att läsa eller skriva ett ord att försöka ta samman dem på formen ovan (d.v.s. om nödvändigt som förväntat tillåta varierade konstanter).


Det var varken min tro eller icke-tro att jag utan att behöva känna till någon algoritm skulle kunna utan svårighet skatta parametrarna men kunde konstatera att jag inte kom riktigt fram till något (eller egentligen ens så långt här).


Emellertid under processen av att försöka få klart för mig hur man gör sådant bra använda jag data för RT (cirka 55 000 ord) och beräknade hur mycket rank i genomsnitt avvek mot denna rank för bl.a. frekvens ord som i SUBTlEX (korrekt var det US snarare än UK men det har knappast betydelse här och kan enkelt hittas), min frekvens från mycket större corpus (men tycks det saknande ord jfr vad jag hade RT värden för: Ev. någon defekt byggande databas-filerna senast), och intressantare en sannolikhet beräknad från sphinx representationen som kommer med CMU dict. Sphinx har färre symboler än den normala representationen i CMU dict (d.v.s. ljudsymboler för orden).


Sannolikheten för ljud-symbolerna skattade jag ej från något relaterat förekomst av själva ordet utan resp. ljudsymbol givet positionen i ordet utan hänsyn till föregående eller framförvarande ljudsymbol (vilket man ev. kanske vinner på givet att de åtminstone i tal flyter samman något). En egentligen inte alls spännande fråga är hur storleken på alfabetet för ljuden inverkar här: Jag har ej ett bra svar här.


Rörande SUBTlEX CD mått en relativt trolig användning myckenhet finns publicerad om har jag en använt den för komplexitet tidigare men sett relevant likhet för hur inverse document frequency används för att bygga index i sökmotorn och skapade ett mått ej riktigt CD eller IDF men funktionellt bättre anpassad för mitt behov. Därav bildade jag dessutom:


  • f ( CD ) * log ( freq ) / log ( 2 )
  • f ( CD ) * sqrt ( 1 + freq )

Jag prövade f ( CD ) enligt uppenbara: log ( frekvens av the som har störst CD / CD för aktuellt ord ) / log ( 2 ). Men kom troligen av någon anledning att använda log ( CD för aktuellt ord ) / log ( 2 ).


Linjär kombination av log ljud-sannolikhet tillsammans med f ( CD ) * log ( freq ) / log ( 2 ) var något lite bättre än f ( CD ) * sqrt ( freq ) / log ( 2 ) (men minskande så om man skär höga värden vilket eventuellt också för den första gav något bättre resultat). D.v.s. bättre i mening genomsnittligt rank-fel. Och ordentligt mycket bättre än alla kombinationer av CD och frekvens.


Jag trodde fenomenet kanske hade något att göra med att frekvens och/eller CD kommer fel för korta ord där ljud-sannolikheten kanske tänkte jag mig kompenserande det hela på något sätt. Men jag klarade ej ut att se var effekten kommer sig av.


Inte heller klarade jag att kombinera det hela på sådant sätt att jag faktiskt fick konkreta värden som är meningsfulla att använda. Bara själva rank-felet som hamnade neråt 4000 för totalt cirka 55 000 ord. Huruvida rank-felet är lågt eller högt jämfört med en vettigt skattad funktion som Zipf-Mandelbrot kan jag ej heller säga men det tycks troligt för mig att om man kastar största och minsta värden för RT (kanske 50 på vardera sidan eller ev. fler) går det nog att för resp. eller tillsammans frekvens och CD komma bättre också i rank-position fel (men å andra sidan kanske det också gäller ljud-sannolikheten).


Jag undrar egentligen mest vad effekten kom sig av. Själva kombinationen med f ( CD )... var inte mer avancerad än addition efter viss normalisering. Därav att jag funderade om det var korta ord som var förklaringen.


Det tråkiga med RT-värden är att...

Om vi söker beräkna förändringen av dem som funktion av föregående värde d.v.s. enkelt försöka skatta exponten i funktionen tidigt ligger de högt för de lägsta resp. högsta RT med ett minimum "mot mitten" (i väldigt grov mening).


Det kanske har att göra med hur jag laborerade med beräkningen. Men kändes kanske också som något man även kände igen från en del annat.


Jag vill egentligen inte säga för mycket om det här åtminstone innan jag skaffat fram varifrån jag fick RT värdena från början och ladda ner dem igen med all meta-information om dem.