Visar inlägg med etikett IDF. Visa alla inlägg
Visar inlägg med etikett IDF. Visa alla inlägg

Att beräkna RT utifrån vikter "ungefär" av typen IDF och frekvens

2015-10-29

Är upplevde jag inte lätt men görligt. Värdet är för mig i alla fall inte alls att beräkna värden för fallet när sunda (vilket jag tvingas återkomma till tvivlande för sekvenser av RT-värden ovanför cirka 800 ms) RT-värden finns utan när inga värden existerar mätta på människor. D.v.s. komplettera dessa med vettiga (om än oftare sämre skattningar).


Återkopplar vi till RT från vilken (eller vilka) frekvens / sannolikhet för ordet? fick jag göra följande lilla förändring varefter det hela löste sig på en timme efter en tråkig mängd tid:


  • SUBTLEX mått CD var ej funktionellt för mig på det sätt jag önskade använda det. Förövrigt noterade jag efter ett par timmars förvirring att det är viktigt att läsa publicerade artiklar om SUBTLEX (och kanske andra databaser i domänen) innan man tar något namngivet Zipf för någon form av funktion av rank-beroende (det är bara frekvensen normaliserad per X token och så log-10)
  • Istället använde jag ett större IDF-liknande mått jag beräknande från ett mycket bredare och större corpus (och som dessutom till cirka 5% i mening av samplingar - där vi kan se sampling som ex. titel + abstract + keywords för forskning eller snippet i sökmotor-resultat - från cirka 100 av internets större sökmotorer om än i toppen ej just Google som är minst sagt "försiktig" i sin hantering).
  • Egentligen hade jag för värden svårt att riktigt se var den avgörande skillnaden låg.
  • Emellertid kanske mindre optimalt (men gissningsvis för ord snarare än godtyckliga ngram tror jag tvärtom) använde jag SUBTLEX frekvens-mått.

Rörande RT-värden hittade jag dem också just på crr.ugent.be och kompletterade dem ej med RT från flera andra studier utnyttjande ex. Amazon (vilket jag relaktigt trodde ett tag medan jag mer skadade medelvärdet eftersom jag insåg dem redan ingående i det första - Och ännu mer "variansen" / informationen).


För RT-värden upplevde jag mig slutligen efter bytet av "spreadability" till mitt befintliga från CD få acceptabla värden (även om jag också ser tydligare jfr för kortare ord vinner man på att använda sannolikheter relaterade ljud där utan tvivel bättre alternativ bör finnas än måttet jag använde tidigare: Dock tvivlar jag på att just några väsentliga ord utan RT-värden saknas) när jag vid beräkningen för jämförelse med dom faktiska RT-värdena också krävde:


  • Ej större än 800 ms.
  • Givet det kan jag bara multiplicera 800 ms med måttet från spreadability och frekvens.

Att jag använder termen spreadability som lokalt i min databas istället för "IDF-komplexitet-liknande" (vilket jag annars inte gör) beror av följande:


  • Manipulerar man värdena för RT för att skatta ut ett informations-liknande mått (d.v.s. för att få formen av något-p-liknande-mellan-0-1 * log (något-p-liknande-mellan-0-1)).
  • Får man liknande form på kurvan som jag längre tillbaka (och hoppas gå ifrån en del av ej relaterade skäl) som jag tenderar att få för generering av blue light intensity (BLI).
  • För BLI finns därför att det är ett enormt nätverk av koncept med relationer ett gigantiskt nästan helt styrande samband med just närliggande nätverk av andra koncept.

D.v.s. det finns tror jag säkert ett stort beroende av något form av nätverk runt orden för RT även om jag inte valde att försöka experimentera med det (värdena jag får ut givet nu över 55 000 RT-värden redan mätta på människa duger tyckte jag). Och det torde vara att en del av detta beroende finns med på köptet med spreadability.


Varför värden över 800 ms ej är tillförlitliga vill jag egentligen inte våga spekulera bra om här då jag egentligen borde läsa upp mig på RT av aktuella typer. Emellertid:


  • Laborerar jag med två potenser. Och vi har ju 400 ms som jag tror ligger på minsta görliga att tillförlitligt mäta på de typer av studier man gör på RT p.g.a. N400.
  • Det är därför inte sunt att försöka passa in något mindre.
  • P.s.s. om vi börjar gå upp ovanför kan man få in annat liggande på minsta gemensamma upprepning inkluderande 400 ms.
  • Vidare jämförbart börjar det kanske här bli mer varierat rörande orsakerna till varför det tar mer tid. Typiska försökspersoner tenderade förr innan Amazon's Mechanical Turk vara en ganska väldefinierad grupp: studenter.

Så alla RT-värden ovanför 800 ms kastade jag som värdelösa för jämförelse. Det ger tillsammans med att jag också önskar "mitt vanligaste ord" vara "RT-snabbast" i skattning (även om RT-data har snabbare ord) följande effekt tidigt (som någon mer matematiskt motiverad troligen hade kunnat korrigera bort utan att störa utvecklingen längre bort):



D.v.s. för the börjar vi på N400. Vill vi rationalisera det kan vi kanske "(bort-)förklara" det med att the helt saknar mening i sig utan efterföljande ord och därför direkt ger en respons utan att behöva behandla nätverket runt det: Bara att vänta på nästa ord.


Vi kan också rationalisera det med att jag ej önskade peta runt med det hela när nu värdena efter små-orden faller in ganska snabbt till ej att ej problematiskt avvika (särskilt som att ord som RT-värden saknas för är vad jag räknar naturligt ska ligga långt upp):



Jämför vi värden längst till höger ("riktiga") med skattade i kolumnen direkt till vänster kan vi också se ett par kraftiga avvikelser. Dessa ser vi emellertid är orsakade av SUBTLEX frekvens-värden snarare än spreadability som där troligen ensamt hade givit närmare korrekt värden. Jag såg det ej tidigare och det pekar kanske på att man bör ersätta det eller troligare kombinera med mina vanliga frekvens mått (då jag är ganska säker på att SUBTLEX för just ord adderar värde många fall: För ord använder jag det normalt). darkrooms är ett exempel.


Hur tänkte jag då när resp. vikt användes?


  • Vi har ett motsvarande nätverk runt orden i det biologiska neuronnätet.
  • Det är resultat av inlärning såväl glömska vilka båda följer learning curve (eller omvänt i decay).
  • Resp. spreadability och frekvens skattar nätverket i mening av deras information.
  • Så de är bara att kombinera så att deras varians d.v.s. en grov tillräcklig om än sämre än alternativ skattning av inlärningen.
  • Hur gjort mer exakt framgår säkert direkt från kolumnerna i bilden.
  • Jag gör kanske en elegantare lösning om några dagar när jag nu såg att det fungerande (vilket jag slösade tid på att försöka normalisera innan jag insåg att det här CD-måttet inte var vad jag trodde).

Nedan en bunt värden mer i mitten eller i alla fall för någon av dem en bit in efter små-orden i toppen. Vi noterar hur vikt härledd från SUBTLEX för bl.a. don ej känns sunt p.s.s. som indikerat tidigare: don är mycket stort precis som la, los, le, san m.m. ty allt som förekommer i ortsnamn som ej är Myggträsk, Skåne (för att börja jämna ut olämpliga uttryck för negativa stereotyper om Norrland jag kan ha uttryckt tidigare genom åren utan att uppdaterat mitt intryck av Norrland på mer än 20 år) utan städer med många miljoner innevånare är stora oavsett typisk vanlig användning i övrigt. Spanska är förövrigt väldigt stort även om man inte kommer i närheten av att "medvetet" sampla det (i mening av väldigt lite "spansk-text" som kanske någon gång flytit in via datasamlingar GOV, research vid spanska universitet o.s.v. OAI fick jag in en hel del på spanska men tror ej det skadade relativt hela mängden data via den kanalen: Kanske 100 - 200 datakällor som ej detekterades spanska).



Troligen kan man få värdena också bättre genom att se till att resp. vikt från spreadability och frekvens bättre följer samma magnitud och skala. Jag känner dock att det kanske inte just behöver gör någon skillnad för dom ord d.v.s. dom som riktiga RT-värden saknas för. Dessutom var hela RT-vikt-området inte trevligt: Jag ger det bara 1.5 plus av fem. Inget jag rekommenderar. För att kunna garantera samma upplevelse fullt ut stoppade jag in några taggar för sådant jag hade tänkt använda men skar mot slutet. Så man utgår från rätt ambition för att riktigt få samma upplevelse (innan man mer korrekt ej nöjer sig med en mer praktisk än egentligen riktigt bra nivå: Snarare än att förvirra så att man inte gör något bättre än här vilket jag när görligt brukar försöka undvika - Jag tycker det är en god målsättning som skribent).


På plus-sidan hoppas jag att detta är åtminstone hälften till att avsluta en flera år lång process av att försöka hitta en lösning man kan generera ut komplexitet för några hundra tusen ord skalbara därifrån enkelt fler flergram utan att behöva göra det själv. För mycket forskning tycks det handla om att beskriva sitt data snarare än att beskriva hur jag gör något med det. Jag har dessutom lite svårt för hela området power laws och allt besläktat (här är vi mer i besläktat) då jag är van med att sådana relationer kommer ut naturligt från nätverken runt orden utan att man behöva sitta och peta runt med rank och skatta parametrar från indirekta värden. Jag vill verkligen rekommendera allmänt att man tar som god inspiration om vad man bör fokusera praktiska diskussioner i det väldigt konkreta runt rörande forskning rörande såväl språk och hjärna utifrån områden jag diskuterar: Det är nog en bra indikation om precis vad många fler är intresserade av såväl när det kommer till finansiering forskning, media (glöm ej student-intagningen: det är indirekt viktigt för din finansiering av forskning - Det gäller att märkas bra), referenser m.m. Ta chansen att se mina problem och gör dem till dina och det finns guld att hämta. Lös ett riktigt djävligt problem och behövs det ser jag fan själv till att du får publicera i Nature eller vad som nu känns rätt för dig.

All vs Most

2015-05-12

Det här var ju lite intressant givet att jag hållit lösning för att kvantifiera dessa typer av indikationer i NP öppen därför att trots i delar mycket vettig rangordning av dem från mitt viktsystem emotionell intensitet kombinerat med något vi kan jämföra med inverse-document-frequency (men ej skapat från just dokument alls) resp. Bluelight intensity ev. i kombination med ett till mått närmare en form av entropi) så avvek en del i toppen underligt. Bl.a. förutsätta jag att all ska vara ovanför most: Dels känns det ju spontant riktigt vidare är ju all i större utsträckning optimerad för användning (kortare så snabbare att processa).


"Indeed, the tendency for quantifiers to be recalled as generic was strongest for “most”, and weaker (though present) for 'all'. A possible explanation for why 'some' is treated differently is that adults understand “some” statements to express distinctly limited generalizations."

Från: Quantified Statements are Recalled as Generics: Evidence from Preschool Children and Adults.
Sarah-Jane Leslie och Susan A. Gelman.
Cogn Psychol. 2012 May; 64(3): 186–214.
doi: 10.1016/j.cogpsych.2011.12.001

Om det sedan för dessa uttryck har betydelse har två svar. För vanliga koncept likt all och most kan man lösa det regelbaserat. Emellertid innehåller själva filen som har alla kvantifierande ord oavsett typ som kan förekomma i dessa fras-typer med aktuell grammatiskt funktionalitet ett par tusen ord (och några 2-gram resp. en del fler-gram men de har mindre betydelse). Det är emellertid mycket lättare att försöka verifiera funktionalitet för numeriska beräknings-algoritmer för dom vanliga koncepten här eftersom det är dom forskning sker på. Jag har här egentligen inte sett över allt efter att lämnade just denna viktdel (det är i all verklighet en av de mindre kritiska delarna i övergripande beräkning av olika former av polaritet för ex. NP-fraser eller andra till noun-fras nära besläktade typer).


En sak jag kan lära här är att inte vara så brutalt försiktig rörande användning av denna grupp av viktlösningar jag använder. Att de fungerat relativt flera andra i andra områden exceptionellt bra är indikation på att man oftare kan chansa innan verifiering forskning om det inte är brutalt tidsödande kodning (vilket jag kanske för ofta avstår från för att inte riskera att få in senare atavistiska komponenter i subsystem).


Mycket uppmuntrande faktiskt.


Rörande some i citatet behöver jag läsa om det mer noggrant. Men möjligen har jag en jämförbar hantering redan här huvudsakligen dock funktionell i att exempelvis something bryts upp i analys till some thing tillfälligt i ett delsteg. Orsaken till det kanske är besläktad och om så ev. vad jag återkommer till (jag föredrar att diskutera sådant här när det fortfarande är unga lösningar ej testade djupt nog om det finns något att referera som tittat närmare på samma sak så att det inte blir fel för läsare underskattande betydelsen som djupare testning faktiskt har här: Även om det kanske inte är så himla många som sitter och implementerar human-like semantisk och emotionell analys av data).


Följande citat kanske jag tolkar lite fel rörande kontext men delvis håller jag ev. inte riktigt med om det:


"To express a generic generalization, however, we just ‘omit’ the quantifier: “tigers are striped”. There is no special linguistic marker (“gen”) that specifically signals a generic. Interestingly, this is not an isolated fact about English: no known language has a word or linguistic marker that specifically signals a generic (Dahl, 1985; Krifka et al., 1995). In this way, generics are less syntactically marked than quantified statements. Chomsky (2000) argues that less marked syntactic forms may be associated with default interpretations. Thus, if generics express cognitively default generalizations, this would explain why they are syntactically less marked than quantified statements."

Frågan är ju vad det är generiskt uttryck inducerat för vad typ. Här tar man nu tigrar som exempel men låt oss ta ett enklare exempel och betrakta typen Hans Husman. Kan vi göra ett generiskt uttryck för något typiskt för honom med ett särskilt ord:


Hans Husman is great.

Eller ej generiskt (om jag förstår meningen de lägger i det: Jag behöver verkligen egentligen läsa artikeln noggrannare):


Hans Husman is great during lent because he eat's enough to have energy.

Hans Husman is a great person to use for bread baking.

Eller varifrån inte:


Tigers has stripes.

Tigers is an animal with stripes.

Givetvis kan jag istället skriva:


All tigers has stripes.

All tigers is animals with stripes.

Eller ev. mer rätt eller mer fel (jag tror att alla renblodiga tigrar ej korsade med ex. lejon har stripes):


Most tigers has stripes.

Most tigers is animals with stripes.

Men för all varande den närmaste till att utelämna indikation helt behöver den egentligen inte. Även om jag egentligen behöver läsa artikeln noggrannare och ev. kan ha missuppfattat något kring generiskt här kändes det som en för mig väldigt relevant anteckning att göra rörande vad som tidigare kommenterades kring all. Reduktion redundans är ju en faktor nära relaterad komplexitet och tänkbart finns något i det som förklarar mitt tidigare feltänkt när jag tog all som vad som borde fått högre viktvärde än most. Det är emellertid lite för omfattande tror jag att försöka diskutera här.

Genomslag titel (effektstorlek) i SERP eller pagination

2015-04-10

Denna diskussion förberedande en tänkbar jämförelse Bing och Google hör troligen till de såväl mest avancerade som praktiskt tillämpning (åtminstone med rätt datakälla) enklaste. Det tycks dessutom troligt att jag i delar jämfört med normalt för mig motiverar samband föga via referenser.


Det mest triviala och välkänd sambanden är relaterat position. Högre upp gynnas. Detta tas fortsättningsvis som välkänd kunskap för läsaren och vi diskuterar det ej vidare.


Barnet resp. Icke-experten

Barn tenderar att reagera mer än vuxna på emotionella termer. Ibland kallas fenomenet för "kiss- och bajs-humor" även om jag vill understryka att jag ej alls tror att det är begränsat till just sådant även om kanske vanligare därför att det är generellt emotionellt tydliga begrepp vi där hittar barnen haft möjlighet att mött.


Barnens generella "mentala lexikon" är dessutom mindre. För varje situation barnet söker vetskap eller söker beskriva något har emotionella termer dessutom mindre att konkurrera med (åtminstone under antagande att de lärs snabbare: Jag vill att läsaren nu och fortsatt oavsett orsak tar sambandet till storlek lexikon för givet där jag är minst sagt trygg i det men egentligen föga övertygad om att det för barn är beroende av att de lär emotionellt potenta termer tidigare under ett antal av barn åren).


Den vuxna icke-experten sökande svar på en fråga bland säg ganska begrepps-avancerade studier publicerade kommer också tendera att prioritera emotionellt starka termer mer än vad som gäller experten.


Men vad är det som värderas ner för icke-experten? Det är den kontextuella kopplingen till representationen av frågan icke-experten söker svaret på. Termer förvisso möjligt nära ett optimalt svar men okända rörande betydelse och "samtidighet i kontext" känns bara okända och jobbiga eftersom de behöver slås upp. Den som söker information via sökmotor tenderar åtminstone under tidiga försök att hitta rätt information att hoppa över dem.


Stålar: Kunskap är pengar

Vad kan vi lära från reward discounting, utility-funktioner för stålar och värde och hela detta område? Tråkigt nog inom ekonomisk forskning efter att minst sagt noggrant och omfattande sökt över området flera gånger sista fem - sex åren finns föga presterat vi kan utnyttja sista årtionden med början 1980-talet. Längre bakåt var dessbättre flera hög-presterande inom ett antal områden intresserade också här. Rörande reward discounting har också excellent mycket välgjorda studier givit hos klarhet från andra områden som bl.a. neuroscience (ex. för en av de första jag läste apor som fick jos-belöningar: Jos om söt och ej är vad du kan köpa hög-koncentrerat i stora påsar med färgglada klumpar är potent belöning - Missbrukar du godis regelbundet är små mängder jos ej belöning för dig alls).


Rörande stålar direkt inser vi alla att har du bra med pengar påverkar det vad du är beredd att göra för en summa pengar. Samma sak gäller också mat. Skillnaden mellan mat och pengar är att mat är mer konkret medan pengar är mer abstrakt. Preferens i aktivering i orbitofrontala cortex där inlärd värdering finns skiljer sig något åt mellan konkreta och abstrakta (vilka vill jag mena skiljer sig ut från konkreta belöningar genom att vara mindre tidsberoende här och nu och att de konkreta kanske har sin preferens i område inlärda från att dessa områden lättare möter och påverkas av andra delar i hjärnan som har kontroll över om vi ex. är svultna).


Värdet av 1000 kr är mindre för den som har 1000 * 1000 kr men ej under överskådlig tid behöver använda till något nödvändigt likt mat och boende. Har du ej ätit på flera dagar och ej har pengar eller ej får använda pengar du har till att köpa mat är värdet av 1000 kr ytterst konkret och närmast som du ser vad det översätter till i form av mat övervärderat (tårta, godis, kött m.m. föreställande dig värdet av det känns stort).


Vi inser - nu jämförande med Webers law - att en brytpunkt i värde givet något vi är beredda att göra för att få en given summa finns. En viss förändring i pengar vi kontrollerar efter att ha gjort händelsen krävs för att pengarna ska ha ett värde vi uppfattar som relevant märkbart för oss.


Omvärderande praktiskt värde av Steven's power law

För praktisk analys av de typer som varit aktuella för mig har i allmänhet de tidiga formerna av Weber's law tveklöst varit de mest funktionella för mig d.v.s. förändringen dividerad med storlek innan. Storlek innan förändring ger oss skattningen av magnituden. För nyheter krävs mer nytt om en nyhetshändelse pågående nästa dag än dagen innan för att vi ska vara lika intresserade igen (efter några initiala dagar). Den initiala skandalen att mycket kända politiker A tagit mutor i form av både pengar, manliga prostiterade (vi antar gender-politiskt korrekt en kvinnlig politiker lika från könet som manen benägen till korruption och omoral). Skillnaden första dagen är gigantisk och ger stort intresse medan extra ny kunskap några veckor senare om att personen dessutom tog mutor något år innan på lägre nivå (det börjar med en silversked och slutar med 10 000 000 kr på off-shore-bankkonto som det gamla talesättet säger omvandlat till Sverige idag efter 100 år av god ekonomisk tillväxt).


Samtidigt har jag såväl för skattning reward och värde av pengar, signal respons modeller, och för förekomst av fler-gram i dokument (i vektor-modeller för information retrieval) använt en funktion jag tagit ut som lösning av differential ekvationer. Det var först i förrgår jag insåg att denna funktion troligt bygger och förutsätter samma fenomen i hjärnan som Stevens power law. Att jag förr inte insett det är underligt och möjligt delvis relaterat att jag just praktiskt i allt annat värderat Stevens power law lågt ("aldrig" - vad jag insåg - använd av mig).


Läsande referenser av giganten i sund-påverkan psykologins forskning Thurstone (Thurstone i grundutbildning närmare civilingenjör hade en helt annan matematisk vetskap än normalt vid tiden inom psykologin och skapade därför ensam mer eller mindre stora delar av grunden efter den tyska tidiga perception psykologins insatser till den matematiska psykologin) nått en likartad representation som lösning av en differential ekvation jag ej funnit uttryckt i diskussion av resultaten (den ofta angiven är helt säkert ofullständig i mening för grovt förenklad). Detta som lösning av hur mycket mindre man värderar kostnaden för ex. ett föremål att handla just nu (d.v.s. här och som för mig förutsättande föga effekt av reward discouting.


Jag insåg inte heller då kopplingen till Stevens power law. Men läsande en antologi från tror jag 1970-talet där kopplingen noterades tillsammans med en diskussion (kritik av) om varför Thurstone kan ha varit inkorrekt (eller inte bättre av) att förutsätta att hans logaritmiska lösning (log (värde * konstant + konst) + konstant cirka) var bättre trots att som Thurstone uppges skrivit att hans andra lösning teoretiskt var mer tilltalande.


Värdera värde / emotionell potens i termer

Vi kan om vi så önskar exempelvis skriva Thurstone's lösning som: (k1 * X + k2)c där resp. k samt c är konstanter. Andra praktiskt ekvivalenta former existerar också. Det är menar jag korrekt att se k2 varande vad vi kan se som individuellt beroende och vid beräkning funktion rörande pengar åtminstone av hur mycket överskotts kapital vi kontrollerar. Därmed om behåller additionen är termen negativ.


När vi generaliserar rikedom till kunskap gäller nu att rikedomen är funktion av hur stor del av rymden termer vi har förståelse av. Därmed läggande möjlighet till bättre kontextuell påverkan hur vi väljer vad vi läser. Motsvarande för pengar större möjlighet att högre värdera värde hos något om det stämmer med en aktuell kontextuell koppling (där andra och fler värden kan existera): Utmärkt illustrerat av det vanliga åtminstone i USA att personer som gjort mycket pengar på företag de startat och sålt engagerar sig i olika samhällsförbättrande projekt.


När vi bedömer effekt titel i serp eller pagination (ex. det senare är en lista över de n senaste publicerade nyheterna eller mest besökta / e-postade nyheter hos en tidning) vill vi primärt underliggande individuella eller mindre-grupps skattningar såväl som bredare möjliggörande allmänna skattningar för alla människor ha en skattning gällande för den typiska människan.


Jag känner flera vägar man kan försöka sig på detta modifierande min lösning (eller Thurstone's som är näraliggande med den skillnaden att jag har fler variabler och dimensioner därför att bedömande kunskap är just mer fler-dimensionellt än pengar i mening av pris vara resp. pengar du har på banken) utan att se möjlighet att korrekt värdera dem mot varandra. Den lösning jag valde var den som var enklast (ej krävande att vi skattar ett genomsnitt av befolkningen från k2 konstanten i tidigare uttryck):


( k1 * X + 0 )C

Men skattning av C avviker något från vad flera som tidigt diskuterade Thurstone's lösning (såväl som Thurstone) själv nyttjade (som var 1/2 d.v.s. square-root / rotenur) men avviker ej mer än att jag praktiskt sätter den till 1/2 själv (för att vilket är allmän vana hos mig ex. också kallande den typ av skattade "sannolikhet" - som ej är en sannolikhet alls korrekt - bayesianska modeller av dokument-vikter ger oss för WP istället för P - för att understryka den magnitud för exakthet vi ligger på). Vi kan därför skriva uttrycket som:


( k1 * X)1/2

Vidare (avvikande från hur jag egentligen gör det). Antar vi att k1 är 1 (vilket vi ej fortsatt ska göra) har vi en av de vanligaste funktionerna för att beräkna frekvens för en term att utnyttja i vektor-modeller för information retrieval (den normala grundmodellen för att göra sökmotorer) medan den andra vanliga (och praktiskt antagligen vanligare använd: Med sådan grund-dum-vetskap att ha k1 till ett fungerar log troligt i allmänhet bättre för korta text-stycken likt första eller första och andra stycket för nyheter) är i formen samma som den lösning Thurstone valde istället för sqrt-funktionen han valde bort samt dessutom i formen nära nog exakt samma som i Fechner's law (en alternativ form att skriva Weber's law på menar många medan det är korrektare att se det snarare som att man i Fechner's law infört fler antaganden).


Sqrt-lösningen är dessutom just vad som i form exakt motsvarar Steven's power law uppenbart efter en trivial och helt ekvivalent omskrivning:


( k1 * X)1/2 == [Strikt lika med och K1 == sqrt ( k1 )] K1 (X)1/2

Och detta är tilltalande därför att:


"Stevens' power law is a proposed relationship between the magnitude of a physical stimulus and its perceived intensity or strength. It is often considered to supersede the Weber–Fechner law on the basis that it describes a wider range of sensations, although critics argue that the validity of the law is contingent on the virtue of approaches to the measurement of perceived intensity that are employed in relevant experiments. In addition, a distinction has been made between (i) local psychophysics, where stimuli are discriminated only with a certain probability, and (ii) global psychophysics, where the stimuli would be discriminated correctly with near certainty (Luce & Krumhansl, 1988)."

Från: Stevens' power law

Just upplevelsen - eller om vi så vill responsen i form av upplevelse eller för bl.a. pengar värderingen vi upplever av en summa pengar - av något presenterat för oss (signalen om vi så vill - ex. kostnaden för en vara eller summan pengar någon erbjuder oss för att göra något). Några exempel på värden på exponenten (bearbetning Wikipedia inkl. uteslutande av ett värde jag tror bygger på en äldre lite inkorrekt skattning):


Brightness 0.33 5° target in dark
Brightness 0.5 Point source
Brightness 0.5 Brief flash

Vibration 0.6 Amplitude of 250 Hz on finger

Loudness 0.67 Sound pressure of 3000 Hz tone

Taste 0.8 Saccharin

Vibration 0.95 Amplitude of 60 Hz on finger

Brightness 1 Point source briefly flashed

Visual length 1 Projected line

Taste 1.3 Sucrose

Taste 1.4 Salt

Redness (saturation) 1.7 Red-gray mixture

Det är nu för exponent av mig vald korrekt att se den jag skattade fram via metod jag ej nu, tidigare eller i framtiden har eller kommer diskutera som varande något högre än 1/2 mer där jämförbar med "loudness" och 1/2 använd som mer jämförbar med "brightness". Detta genom att "loudness" bryter av som onormalt och mer osannolikt medan "lightness" ligger närmare normalt förväntad ofta repeterat och sällan som specifik betydelse och faktor. Oavsett att nu mätosäkerhet och möjlighet till exakthet när vi skattar på ett helt språk som engelskan att det ej går att säga att resp. värden ligger mer eller mindre korrekt: De är samma på första värdesiffran.


Roten-ur förekomst är bättre men ej bra

När vi beräknar roten-ur förekomst i dokument som del av vektor-modeller rör vi oss i en väldigt annorlunda värld än när vi skattar effekten av titlar på den som ska välja att klicka eller inte på en länk i sökresultat.


Här handlar det först (men intressant nog ej främst: Ska en av de tre saker funktionen är funktionen av kastas är denna faktor ej den som är sämst att kasta) om att inse att förekomsten just i titeln om vi antar att det är vad vi ser ej är intressant. Förekomst av en term två gånger är möjligen mer effektiv än en gång men jag värderar själv ej detta utan räknar termer i titel en gång (att sökmotorer likt Google ofta begränsar längden man kan se talar också för att min approximation tenderar att ofta vara korrekt även om vi antar att dubbel eller kanske rent av trippel-förekomst är potentare än en term en gång - Jag förutsätter i abstrakt-modell faktiskt att fler-förekomst kan vara potentare men endast från ett visuellt perspektiv relaterat möjlighet att lägga märke till termen).


Förekomst vi istället än faktisk förekomst i titeln använder är istället funktion av termens allmänna förekomst som skattat av personens mentala lexikon.


Konstanten K1 introducerar emellertid fler variabler som är specifika för aktuellt koncept. De faktorer jag för att skatta vikt för snabb allmän värdering (tänkt centralitet för allt språk och alla personer) när vi förutsätter ZERO / NULL i kontextuellt beroende (termen vi sökte på påverkar ingenting) ges av:


1. Emotionell intensitet (EMI)

Här används dels mitt viktsystem emotionell intensitet. Emellertid från samma resonemang (såväl som ett par verifieringar av dess sundhet) som i Ej säkert att engelskan har ett positivt bias värderar vi (om vi så vill modulerar emotionell intensitet) också från hur kontextuellt spridd (fortfarande utan hänsyn till specifikt kontext i form av ex. sökord: Utan ordets normala kontext över all text det förekommer i) där smalare mer riktad förekomst antas betyda mer.


2. IDF

Begreppet som man oftast för nära besläktat mått (samma i hur beräkning normalt sker men något skild i hur kontext skattas) inom information retrieval (inverse document frequency men utan multiplikationen med term-frequency som vi ju redan lyft ut) vill se det / förklara måttets i allmänhet goda effekt sökresultat är att högre värde troligare indikerar att det är relevant kontext när utnyttjat medan koncept som the, of some m.fl. som förekommer i säkert nära nog alla dokument mindre troligt är specifikt intressanta för ett sökresultat vilket som helst.

Emellertid är detta ej alls hur vi ser på IDF här. Högre IDF gör konceptet tyngre att processa och det förstärker effekten av emotionell intensitet. Skattningen är mest korrekt just för negativa termer precis som diskuterat i Ej säkert att engelskan har ett positivt bias.


Är nu kostnaden att processa sådan att vi ej alls uppfattar konceptet eller mitt i ett långt koncept (kanske påstående av flera ord som ex. beta amyloid precursor protein diffuse axonal injury) slutar att läsa det därför att det känns tråkigt arbetsamt utan att det kompenserar av icke-tråkig emotionell potens skulle värderingen för individen bli noll. Detta är emellertid en påverkan som vi över alla personer för hela språket engelskan antar redan skattas in från frekvens-termen X.


Grundformen (utelämnande nu och fortsatt två till tre andra variabler jag använder primärt för att också kunna skatta "storlek" / "potens" för ex. länder, ämnesområden m.m. på sådant sätt att koncept kan jämföras med vandra) är därmed (på ett av flera sätt vi kan skriva det):


( IDF * EMI * Frekvens )1/2

Kompletterande information

Relaterade inlägg:


RT: "Frekvens" vs "emotionell intensitet" för adverb och adjektiv i NP modifierande intensitet
Att skatta komplexitet för NP är svårare än ofta föreslaget
Är "man" verkligen större än "woman"?
Ej säkert att engelskan har ett positivt bias
Frekvenser: Smoothing
Få- och Mång-dimensionella representationer av koncept


Heaps law

Det är mycket tänkbart att Heaps law är en del av en meningsfull utgångspunkt för att skatta effekt av storlek på mentalt lexikon såväl som kanske kontext.


Kontextuell effekt av sökorden

Är i sig faktorer jag värderar för all användning vi kan tänka oss relevanta bedöma SERP. Emellertid värdera det samma för sökresultat man själv kontrollerar direkt eller indirekt är jag mindre säker på är nödvändigt: I all rimlighet är det ju vad vi redan använt för att skapa SERP:en.


Två hyggligt snabba vägar (för mig jämförbart snabba) finns. Similarity resp. sannolikheten för samförekomst i kontext till termer. En hel del teori ungefär på den nivå som hade varit aktuell för mig att diskutera det om jag nu hade gjort det finns i alla normala handböcker information retrieval. En handbok passande att rekommendera som grundbok även om nu ingenting mer avancerat än denna nivå (och rörande sådant som representation och hantering av named entity, synonymer och form i mening ex. plural inte bra) är: An Introduction to Information Retrieval (dessutom :-) lider den typiskt för alla böcker Mannings skrivit av dennes "rädsla" / "obenägenhet" till fler-gram istället för 1-gram: Ytterst spekulativt kanske relaterat någon gemensam förklaring finns till det med hur han i sin bok om statistisk parsning görande varianter av t-test för bestämmande av om en collocation är verklig hellre skattar sig en mindre varians under strecket via collocations förekomst än via dess ord-delar vilket jag själv ej gör väljande tror jag sundare skattningen som ger den större variansen d.v.s. ex. för ett bigram ( P ( bigram ) - P (ord1) * P(ord2) ) / ( sqrt ( P (ord1) * P(ord2) ) istället för ( P ( bigram ) - P (ord1) * P(ord2) ) / ( sqrt ( P (bigram) ) - Testet i sig bygger ju på en förutsättning / jämförelse förutsättande att ord1 och ord2 kan vara beroende av varandra så i all rimlighet kan vi inte om testet inte ska tillåta lite väl mycket skala med variansen hos samförekomsten - Självklart är detta test vad som bakomliggande bygger på samma sak som PMI även om som hur PMI ofta används sämre därför att en enkel skala som troligare gör bedömningen sund om möjlighet till beräkning av sund brytpunkt annars saknas - Allt under antagande beräknande sannolikheter från vettig skattning av allt språk under åtminstone 1900-talet och framåt). Aktuella kapitel:


11. Probabilistic information retrieval
12. Language models for information retrieval

För dessa kapitel liksom för kapitel relaterade sådant som basform, synonymer m.m. tas någon hänsyn till hur människan faktiskt hanterar mening för koncept. Men de ger en utmärkt introduktion till de matematiska koncepten den intresserade därefter för mycket bättre resultat kan bygga vidare på för att hantera fler dimensioner av variabler inverkande. Min inköpta bok här har dock ej visat sig vara en av de böcker jag regelbundet använder för att slå upp saker i.


Boken diskuterar vidare IDF och ger en härledning av konceptet förutsättande ej ett mer generiskt kontext (motsvarande ex. contextual diversity inom psykologin) så mycket som ett stycke dokument normaliserat på storlek (även om just för härledningen om jag minns rätt detta antagande utelämnades) som resp. enhet IDF skattas från d.v.s. N i uttrycket nedan vara totala antalet dokument resp. n antalet dokument en term förekommer i minst en gång:


log ( N / n ) / log ( Z )

, där Z kan sättas till ex. 2 varande en konstant term för alla beräkningar som görs men tänkbart också kan ses som beroende av dimensions-rymden av mentalt lexikon ev. med ett lokalt beroende till resp. dokument termen detekterades i.

För alla dom som är troende nog på smoothing för att hamna där de generellt utnyttjar det finns lika lite i denna bok som någon annan jag läst diskussion om hur smoothing ska inverka på IDF. Smoothing antar ju förekomst av termer vi ej kan bedöma eller se och dessa ska ju också förekomma minst en gång. Nyligen refererade Dealing with zero word frequencies: A review of the existing rules of thumb and a suggestion for an evidence-based choice i Frekvenser: Smoothing visar kanske på en väg till hur man kan tänka här i dess diskussion av Good-Turing. Koppling till skattning av varianser för sådant som bedömning samförekomst diskuteras heller inte och jag har sökande ökad personlig trygghet ej lyckats hitta en god diskussion om detta i övrigt heller (även om en artikel om extraktion av medicinska termer bland publicerad forskning delvis berörde området: Medicin och biologi är för avancerade frågor extraktion information, natural language processing m.fl. områden bättre att söka svar från än artiklar och forskning publicerad från mer IT och data-associerade institutioner och författare).

Inverse document frequency och ranking på sökmotorer (appendix 1)

2015-01-08

1: D.v.s. motsvarande som sökningar nu normalt sker för tror jag alla användbara sökmotorer med stort index. Trots att åtminstone Google tycks för mig numera bygger åtminstone en del index dynamiskt men ev. utnyttjande operationer på mer stationära index motsvarande sådant som enskilda vanligare koncept för att forma resultat för mer ovanliga koncept såväl som naturligtvis motsvarande för kombinationer sedan länge är de alla mycket påverkade av vad som går att effektivt förberäkna för resp. sida (oavsett för beskrivande taggar externt som länkar eller innehållet i sig).


Förövrigt vad som också har en del kanske intressanta sidoeffekter av och till. Där ett exempel gäller åtminstone på en av de större sökmotorerna och ev. samtliga - då jag endast noterat det för en ej Google och ej brytt mig att titta på övriga här - att skattningar för inverse document frequency ex. beräknat från mycket stort corpus eller kanske utnyttjande antal hits för en mängd sökningar ej är ointressant relaterat ranking för åtminstone något kortare artiklar i ungefärlig storlek med typiskt tidningars nyheter ṕå nätet).


Vad man lätt kommer fel rörande IDF rörande detta och en del jämförbart (där jag själv förr hade en del problematik och egentligen inte fullt - men något av det kanske - förstår varför det påverkar märkbart för en del koncept) är skattningen av hela internet. Hela internet växer så klart vilket ger en del problem som växer till sig och vidare ger störningar tydligare när skattat ganska små koncept blir större - i detta fall tidigt är det egentligen potentiellt mer fördel eftersom de trycks upp som mer populära lite extra - men när de börjar bli sönder tjatade kommer problematiken av att utnyttja IDF-skattningen konceptuellt-felaktigt (om man nu gjorde det accepterande boost av koncept som blev populära utan hantering) bli tydligare. Dessa problem med ett växande internet är kanske mer uppenbara medan problematiskt felaktiga skattningar av hela internets storlek åtminstone för mig gav problem direkt. Huruvida man alls får sådana problem och hur stora de blir vid defekta skattningar torde mycket möjligt ha att göra med hur man beräkningar logaritmer m.m. inverkande på hur den i slut-resultat linjära (jämfört med andra slutberäknade värden) IDF-värdet kommer ut från det dividerade (eller vad vi nu kallar sådant icke-linjärt) givet att:


  • Vi egentligen inte har en aning om hur många koncept vi missat och hur mycket dessa i samlad storlek dessa representerar.
  • En del metoder för det finns föreslagna om man konsulterar referenslitteratur för att så att säga försöka "sampla ut" mer utan "bias".
  • Men jag håller samtliga av de metoder jag sett som av begränsat praktiskt värde för att ta ut IDF-värden funktionella här givet att vi behöver göra en mängd "request" (om vi ej använder annat corpus än sökresultat). D.v.s. antalet request önskas minimeras så att det hela inte håller på ett par år.
  • Givet antal från corpus, sökindex, eller kanske mer realistiskt en kombination av resp. (säg kanske 50 000 - 100 000 från realistiska web counts kombinerat med counts från corpus för mer ovanliga koncept på några miljoner eller mer) behöver därför tillsammans ge en realistisk skattning.
  • Den metod jag tillämpade var manuell-handpåläggning och kontroller tills det var uppenbart att jag låg ungefär rimligt. Bättre metoder för detta kan finnas men det är värt att här också komma ihåg att även om web count är tämligen approximativt funktionella på mycket vanliga resp. mer ovanliga kombinationer för vilka corpus saknas för ligger för bra mycket emellan en problematik från skillnaden mellan web counts - ibland närmare antal dokument medan de ibland mer motsvarar faktisk total förekomst beroende på vilken sökmotor och om sökmotorn väljer att skatta fram antalet snarare än den faktiskt vet antalet på nätet - där Google tycks tendera att göra en hel del skattningar tycktes för mig när jag brydde mig att små-titta på mina vanliga sökningar sommaren 2014 - kontra faktiskt antal förekomster-