Genomslag titel (effektstorlek) i SERP eller pagination

2015-04-10

Denna diskussion förberedande en tänkbar jämförelse Bing och Google hör troligen till de såväl mest avancerade som praktiskt tillämpning (åtminstone med rätt datakälla) enklaste. Det tycks dessutom troligt att jag i delar jämfört med normalt för mig motiverar samband föga via referenser.


Det mest triviala och välkänd sambanden är relaterat position. Högre upp gynnas. Detta tas fortsättningsvis som välkänd kunskap för läsaren och vi diskuterar det ej vidare.


Barnet resp. Icke-experten

Barn tenderar att reagera mer än vuxna på emotionella termer. Ibland kallas fenomenet för "kiss- och bajs-humor" även om jag vill understryka att jag ej alls tror att det är begränsat till just sådant även om kanske vanligare därför att det är generellt emotionellt tydliga begrepp vi där hittar barnen haft möjlighet att mött.


Barnens generella "mentala lexikon" är dessutom mindre. För varje situation barnet söker vetskap eller söker beskriva något har emotionella termer dessutom mindre att konkurrera med (åtminstone under antagande att de lärs snabbare: Jag vill att läsaren nu och fortsatt oavsett orsak tar sambandet till storlek lexikon för givet där jag är minst sagt trygg i det men egentligen föga övertygad om att det för barn är beroende av att de lär emotionellt potenta termer tidigare under ett antal av barn åren).


Den vuxna icke-experten sökande svar på en fråga bland säg ganska begrepps-avancerade studier publicerade kommer också tendera att prioritera emotionellt starka termer mer än vad som gäller experten.


Men vad är det som värderas ner för icke-experten? Det är den kontextuella kopplingen till representationen av frågan icke-experten söker svaret på. Termer förvisso möjligt nära ett optimalt svar men okända rörande betydelse och "samtidighet i kontext" känns bara okända och jobbiga eftersom de behöver slås upp. Den som söker information via sökmotor tenderar åtminstone under tidiga försök att hitta rätt information att hoppa över dem.


Stålar: Kunskap är pengar

Vad kan vi lära från reward discounting, utility-funktioner för stålar och värde och hela detta område? Tråkigt nog inom ekonomisk forskning efter att minst sagt noggrant och omfattande sökt över området flera gånger sista fem - sex åren finns föga presterat vi kan utnyttja sista årtionden med början 1980-talet. Längre bakåt var dessbättre flera hög-presterande inom ett antal områden intresserade också här. Rörande reward discounting har också excellent mycket välgjorda studier givit hos klarhet från andra områden som bl.a. neuroscience (ex. för en av de första jag läste apor som fick jos-belöningar: Jos om söt och ej är vad du kan köpa hög-koncentrerat i stora påsar med färgglada klumpar är potent belöning - Missbrukar du godis regelbundet är små mängder jos ej belöning för dig alls).


Rörande stålar direkt inser vi alla att har du bra med pengar påverkar det vad du är beredd att göra för en summa pengar. Samma sak gäller också mat. Skillnaden mellan mat och pengar är att mat är mer konkret medan pengar är mer abstrakt. Preferens i aktivering i orbitofrontala cortex där inlärd värdering finns skiljer sig något åt mellan konkreta och abstrakta (vilka vill jag mena skiljer sig ut från konkreta belöningar genom att vara mindre tidsberoende här och nu och att de konkreta kanske har sin preferens i område inlärda från att dessa områden lättare möter och påverkas av andra delar i hjärnan som har kontroll över om vi ex. är svultna).


Värdet av 1000 kr är mindre för den som har 1000 * 1000 kr men ej under överskådlig tid behöver använda till något nödvändigt likt mat och boende. Har du ej ätit på flera dagar och ej har pengar eller ej får använda pengar du har till att köpa mat är värdet av 1000 kr ytterst konkret och närmast som du ser vad det översätter till i form av mat övervärderat (tårta, godis, kött m.m. föreställande dig värdet av det känns stort).


Vi inser - nu jämförande med Webers law - att en brytpunkt i värde givet något vi är beredda att göra för att få en given summa finns. En viss förändring i pengar vi kontrollerar efter att ha gjort händelsen krävs för att pengarna ska ha ett värde vi uppfattar som relevant märkbart för oss.


Omvärderande praktiskt värde av Steven's power law

För praktisk analys av de typer som varit aktuella för mig har i allmänhet de tidiga formerna av Weber's law tveklöst varit de mest funktionella för mig d.v.s. förändringen dividerad med storlek innan. Storlek innan förändring ger oss skattningen av magnituden. För nyheter krävs mer nytt om en nyhetshändelse pågående nästa dag än dagen innan för att vi ska vara lika intresserade igen (efter några initiala dagar). Den initiala skandalen att mycket kända politiker A tagit mutor i form av både pengar, manliga prostiterade (vi antar gender-politiskt korrekt en kvinnlig politiker lika från könet som manen benägen till korruption och omoral). Skillnaden första dagen är gigantisk och ger stort intresse medan extra ny kunskap några veckor senare om att personen dessutom tog mutor något år innan på lägre nivå (det börjar med en silversked och slutar med 10 000 000 kr på off-shore-bankkonto som det gamla talesättet säger omvandlat till Sverige idag efter 100 år av god ekonomisk tillväxt).


Samtidigt har jag såväl för skattning reward och värde av pengar, signal respons modeller, och för förekomst av fler-gram i dokument (i vektor-modeller för information retrieval) använt en funktion jag tagit ut som lösning av differential ekvationer. Det var först i förrgår jag insåg att denna funktion troligt bygger och förutsätter samma fenomen i hjärnan som Stevens power law. Att jag förr inte insett det är underligt och möjligt delvis relaterat att jag just praktiskt i allt annat värderat Stevens power law lågt ("aldrig" - vad jag insåg - använd av mig).


Läsande referenser av giganten i sund-påverkan psykologins forskning Thurstone (Thurstone i grundutbildning närmare civilingenjör hade en helt annan matematisk vetskap än normalt vid tiden inom psykologin och skapade därför ensam mer eller mindre stora delar av grunden efter den tyska tidiga perception psykologins insatser till den matematiska psykologin) nått en likartad representation som lösning av en differential ekvation jag ej funnit uttryckt i diskussion av resultaten (den ofta angiven är helt säkert ofullständig i mening för grovt förenklad). Detta som lösning av hur mycket mindre man värderar kostnaden för ex. ett föremål att handla just nu (d.v.s. här och som för mig förutsättande föga effekt av reward discouting.


Jag insåg inte heller då kopplingen till Stevens power law. Men läsande en antologi från tror jag 1970-talet där kopplingen noterades tillsammans med en diskussion (kritik av) om varför Thurstone kan ha varit inkorrekt (eller inte bättre av) att förutsätta att hans logaritmiska lösning (log (värde * konstant + konst) + konstant cirka) var bättre trots att som Thurstone uppges skrivit att hans andra lösning teoretiskt var mer tilltalande.


Värdera värde / emotionell potens i termer

Vi kan om vi så önskar exempelvis skriva Thurstone's lösning som: (k1 * X + k2)c där resp. k samt c är konstanter. Andra praktiskt ekvivalenta former existerar också. Det är menar jag korrekt att se k2 varande vad vi kan se som individuellt beroende och vid beräkning funktion rörande pengar åtminstone av hur mycket överskotts kapital vi kontrollerar. Därmed om behåller additionen är termen negativ.


När vi generaliserar rikedom till kunskap gäller nu att rikedomen är funktion av hur stor del av rymden termer vi har förståelse av. Därmed läggande möjlighet till bättre kontextuell påverkan hur vi väljer vad vi läser. Motsvarande för pengar större möjlighet att högre värdera värde hos något om det stämmer med en aktuell kontextuell koppling (där andra och fler värden kan existera): Utmärkt illustrerat av det vanliga åtminstone i USA att personer som gjort mycket pengar på företag de startat och sålt engagerar sig i olika samhällsförbättrande projekt.


När vi bedömer effekt titel i serp eller pagination (ex. det senare är en lista över de n senaste publicerade nyheterna eller mest besökta / e-postade nyheter hos en tidning) vill vi primärt underliggande individuella eller mindre-grupps skattningar såväl som bredare möjliggörande allmänna skattningar för alla människor ha en skattning gällande för den typiska människan.


Jag känner flera vägar man kan försöka sig på detta modifierande min lösning (eller Thurstone's som är näraliggande med den skillnaden att jag har fler variabler och dimensioner därför att bedömande kunskap är just mer fler-dimensionellt än pengar i mening av pris vara resp. pengar du har på banken) utan att se möjlighet att korrekt värdera dem mot varandra. Den lösning jag valde var den som var enklast (ej krävande att vi skattar ett genomsnitt av befolkningen från k2 konstanten i tidigare uttryck):


( k1 * X + 0 )C

Men skattning av C avviker något från vad flera som tidigt diskuterade Thurstone's lösning (såväl som Thurstone) själv nyttjade (som var 1/2 d.v.s. square-root / rotenur) men avviker ej mer än att jag praktiskt sätter den till 1/2 själv (för att vilket är allmän vana hos mig ex. också kallande den typ av skattade "sannolikhet" - som ej är en sannolikhet alls korrekt - bayesianska modeller av dokument-vikter ger oss för WP istället för P - för att understryka den magnitud för exakthet vi ligger på). Vi kan därför skriva uttrycket som:


( k1 * X)1/2

Vidare (avvikande från hur jag egentligen gör det). Antar vi att k1 är 1 (vilket vi ej fortsatt ska göra) har vi en av de vanligaste funktionerna för att beräkna frekvens för en term att utnyttja i vektor-modeller för information retrieval (den normala grundmodellen för att göra sökmotorer) medan den andra vanliga (och praktiskt antagligen vanligare använd: Med sådan grund-dum-vetskap att ha k1 till ett fungerar log troligt i allmänhet bättre för korta text-stycken likt första eller första och andra stycket för nyheter) är i formen samma som den lösning Thurstone valde istället för sqrt-funktionen han valde bort samt dessutom i formen nära nog exakt samma som i Fechner's law (en alternativ form att skriva Weber's law på menar många medan det är korrektare att se det snarare som att man i Fechner's law infört fler antaganden).


Sqrt-lösningen är dessutom just vad som i form exakt motsvarar Steven's power law uppenbart efter en trivial och helt ekvivalent omskrivning:


( k1 * X)1/2 == [Strikt lika med och K1 == sqrt ( k1 )] K1 (X)1/2

Och detta är tilltalande därför att:


"Stevens' power law is a proposed relationship between the magnitude of a physical stimulus and its perceived intensity or strength. It is often considered to supersede the Weber–Fechner law on the basis that it describes a wider range of sensations, although critics argue that the validity of the law is contingent on the virtue of approaches to the measurement of perceived intensity that are employed in relevant experiments. In addition, a distinction has been made between (i) local psychophysics, where stimuli are discriminated only with a certain probability, and (ii) global psychophysics, where the stimuli would be discriminated correctly with near certainty (Luce & Krumhansl, 1988)."

Från: Stevens' power law

Just upplevelsen - eller om vi så vill responsen i form av upplevelse eller för bl.a. pengar värderingen vi upplever av en summa pengar - av något presenterat för oss (signalen om vi så vill - ex. kostnaden för en vara eller summan pengar någon erbjuder oss för att göra något). Några exempel på värden på exponenten (bearbetning Wikipedia inkl. uteslutande av ett värde jag tror bygger på en äldre lite inkorrekt skattning):


Brightness 0.33 5° target in dark
Brightness 0.5 Point source
Brightness 0.5 Brief flash

Vibration 0.6 Amplitude of 250 Hz on finger

Loudness 0.67 Sound pressure of 3000 Hz tone

Taste 0.8 Saccharin

Vibration 0.95 Amplitude of 60 Hz on finger

Brightness 1 Point source briefly flashed

Visual length 1 Projected line

Taste 1.3 Sucrose

Taste 1.4 Salt

Redness (saturation) 1.7 Red-gray mixture

Det är nu för exponent av mig vald korrekt att se den jag skattade fram via metod jag ej nu, tidigare eller i framtiden har eller kommer diskutera som varande något högre än 1/2 mer där jämförbar med "loudness" och 1/2 använd som mer jämförbar med "brightness". Detta genom att "loudness" bryter av som onormalt och mer osannolikt medan "lightness" ligger närmare normalt förväntad ofta repeterat och sällan som specifik betydelse och faktor. Oavsett att nu mätosäkerhet och möjlighet till exakthet när vi skattar på ett helt språk som engelskan att det ej går att säga att resp. värden ligger mer eller mindre korrekt: De är samma på första värdesiffran.


Roten-ur förekomst är bättre men ej bra

När vi beräknar roten-ur förekomst i dokument som del av vektor-modeller rör vi oss i en väldigt annorlunda värld än när vi skattar effekten av titlar på den som ska välja att klicka eller inte på en länk i sökresultat.


Här handlar det först (men intressant nog ej främst: Ska en av de tre saker funktionen är funktionen av kastas är denna faktor ej den som är sämst att kasta) om att inse att förekomsten just i titeln om vi antar att det är vad vi ser ej är intressant. Förekomst av en term två gånger är möjligen mer effektiv än en gång men jag värderar själv ej detta utan räknar termer i titel en gång (att sökmotorer likt Google ofta begränsar längden man kan se talar också för att min approximation tenderar att ofta vara korrekt även om vi antar att dubbel eller kanske rent av trippel-förekomst är potentare än en term en gång - Jag förutsätter i abstrakt-modell faktiskt att fler-förekomst kan vara potentare men endast från ett visuellt perspektiv relaterat möjlighet att lägga märke till termen).


Förekomst vi istället än faktisk förekomst i titeln använder är istället funktion av termens allmänna förekomst som skattat av personens mentala lexikon.


Konstanten K1 introducerar emellertid fler variabler som är specifika för aktuellt koncept. De faktorer jag för att skatta vikt för snabb allmän värdering (tänkt centralitet för allt språk och alla personer) när vi förutsätter ZERO / NULL i kontextuellt beroende (termen vi sökte på påverkar ingenting) ges av:


1. Emotionell intensitet (EMI)

Här används dels mitt viktsystem emotionell intensitet. Emellertid från samma resonemang (såväl som ett par verifieringar av dess sundhet) som i Ej säkert att engelskan har ett positivt bias värderar vi (om vi så vill modulerar emotionell intensitet) också från hur kontextuellt spridd (fortfarande utan hänsyn till specifikt kontext i form av ex. sökord: Utan ordets normala kontext över all text det förekommer i) där smalare mer riktad förekomst antas betyda mer.


2. IDF

Begreppet som man oftast för nära besläktat mått (samma i hur beräkning normalt sker men något skild i hur kontext skattas) inom information retrieval (inverse document frequency men utan multiplikationen med term-frequency som vi ju redan lyft ut) vill se det / förklara måttets i allmänhet goda effekt sökresultat är att högre värde troligare indikerar att det är relevant kontext när utnyttjat medan koncept som the, of some m.fl. som förekommer i säkert nära nog alla dokument mindre troligt är specifikt intressanta för ett sökresultat vilket som helst.

Emellertid är detta ej alls hur vi ser på IDF här. Högre IDF gör konceptet tyngre att processa och det förstärker effekten av emotionell intensitet. Skattningen är mest korrekt just för negativa termer precis som diskuterat i Ej säkert att engelskan har ett positivt bias.


Är nu kostnaden att processa sådan att vi ej alls uppfattar konceptet eller mitt i ett långt koncept (kanske påstående av flera ord som ex. beta amyloid precursor protein diffuse axonal injury) slutar att läsa det därför att det känns tråkigt arbetsamt utan att det kompenserar av icke-tråkig emotionell potens skulle värderingen för individen bli noll. Detta är emellertid en påverkan som vi över alla personer för hela språket engelskan antar redan skattas in från frekvens-termen X.


Grundformen (utelämnande nu och fortsatt två till tre andra variabler jag använder primärt för att också kunna skatta "storlek" / "potens" för ex. länder, ämnesområden m.m. på sådant sätt att koncept kan jämföras med vandra) är därmed (på ett av flera sätt vi kan skriva det):


( IDF * EMI * Frekvens )1/2

Kompletterande information

Relaterade inlägg:


RT: "Frekvens" vs "emotionell intensitet" för adverb och adjektiv i NP modifierande intensitet
Att skatta komplexitet för NP är svårare än ofta föreslaget
Är "man" verkligen större än "woman"?
Ej säkert att engelskan har ett positivt bias
Frekvenser: Smoothing
Få- och Mång-dimensionella representationer av koncept


Heaps law

Det är mycket tänkbart att Heaps law är en del av en meningsfull utgångspunkt för att skatta effekt av storlek på mentalt lexikon såväl som kanske kontext.


Kontextuell effekt av sökorden

Är i sig faktorer jag värderar för all användning vi kan tänka oss relevanta bedöma SERP. Emellertid värdera det samma för sökresultat man själv kontrollerar direkt eller indirekt är jag mindre säker på är nödvändigt: I all rimlighet är det ju vad vi redan använt för att skapa SERP:en.


Två hyggligt snabba vägar (för mig jämförbart snabba) finns. Similarity resp. sannolikheten för samförekomst i kontext till termer. En hel del teori ungefär på den nivå som hade varit aktuell för mig att diskutera det om jag nu hade gjort det finns i alla normala handböcker information retrieval. En handbok passande att rekommendera som grundbok även om nu ingenting mer avancerat än denna nivå (och rörande sådant som representation och hantering av named entity, synonymer och form i mening ex. plural inte bra) är: An Introduction to Information Retrieval (dessutom :-) lider den typiskt för alla böcker Mannings skrivit av dennes "rädsla" / "obenägenhet" till fler-gram istället för 1-gram: Ytterst spekulativt kanske relaterat någon gemensam förklaring finns till det med hur han i sin bok om statistisk parsning görande varianter av t-test för bestämmande av om en collocation är verklig hellre skattar sig en mindre varians under strecket via collocations förekomst än via dess ord-delar vilket jag själv ej gör väljande tror jag sundare skattningen som ger den större variansen d.v.s. ex. för ett bigram ( P ( bigram ) - P (ord1) * P(ord2) ) / ( sqrt ( P (ord1) * P(ord2) ) istället för ( P ( bigram ) - P (ord1) * P(ord2) ) / ( sqrt ( P (bigram) ) - Testet i sig bygger ju på en förutsättning / jämförelse förutsättande att ord1 och ord2 kan vara beroende av varandra så i all rimlighet kan vi inte om testet inte ska tillåta lite väl mycket skala med variansen hos samförekomsten - Självklart är detta test vad som bakomliggande bygger på samma sak som PMI även om som hur PMI ofta används sämre därför att en enkel skala som troligare gör bedömningen sund om möjlighet till beräkning av sund brytpunkt annars saknas - Allt under antagande beräknande sannolikheter från vettig skattning av allt språk under åtminstone 1900-talet och framåt). Aktuella kapitel:


11. Probabilistic information retrieval
12. Language models for information retrieval

För dessa kapitel liksom för kapitel relaterade sådant som basform, synonymer m.m. tas någon hänsyn till hur människan faktiskt hanterar mening för koncept. Men de ger en utmärkt introduktion till de matematiska koncepten den intresserade därefter för mycket bättre resultat kan bygga vidare på för att hantera fler dimensioner av variabler inverkande. Min inköpta bok här har dock ej visat sig vara en av de böcker jag regelbundet använder för att slå upp saker i.


Boken diskuterar vidare IDF och ger en härledning av konceptet förutsättande ej ett mer generiskt kontext (motsvarande ex. contextual diversity inom psykologin) så mycket som ett stycke dokument normaliserat på storlek (även om just för härledningen om jag minns rätt detta antagande utelämnades) som resp. enhet IDF skattas från d.v.s. N i uttrycket nedan vara totala antalet dokument resp. n antalet dokument en term förekommer i minst en gång:


log ( N / n ) / log ( Z )

, där Z kan sättas till ex. 2 varande en konstant term för alla beräkningar som görs men tänkbart också kan ses som beroende av dimensions-rymden av mentalt lexikon ev. med ett lokalt beroende till resp. dokument termen detekterades i.

För alla dom som är troende nog på smoothing för att hamna där de generellt utnyttjar det finns lika lite i denna bok som någon annan jag läst diskussion om hur smoothing ska inverka på IDF. Smoothing antar ju förekomst av termer vi ej kan bedöma eller se och dessa ska ju också förekomma minst en gång. Nyligen refererade Dealing with zero word frequencies: A review of the existing rules of thumb and a suggestion for an evidence-based choice i Frekvenser: Smoothing visar kanske på en väg till hur man kan tänka här i dess diskussion av Good-Turing. Koppling till skattning av varianser för sådant som bedömning samförekomst diskuteras heller inte och jag har sökande ökad personlig trygghet ej lyckats hitta en god diskussion om detta i övrigt heller (även om en artikel om extraktion av medicinska termer bland publicerad forskning delvis berörde området: Medicin och biologi är för avancerade frågor extraktion information, natural language processing m.fl. områden bättre att söka svar från än artiklar och forskning publicerad från mer IT och data-associerade institutioner och författare).