Citatet vi har nedan från
A Comparison of Features for Automatic Readability Assessmen ("Google-forskning") är intressant inte därför att jag har någon åsikt om det är rätt eller fel (diskuterar det dock sist) eller tror att algoritmen i sig nödvändigtvis är viktigt utan därför att den är nära relaterad till en grupp av algoritmer både i vad man ser hos "outliers" (ex. schizofrena) i språk, likhet i vad man detekterar i språk m.m. är besläktade:
"We hypothesized that the number of entities introduced in a text relates to the working memory
burden on their targeted readers – individuals with intellectual disabilities. We defined entities as a union of named entities and general nouns (nouns and proper nouns) contained in a text, with overlapping general nouns removed. Based on this, we implemented four kinds of entity-density features: total number of entity mentions per document, total number of unique entity mentions per document, average number of entity mentions per sentence, and average number of unique entity mentions per sentence.
We believe entity-density features may also relate to the readability of a text for a general audience."
Från: A Comparison of Features for Automatic Readability Assessment
Av och till har jag pekat på att många bra algoritmer relaterade till textanalys publicerade tidigt fram till 1960-talet glömdes bort och har återupptäcktes senaste åren. En orsak kan vara att big data kräver snabbare algoritmer.
En del tidiga resultat inte exakt motsvarande vad man pekat på i den här artikeln men relaterat till likartade mått värda att titta i området har vi ungefär med början från mitten av 1940-talet.
Från 1944 finns
Studies in language behavior: I. A program of research,
Psychological Monographs, där
type-token ratio definierades som ett mått på hur varierat språket är. Utifrån en standardlängd av 100, 200, 500 eller 1000 ord söker man antalet olika ord. TTR vid schizofreni är i tidig forskning (och sådan ska man fästa lägre vikt vid men jag tror detta kan stämma).
Vi kan relatera
TTR till också tidigt publicerade
adjective-verb ratio kanske först publicerad av Boder 1940. Även här såg man schizofrena använde färre adjektiv.
De gemensamma samband i dessa och flera andra grova skattningar jag tror finns och haft visst praktiskt värde att utgå från finns diskuterade jag i kommentaren till en artikel
NewScientist som hittas här:
Kommentar i NewScientist om "I" och "We"
Vi kan se det enkelt relaterat till noterat i flera studier relaterat till reklam respektive kreativitet. I det abstrakta söks samband längre ut medan i det konkreta söker vi det direkt omedelbart relevanta.
Abstrakt liksom argumentation till någon som är abstrakt är troligare vid gott humör. Denna är också oftare framgångsrik om den är mer konceptuell med känslor och med mindre exakthet.
Orsaken till det torde ligga i vad flera föreslagna modeller utifrån aktivitet av hjärnan finns för (där jag har för mig att en publicerades för inte alls särskilt många veckor eller månader sedan i
PLoS ONE) d.v.s. för att fånga söka korrelation längre ut krävs en större investering av neuroner. Många mekanismer förutom enklare mer intuitiva samband från fysiken kan vi se relaterat till det och inte minst i föreställning de motsvarande spatiella neuroner relaterade också till andra dimensioner för att visa samband dit ju lokaliserad aktivitet behöver korrelera först innan de långa sambanden kan fångas.
Gäller nu för att ta detta densitet-mått att fler entiteter
viktiga föreligger är nu inte uppgiften för läsaren nödvändigtvis bara att resonera direkt medvetet just i arbetsminne utan troligare oftare att implicit utan direkt medvetenhet söka samband och likhet mellan dem för att försöka söka samband, mening och syfte med artikeln.
Det är därför
svårt att dra slutsatser bara av ngram densitet.
Utanför tidigare diskuterat är en till grupp av faktorer så styrande att det påverkar ordentligt i vilka ngram som ska värderas och hur. Som vi vet från psykologin gäller att tidig information påverkar mer. D.v.s. features, korrelation m.m. kommer sökas och definieras mycket troligare utifrån dessa.
Från det förstår vi att den kognitiva kostnaden för att addera fler ngram senare än tidigt när dessa utgångspunkter är satta är reducerad. Hur reducerad kan jag inte bedöma men vi kan ju konstatera att själva fenomenet med ökad kraft i tidig information är
kraftig.
På det gäller att ngram i sig inte är uteslutande lokaliserad i artikeln. De förekommer i flera liksom läsarens liv. Likhet, korrelation m.m. denne har fokus på och detekterar styrs av det. Därför att jag egentligen inte drar slutsatser och mäter artiklar annat än för att skicka vidare till symbol mind vilken i sin tur utifrån applikation (ex. sökning) används och därifrån också i likhet artiklar (d.v.s. symbol mind styr vikter för artiklar också med fördelen att Twitter m.m. förutom news stories kan användas för att bygga symbol mind).
Vi kan betrakta approximationer av spread och commotion där vi för första söker fångar hur uttryckt symboler är till andra symboler. Ex. ofta förekommande body till symbol a. Den kognitiva kostnaden för dessa torde vara lägre (dock bl.a. relaterat till att vi lättare missar betydelsen av dem: hemma blinda).
Problemet med mått som ngram density (och många av de liknande diskuterade) i ett bredare perspektiv än läsbarhet finns också i distanserna mellan dem lokalt, globalt respektive i kontext av relevans för artikeln. Hur väl ska en viss artikel täcka upp ett område? Där förstår vi att stor skillnad i förväntan hos läsaren finns mellan en uppslagssida om London på Wikipedia och en nyhet om hunduppfödning i London rörande ngram relaterade till London.