Korrigering: Antal unika ord

2015-04-03

Jämförelsen med SUBTLEX (där jag fört samman SUBTLEX-US och SUBTLEX-UK) till en representation av antal typer för ord (alla 1-gram) i Få- och Mång-dimensionella representationer av koncept är om inte felaktig så felaktigt resonerade av mig och om det märks igenom tydligt missvisande:


"Rörande deras frekvenser inkl. deras normaliserade värden såg de vid en snabb-titt ut att vara mycket rimliga. Emellertid - vilket ej är vad de riktigt riktat in sig på heller - är antalet ord man har värden för inom specialistområden få. Detta gör antalet ord totalt få. Minns jag rätt var det ett par hundra tusen. I kontrast tror jag att jag 12 000 adjektiv som är property-indikerande från olika forskningsområden bl.a. prospekterande omvandlande adverb till adjektiv och följande upp i studier. Ex. har vi analgesic men inga av de många ord som börjar på analgesic. Det är verkligen ingen nackdel med datakällan.

Den imponerade i övrigt storligen på mig i antal värden associerade orden man samlat. Och kanske inkluderande ett par som hör till vad jag av och till samlar på mig för att uppdatera vissa vikter om än mer sällan krävande mycket manuellt mellan dem. Jag såg dessutom en del data runt om kring databasen kring concreteness. Jag har "gjort" abstract och concrete och det hörde till en av de minst värde-skaparna vikt-områdena där grundvikter från forskning psykologi tagits till analys text resp. associerande projektioner i kontext. Äldre vikter från området psykologi är också i mycket orimliga när man tittar manuellt på dem (vilket jag först inte gjorde tillräckligt i alla fall). Nära relaterade vikter imagery har också problem (var mitt intryck) men tydligt mindre (användbara för mig i alla fall nedviktat och kombinerande med annat bl.a. associations-studier till en form av normal)."

Skillnaden är ordentligt mindre än jag tror jämförelsen för adjektiv eller ev. siffra approximerad tolkad från andra typ- och "frekvens-typer" jag snarare tänkte på. En viss skillnad kommer sig också av att jag hanterar tecken utanför bokstäverna lite annorlunda för 1-gram vilket kanske ger cirka 500 - 1000 redundanta typer. Annars knappast mer än 50 000 fler ord när man räknar bort ord som finns med havande mätvärden men som jag troligare skattar nya frekvens-vikter för rörande ovanliga adverb, adjektiv m.m. runt ordet bas därför att de i användningen bedöms som för låga jämfört med den effekt de har naturligt för oss. Och ev. en bit nedanför 50 000 i skillnad.


Förövrigt är en tydlig skillnad och mer så än jag sett för bland större sample Google NGRAM (medan jag ej minns att jag jämfört med ex. Microsoft NGRAM) att effekt av den riktade sampling jag i delar gjorde och lät blanda samman märks mindre här.


Varför det är så har jag svårt att bedöma. Men det verkar väldigt rimligt att om jag istället hade jämfört med Google NGRAM's frekvenser för antal sidor ett ord förekommer på att skillnaden skulle bli något mindre än för frekvensen. Jag vet inte om någon liknande men mycket mindre effekt också kommer naturligt när man räknar frekvenser på böcker. Det är kanske inte vad jag skulle gissa på (men det är ju inte någon större effekt) som jag spontant skulle tänka mig att romaner m.m. allmänna böcker tar andel för dom cirka fyra sista år jag tittade på jämfört med sådant som referensböcker för olika ämnen: Möjligt har jag rätt här pekande på att effekten kommer från hur jag processade just detta material (svag effekt dock så ingenting som man behöver engagera sig förrän det blir dags att bygga om de här statistik delarna). Faktiskt mindre ngram-rymd även om jag minns det som att jag processade om dessa och då också gick ner från kanske de 12 senaste åren (eller ev. 22 senaste: Slutade på två minns jag) till de cirka fyra sista.


Ev. någon effekt av hur jag gjorde NGRAM-detektion i mening av funktion av antal NGRAM jag detekterade. Jag vill inte utesluta att jag kanske ej gjorde om det färskt för den mycket större rymden (vilken möjligen kanske kan ge någon sådan effekt). Visar sig effekten riktig lär jag inte igen använda Google NGRAM därför att jag också vet att den för försök att betrakta motsvarande ämnes-kategorier (som ej heller rimligt) inte tillför värde jämfört med riktad sampling. Det kan betyda (svårt att veta säkert utan att titta närmare på det vilket är tid helt obalanserad till vad man kan få ut av det som sample när man har försvarligt av annat samlat) att det här är statistik som jag heller inte vill ha för ord-frekvenserna.


Förövrigt när det gäller användning som statistik-parsning och jämförbart (och / eller allt där ord en entitet likt person, ort m.m. som kan vara specifikt ej behövs eller ens är önskvärt) är SUBTLEX ett bättre alternativ trots ganska tydligt färre frekvenser totalt. Och vad som gör den bättre är just att här stör riktad sampling av samma anledning som det ger mycket bättre skattningar av allt intensity-relaterat för sådant som är mycket mer av ett koncept (1-gram eller n-gram: Där jag har mina sista koncept runt cirka 18-gram med åtta stycken eller så där jag noterade idag att min smoothing i brist på counts samplade hade beräknat en approximativ sannolikhet på cirka x * 10^(-60) ner till -64 i potensen: Och antalet koncept med många ord faller självklart enormt snabbt efter fyra och fem-gram).