Inverse document frequency och ranking på sökmotorer (appendix 1)

¹: D.v.s. motsvarande som sökningar nu normalt sker för tror jag alla användbara sökmotorer med stort index. Trots att åtminstone Google tycks för mig numera bygger åtminstone en del index dynamiskt men ev. utnyttjande operationer på mer stationära index motsvarande sådant som enskilda vanligare koncept för att forma resultat för mer ovanliga koncept såväl som naturligtvis motsvarande för kombinationer sedan länge är de alla mycket påverkade av vad som går att effektivt förberäkna för resp. sida (oavsett för beskrivande taggar externt som länkar eller innehållet i sig).

Förövrigt vad som också har en del kanske intressanta sidoeffekter av och till. Där ett exempel gäller åtminstone på en av de större sökmotorerna och ev. samtliga - då jag endast noterat det för en ej Google och ej brytt mig att titta på övriga här - att skattningar för inverse document frequency ex. beräknat från mycket stort corpus eller kanske utnyttjande antal hits för en mängd sökningar ej är ointressant relaterat ranking för åtminstone något kortare artiklar i ungefärlig storlek med typiskt tidningars nyheter ṕå nätet).

Vad man lätt kommer fel rörande IDF rörande detta och en del jämförbart (där jag själv förr hade en del problematik och egentligen inte fullt - men något av det kanske - förstår varför det påverkar märkbart för en del koncept) är skattningen av hela internet. Hela internet växer så klart vilket ger en del problem som växer till sig och vidare ger störningar tydligare när skattat ganska små koncept blir större - i detta fall tidigt är det egentligen potentiellt mer fördel eftersom de trycks upp som mer populära lite extra - men när de börjar bli sönder tjatade kommer problematiken av att utnyttja IDF-skattningen konceptuellt-felaktigt (om man nu gjorde det accepterande boost av koncept som blev populära utan hantering) bli tydligare. Dessa problem med ett växande internet är kanske mer uppenbara medan problematiskt felaktiga skattningar av hela internets storlek åtminstone för mig gav problem direkt. Huruvida man alls får sådana problem och hur stora de blir vid defekta skattningar torde mycket möjligt ha att göra med hur man beräkningar logaritmer m.m. inverkande på hur den i slut-resultat linjära (jämfört med andra slutberäknade värden) IDF-värdet kommer ut från det dividerade (eller vad vi nu kallar sådant icke-linjärt) givet att:

Vi egentligen inte har en aning om hur många koncept vi missat och hur mycket dessa i samlad storlek dessa representerar.
En del metoder för det finns föreslagna om man konsulterar referenslitteratur för att så att säga försöka "sampla ut" mer utan "bias".
Men jag håller samtliga av de metoder jag sett som av begränsat praktiskt värde för att ta ut IDF-värden funktionella här givet att vi behöver göra en mängd "request" (om vi ej använder annat corpus än sökresultat). D.v.s. antalet request önskas minimeras så att det hela inte håller på ett par år.
Givet antal från corpus, sökindex, eller kanske mer realistiskt en kombination av resp. (säg kanske 50 000 - 100 000 från realistiska web counts kombinerat med counts från corpus för mer ovanliga koncept på några miljoner eller mer) behöver därför tillsammans ge en realistisk skattning.
Den metod jag tillämpade var manuell-handpåläggning och kontroller tills det var uppenbart att jag låg ungefär rimligt. Bättre metoder för detta kan finnas men det är värt att här också komma ihåg att även om web count är tämligen approximativt funktionella på mycket vanliga resp. mer ovanliga kombinationer för vilka corpus saknas för ligger för bra mycket emellan en problematik från skillnaden mellan web counts - ibland närmare antal dokument medan de ibland mer motsvarar faktisk total förekomst beroende på vilken sökmotor och om sökmotorn väljer att skatta fram antalet snarare än den faktiskt vet antalet på nätet - där Google tycks tendera att göra en hel del skattningar tycktes för mig när jag brydde mig att små-titta på mina vanliga sökningar sommaren 2014 - kontra faktiskt antal förekomster-