Skatta sannolikheterna sökningar från Wikipedias loggar

2014-06-01

Enklast och oerhört trevligt - därför att access-loggarna från Wikipedia är mycket stora, många och dessutom inte riktigt självklara vad de egentligen samplar där alla problem göms för oss och kanske också delvis mer effektivt lösta för många - är:



Förutom trevligt format är mycket tilltalande tror jag många upplever där såväl som nära relaterat Wikipedias organisation i övrigt att antalen vi får gäller för ett koncept vi kan mena oss förstå vad det är. Ett enkelt - och ofta väldigt sunt sett att lösa det genom - är att definiera världen enligt Wikipedia. Även om ändå ganska få entiteter och mer abstrakta koncept fullt i nivå med och större än många enskilda common sense (och för entiteter menande personer, f;retag, st'der, byar m.m. är Wikipedia lika gigantiskt när minikrav ställs på kontextuell infromation runt om entiteten).


Att skattning intresse upparbetat eller för en kortare tid upplevs direkt ges för entitet gör kanske saker enklare. En entitet ofta av och till tydligt lite intresserad av detta av och till är Google (kanske bland de senare cross-wikis jag möjligen minns namnet fel för) i Wikipedia och tror jag mer deras egen Freebase som kanske är mer ett långsiktigt ev. värde i datat men inte otroligt ett konkret värde köpt för mjukvaruplattformen hantering graf-näten.


Men är sidor och kategorier bra här?

Ett värde inser vi om vi kan lägga någon from av värdering eller hantering utifrån namespace ex. särbehandlande kategorier. Antar vi ej att vi kan det är skillnaden mellan förfrågningar terminerande i pseudo-sudor (fel eller förslag att göra en sida själv):


  • Att vi får data att ev. addera på lämpligt sett till request gjord. Ex. givet trafik till A eller indikationer sökande prospekternade Wikipedia efter sida terminerande troligt i A kan vi om just det intresserar oss kanske utnyttja ev. tydlig bild och första rader samt om ej direkt givet request titeln. Sådan information givet att man efterfrågade något av Wikipedia via någon av dess kanaler för det (sökning, url-fältet, titel-parametern m.m.).
  • Samt när sidan saknas bara förfrågningen.

Är statistik närmare associationer och statistik förfrågningar eller för användare prospekternade frågande efter information motsvarande en sökning ex. i en generell sökmotor all forskning, alla nyheter eller hela webben (den känner till) är det förstås mindre intressant. Poängen här är ju att kompensera bastillstånd för att få upp data tidigt innan andra kanaler etablerats (ex. köpande datat av större sökmotorer där man bör vara skeptisk kund tänkande runt sådant som absoluta kontra relativa värden och jämföra priserna - eller etablera det från många mindre kanaler vars kvalitet kan bedömas från ett lämpligt medelstort som Wikipedia - eller från kommande personer som söker i stort antal närmare eller över vad vi nu antar att Wikipedia med syster-projekt motsvarar).


Ty också om Wikipedia är stort gäller att även när ett fullt Wikipedia-kulturellt koncept efterfrågats att de inte alltid finns. Eller när de finns frågas till rätt språk-wiki (även om de nu av och till hanterar sådant som i Wiktionary). Det kan vara ett misslyckande av Wikipedia.


Och oavsett om Wikipedia levererar sida eller inte är kanske inte en överdrivet nitisk preferens till att anta att folk ska söka eller efterfråga information följande just hur Wikipedia namnger särskilt bra. Lite av att folk efterfrågar som de vill är mycket mer intressant tycker jag även om vi inte nödvändigtvis kan terminera det till rätt sida. Att reda ut vad som avses oavsett statistiken ska heller inte vara ett större problem: folk talar trots allt ett språk vi kan antas begripa en del av och relativt vettigt sökande skriva vad de vill ha. Trivialt illustrerat av sådant som En film om något (Movie), En film om något (Film), En film om något (Moving visuals), En film om något (Vulgar culture), En film om något m.m. vi kan tänka oss. En utmaning av och till är trots att Wikipedia hanterar området praktiskt i sina relationer mellan sidor bättre än nästan allt annat är att hitta rätt sida för något vi söker även när vi vet nära nog rätt eller helt rätt från de flestas preferens.


Frågan för att ta studien Quantifying Wikipedia Usage Patterns Before Stock Market Moves som exempel kan vi se som att vi kan uppleva oss välja mellan två perspektiv där ingen är kanske riktigt korrekt;


  • Är data mest intressant för att ge intressanta indikationer varumärken eller filmer själva trafiken på sidorna?
  • Eller att någon efterfrågat en sida om ett ämne?

Ty en del åtminstone skär ju korta svar. Och alla utanför rå-loggarna tror jag skär alla kanaler som ej är riktigt standardiserade men fullt fungerande (sådant jag tror kan vara från teknikområdet jag tror kallas appar samt toolbars och indirekta eller ev. också korrekt gjorda api:förfrågningar). Men jag vill i alla fall föreslå att jag mycket möjligt tar fel här. Som jag noterat här i övrigt har dessa delar av wiki-projekten ännu inte fått sin tysk som sitter och strukturerar upp saker: Samarbeten blir inte lika standardiserat enkla i gemensamt språk förrän gruppens tysk gjort sitt.



Förövrigt mer utmanande prediktion men i åtminstone områden görligt om man ser världens data bredare från webbkanaler än Wikipedia är prediktion konkreta nyhetshändelser ej orsakande i vår bedömning av tecken på intensitet utan närmare att folk inte gjort något eller uppmärksammat vad vi med någon sannolikhet tycker oss kunna se i analys. Enkelt exempel är slitage-relaterade olyckor. Men så klart börsen är ju ett fint värde-motiverande exempel nog så viktigt för att det ska bli ett intressant exempel som får folk att faktiskt läsa artikeln och från det kanske noterande andra möjligheter (Men om dom predikterar från det och en IP-adress per minut kostar så här mycket...).


Och vad efterfrågar man egentligen?

När vi hamnar på en entydig sida av en typ som likt China-Vietnam relations uttrycket ett fördjupat expertområde jämfört med när samma information finns på en övergripande sida för ett annat koncept? Ju hårdare man vill ha just trafiken för en sida desto svårare blir sådant i mening av att jag tror man antar väldigt mycket inte helt lätt att göra för något stort dynamiskt handskrivit av människor. En mängd andra relationer än mellan koncepten indikerade konkret nära titel som sökta saknas i alla fall delvis om vad som föregriper vilken information.


D.v.s. jag tycker man ofta hellre tar allt data man utan allt för plågsamt kan ta ut från loggarna inkl. alla media-typer, alla projekt, alla requests, alla implicita förfrågningar m.m. Men förstås filtrera requests som ej efterfrågar data utan söker plantera data eller manipulera själva mjukvaran (ex. datamaskiner som systematiskt tror jag försöker föra en url eller länkar i loggar som kan tänkas publiceras för sökmotorer eller intressera den som har webbsajten eller som försöjer tvinga mjukvaran att publicera dem - en hel del sådant finns i Wikipedia loggarna åtminstone för 2008, 2010 och 2012 jag gjorde en stor debug fil av från några stycken resp. - även om jag spekulerar att någon filtrering det tänkbart finns innan loggarna publiceras eller skapas).


Avacerad värdeskapande respektlöst oartig analys

Går utmärkt att göra även om jag inte är säker på att mängden data det ger gör det meningsfullt och ännu inte sett en samlad lite större mängd resultat man kan bedöma det från. D.v.s.


  • Implicit förfrågan information via någon av enklare kanaler utanför att be om Wikipedia-sida som läcker en del av och till betraktas.
  • Ex. när relevant Wikipedias sökresultat hämtas.
  • Trafik närastående för koncept vi vet är ganska ovanliga kontrolleras.

Jag vet att en del är lite småintresserade av sådant för modeller men för värdet jag söker ger det föga även om jag är mycket intresserad just av dessa kanaler i sig och om de ev. har det värde man kan hoppas närmare motsvarande riktiga sökningar i en sunt stor mängd. I så fall kanske man vill vikta upp dem något. Troligast är dock värdet man får approximativt det man kan ta ut av alla requests i loggarna man analyserar.


Samtidigt beror det förstås lite på vad man egentligen söker och hur viktigt ett värde upplevs kontra att kasta bort information. Samplar man närmare uniformt över några miljoner koncept i övrigt är några mer frekevens-uttryckande vikt-skattningar för att modulera PAB-relationer m.m. intressant eller i alla fall för att få jämförelsedata. Ett svårt problem eftersom samplar vi stort nog uniformt för att det ska bli ett problem krävs en tämligen stor datakälla med nära användaren relaterat data. På "andra sidan" så att säga i vad någon skrivit är det lättare men båda aspekterna är sunt att ha.


Förr för ett antal år sedan kunde man faktiskt få ut sådant här av en ganska stor kommersiell entitet i Kina. Men numera vill den inte alls att jag ens ska använda den utan registrering. Och sä krigiskt våldsamma Kina verkar nere i Asien har jag inte vågat försöka påstå mig vara kines eller vad som nu krävs. Man vill ju inte bli orsak till att de kommer hit och tar Öland eller Gotland. Emellertid får man dock översätta dem - en utmaning man ej ska överskatta när vi jämför Wikipedia eftersom det tycktes för mig att de kom närmare Wikipedias mer entydiga koncept naturligt (om datat var sunt som jag har skäl att tro) med mindre av meningar och natural language generering av informations-sökaren. Tråkigt nog har jag knappast mer än 10 till 50 tusen sådana värden vilket är nära nog ingenting här (resp. värde något och för en viss tidsperiod - kanske en dag eller liknande men om jag minns rätt inte i alla fall längre än kanske en vecka eller månad).


Var hittar vi loggarna?

Wikipedia & Co tror jag ännu inte fått en tysk för detta. Därigenom tycks - jag tror så - att ingen egentligen riktigt vet hur det här fungerar än möjligen någon enstaka som gjort något kring det vid något behov. Bl.a. görs uppenbart viss filtrering såväl tror jag att försvarliga mängder requests tappas.


Om sådant gör datat sämre vet jag inte. Söker man mer aktuellt för mig upparbetade värden mot bastillstånd kan man ta långa tidsperioder och det reducerar bort för något så stort som Wikipedia tror jag allt relaterat dom problemen (även om förstås koncept och relationer fortfarande är scarce< även betraktande allt jag har från 2007 till idag vilket inte riktigt är alla loggar men många av dem).


Om nu stats.grok.se eller "loggarna" nedan används tror jag inte gör någon skillnad eftersom loggarna sammanfattar ett större tidsfönster ganska likt stats.grok.se tidsfönste:


Jag tror de skär en hel del information jag när typen av data är scarce inte vill kasta bort. De större loggarna bakomliggande båda där det också är möjligt för den som är intresserade av temporala samband eller identifiera variationer i tiden (ex. att plötsligt blir Företag A väldigt besökt i Wikipedia - kanske indikerande några pr.medarbetare som sitter och skriver där och tittar in när andra skrivit investierande potentiellt en större marketing satsning där man bjuder till i pengar som kanske levererar upp varumärket till coolt och het - leverande en mer eller mindre säker eller osäker vinst om vi föregriper effekten några veckor innan särskilt om vi själva skriver lite coolt efteråt om företaget eller lägger på lite egen trafik till sidan) hittas nedan:

Och återigen Wikipedia har tycks det ej fått sin tysk i detta område. Därav är det lite klurigt hur man snabbt laddar ner dem. Jag tycker man inte ska kringgå det heller - utan tysk vet nog ingen vad det kan innebära i övrigt - så man får nöja sig med två parallella nedladningr till dumps.wikimedia.org.

Jag vil gärna säga att man måste ladda ner nästan om inte alla filerna och göra mycket med för att få ut något alls av datat. Men för populära koncept ej ovanliga räcker det nog bra med kortare tidsperioder ofta nog. Stats.grok.se ger antagligen en bra indikation om man behöver längre tidsperioder eller inte (ju mer scarce desto mer data vill vi ha bakåt såväl som nu för att orka se förändring).