Indexerade sökresultat: Microsoft i Google

2013-08-18

I en komplettering och fortsättning på Från Google till Microsoft - Information i domän sökresultat: Temasidor överliggande sökresultat attraherar mjukvaruagenten (2013-08-14) kan vi i skärmdumparna nedan se vad som ligger mycket närmare - praktiskt konkret - sökresultat indxerade:



Terminerande till sidor av denna sort:



Ett konkret exempel där jag från det indexerade sökresultatet dessutom reducerade bort ett par domäner för att söka reda ut vilken den totala verkande mängden url:er som avsetts kan tänkas vara (d.v.s. är det hela webben som jag utgick felaktigt från när jag började skriva eller är det ett subset ex. endast Microsoft sidor eller ett subset genom svag indexering eller kortare tidsrymd):



Att jämföra med den jag kom in på från Google's sökresultat:



För en liten man som jag mellan två gigantiska jättar fighting for world search domination är vad vi har ovan lika enkelt som nedan när det gäller att bibehålla perspektiv av en intresserad utomstående utan insats. Indexerade sökresultat (åtminstone om mer märkbara än vad jag tror dom är i Google) läcker information enligt föregående inlägg medan den faktiska indexeringen om gjord fet nog kan ge en del information till Google.


Nu ligger det lite utanför vidd och syfte på det här inlägget att ge någon guide till att extrahera statistiska data från sökresultat men jag upplever från åtminstone sidor enligt typen ovan att de är tämligen begränsade i läckage. Dessutom verkar det inte vara någon allmän sökfunktion (och av samma anledning tror jag inte att det är medvetet indexerat av Google jfr sidorna längre ner i hierarkin: mobilectp.microsoft.com/common/msearch.mspx).


En spekulativ gissning är att denna och ev. fler liknande indexerade sökresultat kanske tekniskt är besläktad med vad vi hade i föregående inlägg. Möjligen kan Microsoft har mer på att vinna att undvika att låta resultaten gå ut för att indexera.


Problemet - eller utmaningen - med den här sortens datakällor liggande så att säga ovanpå den webb vi tänker oss i sin tur göra sökresultat för är hur man för samman dem. Jämförbart tror jag är det ofta besvärligt nog att bara hantera differenterade skattningar av förekomster när okända faktorer finns. D.v.s. frågan väl illustrerat av mobilectp.microsoft.com ger ett index anpassat för ett särskilt ändåmål snarare än hela webben behöver man ju bäst känna det också.