Sökmotorer: Att idag bygga ranking och index via länkar

Efter Google:s framgång med att använda länkar för index och ranking märkbar för mig sommaren 2009 har genom åren givit oss ett minst sagt stort antal sökmotorer av varierade slag som använder länkar. Mer fascinerande är dom som indexerar länkar som stödföretag till sökmotor-marketing av varierade slag (inte minst SEO) och ett exempel är SEOMoz (jag har inte prövat den själv men troligen ungefär jämförbart med andra med jämförbart antal indexerade sidor).

När det gäller nästan alla jag sett genom åren inriktade på att ranka innehåll för "slutanvändare" har kvaliteten vanligen varit direkt dålig. Det normala tycks dessutom vara att någon "gigantisk" enstaka eller en jämn kontinuerlig kvalitetsförbättring inte kommer på nivå där det i värde rör sig närmare Google.

Orsaken till det kan man diskutera där komplettering med annan statistik förutom länkar inte ska underskattas. Emellertid tror jag vanligen inte att huvudproblemet ligger just där eller bättre uttryckt att lösningarna nått där det är faktorer att börja försöka få ut värde ifrån.

Det finns tror jag en enklare åtgärd att pröva som jag tror kan lösa alla möjliga systematiska problem jag ser (också förekommande hos Bing av och till noterat i samband med Microsoft navigerar stabilt på stormande datahav och Bing! och Microsoft börjar kännas som ett seriöst sök-alternativ data nära). Gissningsvis är åtgärden kanske inte helt lätt för mindre lösningar som behöver prioritera spindlingstid eller har mer begränsad storlek på index men för större långsiktiga lösningar kanske värt att fundera över om inte redan utnyttjat.

När Google började styra index och ranking från Google gav det dem konkurrensfördel därför att särskilt Altavista missbrukades brutalt för porr-spam genom on-site-faktorer.

Länkar missbrukades ännu i väldigt liten utsträckning. "Verksamhetskunskap", "rutiner", "nätverk", investeringar i infrastruktur (gamla hemsidor o.s.v.), auktionstjänster för att handla med länkar o.s.v. var knappt utvecklat.

För den tidiga perioden ges därför en statistik utgångspunkt för att bygga upp features för vad som tycks vara en vettigt normal "länk" i form av kontext på sidan o.s.v. T-test (generellt vad jag själv föredrar tillsammans med en variant av jackard, se också t.ex. From Distributional to Semantic Similarity , mutual information, cosine similarity och andra välkända utgångspunkter för att bygga association runt features får en rimligt ren utgångspunkt att steg för steg definiera onormalt från.

Nya typer av problem som uppstår, möjlighet att lösa befintliga kvalitetsproblem ej beaktade o.s.v. blir dessutom i varje steg enklare vid en tidpunkt efter vår utgångspunkt. När de i rimlig utsträckning "eliminerats" från algoritmer som sprider påverkan vidare är det relativt utgångspunkten en ändå ganska begränsad förändring.

Ska man göra samma sak med början redan för många år sedan nu blir problemet mycket mer komplext.

En "enkel" typ-lösning kanske är möjlig:

Identifiera väsentlig publicerings-typ ex. blogg.
Identifiera de väsentliga övergripande plattformarna.
Värdera tids-förtroende.
För möjlighet att enklare kunna borra djupare och få ett särskilt prioriterat centralt corpus överväg att köpa en sådan väsentlig publiceringstjänst om prisvärd vilket de nog inte sällan är just nu för en aktör motsvarande Bing.
Det "kritiska" för ett sådant djup kanske inte just är att det som datakälla ska ge all information utan tillhanda-hålla trust-värdering t.ex. av tidsstämplar och IP-adresser och från därifrån identifierade vikter och association för features värdera andra liknande tjänster (det skulle inte förvåna mig om den här typen av köp gör mer än köp av konkurrerande sökmotorer).

Givet det går vi bakåt i tiden och skapar år för väldigt länge sedan. där köp inte självklart behöver vara nödvändigt men notera att det inte säkert går så himla snabbt att spindla ner ett par tre år av ex. Wordpress.com.

Värt att peka på är att om man implementerar denna lösning och kontrollerar tillförlitlighetsfaktorer rörande ex. tidsstämplar krävs viss försiktighet. Ex. Blogger.com gick bra att ändra runt förr men det är tror jag nu ändrat för att hindra det.

Om vi avslutningsvis skulle bli lite mer spekulativa och samtidigt mer exakta kan vi se en möjlig grupp av lösningen bestående av:

Similarity mellan koncepts som uttrycks.
Vikter givet association lokalt, globalt o.s.v. enligt vad som tros meningsfullt (ex. en särskild vikt för bloggar på plattformar där datumstämpel ej kan ändras).
Sannolikheten att länken inte följer kvalitetsriktlinjer alt. skadar index givet att den verkar följa en "konceptgrupp" som är normal.

Att uteslutande betrakta osäkerheten är problematiskt genom att emergens måste vara möjligt om index inte ska bli statistiskt alt. alltid försiktigt stegvis föränderligt.
Jag föreställer mig att det ofta för en ambitiös tjänst kommer ner till att i breda gränszoner öka upplösningen och exaktheten i den information vi ser där ett inlärningsförfarande inkluderar människor inte sällan är fallet. Också i allt runt det tror jag att det är mycket svårare att börja från idag snarare än att helt enkelt börja med en försvarlig stor mängd publicerade sidor från 1997 - 2001 för initiala vikter och från det eliminera bort problem samtidigt som man går framåt i tiden.