Google Search Suggestions: Defekt demonstrerar bredare taktik

2015-03-19

Sista åren har jag upplevt att Google experimenterat med diverse små och i litteratur välkända metoder utanför de mer avancerande runt kärn-algoritm - manipulerande indata från sökningar såväl dokument - som ofta indikeras som tänkbara vägar till förbättringar. Jag har vad jag minns egentligen aldrig tyckt de förbättrat något men självklart är det inte alls lika troligt att jag lägger märke till sådana förbättringar när de fungerar bra lika lite som jag troligt lägger märke till sådana problem när de försvinner.


Problematiken i kvalitet från mitt perspektiv och hur jag söker är att dessa förändringar smetar ut mening och reducerar möjlighet att söka ytterst exakt. Det gör det svårare att gå från ganska breda begrepp man börjat med i en sökning och kontinuerligt addera på för området ganska smala men exakt krävande begrepp.


Ett exempel från nyligen var att Google gav en försvarlig mängd sökträffar innehållande complex när sökterm var complexity. Och complexity var som adderad term till en sökning bl.a. (övergripande topp och satt först) grammatical. Därmed fick jag en mängd träffar relaterade "complex phrases" av olika sorter. Men det var ju verkligen inte vad jag sökte på:


  • Jag sökte på complexity.
  • Det är i betydelse ett radikalt annorlunda från complex inom området av att tolka och förstå mänskligt språk.
  • Meningen är nära associerad till bl.a. information och entropi.

Att hitta ett annat begrepp som bra ersätter complexity går ej men däremot hade jag kunnat prövat att addera -"complex (jag har fått för mig att man ska bäst skriva det just så här inkl. citationstecken för att det ska fungera utan risk för liknande problem).


Ovan en ny sökning jag gjorde nu för att demonstrera problemet. Vi ser träffar både från antagande complex såväl som complexity: Praktiskt fylls sökresultaten ut med en ordentlig andel säkert irrelevanta dokument.

Varför adderar man dom här förändringarna? En orsak och varför sådant här ofta indikeras som vägar till bättre sökningar är att det kan minska problemen som kan skapas hur man exakt uttrycker en term trots att betydelsen är den samma som termen uttryckt ex. i dåtid istället för nutid.


Men jag tror inte som Google kanske gjort det - som jag vill tolka det mindre formellt - att det är orsaken. Jag tror att orsaken är att dom försöker reducera sin complexity som funktion av här särskilt mängden söktermer och mängden dokument. Många dokument med många söktermer hanterade gör saker arbetsamma. Denna komplexitet följer ju antar jag efter att snarare vektormodeller tagit ut mängder - tänkbart förberäknande för söktermer med utnyttjande av antagligen ganska komplexa algoritmer för att kombinera sökterm givet sådana resultat - och därefter reducerande dessa från mer exakt tolkning av söktermer. Därför bl.a. att man förr en lång period kunde få onormalt få söktermer när man gjorde sökningar från ett fåtal ganska breda begrepp och därefter försökt få ökad exakthet genom att addera några mer exakt termer.


Och vi har som framgår nedan från en ledighetssökning (eller säg att jag orolig för nöjesbranschen frivilligt gjorde lite grannsamverkan snarare än att söka något tänkbart otillåtet delat att titta på) samma typ-grupp av lösningar men ordentligt översträckande Google's förmåga att tolka och förstå mening i begrepp:



Google föreslår ett annat avsnitt av South Park än det avsnitt jag redan givit fullständig titel på.


Notera hur Google givit sig på att se mening av faith från christian. Faith är både vad vi kan se som ett bredare begrepp "ovanför" christian såväl som en tänkbar "ord-komplettering" följande christian till ett två-gram d.v.s. från christian till christian faith. Vidare är det tänkbar att faith i vektormodeller av dokument relaterat christian ofta har samförekomst eller rent av är ett av de ord som i vektormodell utnyttjas för att beskriva dokumenten "komprimerat" i antal dimensioner.


Det roliga (eller om man bättre upprört skriver att verksamhetskritisk nöjes-tid förbrukades) var att jag också gjorde fel. Jag klickade på resultatet och kom konkret så långt att jag började titta på fel avsnitt av South Park.


Jag har lätt road av detta. Ty mening när man tolkar går ej att generalisera för språk utan att det blir fel. Mening måste alltid tolkas som funktion av typ av dokument vi har:


  • Ligger dokument inom område medicin behöver vi för att minska risk för problematiska fel veta det.
  • Och p.s.s. för andra specialistområden. Annars kommer mening som varierar mellan områden leda till feltolkningar.
  • För godtyckliga meningar utanför specialistområden och innanför vad vi kan kalla allmänt språk där vanligaste meningen kan förutsättas går det fortfarande inte att tillämpa det utan förståelse av typ av dokument.

Problemet här är argumenterat (om ej en ren defekt) inte otroligt orsakat av den sista punkten. Typ av dokument avsedd är här ej riktigt filmklipp utan titel på filmklipp inom området nöje. Titlar är ett särskilt område som just här rörande mening har behov av en uttryckt exakthet. Titlarna för dokument, filmer m.m. är ju i kontext av search suggestions en av de mest optimerade för ökad enkelhet algoritmen kan ge.


Normalt är Google riktigt skicklig just på att ge hela titlar som förslag på några ord från dem. Det är rent av en av de få starka argumenten jag har för att använda Google för en större grupp typsökningar jag ofta gör snarare än specialiserade sökmotorer eller för den delen numera också Bing som jag nyligen kunde konstaterat gått upp ordentligt i kvalitet när artiklar publicerande forskning inom åtminstone språk söks (kvalitetsökningen här behöver ej innebära att den är generell ty utmaningar relaterat bl.a. spam är här få om alls förekommande).


Jag är inte en stor vän av vektor-modeller allmänt inom information retrieval eller nätverk över vetande och koncept. Särskilt inte när de tas vidare till associerad mening: Jag menar att de utnyttjar alldeles för få dimensioner och att man istället snarare ska expandera antalet dimensioner i och runt associerad mening samtidigt som alla dimensioner bibehålls. Emellertid inser jag också att om indexerar med en historisk målsättning av att ha allt indexerat blir min princip här minst sagt krävande i åtminstone men kanske inte nödvändigtvis mer än lagring.


Ännu fler år tillbaka fick jag för mig att Google kanske utnyttjat Google NGRAM för att bygga search suggestions. Det är en sak som kan fungera ganska bra för allt innehåll som är som titlar (inkl. enklast att ge exempel på undertitlar men mer liknande typer av "under-dokument" finns säkert även om jag ej har bra karta över sådant ännu normalt optimerande i analys på stora mängder data begränsat till titel, abstract, nyckelord, och något mer sällan referenser även om jag bl.a. för Plos journaler gått längre är det relativt väldigt få) även om självklart NGRAM-modeller bara skapat av titlar säkert fungerar stabilare över mer för titlar udda kombinationer. NGRAM-modellerna om man gör det senare behöver ju inte fortsätta skatta utan kan när en full träff på en titel hittas föreslå hela den om den är väldigt otrolig som funktion av hur otrolig av användaren givna ord i sin ordning var (eller hur man rätt uttrycker det i dagligt språk).


Datakällan ovan är dock i sig inte viktig eller vilken man egentligen kan avgöra (trivalt) använts. Men det ger en indikation om större metoder tillsammans med vetande om ex. titlar som kan ligga under och som man nu eventuellt försökt sig på att komplettera med meningstolkning. Gör man det sista snarare än att det är en annan defekt tror jag föga på det. Jag upplever Google allmänt som mindre uttryckt relaterad mening och när det tycks ske som att det snarast reducerar förmåga än att öka den. Möjligt därför att man använder få-dimensionella statistiska relationer av typen P(mening eller kompletterande / alternativ term | vad jag sökt på och hur dokument för prototypiska sökningar för dessa normalt). Exakta sökningar inom specialistområden tror jag det aldrig kan ge bra resultat för utan att algoritmer som kan prestera här konkret som sökande dessa områden som behärskande ska uppleva när man ser dem direkt kompletterar ens eget vetande alternativt hanterar ens vetande med samtidighet över så många dimensioner att man ej klarar det själv. Utan det tror jag alltid att man tappar möjlighet så fort man söker med många termer för att få fram något exakt.