Visar inlägg med etikett Sökmotorer. Visa alla inlägg
Visar inlägg med etikett Sökmotorer. Visa alla inlägg

Google Search Suggestions: Defekt demonstrerar bredare taktik

2015-03-19

Sista åren har jag upplevt att Google experimenterat med diverse små och i litteratur välkända metoder utanför de mer avancerande runt kärn-algoritm - manipulerande indata från sökningar såväl dokument - som ofta indikeras som tänkbara vägar till förbättringar. Jag har vad jag minns egentligen aldrig tyckt de förbättrat något men självklart är det inte alls lika troligt att jag lägger märke till sådana förbättringar när de fungerar bra lika lite som jag troligt lägger märke till sådana problem när de försvinner.


Problematiken i kvalitet från mitt perspektiv och hur jag söker är att dessa förändringar smetar ut mening och reducerar möjlighet att söka ytterst exakt. Det gör det svårare att gå från ganska breda begrepp man börjat med i en sökning och kontinuerligt addera på för området ganska smala men exakt krävande begrepp.


Ett exempel från nyligen var att Google gav en försvarlig mängd sökträffar innehållande complex när sökterm var complexity. Och complexity var som adderad term till en sökning bl.a. (övergripande topp och satt först) grammatical. Därmed fick jag en mängd träffar relaterade "complex phrases" av olika sorter. Men det var ju verkligen inte vad jag sökte på:


  • Jag sökte på complexity.
  • Det är i betydelse ett radikalt annorlunda från complex inom området av att tolka och förstå mänskligt språk.
  • Meningen är nära associerad till bl.a. information och entropi.

Att hitta ett annat begrepp som bra ersätter complexity går ej men däremot hade jag kunnat prövat att addera -"complex (jag har fått för mig att man ska bäst skriva det just så här inkl. citationstecken för att det ska fungera utan risk för liknande problem).


Ovan en ny sökning jag gjorde nu för att demonstrera problemet. Vi ser träffar både från antagande complex såväl som complexity: Praktiskt fylls sökresultaten ut med en ordentlig andel säkert irrelevanta dokument.

Varför adderar man dom här förändringarna? En orsak och varför sådant här ofta indikeras som vägar till bättre sökningar är att det kan minska problemen som kan skapas hur man exakt uttrycker en term trots att betydelsen är den samma som termen uttryckt ex. i dåtid istället för nutid.


Men jag tror inte som Google kanske gjort det - som jag vill tolka det mindre formellt - att det är orsaken. Jag tror att orsaken är att dom försöker reducera sin complexity som funktion av här särskilt mängden söktermer och mängden dokument. Många dokument med många söktermer hanterade gör saker arbetsamma. Denna komplexitet följer ju antar jag efter att snarare vektormodeller tagit ut mängder - tänkbart förberäknande för söktermer med utnyttjande av antagligen ganska komplexa algoritmer för att kombinera sökterm givet sådana resultat - och därefter reducerande dessa från mer exakt tolkning av söktermer. Därför bl.a. att man förr en lång period kunde få onormalt få söktermer när man gjorde sökningar från ett fåtal ganska breda begrepp och därefter försökt få ökad exakthet genom att addera några mer exakt termer.


Och vi har som framgår nedan från en ledighetssökning (eller säg att jag orolig för nöjesbranschen frivilligt gjorde lite grannsamverkan snarare än att söka något tänkbart otillåtet delat att titta på) samma typ-grupp av lösningar men ordentligt översträckande Google's förmåga att tolka och förstå mening i begrepp:



Google föreslår ett annat avsnitt av South Park än det avsnitt jag redan givit fullständig titel på.


Notera hur Google givit sig på att se mening av faith från christian. Faith är både vad vi kan se som ett bredare begrepp "ovanför" christian såväl som en tänkbar "ord-komplettering" följande christian till ett två-gram d.v.s. från christian till christian faith. Vidare är det tänkbar att faith i vektormodeller av dokument relaterat christian ofta har samförekomst eller rent av är ett av de ord som i vektormodell utnyttjas för att beskriva dokumenten "komprimerat" i antal dimensioner.


Det roliga (eller om man bättre upprört skriver att verksamhetskritisk nöjes-tid förbrukades) var att jag också gjorde fel. Jag klickade på resultatet och kom konkret så långt att jag började titta på fel avsnitt av South Park.


Jag har lätt road av detta. Ty mening när man tolkar går ej att generalisera för språk utan att det blir fel. Mening måste alltid tolkas som funktion av typ av dokument vi har:


  • Ligger dokument inom område medicin behöver vi för att minska risk för problematiska fel veta det.
  • Och p.s.s. för andra specialistområden. Annars kommer mening som varierar mellan områden leda till feltolkningar.
  • För godtyckliga meningar utanför specialistområden och innanför vad vi kan kalla allmänt språk där vanligaste meningen kan förutsättas går det fortfarande inte att tillämpa det utan förståelse av typ av dokument.

Problemet här är argumenterat (om ej en ren defekt) inte otroligt orsakat av den sista punkten. Typ av dokument avsedd är här ej riktigt filmklipp utan titel på filmklipp inom området nöje. Titlar är ett särskilt område som just här rörande mening har behov av en uttryckt exakthet. Titlarna för dokument, filmer m.m. är ju i kontext av search suggestions en av de mest optimerade för ökad enkelhet algoritmen kan ge.


Normalt är Google riktigt skicklig just på att ge hela titlar som förslag på några ord från dem. Det är rent av en av de få starka argumenten jag har för att använda Google för en större grupp typsökningar jag ofta gör snarare än specialiserade sökmotorer eller för den delen numera också Bing som jag nyligen kunde konstaterat gått upp ordentligt i kvalitet när artiklar publicerande forskning inom åtminstone språk söks (kvalitetsökningen här behöver ej innebära att den är generell ty utmaningar relaterat bl.a. spam är här få om alls förekommande).


Jag är inte en stor vän av vektor-modeller allmänt inom information retrieval eller nätverk över vetande och koncept. Särskilt inte när de tas vidare till associerad mening: Jag menar att de utnyttjar alldeles för få dimensioner och att man istället snarare ska expandera antalet dimensioner i och runt associerad mening samtidigt som alla dimensioner bibehålls. Emellertid inser jag också att om indexerar med en historisk målsättning av att ha allt indexerat blir min princip här minst sagt krävande i åtminstone men kanske inte nödvändigtvis mer än lagring.


Ännu fler år tillbaka fick jag för mig att Google kanske utnyttjat Google NGRAM för att bygga search suggestions. Det är en sak som kan fungera ganska bra för allt innehåll som är som titlar (inkl. enklast att ge exempel på undertitlar men mer liknande typer av "under-dokument" finns säkert även om jag ej har bra karta över sådant ännu normalt optimerande i analys på stora mängder data begränsat till titel, abstract, nyckelord, och något mer sällan referenser även om jag bl.a. för Plos journaler gått längre är det relativt väldigt få) även om självklart NGRAM-modeller bara skapat av titlar säkert fungerar stabilare över mer för titlar udda kombinationer. NGRAM-modellerna om man gör det senare behöver ju inte fortsätta skatta utan kan när en full träff på en titel hittas föreslå hela den om den är väldigt otrolig som funktion av hur otrolig av användaren givna ord i sin ordning var (eller hur man rätt uttrycker det i dagligt språk).


Datakällan ovan är dock i sig inte viktig eller vilken man egentligen kan avgöra (trivalt) använts. Men det ger en indikation om större metoder tillsammans med vetande om ex. titlar som kan ligga under och som man nu eventuellt försökt sig på att komplettera med meningstolkning. Gör man det sista snarare än att det är en annan defekt tror jag föga på det. Jag upplever Google allmänt som mindre uttryckt relaterad mening och när det tycks ske som att det snarast reducerar förmåga än att öka den. Möjligt därför att man använder få-dimensionella statistiska relationer av typen P(mening eller kompletterande / alternativ term | vad jag sökt på och hur dokument för prototypiska sökningar för dessa normalt). Exakta sökningar inom specialistområden tror jag det aldrig kan ge bra resultat för utan att algoritmer som kan prestera här konkret som sökande dessa områden som behärskande ska uppleva när man ser dem direkt kompletterar ens eget vetande alternativt hanterar ens vetande med samtidighet över så många dimensioner att man ej klarar det själv. Utan det tror jag alltid att man tappar möjlighet så fort man söker med många termer för att få fram något exakt.

Utvalda lite äldre inlägg (Inkl. kompletterande diskussion om Israel)

2015-03-13

Ibland när jag ej med hjälp av site-sökning med Google ej hittar vad jag söker är det att det hör till två buntar med inlägg jag avpublicerade (relaterat etablering värde modell där jag upplevde det någon gång trevligare att avpublicera om än säkert irrationellt: Något fungerade bra och så kändes det mer avundsamt övertolkande folks intresse såväl som möjlig teoretisk investering över ändå föga koncentrerad och sammanfattad information). Men ofta nog är det relaterad dålig indexering delvis därför att bloggen är gjord så att den indexeras dålig (användande Googles för det i gränssnitt till blogg rekommenderade färdiga saker för arkiv m.m.).


Det är klart att jag skulle kunna spara ner allt och låta den lilla mini-sökmotor jag använder mestadels för forskningsartiklar relaterat hjärna, språk, parsning m.m. relaterat göra det här också. Men jag tycker egentligen inte för ett så sök-trivialt om område att jag ska behöva slösa tid på det. Särskilt som det smutsar ner den utvecklingsdatorn med områden som jag just nu aldrig använder den för: Jag vill ha den för uteslutande dataanalys i test- och utvecklings-perspektiv resp. programmering. Så vet jag vet jag arbetar med när jag använder den och för annat resp. nöjes-datoranvändning får min gamla dator användas.


Här skulle jag dock önska hitta ett inlägg bakåt utan att behöva titta över allt troligast 2011. Vi prövar att länka in diverse något så när relaterat till det och ser om det kanske medverkar till indexering bättre i och runt vad jag söker via diverse mellansteg. Vi har en bra bild med någon liggande på ett tak och en tillhörande trevligt undervisande diskussion om språkligt perspektiv. Som jag vill minnas det. Mest för egen del misstänker jag. Dom få individer och personer ev. mer intresserade lär hitta det lättare till mig oberoende av resurser: Om goda ett enkelt problem och också om få - kanske en intresserad individ - är det som alltid enklare när man söker värde hos någon annan att motivera sig att söka rätt på det än när det är eget data.


Stabilitet utan negativa bias med "blodbad" krävs (2011-02-11). Inkl. citat från inlägg som tycks av-publicerat. Möjligen det inlägg jag sökte.

Reward discounting: Weapon effect vs Kawaii (2014-06-17)

Syrierna kan slåss - Men segern väntar på slug kyligt organiserande ondska (2013-09-09). Borondino när Napoleons soldater mötte tsarens soldater för att illustrera något.

Kriget seger i energieffektivitet: Vapeninnovationens hastighet relativt fiende och vårt försvars- och politiska-systems förmåga att tillämpa vapnen vi skapar (2013-05-02). Och det är ju en dimension av djup associerande analys: Hitta lösningen men själv inte självklart ser kanske etablerad i ett annat kunskapsområde man kan ta över till där problemet bor.

Dags att lösa problemet al-Gaddafi (2011-03-10)

http://senaste-nyheter.blogspot.se/2011_05_05_archive.html

Oväntad emergence i aktions-relaterade händelser (2013-05-28)

Toy Soldiers & Ondskans Axelmakter (2011-04-27)


Och antagligen relaterat Var har Israel hamnat sedan The Profession of Arms (1983)?:


Artighet och Gulligt som strategi för fred (2011-04-25)

De irrationella fortsätter göda Israel - Palestina konflikten (2011-04-26)

En till typ av problematisk sökning där man förväntas göra extra-arbete själv

2015-01-08

Denna form kan vi nog se som nära besläktad med exemplen i Youtubes sökning duger inte för tuffare problem vi vanliga musik-sökare möter på det verkliga nätet:


Sökningen jag valde var normal number of acts and events in ontology 1000 with full understanding not small vilken förvisso kanske är orealistiskt krävande men ganska typisk för en grupp jag brukar pröva med av och till och mitt sista faktiska sådana exempel. Därav tog jag den för detta eftersom jag tyckte det nu kunde passa givet diskussionen om Youtube-problematiken. Att jag irrationellt försökt skryta för Google artificiella agenten för att få den att känna sig liten var inte i alla fall medvetet fallet.

Men är tveklöst mer utmanande. Förutom att någon form av tolkning krävs av vad jag avser gäller ju från det att jag egentligen ber sökmotorn att passa in det till hur en normal "Google-sökning" (se Inverse document frequency och ranking på sökmotorer (appendix 1)).


Slutligen ligger en än mer komplext nivå allra överst:


  • Det är inte säkert att frågan har ett bra svar mer uppenbart i något dokument.
  • En viss aggregerad vetskap byggt från att faktiskt indexerat en mängd dokument kanske krävs.
  • D.v.s. ersättande när så är möjligt behovet av att behöva titta igenom en bunt ontologier.

Information i SERP: Tillståndsinformation sökmotor resp. läsare / sökare

2014-05-19

Låt oss diskutera sökninginternet - kanske närmare perspektiv sökmotor resp. entiteter betraktande generell tillståndsinformation synlig - utan särskilt mål annat än att uttrycka vad en SERP är för läsaren av sökresultatet.


Koncept. Vad vi skriver i sökrutan.


Mer fokus på hur det ser relaterat tillståndsinformation det motsvarar även när tillståndsinformationen är reducerad sammmanfattad över annat.


  • 1. Vikter och skattningar: NGRAM- och språkmodeller
    • 1.1. Antal resultat för koncept
    • 1.2. Antal sökningar på koncept
    • 1.3. Antalet läsare av allt i resp. sökresultat
    • 1.4. Antal dollar / kr för koncept
    • 1.5. Abstrakta värden (kronor vi ej enkelt kan handla för)
  • 2. "Rubrikerna" i SERP
    • 2.1. Rekursion och arbetsminne
    • 2.2. Snippet
  • 3. Rekommenderade sökningar
  • 4. Volym sökningar igen: Bing - Google

1. Vikter och skattningar: NGRAM- och språkmodeller

Vi konstaterar först att vi har tre grundläggande variabler för två mycket ofta använda både i information direkt läsbar för den söker eller den som påverkar vad synligt via kanaler för reklam.


1.1. Antal resultat för koncept

För index över koncept i ett tidsfönster ej äldre än T[1] och ej yngre än T[2]: Hur troligt / vanligt relativt alla index över samma tidsfönster är att något relevant publicerats.

1.1.1.a För ett tidsfönster gäller att resultat publicerade inom det kan argumenteras ha ett minsta antal läsare approximativt samma som antalet artiklar i tidsfönster. Därför att skribenten har läst resp. innehåll själv.

1.1.1.b Ett problemområde blir tydligt när tidsfönstret expanderar genom att ökat fönster tenderar (tycks det för mig) göra det mindre trivialt att filtrera ut innehåll publicerat av datasystem för innehåll och presentation (jämför alla sidor i en webbutik dynamiskt formade utifrån olika perspektiv som en spindel ibland kan ta ut fler i antal än webbutik troligt haft totalt antal människo-sidvisningar).

1.1.1.c Normalt tidsfönster för sökmotorer som Google och Bing för webben allmänt är många år. Antal indikerade skattas troligen ofta från motsvarande en språkmodell ev. härrörande från hur data är organiserat (en försvarlig andel sökningar görs troligt över en ganska lång tidsperiod inte av mer än en eller ett fåtal: möjligt är det exakta antalet träffar vad som fodrar att någon vandrar bakåt görande resultaten behövda vilka kanske inte ens innan "fuzzy" därifrån framåt kanske finns beräknade i index).


1.2. Antal sökningar på koncept

För index över koncept i ett tidsfönster ej äldre än T[1] och ej yngre än T[2]: Hur troligt / vanligt relativt alla index över samma tidsfönster är att någon söker på koncept.

1.2.1 Emedan antal resultat ofta publiceras med en indikation tillsammans med SERP anges detta typiskt inte och är inte helt trivialt att få vettiga skattningar av också när ganska grova antal söks (eller snarast dessa medan det kanske rent av är enklare att få söka förändringar givet en utgångspunkt).


1.2.2. För primitiver / grundteorier för hur sökresultat kan beräknas gäller för huvuddelen i domän av query model ( P(Q) ) att man snarast undviker att använda faktiska värden för sannolikheten avseende respektive sökning. Vi kan ju annars tänka oss att när sannolikheten för ett resultat i SERP ska beräknas betraktat som ett där antal koncept lokaliserade givet koncept Q att trafik för del-koncept i koncept resp. lokaliserade koncept kan användas som vikt.


1.2.3. Skattande värden för query volum via flera i sig begränsade källor - och delvis ej direkt från sökmotorer - är det ganska tydligt att just för användningen typisk i 1.2.2. är kanske datakvaliteten för de flesta inte sådan att man vinner särskilt på att använda skattningar av query volym (andra former av vikter och modeller kan tillföra tydligt värde).


1.3. Antalet läsare av allt i resp. sökresultat

Från 1.1. och 1.2:


För tidsfönster p.s.s. som tidigare kan vi för allt indexerat förenklat skatta totalta antalet läsare som summan av de som söker och de som skriver.

1.3.1. Ovan under förutsättning att trafik som når resp. i övrigt är försumbart alt. att summan i övrigt implict kan ge en skattning av trafiken i övrigt.


1.3.2. För stora entiteter med många läsare för innehåll i index är det mycket tänktbart att när de länkar (ex. för en del innehåll hos några av internets tio största tidningar på engelska förekommer ibland länkar till varandra för referens) att det ger märkbar påverkan.


1.3.3. Över en webb med en mängd läsare uttryckande en respons via bloggar, sociala media m.m. är det tänkbart att det också ger påverkan via trafik av andra. Trafiken resp. skribent skapande sådan respons (säg när vi kan klara att se dem entydiga d.v.s. en människa gör respons på en plats) är jag ganska trygg skattas vettigt från query volum om man har den och tror jag men vet ej säkert hur väl och var större avvikelser kommer från mängden innehåll publicerat större entiteter stationära uttryck läsare är kända för.


1.3.4. Mängden länkar enligt 1.3.2 och 1.3.3. tycks bedömt från data jag läser in vara tämligen begränsat i mängd träffande ett sannolikt index relativt det antal som kan argumenteras representeras av endast skribenterna av respons i sig. D.v.s. utgår vi från att ingen läser deras respons mer än dom själva och att de faktiskt besökt och läst vad de länkar är det ändå en ganska begränsad mängd trafik givet mängden respons-data jag samplat (säg från några testperioder totalt cirka 100 GB rss- och atom-strömmar med en försvarlig andel av kända bloggtjänster där default är att hela strömmen publicerat). D.v.s. "ganska" mycket data krävs här resp. alt. att en vettigt korrekt trafikskattning av vilka respons-entiteter som kanske avviker uppåt för vilken trafik de ger.


1.3.5. Jag tror eller lutar åt att för de flesta som söker skattningar av respons att det enklare och kanske ofta korrektare är att söka sampla väldigt många entiteter troligt beskrivna en individ vardera och betrakta dem tillsammans snarare än att när tidsfönster är tämligen smalt (säg från någon timme upp till ett par veckor för nyheter) ge hög andel eller alls beakta rekursiva trafik-skattningar för resp. respons-entitet. D.v.s. en riktigt hög andel Twitter, Google Plus, Wordpress.com-blogg,Blogger-blogg,Tumblr.com-blog-community-grunka o.s.v. är enklar att komma rätt med i "laplace-smoothing" viktning om vi kan ta väldigt många entiteter.


1.4. Antal dollar / kr för koncept

Vad jag egentligen menar här avstår jag bättre från att försöka ge en entydig definition av eftersom jag ännu inte byggt viktsystem klart för det. Vi kan emellertid konstatera vad känt både före och efter "internet".


1.4.1. Vi antar en "modell-sökmotor" som endast visar produkter och har full vetskap om antalet som söker. Priset för resp. produkt har ej ett självklart linjärt förhållandet till antalet som söker. Söker en miljon personer på car är kanske inte produkten överst som är bäst en bil utan kanske en bok eller annan informationsresurs om det. Tydligare indikation koncept om att vi är intresserade att köpa - "buy car" + "volvo 240" + "cheap" + "police auction" + "used in diamond_OR_gold hit and run" - bilen tänker jag har färr som söker på det men kan tänkas göra dyrare produkt i form av en bil till försäljning mer sannolikt genererande värde.


1.4.2. Förhållanet pris, trafik och koncept håller ej heller över SERP utan varierar med position och kan vara mer eller mindre varierade beroende på sökord.


1.4.3. För läsaren av sökresultat framgår priset för resp. resultat men ej hur mycket de genererar i intäkt. Värde manifest resp. latent existerar.


1.4.4. Priset är manifest och är vad vi löst kan jämföra med mer allmänna begrepp som status. Informationen - eller enklare variansen - är dock praktiskt styrande för alla sådana jämförelser över en SERP. Detta genom att ett högre latent värde för manifesta värden associerade status när konverterande till valuta gäller för typiskt tio resultat per sida att enstaka sådana stoppas in brett över koncept där mycket entydig statistik är vek för eller där det redan visat löna sig. Är variansen för ett manifest värde indikerande tänkbar status emellertid låg medan vi skattar query volumen hög är det dock kanske troligare dollar-status associerat.


1.4.5. P.s.s. enligt 1.4.4. existerar låg-pris paketeringar där ev. status är mindre associerad till att realisera värdet av det. Ex. en bok, sekundär informationsresurs i form av hemsida o.s.v.


För index över koncept i ett tidsfönster ej äldre än T[1] och ej yngre än T[2]: Hur troligt / vanligt relativt alla index över samma tidsfönster är att någon söker på koncept.

1.5. Abstrakta värden (kronor vi ej enkelt kan handla för)

1.5.1. Försök att uttrycka sådana värden - ofta näraliggande uttryck av den större flock personer på nätet - börjar bli ganska vanligt. Längre tillbaka var ett fåtal annat än ovanliga (bl.a. Google PR och Alexa ranking). Numera försöker sökmotorer oftare addera information om sådant som recensioner, tweets och jämförbart.


1.5.2. Att uttrycka både dessa "reaktioner" och "vad" som uttryckt dem är tämligen svårt redan i visuellt utrymme. Och ännu svårare (tror jag) i tolkning av vilka som gjort dem och vad de är i meningsfull "flock-mening" för den som söker.


1.5.3. Status och andra värden associerat flock behöver ju komma med en förståelse av vad den underliggande valutan är. Är det en valuta person som söker informationen är intresserad av alls? Och på vilken nivå växlar den in för denne. En del personer värderar information mer från en viss flock och mindre eller rent av negativt från en annan.


1.5.4. Är sådan association vad som svårligen framgår eller kanske inte ens går att enkelt se faller uttrycken ner till enklare standard-uttryck utan "brand power" från flock. Kostnaden för att betrakta det föreligger fortfarande och behöver utan extra hjälp av "brand power" drivas av en historik av värde av att utnyttjat det troligare närmare konkret och rationellt bedömt än mer abstrakta värden, upplevda känslor eller default donerat värde oavsett resultat av att stämma närmare en flock vi gillar.


1.5.5. Att skapa uttryck av dessa reaktioner utan att addera en problematisk nivå av kostnad innan ev. värde levereras användare kan därför vara väldigt svårt.


1.5.6. Bättre mer framarbetade uttryck utifrån en mängd responer är självklart möjligt men kräver värdering av de underliggande responserna. Av upplever jag ordentligt att döma av vad jag ser praktiskt sökande själv ligger en stor utmaning för sökmotorerna här. Tänkbart är det primära värdet för dem just nu av att visa dom enlare reaktionerna att lära sig att värdera dem (ex. filtrerande ut sådant som recensioner egentligen gjorda eller beställda av den som säljer en associerad produkt).


1.5.7. Utmaningen i sådan värdering kan jämföras med möjligheten att värdera en länk som en besökare för varje entitet vi tror är en individ. Men skillnaden att vi antagligen har ordentligt färre responser från denna grupp att värdera jämfört med hur många som är en "elegantare" / "smutsigare" (från mitt perspektiv tar jag verkligen ingen ställning: både riktiga och köpta recensioner är bra data att analysera byggande information om värden associerade koncept från olika perspektiv och jag har föga problem att särskilja dem - och i enstaka manuella kontroller byggt från etablering erfarenhet längre bak kan jag ganska ofta rent av se vilken entitet som gör marknadsföringen och ibland troligare skrivit det).


2. "Rubrikerna" i SERP

Vi har information i SERP uttryckt för resp. resultat. Denna kan vara mer av vad jag bredare kallar DO och vi enklare här ser som "rubriker" eller i "fetstil". Vidare vad jag kallar DESCRIBE - givet ett DO vad som sätter kontext för koncept i DO och vars tolkning och förståelse styrs och påverkas från primacy effect av aktuellt DO - och typiskt för sökresultat snippets.


2.1. Rekursion och arbetsminne


2.1.1.1. Vi vi enkelt och effektivt skummande tar in i arbetsminne är en funktion av uppmärksamhet / motivation / exakthet vi är beredda att investera för visuell yta och dess visuella komplexitet. Desto mindre uppmärksamhet / motivation / exakthet ju hårdare skummare vi efter tydliga träffar med hög "vikt / potens" (ex. i vissa sammanhang brand power tillsammans med starkt emotionellt uttryck likt fiktiva rubrik och första rad snippet: Google VP stabbed Microsoft CEO with sword in new release of computer game).


2.1.1.2. Resp. där behandlat läggs i kontextuellt pågående motsvarande direkt vad vi ser i en vanlig scen i vardagen. Av betydelse, understrykt och av typ vi specifikt söker läggs i arbetsminne.


2.1.1.3. Vi kan göra switch av kontext pågående i arbetsminne. Är det kontextuella avståndet kortare kommer det med lägre kostnad och vad vi sökande information av allt att döma från mycket nvända kommersiella produkter är beredda att göra. Några exempel:


  • Andra resultat - ex. nyheter - i webbsökning.
    1. Presenterande resultat i SERP av en viss typ. Jämför hur Google bl.a. söker föra in resultat av typ nyheter eller sociala media i webbsökning.
    2. Jag spekulerar att det tänkbart är dyrare switch än övriga men värdet är ju också en funktion av antalet som faktiskt söker just information av denna sort resp. typ resp. hur väl de klarar att hitta samma innehåll allmänt i webbsökning annars och/eller kommer rätt via användning ex. Google News.
    3. Dyrare därför att vår organisation av långsiktig vetskap om hur här relevant koncept förhåller sig varandra - tänkbart underliggande och åtminstone påverkande hur arbetsminne är funktionellt - är topologiskt organiserat via närhet av dem. D.v.s. den närmare topologiska motsvarigheten i spatiell mening är ex. förhållandet "nyhet" eller "webbresultat" d.v.s. ungefär det samma över ett ganska få typer. Medan distansen koncepten kommer tendera att vara större mot det större flertalets intresse (troligare irrelevant i perspektiv av en genomsnittlig sökare).
    4. Störning för större flertalet totalt givet relativt få insprängda resultat enkla att "aldrig se" eller betrakta är tänkbart lågt jämfört med värde för dem som faktiskt söker något av typen enligt två eller är allmänt prospekterande. Kostnaden switch är med andra ord vad vi kan lära oss att undvika.
  • Enklare att resonera om är rekursiva uttryck av mer exakt information.
    1. Givet ett resultat bland tio på en sida - låt oss jämföra det med en rubrik på nivå 1 - kan vi för det ge mer information. Konstruktionen används bl.a. av Amazon.
    2. Besläktat ofta utnyttjad är att länka föreslagna andra sökresultat vilket vi dock inte avser här.
    3. Istället avser vi när denna mer exakta information ges på samma sida i form av visuellt associerad information motsvarande en rubrik nivå större än ett (helt normalt underliggande ev. med mindre font eller annan visuell paketering som gör att det stör mindre för den som ej var alls intresserad av nivå ett).
    4. Läsaren ser information på nivå ett för ett resultat. Det intresserar denne. Informationen på nivå två filtreras ej bort för detta resultat och switch till ett mer exakt kontext sker: informationen nivå två går in i arbetsminne.
    5. "Vi" (jag) kallar denna operation för rekursivt innåt. När besläktat i organisation information är upp - associerat men bredar i vad som avses - och ner - associerat smalare mer exkat - i thesaurus och för båda från ett troligt perspektiv av vad som avses avgränsat av koncept vi utgår från.
    6. Gör vi därefter rekursivt uttåt återkommer vi föregående nivå. Förkastades mer exakt som ej ledande till avslut påverkar de ej i introduktion av något nytt i det arbetsminne vi återkommer till. Även om det gäller när vi tänker oss biologiskt modell av arbetsminne påverkad av organisation koncept i långtidsminne - vilket menar jag är ytterst rimligt eftersom denna organisation uppenbart påverkar och styr hur vi resonerar och laborerar med vad aktiverat i arbetsminne - gäller att viss post-aktivitet kan inverka. En aktivering av något ointressant i ett uttryckt rekursivt innåt kan tänkas inverka när vi ser något annat efterföljande om än mindre troligt än något direkt tillsammans med sådant resultat.

2.1.2. Den visuella naturen av 2.1.1 ligger nära perfektion när det kan uttryckas organiserat jämförbart men när rekursivt ovanför ej störande visuellt. Ex. listor ungefär motsvarande ranking från 1 till 10 på nivån ovanför. Antalet behöver emellertid vara fler där historiken bakom tio resultat tänkbart blev möjligt och standard delvis därför att två visuella centraliteter togs ut efter varandra genom ett pagedown förr när upplösningen på datorer var annorlunda. Vidare ligger belastning redan givet från koppling till kontext rekursivt ovanför. Tänkbart (jag vet inte exakt var nivån ligger) cirka fem objekt.


2.2. Snippet

2.2.1. Sökresultat organiserar sig dock ej enligt 2.1.1 och 2.1.2 som vanligast där det normala istället är the snippet. Denna ger dels uttryck som är av DESCRIBE mot aktuellts resultatts DO (här titel) med koncept från sökningen styrande vilket DESCRIBE som plockas ut från sidan vanligen markerat med fetstil. Jag finner det lätt problematiskt att enkelt passa in det i mitt resonemangssystem av DO och DESCRIBE. Det är från tror jag troligare ren DESCRIBE (ex. brödtext i en artikel) men agerar här DO i den mån läsaren betraktar informationen och därefter går vidare och läser hela artikeln (d.v.s. kommer påverka vår förväntan om vad vi där kommer läsa) men ger ju också om vi ej gör det en DESCRIBE för direkt i SERP uttryckt DO:


2.2.1.1 När betraktar snippet som DESCRIBE av aktuellt DO i sökresultat läst men ej resulterande av att läsaren går vidare till sida (låt oss anta en person som sitter och läser några sidor SERP:ar) gäller att "vetskap", "tolkningsrymd" för DO kommer påverkas av resp. DESCRIBE. Personen bygger en viss förväntan / vetskap om vad en viss DO i ett sökresultat vanligen har för DESCRIBE i snippet.


2.2.1.2. Och över många sökresultat vilka koncept i DESCRIBE som oftare associerade till koncepten i resp. DO. Kanske rent av föranledande en särskild sökning. Eller inverkande på hur sannolikt personen väljer en rekommenderad besläktad sökning.


2.2.1.3. Dispergensen mellan snippet - från "transformation" DESCRIBE till DO - och rekommenderad besläktad sökning är dock ganska tydlig. Möjligen är ev. påverkan närmare en känsla av att "bottnat" ut vad ett sökresultat kan ge för att hamna rätt.


2.2.1.4. Det tycks för mig att åtminstone för Google är mer eller mindre det ändå syftet och värde av snippet att visa kontext sökorden förekommer utan mer "sofistikerade" metoder för association till besläktade manifesta eller latenta koncept troligare använda för att peka vidare till andra sökningar.


3. Rekommenderade sökningar

Sist betraktar vi dom rekommenderade sökningarna och vi kan där inkludera vad som direkt ges i rekommendationer i input-fältet. En försvarlig mängd standard-algoritmer ofta välkända innan i andra praktiska områden inom clustering av data av olika slag (inte minst just ord eller flergram eller entiteter av olika slag) finns. Mer praktiskt näraliggande den som söker kan vi dock konstatera att:


3.1. Dessa rekommendationer kan vara uttryck för rekursivt innåt. Givet koncept A kan vi föreslås koncept A + B där A + B kommer med ett antagande av att A ger en yttre avgränsning med ett antagande om en eller ett fåtal övergripande "ämnen" där B (som vi tänker oss kan erbjudas i ett fåtal vanligare alternativ) uttrycker en mer exakt aspekt av resp. sådant antagande.


För exemplet nedan från Google tycks ngram-modell användas där resp. adderat "sub-koncept" (ngram som kan adderas från listan) antagligen speglar sannolikhet från publicerat innehåll ev. med preferens mot en typ som antas bättre passande. Emellertid kan jag också tänka mig att sannolikhet från faktiska sökningar påverkar i den mån de finns. I sista exemplet där tipspayload söks - d.v.s. troligt väldigt osannolikt både över allt publicerat innehåll resp. vad folk söker på - faller förslagen ner till att föreslå resp. ord.



Thesaurus och liknande organisationer används också ofta. Näraliggande fortsatt med Google som exempel är definition av ett koncept motsvarande koncept sökt som bedöms troligare vara vad sökt eller vanligare uttryckt indikation om att man betraktar koncept möjliggörande sådan användning både här och i övrigt. Ett enkelt exempel är när vi i samma organisation också har entiteter (jämför ex. med Yago m.m. byggt från Wikipedia) och mer troligt hamnar rätt i förslag när en specifik artikel, bok eller film söks där man kanske inte minns hela titeln. Likt Library of Congress nedan:



Min erfarenhet från perspektiv sökande information pekar ganska tydligt på att storlek index och/eller mängd sökningar att analysera kan addera ordentligt värde oavsett om artiklar, böcker, film eller annat söks där man inte fullt minns vad det egentligen heter. Library of Congress koncept ovan till ganska stora delar byggda av ngram-modeller från titlarna är där praktiskt sämre för mig än Googels mycket blandade approach.


4. Volym sökningar igen: Bing - Google

Här har jag dessutom av och till nyligen funnit en spännande förändring i det relativa värde Bing leverar jämfört med Google. Längre bak presterande den för mig och många andra ganska dåligt. Sedan ett par år har Microsoft uppenbart bedömt bl.a. från artiklar publicerade såväl som presentationer (av och till riktigt ambitiösa såväl som användbara sammafattningar: ) gjort ett mycket ambitiöst arbete för att bygga långsiktigt grundvärde. Även om effekt av det nog var märkbart var det fram till nyligen inte på nivå att det egentligen motiverar mig att av och till försöka den.


Sedan kanske några månader nu märker jag emellertid att det kan prestera när jag inte på vettig tid får Google att visa vad jag vill hitta. Ett exempel är identifikation av sidan relateratMongoDB länkad i Sydsudan: Vapenvila efter inte avgörs av politisk förmåga och för resp. sida kraft att se dom egna problemen speglade hos "dom andra" (2014-05-12). Det var ej i URL den sida jag sökte men jag är övertygad om att det var exakt det innehåll jag sökte (vilket gör det mer intressant).


Orsaken torde ligga i att aktuellt stycke data hos Google är noterad på domän mycket kraftigare associerad MongoDB. Troligt den jag tyckte mig minnas att jag läst den på: antingen www.mongodb.org eller nära associerad. Men där som vanligt är - eller default bedömd från organisation plattformar publicering - uttryckt underliggande artiklarna ev. med pagination över kommentarer samtidigt som mängden sidor därifrån relaterat MongoDB är "enormt". Samma data publicerat andra sajter kan ändå konkurrera med det obefintliga resultatet från den MongoDB-tyngre sajten.


Den tänktbart mer styrande faktorn i vad som avgör skillnaden mellan Bing och Google när vi lämnar den MongoDB-tunga sajten med kamrater:



Kan tänkas komma ner till för Google-styrande verkan:


1. Eventuellt vikter relaterade till tidigare uttryckta långt bakåt i vår lista här:


"1.2.3. Skattande värden för query volum via flera i sig begränsade källor - och delvis ej direkt från sökmotorer - är det ganska tydligt att just för användningen typisk i 1.2.2. är kanske datakvaliteten för de flesta inte sådan att man vinner särskilt på att använda skattningar av query volym (andra former av vikter och modeller kan tillföra tydligt värde)."


Eller vad som motsvarar det. Likt hur jag såg att antingen Google eller Microsoft (minns jag rätt Google) patenterat något kring att beräkna similarity via de sökresultat man redan har i SERP:ar för att hjälpa surfaren till besläktade sökningar kan man så klart börja skatta länkar från egen trafik såväl som förr kanske mer trafik från länkar. Viss risk för "rundgång" - eller "stående vågor" - eller vad ska kalla det finns kanske ibland.


2. Och oavsett exakt vad som ger vikten tidigare diskuterat för Wikipedia-koncept i:



Där det som ett uttryckt av det kan vara oerhört svårt att söka information om Wikipedia, Wikimedia, Mediawiki m.m. Istället föreslås uppslagssidor i Wikipedia. Expansion av tillåtna egenskaper i vad relevant entitet publicerat ordentligt tilltagen där det mer exakta avgränsade område utanför det inte får plats.


Här är Vietnam vårt Wikipedia. Om vikten är trafik är det givetvis tilltalande attraktivt data att ha en av få riktigt feta samlingarna av men det är inte alltid trivialt att tänka sig mer exakt hur man bör låta det styra. Kanske (jag är inte riktigt säker på vad som egentligen sker: ids inte betrakta det överdrivet) föranleder större tyngd Vietnam i trafik en för min målsättning sökande irrationell expansion av vilka egenskaper relaterade Vietnam som tillåts visas där avgränsning från närmare relaterat MongoDB ej orkar inverka tillräckligt.

Några bias från en enkel web spindel

2014-05-04

Låt mig här ta "erfarenheten" från Resultat spindling efter RSS- och ATOM-strömmar och vända på det enligt:


  • "Egenheter" p.g.a. att det är enklare som ger bias hur sajt (i mening sammanhållen entitet oavsett subdomäner, "ambassader" på twitter) m.m. spindlas.
  • Hur jag gärna vill se ambassader uttryckta i mening av stöd från Youtube, Twitter o.s.v. utan att ännu tittat hur de gjort det.

Rörande det först gäller givetvis att desto centralare och mer långsiktig kod för en spindel är desto bättre hanterar den analys av sida utan att förfalla till många av de bias jag tog med här. Aktuell spindel här är tämlingen ung (ev. "fortfarande") även om den blev lätt mer begåvad än från början tänkt p.g.a. en del utmaningar jag inte räknat med. Syftet här var endast:


  • Identifiera ev. RSS-ström indikerad på sida som laddats ner. Om identifierad sparas den alltid ner tillsammans med sida där den hittades.
  • Ev. länkar till andra sidor vilka som helst. Dessa för att ge nya sidor att senare titta på för att hitta RSS-strömmar. Ingen skillnad görs mellan samma sajt eller andra.

Bias I: Ordning på länkar

Just nu ligger cirka 500 - 600 miljoner länkar totalt identifierade. Samtidigt är det av och till mycket önskvärt att prioritera spindling mot något särskilt område eller sajt jag bedömer som viktig (eller p.g.a. tidigare fallstudier eller beräkningar som gjors av och till på dem för att följa förändringar i logik) att spindlas fritt direkt oavsett vilka länkar som nu finns identifierade.


Dels kan det göras med samma system som i övrigt men beskriva preferenser för sajt utifrån url. Praktiskt har jag dock vanligen gjort det genom att ge spindel riktad seed för ett antal sidor och sedan låtit samma tråd spindla dessa och fortsätta själv på samtliga identifierade länkar utan kontroll av om de spindlats tidigare. Medan spindel i övrigt vanligen ej spindlar samma domän mer än en eller ett fåtal gånger oavsett antal länkar sätter jag ofta här gränsvärdet för när en given sajt ej accepteras högt. Ex. lät jag precis spindla igenom stora delar av The Guardian därför att de har RSS-strömmar ämnes-uttryckande utspridda över hela sajten.


Siffrorna under resp. länk anger för siffra höger om domänen antal gånger domänen besöks, samt direkt under antal tecken i hämtat data för aktuell sida (antalet sju är dock oftast en felkod bestående av sju stycken underscore) resp. för den rad med två siffror separerade med tab: antal länkar identifierade resp. antal strömmar identifierade.

Arbetande per epok inkluderande alla identifierade länkar som ej överstiger tröskelvärde för domänen. Här i epok tre med totalt cirka 40 000 länkar att gå igenom. Minns jag rätt hade epok två cirka 400 och epok ett inkluderande de sidor jag gav manuellt som utgångspunkt (cirka 10 st och samt på det adderande exakt 27 st.). Tillväxt som funktion av epok (när y-axeln ger summan sidor upp till och inkluderande epok) - och allmänt för större sajter (men ej 100% säkert så stora att jag ej spindlat större delarna men upp till sajter av Orble.com storlek) - ger inlärningskurvan: trögare tillväxt första epokerna, därefter explosiv, och lugnare ökning längre fram.



Komplettering Epok fyra en stund senare. Expansion till cirka 400 000 länkar.


Sajter ej The Guardian kan har antingen vara länkade från dem under tidigare epoker eller länkade från ej sajt de initialt länkade under en tidigare epok.



Av detta ges flera bias. Först och främst gäller att den länk som först spindlas kommer donera där identifierade länkar först till tabell. Ordningen dessa spindlas är ej i exakt samma ordning (utan har mer att göra med Perls hash-funktion) men samma bias existerar fortfarande indirekt mellan och över epoker. Hinner gränsvärde nås ges dispergens mot övriga. Tänkbart generellt bland enklare robotar tidiga länkar på sida resp. länkar vi sannolikt snabbare möter via sidor vi kan tänkas nå den via.


Bias II: Enkel regel-logik

Att sätta gränsvärde per domän är ganska enkelt att göra. Klokare är självklart att hantera själva den gemensamma domänen hellre än som jag gjorde separerande resp. subdomän (eller för den delen betraktande självklara "alias" som ofta ex. www.något-exempel.se resp. något-exepel.se som samma).


Jag tycker mig från längre tillbaka - flera år bakåt - minnas ett för en branschledande sökmotor ev. något besläktat ex. som fick viss uppmärksamhet relaterat sushi restauranger i Sverige placerade på sajt (jag tror det var www.sushikartan.se). Sedan några år tycks för mig att Google försöker se entitet gemensam eller uttryckande ett stycke innehåll (det senare återvänder vi möjligen till i avsnitt önskat från sociala media sajter) d.v.s. ej självklart behandlande subdomäner annorlunda i mening av inverkan med andra subdomäner (men ej heller självklart så utan också möjligt behandlande dem som separerade representerande olika entieter - spekulativt ex. för de flesta men kanske inte riktigt alla subdomänertumblr.com och wordpress.com).


Vidare för att separera "sidor" ämnesuttryckande resp. nyheter just på The Guardian filtrerade jag kastande på sidor vars url innehöll följande eller jämförbart /2013/, /2013/, /2012/ o.s.v. Det fungerade ganska bra just där.


Bias III: Enkel tillförlitlig leverans av fler datakällor

Av de sorters sajter jag enkelt kan beskriva att söka RSS-strömmar för från mängden identifierade länkar är bloggar på Google Blogger och Wordpress.com i särklass levererande i antal relativt tid spindlande dem (särskilt Blogger är brutal: möjligen finns någon orsak till det att söka hur Blogger visar upp sajterna - kanske deras gemensamma grunka överst men jag har inte kontrollerat det) medan Typepad.com levererar mycket mindre och inte just lönt att göra som egen tråd.



Just handräknande väldigt inexakt ett stycke bakåt verkar cirka en stycken typepad.com ges per tio wordpress.org.

Detta medför ett bias i vad jag väljer att prioritera mer av. Särskilt som både Blogger (Google's tjänster för att leverera RSS ut mer generellt) är mycket snabbt och det samma gäller tycks det också Wordpress jämfört med många andra sajter med egna domäner (men antagligen verkar det för mig utan exakt mätning inte lika snabb som Googles hämtningspunkter).


Bias IV: Spindlings-levererande intern-länkning

En del universitet harjag märkt är brutala på att ständigt expandera under DRILL-spindling mot egna associerade subdomäner, andra domäner, och ut från det sajter relaterade staden och liknande runt om kring. Konkurrerande andra kan de ta större delen av utrymmet. Minns jag rätt var ett exempel utanför USA University of Toronto medan ett omvänt exempel på sajt jag fick hjälpa upp med fler initiala seed-sidor Uppsala Universitet. Med cirka fem till tio extra sidor var UU egentligen inte så dålig i hur man tänkt relaterat innehåll resp. uppdelning eget innehåll (ex. bibliotek, botaniska trädgården, informationssidor m.m. intressant för att förstärka sitt eget värde genom att visa upp stadens värde).


Liknande för ett antal större amerikanska universitet är det mycket lättare när fritt spindlande dem från ett fåtal utgångspunkter (även forsknings-nära) att få en hög andel sidor relaterat att anmäla sig m.m. relevant prospekterande studenter snarare än som optimalt för mig hellre mer undan gömda bloggar eller sidor med pressmeddelanden för avgränsade forskningsområden. Möjligt har det sin orsak i att för affären studenter relativt affären forskning är internet mycket viktigare för den första.


En mer begåvad spindel bör hantera en hel del här enklare. Samtidigt ska man vara klar över att en kostnad att direkt under spindling bibehålla och göra tillgängligt fullständigt tillstånd och upparbetad information för resp. existerar. Det är ej ett olösligt problem men det är enklare mer effektivt när resurser oavsett utveckling, hårdvara eller hur tillgång till vad som körs på hårdvara i form av kataloger, databaser m.m. är begränsade att separera spindling och ta in data där uppsamlat till varaktiga tillstånd i batch-import. D.v.s. det är kanske klokt att inte överskatta hur dum ett robot kan vara. Jämför gärna besläktat runt lösningen diskuterad i:



Desto mer av tillstånd nere i spindel ju bättre i mening effektiv behöver den vara i en till domän. Kostnad reducerad hastighet spindlande ska vägas mot vad man vinner genom att spindla effektivare och där ligger förutom mer direkt relaterat lösningarna i best-practise också utvecklingstid.


Önskvärda egenskaper sociala media

I domän av sociala media har jag mycket positiv erfarenhet av att spindla på från länkat via andra sajter in i facebook.com resp. flickr.com.


Även Youtube är snabb, fungerande och levererar ofta förvånande mängd riktigt data (d.v.s. skriven text snarare än filmklipp vilket inte just nu primärt intresserar mig för strömmarna). Eftersom Youtube är ganska tung att komma fel inpå och målsättning närmast är att undvika spindla den för att istället använda RSS-strömmarna (via data.youtube.com) införde jag följande enkla krav på de länkar att spindal som accepteras:


if (

( index(lc($url),"youtube.com") != -1 ) &&

( index(lc($url),"/user/") == -1 )

)

{

return 0;

}

Regeln är inte utvärderad med den noggranhet önskvärd där eller för motsvarande andra sociala media (något för veckorna framöver beroende på prioritering mellan sociala media och bloggar rörande en del data önskvärt från strömmarna) men syftet är att:


  • Primärt söka en enskild entitet - d.v.s. ej entitet Youtube utan entitet användares - centrala punkt på sajten.
  • Denna punkt önskar vi helst kunna se lika tydligt som för en egen domän.

Först och främst är det därför önskvärt att sociala media uttrycker dessa så att de går att särskilja. Utan att nu tittat egentligen på någon relaterat detta bedömer jag att det normalt är möjligt för åtminstone nästan alla. Viss information är trevligt om den finns:


  • Möjlighet för entitet att uttrycka viss personlig information i form av associerade punkter på nätet. D.v.s. om man önskar kasta entiteter som det ej är uttryckt för.
  • De viktigaste RSS-strömmarna (om alls aktuellt) personliga för entitet. Ex. motsvarande tweets eller blogg-inlägg och likes (och varför inte globalt alla kommentarer gjorda, kommenterarer levererade av andra på inlägg, likes m.m.) o.s.v.

För forum var det vanligt att ge sammanfattande uppgifter om ålder på sajt, antal inlägg m.m. Jag vet inte hur vanligt det är på sociala media enkelt att ta ut direkt. Det är för mig mindre viktigt än punkterna ovan och spekulativt tror jag att åtminstone många av de stora sociala media har mycket av vad jag önskade. Det underlättar ju både för dem själva såväl som viktiga stora externa aktörer att tidseffektivt hantera meta-tjänster ovanför kärn-funktionalitet (ex. sökning och vägar för användarna att ansluta till sajten via RSS).

Söka alla politiker och alla regeringar och myndigheter

2013-11-13

Utdrag nedan är från en bredare postning jag gjorde Fler underliga Microsoft missar | Hans Husman om Information Warfare. Tipset på möjligheten är särskilt tänkt Microsoft medan det passar Google mycket sämre eftersom deras api:er och andra möjligheter att göra förfrågningar är tämligen begränsade alt. orimligt dyra. Men ser andra samhälssvärde av att inte ta transaktionskostnad här kan konceptet säkert passa dom minst lika bra.


Därmed inte sagt att jag tycker allt de gjort fungerat dåligt. Windows 2000 server tyckte jag fungerade bra.


Fortsätter man att utveckla Microsoft Scholar adderande vettiga vertikaler och data-dimensioner med kvalitet kan det nog bli en bra sak också.


Dessutom finns det ju liknande områden där konceptet kan återanvändas ex. för regerings- och myndighetsfunktioner med politiker för att enkelt hitta vad de skrivit, givit förslag på m.m. genom åren (och varför inte våga lite extra där för att vinna stort: promenera över till NSA och låna 20 - 30 användarnamn och lösenord och titta efter vad de ev. har om amerikanska och utländska politiker: att visa att man prioriterar EU och särskilt EU-giganten Tyskland tror jag uppskattas och kan göra allt möjligt kring monopol om nu något kvarstår m.m. enklare - Säger Merkel att Microsoft är en sund vän av EU är det så eftersom hon betalar för det hela). Vertikala kopplingar till utveckling över tiden rörande frågor, statistik m.m. ger enklare quality assurance än man annars normalt ids engagera sig sökande uppföljning från en mängd källor.


Jag har en hel del relaterad praktisk erfarenhet av att samla publicerad information från såväl dom amerikanska myndigheterna och funktionerna, EU, OECD, Världsbanken, diverse länder runt om i världen m.m. Och också om en del föredömligt välorganiserade informationssajter finns hör det till undantagen. Skillnader i presentation, funktioner o.s.v. kan dessuto storligen variera mellan delar av större entiteter likt EU såväl som att översikt över allt EU på webben saknas (i antal nästan helt givet ett större antal projektrelaterade sajter utspridda på refererat av större eu, ej refererade på eu-topp-domän resp. på olika topp-domäner för länder).


Något nyligen relaterat att ha samplat svenska regerings-relaterade sajter på engelska för första gången:


Uganda problemet resp. Svenska regeringens "odolda" kopplingar till management rapport producenten Rand corp.



Ett urval av andra små egenheter i Microsoft OS:


Microsoft Azure: SSL-problem (igen)
Microsoft tips: Kopiera istället för att skriva av eller skriva ut skärmdump

Säkerhetsproblem i Microsoft Windows troligt svårhanterat via konfiguration

Microsoft ropar på hjälp (igen) med nytt försök att slippa ansvaret för säkerhets-debacklet

Microsoft Bing! Quality assurance problem och helt avstannad utveckling framåt förutom hantering spam

2013-08-21

Följande upp det nya Bo-konceptet Sunny Vitahuset publicerat på Twitter, Youtube, blogg m.m. tittade jag hur det märktes på Bing!.


Nyfiken på om de anti-spam-lösningar och indexeringslösningar vågar och/eller orkar ta upp så snabba volym och rekommendations-indikationer visade sig inte Obamas nyköpta hundvalp alls. Däremot i video-sökningen fanns en försvarlig andel pornografi (jag tror inte det är relevant sökresultat för Sunny oavsett filtreringsnivå: porgrafi-konsumenten har ofta gissar jag inget problem med att addera tydliga cue words t.ex. kvinna gör något i informations-domän pornografi.


www.bing.com/videos/search?q=sunny&qpvt=sunny&FORM=VDRE

Fortfarande vad jag från tumbnails gissar är pornografi också med strikt-filter.


Exakt vad problemet så återkommande lite varstans egentligen ligger har jag funderat över genom åren. Ett möjligt svar jag reflekterade över nyligen efter att ha träffat på deras EntityCube och läst vad de publicerat om den är:


  • Vi betraktar idéerna runt kuben man diskuterar i artiklarna.
  • Varje algoritm eller kocnept är by the book.
  • Väölända stabila algoritmer.
  • Ett tämligen pedantiskt noggrant helhetstänk.

När jag tänker på det tycker jag mig minnas något publicerat av Microsoft relaterat något NIST projekt där de om jag minns rätt använt Concept net <(MIT) till något. Samma sak by the book.


Menoavsett hur stabila och goda algoritmer det är - kanske rent av som cosinus similarity - med i de flesta referensböcker räcker det inte i sådana här sammanhang. De kan vara funktionella detaljer också om de normalt även i sådana avgränsningar behöver ses som utgångspunkt att ta upp oavsett om det är något teoretiskt nyare, mer avancerat, mer kostnadskrävande i CPU o.s.v. adderande innovation eller om det snarare handlar om föga avancera, kanske inte alls eleganta, rent av tämligen smutsiga extra filter lösningar för att skjuta ner "underligt" innehåll vi kanske trivialt kan ta det mesta av med bara ord-mönster indexering men som vår statistiska nät förvirras av.


Det är lite som de sär koncepten som komponenter och försöker bygga med lite som Visual Basic men givetvis ändå praktiskt helt annorlunda. Och visst det är klart det går bra med egentligen vilken referensbok som helst i domänen statistisk language processing och hyggligt indata men då får ju inte top-end.


Samma sak med ata. Oerhört vackert och elegant tänk att se kompletterande värden Twitter, webb m.m. Men lite samma sak där verkar man tänka först och hela vägen parallella datakällor man ser lite p.s.s. Det rekommenderas och förklarar indirekt eller direkt vad man avsåg. Men lämnar man standardalgoritmer och standard-datakällor som primära utgångspunkten måste man ju i verkligen om man ska nå längre än vad du får med ett par referensböcker, stora resurser och väldigt nogranna och potenta systemutvecklare (för det är fortfarande ett förbannat svårt område): med en idé vad folk egentligen gör, tänker och agerar när de "rekommenderar" i resp. kanal.


Det skiljer sig radikalt mellan olika publiceringskanaler. Och radikalt beroende av vilken roll också grovt pbulicist har. En marketing inriktad pornograf gör ju en helt annan sak än en gammal tänkt som gör retweets på sina barn-barns- låg-kvalitativa teckningar de fotograferat och ingen människa egentligen vill se hgre i sina sökresultat därför.


Refererar vi en just en referensresurs i ett Tweet som ej är en summering av något mer genomarbetat gäller ju givetvis att mindre tid i genomsnitt investerats i att välja den d.v.s. har mindre quality assurance och större bias Wikipedia m.m.


Utan det tror jag inte för ett ögonblick att någon stabilt får ut rankningsvärde av Facebook eller Twitter adderande kvalitetsdimensioner till andra rankningsfaktorer. Det kan verka fungera men regelmässigt falerar det no doubt utan mer och skämmer ut en stor brand värde-påverkande billboard produkt som Bing!.


Man börjar med människan: Vad vi gör när vi publicerar eller rekommenderar. Vad vi gör när vi letar information. Och tar eller skapar de algoritmer och modeller vi behöver närmare sökmotorn från det.


Rörande just spam på webbsökningen gäller att de numera har mindre problem upplever jag med uppenbart inte vad jag söker efter alls (jämför problemet ovan för video-sökningen). Men i övrigt upplever jag inte att sökresultaten någonsin på år nu blivit kvalitativt bättre i övrigt. Relativt upplevelse av domänen i övrigt står de still.


Om förklaringen stämmer med verkligheten bakom det kan jag ine säkert veta. Och även om så är det ganska underligt. Ev. någon management strategi med områdes-smal rekrytering. Deras visuella ide med bilder på startsidan gillar jag dock liksom en del andra sådana komponenter. Men oavsett elegans tror jag inte att det är dom långsiktiga barriärer Microsoft borde ha byggt redan här för att vara något värdeskapande för ägarna över åren som kommer (om det någonsin varit det).


Microsoft köp av Yahoos! sökmotor var kanske sunt i någon revenue-dimension men jag tror inte att det just adderade något av vad Microsoft kanske behöver nära själva algoritmerna och modellerna. Det är kanske oftare mindre företag mer teknik-inriktade på något nytt. Men även där behöver man ju bäst tror jag en övergripande modell för att kunna resonera om var man kan få värde av sådana köp.


Omvänt kan man ju fundera vad egentligen en fet computer-grid med mycket av rå-statistik är värt för dig när din tid är knapp. Ganska mycket av och till. Från det perspektivet är Bing! mycket attraktiv och fanns möjlighet hade jag gärna köpt det för att få det klart i en stabil-struktur och rullat över annat via bit för bit mellan-lager framför det förvandlande det till en grovare datakälla. Själv i den domänen är jag i deen svårlösligt lite jobbiga riktningarna mellan hash-tabeller i Perl för visst data tagande för lång tid i den dagliga uppdateringen relativt minsta antal nyheter - tappar kontinuerligt ungefär relativt världes tid 2 - 3 timmar dagligen för att boota upp och Perl är riktigt snabb runt dom här operationerna så jag har inte ens prövat en c-portningen - jag initialt för versionen vill indexera dagligen eller välja databaslösningar vilka för Mysql och postgres på min utveclingdata inte hinner med i närheten av ens samma dag att ta in samma mängd nyheter.


Jag vill ha hela Bing! grid:en med allt data.


Men det börjar väl bli dags att surfa in på DELL och se vad prisvärt men snabbt kring sådant här man kan hitta. Helst vill jag ha något med fullständigt brutalt med hyggligt snabbt ram läggande sig som mellan-lager eller nästan helt istället för hårddiskar. Men förra gången jag handlade verkade indexering av minnet vara brutalt begränsat under vad jag ungefär ville ha. D.v.s. cluster krävs ganska tidigt.

Indexerade sökresultat: Microsoft i Google

2013-08-18

I en komplettering och fortsättning på Från Google till Microsoft - Information i domän sökresultat: Temasidor överliggande sökresultat attraherar mjukvaruagenten (2013-08-14) kan vi i skärmdumparna nedan se vad som ligger mycket närmare - praktiskt konkret - sökresultat indxerade:



Terminerande till sidor av denna sort:



Ett konkret exempel där jag från det indexerade sökresultatet dessutom reducerade bort ett par domäner för att söka reda ut vilken den totala verkande mängden url:er som avsetts kan tänkas vara (d.v.s. är det hela webben som jag utgick felaktigt från när jag började skriva eller är det ett subset ex. endast Microsoft sidor eller ett subset genom svag indexering eller kortare tidsrymd):



Att jämföra med den jag kom in på från Google's sökresultat:



För en liten man som jag mellan två gigantiska jättar fighting for world search domination är vad vi har ovan lika enkelt som nedan när det gäller att bibehålla perspektiv av en intresserad utomstående utan insats. Indexerade sökresultat (åtminstone om mer märkbara än vad jag tror dom är i Google) läcker information enligt föregående inlägg medan den faktiska indexeringen om gjord fet nog kan ge en del information till Google.


Nu ligger det lite utanför vidd och syfte på det här inlägget att ge någon guide till att extrahera statistiska data från sökresultat men jag upplever från åtminstone sidor enligt typen ovan att de är tämligen begränsade i läckage. Dessutom verkar det inte vara någon allmän sökfunktion (och av samma anledning tror jag inte att det är medvetet indexerat av Google jfr sidorna längre ner i hierarkin: mobilectp.microsoft.com/common/msearch.mspx).


En spekulativ gissning är att denna och ev. fler liknande indexerade sökresultat kanske tekniskt är besläktad med vad vi hade i föregående inlägg. Möjligen kan Microsoft har mer på att vinna att undvika att låta resultaten gå ut för att indexera.


Problemet - eller utmaningen - med den här sortens datakällor liggande så att säga ovanpå den webb vi tänker oss i sin tur göra sökresultat för är hur man för samman dem. Jämförbart tror jag är det ofta besvärligt nog att bara hantera differenterade skattningar av förekomster när okända faktorer finns. D.v.s. frågan väl illustrerat av mobilectp.microsoft.com ger ett index anpassat för ett särskilt ändåmål snarare än hela webben behöver man ju bäst känna det också.

Sverige och Libyen är otydliga och onödigt blockerade av fulare saker som tar dataplats i världen

2013-07-18

OpenStreetMap tycks ha utvecklat sig vidare från när jag förra gången tittade över det och förhoppningsvis kommer det också visa sig att själva map-servern förstärks ytterligare.


Både när det gäller datatjänster som OpenStreetMap såväl data extraherat från Wikipedia gäller att skillnaden hur olika annars lika aktörer märks är gigantisk. Betydelsen av detta har ökat sista åren och är mycket mer påverkande än berörande ex. bara de som läser Wikipedia-artiklar eller direkt utnyttjar själva karttjänsten Openstreetmap.org.


Idag ett tämligen stort antal tjänster påverkande presentation i sin tur för webbsajter eller media såväl som en också betydande - kanske mer så i konkret inverkan - analystjänster långt ifrån alltid märkbara på nätet använder datat. T


Tittar vi på mycket använda DBPedia ontology gäller att den är extraherad från Wikipedias infoboxar. Sista gången jag gjorde en färsk sådan extraktion själv var det ett fullständigt litet djävulskap givet den enorma syntax-bredd möjlig för horderna av självorganiserande skribenter. DBPedia ontology om man tar den är tämligen ren d.v.s. väldigt mycket data som finns i infoboxarna kastas när avvikande från normalt skrivet eller ej särskilt vanligt och därmed ej praktiskt att dokumentera typ-hierarki för (även om en hel del felaktig extraktion givetvis finns i den också av och till).


Hög komplexitet att extrahera själv, rent data enkelt från DBPedia och att DBPedia är mycket välkänt och har attraktiv policy gör ontologin mycket använd. Tittar vi på Sverige noterar vi som exempel att:


  • För dbpedia-owl:wikiPageExternalLink gäller att bland svenska tryckta tidningar märks SvD och DN men inga av deras konkurrenter
  • dbpedia-owl:assembly of inkluderar de varumärken som mycket typiskt är skärningen mellan sedan länge välrepeterat också utomlands och berör konsumenterna under en längre tid. Problematiskt för Sverige vad blivit bara bilar trots att också (vilket i och för sig är problematiskt på exakt samma sätt) bl.a. mobiltelefoner är enkla typiska segment som normalt ska förekomma här. Förövrigt är dessa lätt självorganiserat uttryckta varumärken de som har etablerad tydlighet med låg reduktion motsvarande familiarity i själva konceptet (oavsett bl.a. produkternas igenkänning vilket är en annan fråga) även om problem kan vara associerat periodvis. Relaterat Kina's djuporgier i Västerlandet sista åren är det dessa former av varumärken man helt riktat in sig på. Riktade åtgärder för att komplettera i Wikipedia är givetvis värde-adderande och vad som utmärkt kan göras systematiskt kross-refererande de svenska databaserna hos myndigheter eller branschorganisationer (eller för den delen diverse utländska).

Och det är över allt lätt att konstatera att föga andel av verkligt existerande och ännu mindre mer än lite slumpmässiga småsaker som kommit med på tur ofta när det kommer till skärningen mot större delen av de kommersiella områden landet kan ha konkret nytta av att märkas. Ett kortare liknande exempel ges via live.dbpedia.org/page/Category:Sweden mer lämplig för att enkelt förhand jämföra med andra länder.


För Sverige-grafen minns jag ett liknande fenomen där vi för någon named relation relaterat media endast för de dimensionsrymder jag genererade från hade DN och Aftonbladet. Tveklöst en indirekt konsekvens av att båda är mycket väl-uttryckta i Wikipedia vilket i sin tur ökat sannolikheten för att de med uttagbara mönster finns med också i fler infograf-fält. För rymden där använde jag dock något lite liknande DBPedia för aktuell named-relations och det lilla antalet tidningar om än typiskt för det generella problemet torde försvinna när jag tar min infobox-export (varande något av en expert på att få bort skräp som läcer in vid data extraktion efter att ha gjort det från tusentals datakällor är mitt behov av att reducera inte i närheten av nivån DBPedia lagt sig på: filtreringen måste ändå göras kring så mycket annat och att fälten kan typförstås ges ju av andra ontologier och system befintliga).


Flyttar vi nu det vakande ögat - eller ögonen - till OpenStreetMap kan det tyckas vara ett visst praktiskt projekt för att visualisera uppslagssidor, planera en försvarsövning med, roa sig med på cykelsemester likt fotografera vardagen fenomenet hos människor o.s.v. Men en mycket levande inte alltid synlig subkultur runt OpenStreetMap och dess data finns i turstnäringen och särskilt givetvis i de "mellan-lager-lösningar" kring bokning och sökning av hotell, biljetter, resor m.m. i skärningen mellan hotell-industri-direkt, webben och SEO (Search engine optimization: underkategori inom information warfare).


Och där vill man verkligen som geo politiskt aktör med ett ansvar mot väljarna att berika dem med feta utländska turister att allt finns med. Därför att kring så många sökfrågor som sådant här byggs gäller inte att någon svensk pott finns som fördelas för vad vi förekommer i utan allt bidrar till att Sverige märks mer. Allt som är museum, hotell o.s.v. ska finnas med och med engelskt namn åtminstone (men självklart också tyska, franska, svenska, ryska o.s.v.)


Ett område lika viktigt för aktörer som likt Libyen nu expanderar sina turistorter. Särskilt givet att man samtidigt har ett fortgående intresse relaterat den döda diktatorns excesser, byggnader m.m. D.v.s. inte omöjligt att folk kan engagera sig en del spontant om möjligheten indikeras på att fylla upp OpenStreetMap med platser såväl som cykelvägar m.m. folk med gps brukar dela data runt. Även om man som förvaltande aktör rimligen ser till att allt mer välkänt man har kännedom adderas in.



Visa större karta

Vi har givetvis en del besläktade områden också men mer omfattande att diskutera så vi nöjer oss med att notera transfereringspunkter på kartan som broar, flygplatser m.m. resp. betalnings- och transfereringsmedier med kick-back system (trivialt frequent flyer m.m.).


Vad jag tror är Sveriges problem här är det inte att man inte sett betydelsen och värdet. Men däremot saknar man datakällorna, deras spridning och användning kartlagt. Ej heller hur dessa motsvarar datakällor man självkontrollerar. D.v.s. man gör vad jag märkt flera mycket korrekta och av och till tycker jag tämligen insiktsfulla projekt (det hade troligt inte varit en idé jag själv sett möjlig att avlöna någon att editera runt lite kring Sverige sidor i low-specialist but part-of-community person men tycks en väldigt kostnadseffektiv långsiktig åtgärd som kan leverera värden under år om det sker i dom större språkområdena). Men saker kommer också ner till att ta enkla men extremt frekvens hög datafält d.v.s. tänka mer hundra tusen kring "en del" (branscher, orter, forskningsområden, award-former, historiska föremålsgrupper m.m.) områden - och givetvis följa riktlinjer får hur man bäst uttrycker datafält i infoboxar, skapar bra kategorier, ser till får bra bilder och av och till får extensions för att stödja spridningseffekt till andra uppslagssidor genom självorganisation. Och allt i direkt dialog med samhället så man inte alienerar det i onödan på rena missuppfattningar.


Mer om det hårda slagfält den geopolitiska turistindustrin kapprustat till där varje ny teknisk möjligheten, historisk händelse och ort är eller bör in i gemensamma datakällor för att nära tillväxten och befrämja fred:


Microsoft Bing News förstår inte skillnaden mellan engelska och svenska eller klarar geo-lokalisering rätt

2013-07-06

För att förebygga att Google känner sig särskilt utvalt mobbad av mig efter Google's nyhetssökning för "Egypt" defekt: Tidsstämplar felaktiga (2013-07-06) och föregående om Google Blogger med sist Bloggers plattforms skada II och III: Okunskap om bilder och fascinerande oförståelse av dynamiken mellan skribent, publicist och läsare (2013-07-05) och kanske helt går hem från nätet har vi nedan ett likartat men tror jag mer konfigurations-stabil defekt för Microsoft Bing News.


Bilderna är i händelse-ordning från konfiguration till faktiskt resultat där vi ser att när prioritet för ordning av nyheterna ändras från relevance till senaste först gäller ej längre inställningarna gjorda för språkområde, geografisk association m.m. och Bing börjar leverera nyheter från svenska tidningar vilket var just vad jag ville undvika eftersom de mer sällan bevakar internationella nyheter med jämförbar kvalitet med de större engelsk-språkiga tidningarna eller de geografiskt relevant lokaliserade medierna som publicerar på engelska (ex. ibland för Mellan-Östern Aljazeera.com vars lokala kulturella perspektiv såväl som kontaktnät kan tillföra värden vi har många likartade exempel på lite varstans i världen: här deras egen sökfunktion med egypten sorterad med sist publicerad först Egypt).


Men för nyheterna sorterade efter relevans kommer de efter ändrade inställningar rätt. Orsak förutom ren felprogrammering kan vara att Bing ev. ligger efter i språk-identifikation och att det är relaterat diverse default där snabb filtrerar direkt från geo-lokalisering av nyhetskällan. Det om så varande odefinierat som sökmotor ska fungera åtminstone enligt presentationen i gränssnitten kanske inte hanteras alls utan bara hänger kvar efter någon gammal version från förr (jämför med Säkerhetsproblem i Microsoft Windows troligt svårhanterat via konfiguration (7/06/2013)).






Underligt Google-sökresultat resp. Sökrum och relationer mellan koncept som definition av rummets utsträckning

En kraftig syntax-förklaring finns också relativt sökresultatets sökoperatorer jag använde. Det är dels mer ett dåligt exempel jag bättre ger kompletterande exempel för (jag tog just här skärmdump av en mindre mängd begränsande operatorer samtidigt som vi har att Google tenderar allmänt och regelmässigt för url se ett koncept som avgränsat av tecken relaterade url:er p.g.a. av hela länk-historiken d.v.s. inurl kanske avgränsar vid punkterna följande denna princip (jag minns dock ej här och nu men kompletterar med det blir av att ge ett bättre exempel). Samtidigt önskar jag ha min diskussions-tanke sammanfattning publicerad. Ev. läsare bör dock vara medveten om exemplets problem och snarare se det som indikativ utgångspunkt att hitta varianter från som tydliggör vad som avses för. Jag tror att den större grupp som kanske inte direkt är ointresserade kring hela diskussionen oavsett om teoretiskt ganska tråkig - d.v.s. branscherna relaterat sökmotor-optimering och sökmotor-industrin - utan större problem identifierar ut exemplen med ex. som utgångspunkt.


Jag undrar om similar searches (bild 2) jag fick för sökkod vi ser i bild ett (från samma resultat-sida som bild två) beror på att:


  • Jag gjorde något fel med inurl.
  • inurl har ändrats och saker har börjat gå sönder i annat "relaterat".
  • inurl var korrekt gjord av mig och har ej ändrats men feltolkades i någon annan funktion påverkande sökresultatet också utanför similar searches.
  • Att presentationen av vad sökresultat i similar searches berör är felaktigt beskrivande faktiskt sökresultat.
  • similar searches hämtar en "mängd" / "view" av sökresultatet som ger alla sökord använda och behandlar alla p.s.s. oavsett om inkluderande eller exkluderande därför att Google här som i mycket kring sökresultat är väldigt "cosinus-similarity-konceptuellt-drivet" och mycket underliggande begriper troligt inte (och bör antagligen ej där göra det heller) definition av mängdernas utsträckning som ska beröras även om de självklart använda och initierade bäst ges eller appliceras på den mängd man avser snarare än samma mängd (indikerande att mängden ändrats som i exemplet) eller en helt annan mängd än begärd av användare och angiven av systemet.


Skrämdump ett: Sökord med sökoperatorerna.



Skärmdump två: Similarity searches Google gav inkl. varianter med samma exkludering applicerad via "-inurl".




Min gissning är det sista. Jag tror funktionen hämtar upp alla sökord utan hantering av söklogik alternativ får söklogik men att någon enkel-fix gjorts med diverse sträng-hantering för att ta ut det man tror är vad man kan och ska hantera lämnande sådant man ej bör eller kan hantera men missade vad lagret ovanför ej hanterade.


En till och inte otroligt är den förklaring Google skulle se (hur världen från ett alltid repeterat perspektiv skiljer sig från det andra det första perspektivet har till uppgift att optimera värdet för relativt kostnaden kan vara radikalt divergerad utan att divergensen tillför värde) eller rent strategiskt sökt att uppnå som förklaring är att allt här är helt korrekt. därför att det är just liknande sökningar vi får med varianter nu med exkluderande förutom inkluderande efter att jag introducerat det i logiken.


Problemet med det resonemanget är att överstrykning och exkludering annars uteslutande används som operator på den positiva mängd jag definierat och bör som alla användare naturligt ser utan särskild vetskap om Googles rymd av associationer mellan sökordsbegrepp ser det som helt redundant. Man är helt enkelt väldigt explicit ej intresserade att få in dessa sökord alls och tror jag normalt är det vid den punkten helt redundant att visa varianter omvänt skärande begränsningen för något så exakt som inurl eller intitle därför dessa bör vara väldigt indikativa på att man innan ex. sökande information om anpassning av WikiMedia plattformen fått flera sidor av sökresultat med sidor från Wikipedia om mjukvara och systemutveckling mer allmänt.


Konsekvensen av att Google's associationssystem ej hanterar i sin bild av världen att likhet mellan en mängd av koncept och sidor ej kan uttryckas som egenskap av, underrum m.m. (ex. "visuell anpassning" begränsande underrums-operator: applicerat på rörande Wikimedia för att särskilja när visuell anpassning snarare berör frågor diskuterade runt WikiMedias sajter eller specialistsidor i uppslagsboken) blir ju exkluderande mängder per direkt nyckelordsförekomst i väldigt indikativa delar av en sida på nätet som url och titel väldigt kritiska och gissar jag oerhört för mänskliga sökningar är inlärt för att hantera fallen när man får överdrivet omixade feltolkningar av något radikalt avsett.


Även är ju site vad man kan argumentera åtminstone relaterad till resonemanget kring inurl och intitle. Men just relaterad därför att Google från den sidan är oerhört styrd av vilken "site" d.v.s. domän som publicerat medan från andra sidan begränsningar eller snarare algoritm bias (och som sådant inte självklart sämre än andra alternativ: kanske snarare som genomsnittlig metod för genomsnittliga ej specialiserade sökningar i mängd-smalare områden bättre än andra möjligheter även om nu har similarity algoritmer för att skapa större eller mindre underrum för olika "förstoring" vilka jag ännu ej sett i min referenslitteratur men vad jag vet är tekniskt och teoretiskt möjligt eftersom jag har tre varianter av ett koncept för detta jag gjorde för Blue lights tidiga resp. senare användande applikationer implementerade och ofta använda - alla mycket snabba anropade men långsammare i för-generering även om knappast långsammare för genomsnittligt antal relationer per koncept jämfört med LSA eller cosinus-similarity).


För Google när site-sökning används exkluderar vi därför inte så mycket som vi säger att värderingen av övriga sajter ej räknas. För konceptens relationer hanteras dock dessa endast som mängder applicerade på värdet för målet och hur de där associerar med varandra. Att definiera en mindre mängd genom att säga att vi vill ha "Microsoft" + "system development" kommer endast ge funktionella träffar rörande systemutvekling på Microsoft rimligt ofta i sökresultaten därför (jag förutsätter att så är fallet) att denna association har hög kraft association från en mängd indikationer mot dem där också en relativt sökordens styrka som enskilda koncept större olikhet (närmare cosinus-similarity än mina similarity-operatorer) vilka tenderar att rimligt beräkningseffektivt clustra i godtyckliga huvudområden.


Det är ett fåtal "sökområden" (sökningar jag gör relaterat ett pågående kunskapsbehov inkluderande många varianter en tid) jag fått problem relaterat detta. Att identifiera seriösa tyngre kunskapsgenomgångar om anpassningar av Wikipedia-plattformen för affärs- och verksamhetssystem är ett sådant.


Associationen WikiMedia till Wikipedia är ju enormt stark. Medan de båda enskilda koncepten sig är abnormt starka. Samtidigt som Wikipedia om man söker relatera den till kunskapscluster utan similarity-operatorer mer liknande mina falerar och istället passar Wikipedia in på allt. Resultatet blir att Wikipedia-serp dominerar trots att vara 110% icke-relaterad.


Till och med serp-dominerande sig själv döljande de fåtal relevanta sidor som finns både i Wikipedia och meta.wikimedia.org därför att mer abstrakta koncept som uppslagssidor i Wikipedia är mycket potentare.


Det känns som konceptet borde gå att applicera värdeskapande kring annat jämfört ex. Google. Men det är just två eller tre faktiska fall när problem direkt gjort att man noterat att andra similarity-operatorer ovanpå eller parallellt hade löst det ganska enkelt utan prestanda-förlust. Medan jag egentligen inte vet om sökkoncept där det som standard adderande värde finns (vanligen tänker man ju på sådana behov bara när problem stör verktyg man använder medan ev. värde mer generellt är svårare att avgöra).


En alternativ och tror jag helt opraktiskt väg att hantera samma sak är att försöka skapa direkta regler för hur koncept passar samman med varandra. D.v.s. named relations och ontologier. De är utmärkta för presentation av data eller användar-nära kring en del liknande, motsvarande i juridiskt noggranna sammanhang för att öka tydlighet och reducera tolkningskostnad (och p.s.s. i andra standardiserings-sammanhang som kommunikationsprotokoll m.m. även om det rena ontologi-tänket nära mänsklig presentation vanligen blir där brutalt överdrivet därför att vi så lätt relaterar och tycker att det i sig självt är förklarande och gjort stort arbete medan dess verklighet i mjukvara m.m. lämnas mer vind för våg i en inte sällan ganska annorlunda värld), och är ej direkt ovanliga i mer tänkande sammanhang när en myckenhet av filosofer genom historien önskat sig ett system för att organisera sina förklaringar och systematiseringar av hela världen.


Vi har en exempel-illustration för just dessa systems förmåga i presentationslager att bli enkelt mycket tydliga jämfört med andra lösningar (i underrummet av grafer vi genererar med kod arbetande på oerhört stora datamängder och antal koncept: anställer du en konstnär eller illustratör eller liknande skulle de antagligen inte se samma relativa värde och troligt väldigt enkelt göra en mycket bättre enskild illustration oavsett att de säkert falerar att orka göra cirka en miljon under sin livstid som aktuellt för mitt presentationslager som ex. kommer från avseende ett draft-experiment).





Ett större närmare realistiskt exempel finns i Sverige-grafen.


Av samma anledning tror jag som dessa är presentations-trevliga och där väldigt tydliga blir de när vi applicerar på hela världen för begränsade. DBPedia är ett utmärkt exempel på detta. Trots relativt andra likartade lösningar mycket stor är den även när vi inkluderar broader, Wikipedia-kategorier m.m. liten i namngivna relationer mellan koncept jämfört med de vi har i mängden språk.


Viktigt är de ytterst hierarkiska i hur vi praktiskt skapar dem - trots att ofta tillåtande och införande även godtyckliga mång-dimensionella övergångar - där en sådan godtycklig relations möjlighet att agera operator på andra givet en kontextuell indikation ej alls finns. Därmed krävs ju att alla aktuella relationer med deras betydelse som kan vara aktuella faktiskt finns definierade med när och hur de är aktuella istället för att kunna räkna fram relationerna med deras inverkan på varandra som funktion av ett kontext ex. en grupp sökord med ev. meta-språk där (avseende ex. inurl och intitle med meta-språk).