HANS HUSMAN OM MEDIA

Visar inlägg med etikett SEARCH. Visa alla inlägg

Bing vs Google: Högvärdes (sökmotor) sökningar III: Gaming

2015-04-04

Inledande diskussion en särskild sökning betraktar vi några områden intressanta när Google och Bing jämförs relaterat några av de idag mindre använda men värdefulla tekniker analys sidor och tolkning sökkoncept vi kan önska se när resp. börjar använda märkbart såväl som andra faktorer som kan tänkas ta upp Bing's marknadsandelar till nära Google.

Vi använder exempel-sökningen för att etablera några av de abstrakta resp. konkreta faktorer intressanta att följa upp via fler sökningar, statistik från andra källor resp. data mining av artiklar, konferenser m.m. resp. aktörs medarbetare uttrycks sig i.

Tidigare publicerat

Relaterat flera av diskussionerna ej länkat direkt där jag refererade fenomen (jämför också diskussion påverkan från språkmodell N-gram i skattningar Google index medan nedan diskuterades N-gram modeller närmare hantering av sökorden):

Bing kvalitativt bättre än Google för vissa former sökningar (inkl. bland de mest ekonomiskt värdefulla) RESP. Funktioner för sökning grafer jag vill se hos Google och/eller Bing

Information i SERP: Tillståndsinformation sökmotor resp. läsare / sökare

Översätta sökord: Se och särskilja kultur, grupper av personer och upparbetat representera människor

Google googlar med Google-NGRAM: Antalet indexerade sidor fel (2013-02-10)

Sökmotorer: Bedömning relevans och likhet mellan koncept och människor

Vad har Google, Microsoft m.fl. egentligen för beräkningsutrymme per användare? För kontext-hantering och prediktion av sökningar

......Tänkbart är Microsoft Bing! på väg att bli stark (2014-02-07)

Bing! i Kina: Att approximera effekt med antal länkar (2014-02-17)

Video Gaming: Mycket värdefull bransch för sökmotorer

Förr i alla fall var gaming industri omsättande pengar - direktförsäljning av utbyggnader m.m. ekonomi lurande av ungdomarna såväl pengar som mer problematiskt läxtid (föräldrarnas fel: Ungdomar skriker efter struktur där spel och dobbel hör till någon vecka på sommarlovet) - såväl med en mycket internetanvändande publik.

Bättre perception av förändring intresse och preferenser är dessutom vad som kan ge sökmotorer möjlighet att kapitalisera bättre på de som söker i ämnet än andra aktörer kanske klarar lika troligt lika snabbt. Det är en fråga vi kanske återvänder till i ev. uppföljande inlägg när jag kontrollerat statistik för relevanta sökkoncept om jag har tillräckligt relevanta i min samling (jag tror men lär kontrollera mer att dom publika kanaler för indikationer Google har såväl som mindre aktörer jag prövat ej här tillför värde nog för att om jag saknar uppgifter sökkoncept ej bättre använder andra former av statistik som förändring uttryck nyheter, bloggar m.m. Dessa källor är ofta normaliserade i relativ mening och utsträckning i tid resp. sökord till begränsat värde för att se ev. förändrings-predikterande värde eller är mycket värre bygger på väldigt lite statistik utan att det framgår bra alls).

Låt oss därför göra en mini-test utan seriös bredd prövande Google resp. Bing i just denna bransch samtidigt som vi försöker få lite känsla av om någon av dem börjat "små-resonera" (den uppmärksammade kan ha noterat att jag av och till prövar dem vilket ibland givit någon postning här kring något noterat: Men ännu ej vad jag är intresserad av att om så märka).

Vi väljer en kundgrupp jag kan föreställa mig finns (Varför skulle jag vara unik?) såväl som jämfört med ungdomar och yngre vuxna med jämförbar eller bättre betalningsförmåga såväl som oftare havande barn man kanske söker presenter till. Sökningen:

generation later doom suitable 40 years old fully inexperienced games later than doom

Jag märkte säg ett eller två år sedan att Google gick närmare att (som jag upplevde det) utnyttja n-gram modeller på sökorden man skriver in i en språkmodell. Detta följde en tid (ej omedelbart) efter att Google N-gram publicerades:

I exemplet Doom Doom Doom har smoothing satts till 50. Som vi förstår från resultatet används smoothing ej för att hanterade saknande frekvenser när någon söker på orden utan tänker jag snarare bara för att ändra frekvenserna på n-gram man redan har riktiga mätvärden för. Frågan är vad man tänker sig att förändringarna särskilt om antalet reduceras från höga frekvenser som i flera ofta använda algoritmer "sparande" för koncept man ej hade i corpus tog vägen? Läsande ngrams/info inser jag att smoothing nog avsåg ritande av grafen och ej frekvenserna: Tyckte väl att det var funktion lite väl långsam om gjord bra att ha så här.

Första resultatet jag gjorde för att testa vad jag trodde var N-gram-smoothing ej alls intressant:

Doom+Doom+Doom

Intressantare sökning där Doom 1 fick ersätta Doom: Det senare ordet har så hög frekvens att det ej går att jämföra med Doom 3. Doom 1 lär ju vara samma sak som Doom oftast så det blir lite samma sak när vi tolkar orden i alla fall även om nu frekvensen är helt annorlunda. Se även att RA2 och Yuris tycks konvergera.

Doom 1,Doom 2,Doom 3,Ra2,Yuris

Det ger en till väg att tolka sökorden kompletterande vektormodeller av dokument: D.v.s. ordens ordning relativt varandra i statistik mening kan utnyttjas. Ett bra värde Google har som kan vara nära relaterat detta är identifikation av dokument (ex. journalartiklar, böcker m.m. med generisk titel) genom att förstå att sökningen just avser ett dokument med en viss titel eller med en viss under-titel (eller liknande) man kommer ihåg oavsett vilken sajt som publicerat dokumentet (journaler kan ex. ta betalt för att läsa artiklar samtidigt som universiteten har rättigheter utnyttjade att publicera en kopia av artikeln på sin hemsida).

I den mån detta fortfarande gäller är sökningar likt mitt exempel mycket svårare att bedöma utefter just detta jämfört med titlar. Titlarna med grundstatistik språkmodell dominerar över en udda lite slarvigt skriven mening. De många åren gör att den relativa skillnaden i statistik-meningen motsvarande ex. normaliserad frekvens och variation (entropin) gör skillnaden ännu värre: En titel för ex. en forsknings- eller nyhetsartikel kan uttryckas som titel på en mängd dokument medan min sökning kan vara vad Google innan aldrig sett med inte otroligt ej perfekt vanliga övergångar mellan delar av meningen till nästa ord.

Dessutom adderar språkmodellen i sig i mening av ngram-statistiken (sannolikheten för hela mitt menings-chunks) inte något särskilt värde för tolkning av vad jag avser för specifika meningar med mindre än att lite dyrare parsning och statistik tolkning görs. Ingenting jag märkt pekar på att Google gör särskilt mycket alls relaterad sådan tolkning jämförbart med en mer krävande modell av språk och mening.

Hur är det med domän och url när det gäller ranking?

Alternativ datakälla och informations-resurs till Google ngrams och Microsoft Ngram är bl.a. ngrams.info med COCA som är en av de lite mer kända resurserna även om jag här valde ut den endast p.g.a. likheten i domän med Google's URL resp. påverkar ranking såväl som resp. kraftiga länkning från betrodda resurser. Jag tycker att det är lite bra att Google ligger före COCA: Google Ngrams (books.google.com/ngrams/info) är kostnadsfritt (korrekt beteende) medan COCA's prismodell (skulle kosta migpengar) alltid känts fealtig för mig och då ska man inte ranka alls (jag betalar ej för statistik och vill därför ej heller hitta detta).

I övrigt har jag inte försökt följa ev. påverkan. Traditionellt har ju Google värderat detta. Propagerar man index framåt i tiden delvis åtminstone förstörande kan jag tänka mig att det är en sak som kan medverka till att man föredrar att behålla en ungefärligt (hög värdering men kanske mer eller mindre hög) jämförbar värdering fortsatt alltid framåt i tiden fortsatt så länge det känns som onödigt arbete att röra runt med datapunkter man ser ett värde i som de fördes över till nästa tidpunkt.

Har Microsoft common sense? Begriper de egentligen något alls?

Möjligt har Bing också en utmaning här: Men jag har ännu inte Bing-känsla nog för att våga mig på att spekulera även om jag åtminstone har viss koll på vilka common sense (ett av dem tror jag att jag diskuterade också just noterande att Microsoft prövat den lite förutom övrig diskussion här längre bak: Concept net) , teknikområden inom information retrieval, och intressen deras medarbetare runt Bing av och till visat intresse för relaterat konferenser m.fl. nörd-ansamlingar från olika företag och universitet för att lära av varandra och hoppas jag motivera upp varandra sunt söka visa vem som är den brutalare programmeraren och algoritm-tänkaren.

Google köpte upp en aktör för några år sedan relaterad common sense. Jag spekulerar att implementationen av datasystemet för graf-representation av koncepten med deras mening var hela värdet de sökte. Själva datavärdet av Freebase var när jag sist tittade på det ej på nivå där det är värt besväret att utnyttja om man kombinerar med några till stora databaser med enkelt vetande. Och jag tror ju inte riktigt på att det kommer bli Facebook-Coolt eller trendigt att sitta och sortera in föremål m.m. i olika ämneskategorier: Inte på nivå med att addera något ens för koncept annars ej i annat common sense (d.v.s. jag ser ungefär jämförbart värde användning av det med att automatiskt identifiera mening via statistisk- och lingvistisk-analys - Är det manuellt vill jag nog och tror att kanske Google tänker liknande ha mycket bra sample man kan börja algoritmer för att sedan ta ut automatiserat allmänt från språk från ex. som test- och träningsdata).

Stark och lätt lösning på mitt sökproblem: "Strategy of the Third Line of Warriors"

Problem: Lämpligt spel ej osunt i krav på joysticks eller tangentbords-kombination eller överdrivet "grafiskt" mer som Doom men lite senare. Här finns därför en enkel lösning när uppföljning på Doom namngiven ex. Doom 2. Emellertid spelar där nu sannolikheten in för om jag kanske avser också Doom 2 men efter alla år skriver dem på samma sätt. Missar sökmotorerna här kan jag förtydliga sökningen men det är intelligens där förståelse av vad jag önskar såväl som vetskap nog att väga in sådant vi är intresserade av i diverse sökningar jag lär göra av och till nu även om jag inte säkert diskuterar alla eller ens någon här (Doom varande kanske världens mest firade dataspel - vad tillochmed jag efter så många år minns - måste ju vara gigantisk big business idag med mängder av Doom-spel, Doom-filmer, Doom-prylar så jag vill inte lova bort någon insikt jag kan få istället för att låta den göra mig rik).

Strategy of the Third Line of Warriors är möjligt när entitet vi betraktar (ex. fienden som ställt upp sig fullt synligt i rader efter varandra på ett fält inför slaget) visar sin inbördes-ordning som en öppen label. Vi kan också jämföra med polis och brandkår på samma plats vid samma tidpunkt. Dataspel och film är två områden som i titlar kan uppvisa detta: Ghost Busters, Ghost Busters II m.m. Det går att utnyttja detta rent regelstyrt så väl med statistiska modeller (Bayesian probability är det enkla och välfungerande alternativet att utgå från här).

Google ger också förslag på Doom III redan på position två. Det bör tror jag säkert - men utan att följa upp emellertid väldigt trygg från allmän Google känsla i det - att Doom III är det sista eller i ord-gram mening det sista nära refererat som Doom (ex. just "Doom III") liggande senare i tiden med en försvarlig mängd referenser i datatidningar, bloggar m.m. Det är om så nästan helt säkert detta snarare än att Google klarar att fundera ut att jag nog spelade Doom II men ändå skrev Doom (det lär visa sig framöver när jag prövat mer: Just den förmågan är dock mycket intressant särskilt när vi antar ingen kunskap i form av sparat kontext om mig - Klarar man denna typ av resonemang bra är det generellt tungt i värde samtidigt som det är svårt med troligt stor distans till konkurrenter).

Strategy of the Third Line of Warriors är här vad som kan ha gjort all analys såväl som inlärning statistiska modeller mycket enkelt för särskilt Wikipedia. Och med besläktade enkla principer för regelnära analys vad som kan maskera sig som sofistikerade mycket mer generella algoritmer. Vi ska därför varken för Google eller Bing tolka in för mycket i förslaget Doom III.

Microsoft Bing röstar med sin sökresultats-länk också på lösningsförslag Doom III men redan på på plats ett:

Att Bing väljer Doom III före Doom gällande ett Wikipedia resultat stämmer bra för hur jag typiskt föredrar sökresultat om jag sökt på långa meningar ej överrensstämmande med en titel på ett dokument jag vet existerar och vill hitta i sin helhet att läsa kostnadsfritt (generellt som delvis diskuterat i Bing kvalitativt bättre än Google för vissa former sökningar (inkl. bland de mest ekonomiskt värdefulla) RESP. Funktioner för sökning grafer jag vill se hos Google och/eller Bing
också high value område för sökmotorer).

Jag vill här ofta gärna att ett koncept likt Doom ska tolkas närmare en ämneskategori och att resultaten ska gå mer exakt från övrigt jag skrivit: Och om jag ännu över-optimistiskt vill testa om de börjar begripa mer som vanligt nu "komplex" mening med koppling till statistik människa (ex. det senare här åldern resp. "generationer" implicit på dataspel) kan jag pröva en sökning som dena.

Åtminstone periodvis har jag upplevt Google ger problematiska sökningar för jämförbara sökningar. Problemet har varit Wikipedia: Vissa perioder (och kanske är detta problem inte längre aktuellt) var det för en del sökningar nära nog omöjligt att med normalt besvär få bort träffar till stora delar irrelevanta som jag vill minnas (postningar bakåt med exempel finns som jag vill minnas det).

Vad är ett Doom 3? Trendig retro att felsortera med musik- och film-CD samlingen eller konvenansisk defekt från dålig uppfostran och för lite matematik och klassisk litteratur i skolan?

Vi går nu in och tar reda på vad en Doom 3 är (en indikerar väl kanske CD-skivan med spelet och tillhörande instruktionsbok: "Det ligger en Doom 3 bland mina musik-CD / Blueray-filmer", Erik tog med ett Doom III för att visa skolkamraterna hur cool han är med den senaste inne-prylen.).

Även om jag ej försöker besvara frågan är det ibland värt att fundera lite över vad koncept också när en självklar named entity likt ett dataspel eller person är mer än det. Uttrycker de implicita ämnen? Är det givet att den som begriper Doom 3 även lägger något av vetande man i Wikipedia snarare hittar på sidan för Doom via aktivering av hjärnans nätverk när begreppet ska förklaras för någon som ej prövat detta dataspel någon gång? Och sker kanske liknande effekter redan från att läsa en titel eller vad vi vill ha sagt skrivande sökordet Doom 3? Ej frågor 100% lätta att leda rätt till mål (Och jag skulle verkligen önska att någon av dessa två sökmotorer rekommenderat ett spelbart alternativ: Gratis och kanske mer en generation mellan Doom 3 och Doom 2 så det är begripligt hur det fungerar men ej så faktiskt: Man ska tvingat ha tiotals år av dataspelande för att alls få det nöje yngre generationer tycks kunna ta för givet) men vad vi framöver kanske återvänder till.

Doom mer topp än Doom 3

För hur jag kan tänka mig att jag skulle försöka implementera en princip själv med om kodande en sökmotor likt dessa när befintlig statistik sökningar saknas är att förstå Doom som såväl ett dataspel (named entity) och ett abstrakt ämne sträckande sig över fler Doom-dataspel, Doom-kloner, och kanske en bit in eller som fuzzy-"undrrums-liknande-koncept" till FPS (first-person-shooter: Dataspel jämförbara med soldier on battlefield där flera krigar ex. lag tränande samarbete och annat nyttigt kanske som en belöning efter att gjort läxorna i en studiegrupp eller arbetat över).

Wikipedia sida för äldsta dataspelet är det mest ämnestunga Doom-konceptet: Det är högre upp än Doom 3. Värde detta ger är oftare fler länkar till allmänt material, enkla vägar att hitta till mer specialiserade sidor (ex. Wikipedia sida för Doom 3 eller en extern resurs), abstrakta historiska diskussioner och jämförbart i och runt ämnet med inte sällan idag ett stort antal referenser om man behöver djupare vetande.

Bing saknar äldsta Doom-dataspelet topp tio: Bra eller dåligt?

Att Bing saknar Wikipedia sida för första Doom dataspelet som är det mest övergripande ämneskoncept tunga sidan kan möjligen peka på en svaghet om en generell egenhet.

Att Bing ej hade med Doom sidan i Wikipedia topp-tio kan emellertid tänkbart vara sund strategi. De tycks ha större variation mot smalare representationer oavsett som senare diskuterat säkrande upp med för mig felaktiga ämnen eller som för Doom-ämnet en smalare färskare spel-release resp. något skandal-relaterat. Det kanske fungerar bra för dom att växa via? Att bedöma ett sådant värde har jag ingen statistik som jag kan tänka mig säger något alls om annat än när återigen kör mitt Symbol Mind dagligen igen och kopplingar till förändring av koncept uttryckta i nyheter och bloggar kan ge indikationer om någon bas-förståelse av "personligheter" mer rörliga i preferens sökmotor kan etableras.

Statistik sökning (antal som söker efter något och tids-relaterade sökningar) är ytterst scarce och svårt att få tag i: Men kompletterar potentiellt potent när sökmotorer ska förstås

Rörande statistik sökningar har jag ej hämtat upp min råstatistik med statistik över sökningar på sökmotorer (aktuellt i databaser ligger det kombinerat till en gemensam representation med andra källor) från arkiv på USB-diskar. Men lär ta upp det till efterföljande diskussioner i kommande inlägg för där aktuella sökningar (och denna om jag har statistik för sökkoncepten).

Statistik faktiska sökningar och än mer hur en sökning predikteras eller predikterar en annan sökning är emellertid ytterst scarce. Mycket tidsödande att få tag i såväl som mer begränsat i antal sökkoncept såväl som storleken totalt med den tillgång och förmåga att övertyga (jag betalar aldrig för statistik: Så ska något alls ges tillbaka är det primärt statistik jag har eller någon annan information). Även data som säljs har ett mer begränsat värde än vi kan ha vant oss vid att förvänta från annan statistik koncept. Flera riktade aktörer säljer dessutom statistik som ej är vad vi här önskar eller för den delen tillför (som jag bedömde det för de tre ungefär största för bl.a. "toolbar-statistik") med en kvalitet och trovärdighet som gjorde data värt att inkludera till gemensam representation för "statistik sökord" över alla kanaler.

Om [Försöker skriva meningen kul vilket bör förklaras för alla läsare som har problem med tråkighet så att man inte ödslar tid på tolkningen.] någon release (ny version av videospelet) eller Washington Power-Pack (en utbyggnad ibland kostande massor med som kan ge ett gammalt trött dataspel nya förmågor att roa publiken drama ganska ofta samman tryckt till intensiv intensitet på några minuter på teven antenn-sladds-ingång videospelet kopplats till) varit aktuell för perioder jag har data (minns ej och vet ej säkert att jag har ens år för allt data: En del sämre gammalt data idag knappt vad man om inte ganska begränsat i mängd jämfört med andra datakällor jag använt totalt skulle våga värdera för de viktsystem jag byggt från dessa samples för användning närmare aktuell för analys händelser just nu fullt ut så att säga: Mycket Buzz-words folk hört på jobbet eller uttrycker någon ganska snuskig perversation de har som kan vara ganska års-beroende eller ännu smalare: Musiker NN naken kanske inte är lika hett 15 år senare när hennes karriär är över och hon hunnit slitits ner av droger, festande och trafikolyckor m.m. karma-balanserat kända personer ibland drabbas av).

Förutom sådant gammalt sökmotor-data har toolbar-statistik från också de största aktörerna problem stora utmaningar här. Frekvenser, ålder m.m. är inte trovärdigt och var problematiken ligger även om kanske tydligt relaterat åldern behöver inte ha bara en gemensam förklaring som att man stoppar in antal från andra former av mätningar an gör för att fylla på data av en typ där man är inarbetad och känd. Andra orsaker kan också vara fallet men är svårt att bedöma. Även om bl.a. auto-surfande inte är vad som direkt är den större risken just här för mig i alla fall: Sådant är ju en form av skattning av värde indirekt mot sökord (men man måste så klart på vettig nivå klara att separera det från andra former av data för att inte bara bli underligt fel). För en mindre aktör bl.a. förutom möjligt eget data (uttryckt så) upplevde jag att man för några sökord stoppat in egna siffror utan någon trolig mätning: Kanske att man fått betalt för att ta upp statistik för något mot kund man välkänt har eller övertygat någon om sådant skulle ha ett värde och fått betalt för att göra det (eller att aktören startades upp specifikt för att göra just detta.kanske bara för ett fåtal sökord med ett särskilt syfte relaterat någon och något). Jag såg inga politiska exempel jag tyckte var troligt aktuella exempel på den typen av manipulation.

Min statistik har totalt för sökord inte ett antal typer eller token-frekvenser i närheten av jämförbarhet med vad jag har för språk generellt. Men lite har jag (jag vågar inte säga fler än 100 000 här för fler-grams sökningar: Det var ett tag sedan jag tittade bland sample-området som denna statistik hör till för mig och som jag använder det faktiskt är det kombinerat en mängd källor i databaserna jag använder och finns istället som rådata externa usb-diskar att återkomma till kanske om några dagar rörande statistik Doom m.m. när jag ska ta upp en del annat data ) :-D

Är Bing svag för skandaler, romantik och trender? Är det smart eller bara vulgärt?

Amerikanen vet vi från stereotyper nog starkare några årtioenden bakåt allra minst kan vara såväl som lite övermotiverad / smart i affärer resp. vulgär i och runt allt i kultur som fodrar en traditionell värde-transferering av en korrekt centralitet och/eller att man investerar några år på en särskild lite dyrare skola där man prioriterar ex. klassisk musik eller litteratur djupare för att etablera möjlighet att diskriminera det vulgära från det intressanta.

Och kanske är Bing smart. Eller om de bara är en vulgära amerikanen som kommer och försöker prångla ut information vi från äldre länder ogärna läser medan de försöker rättstava sönder författare och konstnärer välkända sedan många hundra år (att söka på konst eller en författare - annat än de givet vulgära i vilket fall likt de flesta moderna romanförfattare - är självklart ej del av konvenans möjlig att visa eller tala om i ett socialt sammanhang: Jag kan inte förstå hur någon ens kan tänka sig att göra sådant - Så lätt illamående man blir bara av att tänka sig en vulgär amerikan som sitter och söker på en fin engelsk författare som John Updike eller defekt i varje sammanhang privat eller oartigt i allt socialt surfande "fakta" om Updike i strunt som Wikipedia istället för att vi från gamla fina kulturer läsa honom, förstå honom än mer med en biografi betryggande skriven av den som kan uttrycka djupet det ytliga inte hinner se upptagna med att förstöra och felförstå ytan: För updike såklart en Britt från England med samma fina engelska bakgrund som Updike hade).

Är nu Bing den smarta eller vulgära amerikanen - eller kanske rent av den fin-kulturella Updike-britten när de prioriterar trendigare innehåll? Kanske uttrycker de något av Updikes Haren (talande kultur så att ev. läsande amerikan ej förstår vad vi säger)? Min känsla är att det kanske en aning mindre tråkiga innehållet med distans lite kortare till "nöjen", det ibland upplevt trendigare med kortare temporal reward discounting skala framåt m.m. (jag vill inte skriva vulgärt här eftersom jag haft nytta av detta själv när jag sökt teveserier) Ett upplever jag resultat för exempel-sökningen jag kan tänka mig kan visa sig vara relaterad en sådan ev. värdering är:

Video game controversies - Wikipedia, …Översätt den här sidan
en.wikipedia.org/wiki/Video_game_controversies
... playing of violent video games than ... 40 in Tennessee, killing a 45-year-old man and ... a link to video games, which was later ...
Background · Theories of negative ... · Censorship and regulation

Controversies är koncept inte särskilt svårt att följa indikationer relaterad emotionell kraft tänkbart - intressant att ranka upp om så - predikterande intresse gärna såväl publicering som sökning (även publicering viktigare därför att färskt innehåll när emotionellt intensivt är kraftigare gemensamt: Kändisar nakna tillsammans med droger, politiker som uttryckt sig anti-gay eller rasistiskt eller verkar indikerad i myt-skandal o.s.v. Saker folk bryr sig i men inte sällan just när det inträffar). Också vad som kan visa sig ha stabila grundvikter som håller över tiden där kontextuellt eller tidsberoende mer är att controversies i datakvalitet runt studier människans DNA fortfarande är feta-skandaler men som ingen mer än folk som lärt sig att de måste förklara för maskin såväl som människa vad de egentligen pratar ens hört talas om.

Om Bing gör emotionell värdering intresserar det mig. Området har jag utmärkt viktstöd för själv och när inarbetat som där roar det mig när jag har behov att hantera självbild och självförtroende att jämföra med någon som närmare i tiden börjat med det (det är en av de kanske två mest stabila viktsystem jag har lösningar för oavsett om det gäller endast intensitet med förståelse av att fler dimensioner ej ska fodras för att dra snabba slutsatser eller om polaritet över ett mindre antal basdimensioner krävs eller upp till många fler indikationer om än då av mycket mer varierad kvalitet: Danger, Hate, Positive, Unknown m.fl. är några exempel på självförklarande ämnen medan ett ex. på mer abstrakt inkluderande mer manuellt arbete data såväl som egen-logik är Marching Up avsett för att ta indikationer på den intensitet som föregår uttryck av mänsklig aktivitet i grupp av typ krig, invasion, allmänna kravaller m.m. i kontrast till Gracefull Cute för allt internets och nyheternas gulliga läsar-fiskande).

Fler exempel som teveserier, film (innehåll möjligen ibland oftare otillåtet publicerat indexerat) och erotik gavs i Bing kvalitativt bättre än Google för vissa former sökningar (inkl. bland de mest ekonomiskt värdefulla) RESP. Funktioner för sökning grafer jag vill se hos Google och/eller Bing
. Och som sagt tror jag inte Microsoft tar marknadsandelar av Google genom att vara finkulturell: Innehåll med högre upplevt värde där "hål" kontra efterfrågat finns hos Google är kraftfullt oavsett om det nu är långfilmer, teveserier, böcker eller vad helst nästan.

Google har här (tråkigt istället för ytligt ämne men varken bättre eller sämre för det: Solid besparing per access artikel) värde i åtminstone ett område jämfört med Bing: Det är mycket lättare att med Google's koncept (Scholar och WWW) hitta hela artiklar publicerade i journaler. Länkar till sådana hos Microsoft Academic går för ofta bara till förlagets sida när access kostar pengar samtidigt som länkar till hela artikeln hos universitet när de finns ofta inte lägre fungerar.

Doom i Wikipedia har fyra stycken ord

Besläktat redan diskuterade möjligheter att utnyttja språkmodeller för att förstå att identifiera titlar (och uttryck nära existerande titlar vilket n-gram modeller oavsett om bara ord på slutet eller enstaka eller felskrivna ord skiljer oss från hela titeln fungerar mycket bra för: Ett av få områden n-gram modeller verkligt dominerar med endast ord utan hänsyn fonetiskt, grammatik, eller något alls i övrigt - förutom ev. lite kring ord om felstavningar ska tas men jag tror det normalt enklare görs separerat) är hur vi värderar koncept explicit eller som här när analyserat kanske närmare optimalt "lite" indirekt eller implicit givet från en mening snarare än mer explicit som i exemplet:

Doom AND "over aged player" AND "Fairtraid certified" AND "unskilled gamer" AND game with doom likeness AND amusing

Rörande Wikipedia-sidan Doom (1993 video game) noterar vi den längre titeln än den Doom 3 / Doom III (se att Wikipedia ger kandidater på möjliga "synonymer" / "rättstavningar" m.m. via sina redirects) har. Vi vet att Google har statistik och algoritmer för att aktivt utnyttja detta för att identifiera mellan titlar och sökningar. Det kanske gör dem mer benägna att korrekt värdera Doom som sökkoncept i titel med förståelse av att det bör ha approximativt (tänkt enklast för tomma sidor d.v.s. ingen hänsyn i övrigt till innehållet) samma vikt som om i en trovärdig representation likt Wikipedia skriven med bara Doom.

Just för Wikipedia är detta trivialt: Dominant källa till rankningsbart innehåll och excellent källa för att bygga vetskap om världen. Parenteser i titlar är en av flera enkla regler för hur Wikipedia-titlar tolkas effektivt.

Tråkigt nog som det lär visa sig i kommande jämförelser för andra ämnen har resp. Google och Bing det från samma teknikområde lätt omvända problemet: När stor andel av många givna koncept är relevanta utnyttjas de sämre. Svårighet att förstå hur de förehåller sig till varandra är fallet för resp. Det fungerar säkert ändå acceptabelt för de flesta därför man vänjer sig med att hur man tror att det behöver fungera utan att tänka på vilken enorm begränsning det är. Emellertid är relaterat detta en utmaning vid sidan om teknik för att klara det frågan hur man kan få gränssnitt att ta emot data effektivt här utan att det blir komplext: Ev. är det svårt när folk lärt sig söka förutsättande detta att ändra medan annat än antagligen ej lär sig att använda särskilda funktioner. För dyrare sökningar som tar lång tid prospekterande djupt är det emellertid värdefull parametrisering. Trivialt från koncepten här kan det tänkbart vara bra att veta om vi avser dataspelet Doom resp. ämnet Doom om vi skriver Doom + Doom.

Doom + Doom o.s.v. vet jag Google förr i alla fall tveklöst gjorde något med. Men vars ev. värde ej framgick för mig. Jag minns att jag tyckte mig se vad det var som gav effekten men kommer ej alls ihåg vad (och inget tänkbart presenterar sig från allmän kunskap). Tveklöst icke att man klarade tillsammans med ev. föregående sökning (kanske Doom AND Doom AND Doom efter Doom AND Doom) genom att om rimligt bedöma förhållanden och möjliga alternativa distanser mellan koncepten utanför motsvarande vektor- eller språkmodeller av dokument och sökord.

Bing har tror jag mindre preferens för den enklare sekventiella parser-relaterade tolkning Google gillar (men Microsofts intresse för n-gram statistik var ju från publicering data känd föregripande Google Ngram) och utnyttjar som diskuterat identifierande titlar. Jag vill (men har ännu inte riktigt Bing vana nog att vara kategorisk) tolka några resultat mot slutet av topp tio säkrande upp med med flera alternativa tolkningar av ämnet jag avser att de säkrar upp sig lite väl mycket för att förutom identifikation av motsvarande koncept vi kan se i en vektor-modell av dokument också använda en språkmodell med annat än låga n i n-gram (ty min sökning tappar när vi ej klarar att tolka ut i övrigt mycket densitet och total mening om den ska ses som ord i en vektor-modell: 40 år öppnar ju ex. för att jag kanske känner the doom närmande sig och behöver börja titta över alternativ sjukhusvård så man är redo när kroppen börjar falla sönder):

Pension Pulse: Will Longevity Risk Doom …Översätt den här sidan
pensionpulse.blogspot.com/2015/02/will-longevity-risk-doom...
2015-02-18 · ... who can now expect to live an additional 21.6 years, two years longer than in the old ... than anyone in the past 40 years ... than at any later ...
[...]
Health - The Telegraph - Telegraph …Översätt den här sidan
www.telegraph.co.uk › News
Get the latest health news and wellbeing advice from the Telegraph, ... A dialysis patient who received a kidney transplant 25 years ago is ... rather than referred ...

Är Blogspot.com affärskritisk plattform för Bing's affärsmodell? Kanske

Förra året menade jag att prioritera bloggar m.fl. innehållsleverantörer (ex. sajter för att spara och publicera filmklipp där värdet Bing tagit som diskuterat i också kanske kan ge värden här) i sökresultat är en väg för Bing att etablera i den om alls troligare lugna förändringen sig som en jämförbart med Google stor sökmotor.

Personer som endast söker antar vi vara mindre rörliga medan innehållsleverantören prioriterande trafik intresserar sig för hur de rankar på sökmotorerna. Bättre stöd för sökning på sajt m.m. är vägar Bing kan fånga upp dessa med när de följer upp trafik Bing kan ha levererat. Därmed får man stabila kopplingar till fler personer såväl som en större synlighet mot innehållsleverantörernas läsare (ex. via sökning på sajten).

Möjligen (går ej att bedöma nu från endast en av de första två test-sökningarna) kanske vi ser något av detta. Relaterat är ju också att större variation kan ge Bing värde genom att visa var innehålls-typer värda pengar och trafik finns ännu dåligt fångande av dom såväl som ännu större aktörer i mängd statistik: Trots alla tjänster tror jag nog Google som ett ex. kan missa mycket nytt med trafik under i alla fall ibland långa tidsperioder. Men för dem redan dominerande betyder det mycket mindre. För Bing är det möjlighet att följa nytt för att ta marknadsandelar.

En till typ av problematisk sökning där man förväntas göra extra-arbete själv

2015-01-08

Denna form kan vi nog se som nära besläktad med exemplen i Youtubes sökning duger inte för tuffare problem vi vanliga musik-sökare möter på det verkliga nätet:

Sökningen jag valde var normal number of acts and events in ontology 1000 with full understanding not small vilken förvisso kanske är orealistiskt krävande men ganska typisk för en grupp jag brukar pröva med av och till och mitt sista faktiska sådana exempel. Därav tog jag den för detta eftersom jag tyckte det nu kunde passa givet diskussionen om Youtube-problematiken. Att jag irrationellt försökt skryta för Google artificiella agenten för att få den att känna sig liten var inte i alla fall medvetet fallet.

Men är tveklöst mer utmanande. Förutom att någon form av tolkning krävs av vad jag avser gäller ju från det att jag egentligen ber sökmotorn att passa in det till hur en normal "Google-sökning" (se Inverse document frequency och ranking på sökmotorer (appendix 1)).

Slutligen ligger en än mer komplext nivå allra överst:

Det är inte säkert att frågan har ett bra svar mer uppenbart i något dokument.
En viss aggregerad vetskap byggt från att faktiskt indexerat en mängd dokument kanske krävs.
D.v.s. ersättande när så är möjligt behovet av att behöva titta igenom en bunt ontologier.

Google har mer särskilt utmanad funktionalitet

2014-12-30

I uppföljning av om inte bevisande eller demonstrerande åtminstone argumenterande för att det (helt påhittat) ifrågasätta uttrycket kan vara korrekt: Google är för mig - en vanlig enkel säkert vanlig internet-användare - bli besvärande fet och sugkulturellt divergerande in i en egen liten värld.

För sökkoncept - - så enkelt indikerande vad som efterfrågas approximativt - ett ganska avgränsat ämne - kan man tänka sig att möjlighet att avgränsa eller styra presentationen av utgångs-resultaten kunde ha något som faktiskt meningsfullt underlättar en topisk ej ovanlig roll under att bara söka information med sökmotorn.

Istället har vi en tänkt implicit roll om att vara lätt småintresserad av breda mått på egenskaper i index (som dessutom lite små-tråkigt om man nu bara är intresserade just av sådana egenskaper och inte dessutom för volativa sökresultat ett i alla fall här beräknings- och dataeffektivt mått). Varför i all värld skulle jag eller någon annan som söker rese- och turist-saker vara intresserad för hur läsbarhets-statistiken ser ut för sökresultatet om det gått så långt att jag känner mig ej tillfredsställd och ger mig på att peta runt på lilla fältet för att försöka bättra på det?

Av diskussionen som följer i slutet bör framgå väl att det finns ingen vettig anledning till varför Google-intelligensen ska ha tänkt sig att jag kan önska efterfråga den här funktionen istället för något mer relaterat till ämne och övriga områden för sökningen.

Läsbarhet är förövrigt mer utmanande mått än ofta refererat. De flesta använda eller kanske bara föreslagna är tämligen enkla och många finns att välja mellan. Utelämnar vi diskussion begränsning av dem gäller för internet att särskilda utmaningar finns rörande (delvis möjligheter här effektiva åtminstone för en del som kan söka det):

Hur förhåller sig läsbarhet i maskin-propagerade "sammanfattningar" (ex. snippet) av ett stycke text till läsbarhet för hela den sanna texten? Funktion av sökkoncepten givetvis.
Tänker vi oss någon som söker information är direkt eller i övrigt mer i struktur eller visuellt mer tillgänglig information viktigare. Det är ibland troligare större andel av text faktiskt läst.
Relaterat båda föregående kan vi tänka oss att samband mellan läsbarhet i vad man söker med (d.v.s. nu egentligen en annan form av data - vill jag tydligt mena - även om en del enklare statistiska modeller i grundvariant inför approximation att vi kan sätta relationer som P ( sökkoncept | något ) jämförbart och beräknings-möjligt direktt till P ( sökkoncept | dokument i index). Det är orimlighet av orsaker besläktade med bl.a. varför text i en titel eller information i en bild blir mer läst. Vi menar ej, vi använder ej, och tänker oftast som vi kommit de flesta av oss att använda sökmotor längre riktigt samma sak som när vi skriver (lite som en alkoliserad mans hustru kanske sympati-dricker för han inte ska bli så full eller i könsroller omvänt).

Ett inte självklart besläktat enkelt att beräkna mått är att direkt via approximationer från lärda vikter eller med algoritm motsvarande ex. liknande spreading activation propagera förtroende över referenser i forskningsartilar. Det har bl.a. Google Scholar gjort länge och upplpever jag inte stort blivit bättre på många år nu. Missande inte minst vettig anpassning och förståelse av vad man söker. Det hela förstår helt enkelt inte tillräckligt om specialistområden för att klara att från en kompetent och noggrant uttryckt beskrivning i sökrutan ta fram just vad jag letar efter. Istället behöver man gå igenom flera hundra artiklar eller värre med boostade bredare termer.

Knappast spännande men ändå lite små-intressant vore om de roller och med deras frames Google-sökmotorerna självaktiverar för mig utifrån information i olika tids-fönster från mina tidigare sökningar och annan information. Ibland när den uppenbart (var min upplevelse) inte vettigt (ej meningsfullt och ej destruktivt) utnyttjade historia från mina sökningar (bättre att den gör ingenting nytt känns det mer som: Det blir just inte bättre och av och till stör det) tycks den som förutsätta att om jag sökt forskning intensivt någon dag (uppenbart tyckte jag i alla fall riktat för att hitta tämligen exakt i vad sökt avgränsad information) att jag ännu inte klarat att få ut vad jag sökt efter. Utan istället fortfarande efter flera dag letar vidare.

Om sökmotorn bara prövade med några instoppade i index vore väl inte underligt men ibland tycks den fasta i fixeringar kring sådant lägre perioder vilket faktiskt stör när små ofta ganska sunkiga förslag på lösningar kommer upp i förvisso brett-ämnesmässigt ganska besläktat men relativt exakthet i information givet för sökningen riktigt distansierad. Det distraherar och kanske genererar mig lite: Varför har man sådant initialt-energi-motstånd till att pröva ut bland alternativen och se om de levererar upp. Efter en riktig sunkig period prövade jag ju ut Microsoft sökmotor forskning vilket faktiskt var lite små intressant men knappast heller riktigt på nivå att det just gör någon praktiskt skillnad d.v.s. vana styrde viss preferens med den redan utnyttjande Google Scholar. Microsoft Academic ser man faktiskt förbättringar i sökresultat under perioden jag prövade den vilket ej varit tycks för mig fallet för Google på bra länge: Men Microsoft index var av allt att vid tiden ordentligt mindre och kanske också efter i epoker för propagering relationer mellan studier, och forskningsartiklar.

En quick fix jag gjorde hemma vid ett praktiskt problem söka sådant här var ett Perl skript där jag skriver logiken i en if-sats varierat med sökningen som sedan får gå mot cirka 5000 - 10000 PDF-dokument sparade relaterat språk, språkanalys m.m. jag har lokalt (representerat även som brutal snabbt gjorda text-filer bara för det här skriptet). Det fungerar bra mycket bättre: Förvisso säkert till försvarliga andelar därför att dokumenten över tiden valts ut av mig som vad jag varit intresserad av och är tämligen ämnes-relevant från början. Men ändå. Jag menar hur utvecklar sig hårddisk priser egentligen? Och hur mycket trivial bruks-programmering lär sig ungdomarna i skolan?

Jag kunde två programmeringsspråk ytligt innan jag hade gått ur grundskolan (C64 Basic och en tidig Visual Basic alternativt ett annat koncept-språk från Microsoft men som då kallades något annat men jag tror kom att bli Visual Basic jag tror jag först närmare dess nuvarande form lärde mig säg gymnasiet eller kanske någon sommar under universitetet).

Numera lär sig ungdomarna säkert mycket mer i bredd och djup så att lösa Fet-Google's begränsningar med en trivial daglig brukslösning som inte tar mer än säg 20 min programmering och så någon timme för att få pdf-filer och text-presentationerna (Perl-skriptet går igenom en i sänder varje gång utan något index: D.v.s. egentligen alltid potentiellt bättre om det ej är för tidsödande eftersom det kan riktas aktuell sökning). Sökresultaten i form av filer kopierade till en katalog levereras sedan under säg 10 till 40 min något varierat från variabla faktorer.

The Dumb Jan Björklund: Svenskarna är första folket känt i historien för att ha reducerat intelligens från en generation till en annan

Emellertid är idéen om att ungdomen klarar sådant lika naturligt tilltalande - känns som troligt - som att Google borde förbättra sig med funktioner över åren jag har direkt nytta av. Det borde vara så men är inte så.

Barn och ungdomar märker dock numera ut Sverige som idioter görande oss till det första folket i historien vars färska generationen blivit dummare än de föregående. Följer man upp andra mät-resultat på äldre generationer - d.v.s. istället studenter vid universitet - än här aktuella visar det sig dessutom att försämringar relativt andra länder via mått och skattningar ej styrda av svenska myndigheter och institutioner även gått ner sig något (gissningsvis - höftande lite - motsvarande viss men mindre tidigare kognitiv-reduktion tidigare i åren).

I särklass sämsta risk management prestationen Sverige haft under allt i dom senare delarna av nutidshistorian

Om dom politiska idéerna är rätt eller fel är ingenting någon av oss rimligt nä balanserad risk i seriös riskanalys kan avgöra. Sådant här handlar inte om trosföreställningar. Det behöver mätas noggrant i avgränsande pilot-projekt. Förutom områdets inneboende komplexitet rent teoretiskt rörande inlärning gäller att organisationen samlat över alla geopolitiska koncept (såväl som numera diverse privata entiteter) är oerhört komplet och varierad medan utnyttjande är ännu mer varierade. Det går ej att sitta och rita upp en teori som känns rätt och man börjar tro på och sedan bygga något helt annat påverkande generationer direkt och om ett antal år hela samhället med en direkt kostnad. Komplexitet är för hög för att någon av oss - ensam eller i expert-grupper kan avgöra det. Man prövar begränsat och mäter efter före det mer gedigna analyser inkluderande risk mer än något som åtminstone läsbart för mig ramlat ut från aktuellt department under förra regeringens alla år. Har man inga rutiner alls finns en del väldigt grundläggande tänk tror jag passande tämligen väl Sverige i delar av vad dom gjort bl.a. i USA bland myndigheter (men också mycket varierat i hur det passar) och kanske enklare mer direkt Australien. Fler finns säkert men de märktes för mig med ganska långsamt stabila lite mer genomtänkta strukturer. Låt mig återkomma till dem även om de finns diskuterade längre bakåt relaterat ontologier, thesaurus, såväl som risk management (och ev. också runt UCORE även om jag inte avser UCORE här varande för begränsat - mer av en minsta gemensam nämnare mellan stora organisationer såväl som mindre grupper, sensorer och fordon):

Det fick mig att lägga märke till att det var val och beslutet då att jag skulle rösta emot förra regeringen. Annat viktigare hindrande mig från det. Likväl om det nu ev. blir nyval åren som kommer ska verkligen pekas på att tycks förra skolministern komma i närheten av roller där han påverkar grund-värde i nationen röstar man anti allt han är i närheten av. När jag följde upp va fan han hade hållit på med åren bakåt var det fullständig chock för mig. Jag kan kanske se att det kan passera när folk vänjer sig vid det ena innan det andra medan de flesta ej har möjlighet eller roll av att ha ansvar för kvalitetsuppföljning av pilotförsök, mogna vuxna riskanalyser uttryckande ex. kostnader i spridda områden från systematiska försämringar, fler begränsande försök av förändringar om riskanalys visar att kostnaderna kan visa sig vara gigantsika, noggrant kontrollera och följa upp att ett jätte-projekt-förändra-en-struktur-totalt-för-det-känns-stort-och-grant stabilt är på plats innan man uttryckad börjar leka runt med något annat med riktigt otrevliga risker därför att densiteten är låg per tidsenhet (d.v.s. effekt kommer över längre tid men förskjutet framåt när det inverkar samhälle i näringsliv eller kostnad socialbidrag m.m.) men antalet enheter som kan uttrycka risk kontinuerligt ej binärt är enormt. Och om quality assurance av Sim City lekstunden varit 0% i det seriösa (hade det varit seriöst hade det pågått längre tid än det hela humpades runt till något oerhört bett påverkande allt och givet tidsdimensionerna förövrigt vad man bäst hade en gemensam kompromissa med varandra bild av mellan partier i båda blocken därför att om skolan fungerar väl ska man inte göra massor snabbt utan försiktigt likt hur skolan byggts upp i det märkbart mer seriösa under särskilt 1900-talet så man inte förstår något bra man glömt att man kanske insåg på 1960- eller 1970-talet eller lika troligt något underligt man prövade).

Jag kan inte minnas någon svensk politiker från åren jag som vuxen av och till - oftast ytligt eftersom nu sådana här små-katastrofer är väldigt ovanliga här: första gången jag blivit som engaged - så aldrig förr ens i närheten. Och ansvar och intresse övriga politiskt engagerade entiteter måste ha brustit: Var det en fix-idé hos honom samtidigt som det var så besvärligt att hantera det i samarbetet så man lät honom leka med svenska värden en bit in i framtiden istället för områden där vi kan ta skada nu? Detta ska jag återkomma till. Ty med viss risk i alla fall nyval åren som kommer bör någon trots att det generar faktiskt göra sig besvär att låta resultaten komma ut så att möjlighet hos övriga att teoretiskt i alla fall veta visheten i att om denna politiker ens är i närheten av en till regeringen röstar man i direkt motsatts. Detta lär kostnad komma för och kanske märkbart om tio till 20 år. Givet den nedgraderade eller kanske förr inte nödvändiga kvalitetsuppföljningen på nivåer som här krävdes indikerade torde också då risk finnas för att man helt förstår orsakerna till de mer direkt relaterade faktorerna (sämre prestationer medarbetare företag, sämre innovation företag, lägre kunskap förvaltad universitet, större uttryck av depression med flera problem som ostar försvarligt, och kanske rent av socialbidrag även om jag inte tror riktigt att effekten ligger på nivå att det sk ska leverera realiserade antal realiserat mätbart så långt). Och hur fick jag reda på det: Folk - icke svenskar - gjorde sig roliga över det på riktat mot min "prestige" och på min bekostnad. Det är så man får reda på när skolministern förstört en massa: Utländska områdes-intresserade inom forsknings-grenare "skämtar-fientligt" mot en medan skule inte förvåna mig det minsta det ännu inte är vad förra skolministern ens har i närheten av sådan information han följt åtminstone de sista 20 åren: En prakt-idiot som varit i full-gång och fördummat ner några generationer.

Ej helt relevant kanske. Men området irriterade mig igen när det har refererats till mig över en typ av telefon att det finns andra indikationer också. Ungdomen ska motivera och ge resurser att uttrycka landet rätt i de domäner de ändå behöver gå igenom: Det är värden som dessutom förränta sig under år som kommer. Att de ska generera oss tagande världsrekord i att vara första generationen som blev dummare samtidigt som det lär kosta i framtiden p.g.a. en riktig prakt-idiot borde inte vara möjligt i en välfungerande demokrati (pressen bör ta viss moral-uppbyggande stimulans här: Sverige är landet där bibliotekarier bland arkiven behöver läcka public offentlig information till journalisterna eftersom de typiskt varken mer manuellt eller idag sundare delvis datoriserat kontrollerar dem oavsett om spioneri-affärer eller något annat och så sedan många år och minst tio år - För istället sitta och klaga i tryckt medium över alla risker Wikipedia för med sig). Det är som Google problemen: Det är dåligt, det duger inte, och dessutom genererar det mig trots att jag står oskyldig.

Viktad sannolikhet koncept (eller sökgrupp av koncept) givet koncept eller sökgrupp

2014-05-31

Statistik samförekomst är från debug-generering på cirka 10% - 20% av totala mängden (i totala mängden data ej självklart påverkande just dessa relationer om än troligt) utelämnande data från mitt tidigare system för detta, allt nytt data från nyheter, allt nytt data som gjordes i ett tidigt första varv där NIH resp. Biomedcentral är de största datakällorna, samt en hel del i övrigt men inkluderande bl.a. (inte otroligt relevant för exemplet) Wikipedia resp en viss "särskild typ" av datakälla i relationer utnyttjade som samförekomst liknande "ontologiska" relationer.

Jämförelse värden Google Webbsökning

För william auld som råkade komma nära först i filen jämförde jag sannolikhet för en relation givet william auld med antalet träffar Google Web search säger sig ungefär ha indexerade för "william auld" + "aktuell_relation" dividerade med antalet träffar förwilliam auld (76900). Det var lite av en miss att jag valde william auld eftersom jag den är något troligare "ontologi-smoothing-påverkad" där jag kanske hellre gjort en annan. Emellertid visade sig jämförelsen intressant rörande vad vi kan spekulera om Google från den.

Något om min generering

För min generering gäller vidare att värden för P("william auld") beräknas från all förekomst av "william auld" i alla betraktade relationer till ett annat koncept medan endast de relationer ex. till "collector" (d.v.s. vad som ger P("william auld" + "collector") också existerande i Bluelight d.v.s. min representation av världen i mening av alla existerande meningsfulla ngram och deras relationer till varandra. Sannolikheterna ska därför normalt inte summera till noll.

Vidare rörande antal har egentligen ingen av de skattningssystem närmare "renlärligt" för inverse document frequency", >natural language processing eller binära-söklösningar" använts. Orsaken till vad vi kanske kan kalla en "blandad" lösning med natur av alla tre är att mitt syfte primärt var att etablera ett mycket omfattande såväl som betrodd start-tillstånd med tydligt bias mot vad jag bedömer tyngre innehåll men vars statistiska natur fortsatt betraktande ex. uteslutande nyheter sämre märks uttryckande något av världens upparbetade kunskap (ex. säg 20 - 40% av åtminstone titlar för all forskning publicerad från säg 1600-tal fram till 1980-tal och därefter mycket mer svår skattat avseende andel). D.v.s. behov i denna generering att faktiskt ha motsvarande innehåll indexerad eller hanterat i övrigt fanns ej. Vidare önskade jag ett kraftigt bias mot hur vi föredrar att söka och de implicita cues i innehåll vi utnyttjar d.v.s. i min termonologi har DO (titlar, taggar, abstract m.m.) fått en ofantligt större vikt än DESCRIBE (brödtext).

Samtidigt ska sägas att det ej är helt givet att jag kommer behålla nuvarande algoritm. För de flesta typer av indata-format hanterat har den skillnad jag ev. kan införa och pröva föga betydelse men ibland för längre data kan det tänkas ge påverkan. Problemet jag ser med hur man räknar när log av frekvens används (motsvarande som i delsteg till i sökalgoritmer mycket populära och i min efarenhet stabilt välfungerande inverse document frequency) är ökad arbetsbelastning resp. utmaning av kognitionen rörande hur viktiga mycket indikativa datafält motsvarande taggar för forskningsartiklar ska värderas jämfört med abstract. Olika storlek på den rymd taggarna är del av är vidare ytterst varierad mellan journaler och journal-hus resp. ibland (ganska sällan i samplings-data för mig) var sekundärt "indexerade". Taggarma förekommer en gång och får därigenom naturligt lägre vikt än vad som förekommer flera gånger också om skillnaden när lämplig log-baserad funktion appliceras blir mindre.

Samma problem kan argumenteras gälla också titel men det är menar jag feltänkt. Titeln för nära nog alla datakällor och allt av forskningsartiklar uttrycks naturligt av skribenterna tillsammans med redaktörer. Denna kan vi därför utan någon särskild utmaning värdera upp för alla datakällor utan hänsyn till den specifika datakällan. Samma sak är ej möjligt för taggar och kategorier eftersom de dels inte används för alla resp. rymden de är del av varierar (en del har ett mindre antal taggar artiklar kan ha medan jag tror andra tillåter vilka taggar som helst om de är korrekt beskrivande artikeln).

Samtidigt är taggarna mer eller mindre beskrivande än abstract?

Min lösning är att betrakta relationerna mellan detekterade koncept i titel. Vidare betraktande resp. större mängd av titel tillsammans med allt data i övrigt betraktat där detta här i de flesta fall består av antingen ett abstract eller annan meningsfull kortare sammanfattning resp. ibland taggar coh titlar där allt värderas p.s.s. och där en förekommande relation endast kan förekomma en gång.

Dessutom som bonus blir det enklare kod för beräkningarna när man räknar så här såväl som åtminstone för dataset's där endast en sparning till disks krävs märkbart snabbare (de som kräver mer än en behöver normalt en mängd dumpningar till fil vilket gör allt annat försumbart direkt av det resp. timmar eller dagar långa indata filer).

Att säga att en relation endast kan förekomma en gång är dyrt därför att normalt gäller när taggar finns och abstract är annat än mycket kort (där mycket kort kan jämföras med närmare snippets i sökresultat) uttrycks ett högre antal för vissa relationer information vi kastar bort. Därav att jag ev. kan tänkas pröva en annan algoritm. Men min känsla tidigt (där ingenting ännu indikerar att det kommit helt fel) är att givet vissa upplevda risker till lokaliserat i globalt mer ovanliga relationer där annan beräkning ibland hanterande värdering av fler-förekomst fel-skattande kan skapa rent över allt data fullt märkbara fel med underliga bias (det är dock en gissning) samtidigt som jag ändå kände att jag ville ha bastillstånd skattat från en brutalt stor mängd data (beaktat data totalt när endast information motsvarande titel, sammanfattning och ev. taggar betraktas är cirka 5 T) liggande liggande till grund för den export jag gör nu sparande en del).

Mini jämförelsen

Det hade varit redaktionellt elegant att här ha en trevlig kommentar om personen i frågas poesi eller arbete i övrigt men han är totalt okänd för mig. Endast vad som råkade komma bland de tre översta i filen där jag exporterade ut debug-data. Läser vi Wikipedia dock ett från mitt och de flesta andras i Sveriges perspektiv i denna domän dåligt föredöme p.g.a. engagemang i esperanto: William Auld. Viss arbetsinsats - och än mer kalender-tid - ligger bakom dessa tillstånd och jag ser verkligen inte att behöva göra det också för esperanto.

Manuellt och ej givet domänen onödigt exakt eller kanske alltid i samma system avrundat för att passa in tabell på sidan.

Relation	Min skattning	Google-skattning	Google hits
"william auld" + "poet"	0,034497865274	0,153446033810	11800
"william auld" + "editor"	0,01130402484	0,15734720416	12100
"william auld" + "translator"	0.008652657602	0,088556566970	6810
"william auld" + "writer"	0,00265136724	0,13784135241	10600
"william auld" + "collector"	0.00017917936	0,04369310793	3360
"william auld" + "person"	0.00017917936	0,22886866060	17600
"william auld" + "essayist"	8.958967927e-05	0,0224967490247	1730

Relation "william auld" + "person" är intressant. Beräknar jag motsvarande vikter i ett helt annat system där sannolikheterna i sig för förekomst i närmare som vi kanske oftare uttrycker oss i titel, sammanfattning eller liknande data (samt något mindre viktat i denna generering brödtext) ej utnyttjas utan istället likhets-begrepp och vidare som jag beräknar likhet att de görs helt utan perspektiv (d.v.s. ungefär nära nog samma som cosinus similarity) skulle jag troligt få relationen till person högre än ex. som här poet.

Jag vet egentligen inte att "william auld" + "person" inte är mer vanlig på webben naturligt eller som Google samplar vad publicerat. Bl.a. påverkande här är ju något liknande samma fenomen som får vetskap om relationer att gå runt i olika ontologier när de tar in varandra inte sällan med mindre eget värde. Instansieringar av ex. DBPedia, Yago m.m. på olika platser på nätet kanske ger relationen hög förekomst.

Och tittar vi efterföljande på sökresultatet kan vi se en mängd orsaker mer än väl tror jag förklarande att Google fick relationen högre om vi antar att antalen Google ger beräknas från något likande inverse document frequency från data påverkat av ett längre stycke data. Tänkbart kanske bilddata kan ge person bias också?

Men samtidigt att vi får ut värdet snarare för document frequency där det eventuellt beräknas eller skattas från någon tänkt global vikt via IDF (som jag tänker mig att sökmotorer hanterande mycket större mängd dokument än jag ännu behövt gör det praktiskt för att slippa ha vetskap allt i onödan men får erkänna att jag inte är särskilt allmänbildad i aktuella algoritmer här).

Struntar vi i den förklaringen vilket inte var vad jag spontant betraktande endast antalet utan att titta på sökresultaten tänkte på är en tanke att Google ev. delvis skattar och beräknar dessa värden delvis från ontologisk-vetskap. Det kan tänker jag vara vettigt om det gör det lättare att komma närmare "rätt värden" utifrån perspektiv av hur vi söker (jag tror viss skillnad kan föreligga). Om så var intrycket också att de ev. för aktuellt koncept möjligen hanterar relativt få relationer till andra koncept i mening av att de faktiskt räknar dem snarare än att skatta dem via ex. en ngrma-modell utgående endast från globala antal med någon för aktuellt kontext (william auld") riktnings-faktor.

Att relation person här hamnar långt ner känns mycket lovande. En dimension av motivationen till att ha PAB-relaterade vikter (PAB i mening av konceptet P ( A givet B)) är att få ett mer "naturligt" viktsystem för användning tillsammans med andra viktsystem. Ett värde här är att jag tror att sannolikheten för att söka på "william auld" tillsammans med "person" är mindre än att söka på "william auld" tillsammans med "poet" och om så ska den senare relationen för en grupp av applikationer optimalt vara högre (med medvetenhet om ej för personnamn särskilt ovanliga relationer relaterat orter, djurnamn m.m. vilket för andra personamn torde hanterats utan större problem i den mån förekommande i dyrare mer värdefullt samplingsdata prioriterat här likt publicerad forskning).

"Warsaw": Större jämförelse

Där jag emellertid inte samlade in data för jämförelse längre än till cirka (några saknas också precis innan) relation "francisco goya".

För relationer där värden finns även jämförelse Google och sorterad fallande från högsta i "HH-värden":

warsaw+europe 0.007444191786 2.096153846 43600000
warsaw+city 0.006929825771 5.480769231 114000000
warsaw+capital 0.00509155 1.129807692 23500000
warsaw+central 0.004497587161 3.115384615 64800000
warsaw+county 0.004490628698 1.100961538 22900000
warsaw+berlin 0.003760377568 2.423076923 50400000
warsaw+battle 0.003433667976 0.5528846154 11500000
warsaw+economic 0.003383498334 1.081730769 22500000
warsaw+department 0.003175846297 1.245192308 25900000
warsaw+france 0.003112558757 2.418269231 50300000
warsaw+academy 0.002884881888 0.8413461538 17500000
warsaw+district 0.002795369432 1.149038462 23900000
warsaw+budapest 0.002631859504 1.677884615 34900000
warsaw+empire 0.002540920777 0.3475961538 7230000
warsaw+church 0.002535174099 0.9711538462 20200000
warsaw+communist 0.002373897525 0.2370192308 4930000
warsaw+building 0.00202911313 1.576923077 32800000
warsaw+force 0.002026112673 1.067307692 22200000
warsaw+austria 0.001950624527 1.129807692 23500000
warsaw+canada 0.001707116769 2.0625 42900000
warsaw+china 0.001692105968 1.759615385 36600000
warsaw+eastern europe 0.001577163715 0.3701923077 7700000
warsaw+bulgaria 0.001332210621 0.8557692308 17800000
warsaw+buildings 0.001273327547 0.4951923077 10300000
warsaw+england 0.001122605774 0.8942307692 18600000
warsaw+armed 0.001089016094 0.325 6760000
warsaw+chicago 0.001049752452 1.793269231 37300000
warsaw+denmark 0.0009595375587 0.9134615385 19000000
warsaw+amsterdam 0.0008758745355 1.947115385 40500000
warsaw+bridge 0.0008673759776 0.7740384615 16100000
warsaw+copenhagen 0.0008623511676 1.480769231 30800000
warsaw+european union 0.0008022773482 0.4177884615 8690000
warsaw+brazil 0.0007774283701 1.153846154 24000000
warsaw+archbishop 0.0007740575795 0.03168269231 659000
warsaw+britain 0.0007179831592 0.6875 14300000
warsaw+california 0.0006988823485 1.009615385 21000000
warsaw+churches 0.0006918588024 0.1389423077 2890000
warsaw+asia 0.0006731392376 0.9903846154 20600000
warsaw+central europe 0.000650809086 0.1413461538 2940000
warsaw+bratislava 0.0006101579041 0.6394230769 13300000
warsaw+estonia 0.0006025517766 0.4644230769 9660000
warsaw+album 0.0005870350373 0.3076923077 6400000
warsaw+description 0.0005682325154 0.9134615385 19000000
warsaw+buenos aires 0.0005592760695 0.9759615385 20300000
warsaw+east germany 0.000537102666 0.04663461538 970000
warsaw+film festival 0.000533614835 0.09038461538 1880000
warsaw+biography 0.0004991958468 0.1509615385 3140000
warsaw+fiction 0.0004408883829 0.1649038462 3430000
warsaw+castle square 0.0004229585835 0.008509615385 177000
warsaw+ethnic 0.0004054963786 0.2004807692 4170000
warsaw+bangkok 0.0003434270814 1.125 23400000
warsaw+congress poland 0.0003431013639 0.001360576923 28300
warsaw+florida 0.0003132285948 0.6730769231 14000000
warsaw+baltic sea 0.0003071918651 0.04115384615 856000
warsaw+belweder 0.0003062181016 0.004754807692 98900
warsaw+bydgoszcz 0.0002835680368 0.4769230769 9920000
warsaw+associated press 0.0002758594688 0.07836538462 1630000
warsaw+county seat 0.0002657706025 0.1677884615 3490000
warsaw+cemeteries 0.0002612378266 0.01596153846 332000
warsaw+benton county 0.0002598797853 0.006778846154 141000
warsaw+administrative district 0.0002506757432 0.05769230769 1200000
warsaw+bombing 0.0002355447962 0.08653846154 1800000
warsaw+cavalry 0.0002262865396 0.04730769231 984000
warsaw+colorado 0.0002179767671 0.5240384615 10900000
warsaw+city council 0.00020002797 0.03139423077 653000
warsaw+adolf hitler 0.0001639562623 0.02778846154 578000
warsaw+attraction 0.000160270252 0.2490384615 5180000
warsaw+bonn 0.0001521606372 0.2240384615 4660000
warsaw+coventry 0.0001500113552 3.163461538 65800000
warsaw+fort wayne 0.000136518359 0.3014423077 6270000
warsaw+esperanto 0.0001284924012 0.01802884615 375000
warsaw+brandenburg 0.0001277065518 0.09759615385 2030000
warsaw+anti communist 0.00011888045 0.009230769231 192000
warsaw+civic platform 0.000107874225 0.002610576923 54300
warsaw+constitution square 9.68E-05 0.0006538461538 13600
warsaw+belweder warsaw 9.60E-05 9.76E-05 2030
warsaw+east berlin 9.32E-05 0.01836538462 382000
warsaw+barbakan 8.85E-05 0.002663461538 55400
warsaw+belweder warsaw poland 8.73E-05 9.62E-07 20
warsaw+all saints 8.06E-05 0.01100961538 229000
warsaw+economic growth 8.04E-05 0.05576923077 1160000
warsaw+art deco 7.72E-05 0.01769230769 368000
warsaw+contemporary art 7.55E-05 0.04855769231 1010000
warsaw+barbakan warsaw 7.40E-05 0.0003384615385 7040
warsaw+art museum 7.27E-05 0.03254807692 677000
warsaw+alfred tarski 7.24E-05 0.0004721153846 9820
warsaw+dwelling 7.14E-05 0.03254807692 677000
warsaw+all saints day 6.75E-05 0.001793269231 37300
warsaw+carpathian mountains 6.46E-05 0.03110576923 647000
warsaw+academy award 5.94E-05 0.3951923077 8220000
warsaw+democratic left alliance 5.84E-05 0.003307692308 68800
warsaw+astana 5.78E-05 0.4716346154 9810000
warsaw+barbakan warsaw poland 5.48E-05 1.01E-06 21
warsaw+demographics 5.37E-05 0.03769230769 784000
warsaw+foreign investment 5.03E-05 0.2153846154 4480000
warsaw+fortification 4.80E-05 0.03413461538 710000
warsaw+association football 4.74E-05 0.04951923077 1030000
warsaw+andrzej wajda 4.42E-05 0.004274038462 88900
warsaw+daewoo 4.14E-05 0.007788461538 162000
warsaw+burgher 3.98E-05 0.008894230769 185000
warsaw+auschwitz concentration camp 3.80E-05 0.002908653846 60500
warsaw+city planning 3.37E-05 0.08509615385 1770000
warsaw+bletchley park 3.04E-05 0.005336538462 111000
warsaw+film production 2.95E-05 0.008221153846 171000
warsaw+enigma machine 2.94E-05 0.007788461538 162000
warsaw+berlin philharmonic 2.55E-05 0.07980769231 1660000
warsaw+constitutional monarchy 2.34E-05 0.05817307692 1210000
warsaw+ethnic relations 1.86E-05 0.03423076923 712000
warsaw+architectural style 1.73E-05 0.02206730769 459000
warsaw+apartment building 1.66E-05 0.01043269231 217000
warsaw+curzon line 1.63E-05 0.002504807692 52100
warsaw+charlottenburg 1.59E-05 0.1826923077 3800000
warsaw+black walnut 1.57E-05 0.09807692308 2040000
warsaw+broadcaster 1.51E-05 0.5865384615 12200000
warsaw+city counties 1.27E-05 0.002673076923 55600
warsaw+filmmaking 1.22E-05 0.2610576923 5430000
warsaw+fields medal 1.20E-05 0.005961538462 124000
warsaw+documentary film festivals 1.19E-05 0.3557692308 7400000
warsaw+central intelligence agency 1.08E-05 0.008221153846 171000
warsaw+domino theory 1.01E-05 0.01192307692 248000
warsaw+buildings structures 8.63E-06 0.01336538462 278000
warsaw+charles x gustav of sweden 8.52E-06 4.42E-06 92
warsaw+border control 7.75E-06 0.03024038462 629000
warsaw+flag of poland 6.97E-06 0.0030625 63700
warsaw+francisco goya 5.44E-06 0.01990384615 414000
warsaw+cyfrowy polsat 4.65E-06 0.01548076923 322000
warsaw+christian national union 3.87E-06 0.002985576923 62100
warsaw+commemorative plaque 3.82E-06 0.006778846154 141000
warsaw+coshocton county 1.55E-06 0.005 104000
warsaw+dunkin donuts 1.55E-06 0.003399038462 70700
warsaw+brask 1.52E-06 0.002634615385 54800
warsaw+berlin border crossings 7.75E-07 2.40E-06 50
warsaw+corylus colurna 5.08E-07 0.0002418269231 5030

Resp. för sorterat fallande efter relativ förekomst Google index:

warsaw+city 0.006929825771 5.480769231 114000000
warsaw+coventry 0.0001500113552 3.163461538 65800000
warsaw+central 0.004497587161 3.115384615 64800000
warsaw+berlin 0.003760377568 2.423076923 50400000
warsaw+france 0.003112558757 2.418269231 50300000
warsaw+europe 0.007444191786 2.096153846 43600000
warsaw+canada 0.001707116769 2.0625 42900000
warsaw+amsterdam 0.0008758745355 1.947115385 40500000
warsaw+chicago 0.001049752452 1.793269231 37300000
warsaw+china 0.001692105968 1.759615385 36600000
warsaw+budapest 0.002631859504 1.677884615 34900000
warsaw+building 0.00202911313 1.576923077 32800000
warsaw+copenhagen 0.0008623511676 1.480769231 30800000
warsaw+department 0.003175846297 1.245192308 25900000
warsaw+brazil 0.0007774283701 1.153846154 24000000
warsaw+district 0.002795369432 1.149038462 23900000
warsaw+capital 0.00509155 1.129807692 23500000
warsaw+austria 0.001950624527 1.129807692 23500000
warsaw+bangkok 0.0003434270814 1.125 23400000
warsaw+county 0.004490628698 1.100961538 22900000
warsaw+economic 0.003383498334 1.081730769 22500000
warsaw+force 0.002026112673 1.067307692 22200000
warsaw+california 0.0006988823485 1.009615385 21000000
warsaw+asia 0.0006731392376 0.9903846154 20600000
warsaw+buenos aires 0.0005592760695 0.9759615385 20300000
warsaw+church 0.002535174099 0.9711538462 20200000
warsaw+denmark 0.0009595375587 0.9134615385 19000000
warsaw+description 0.0005682325154 0.9134615385 19000000
warsaw+england 0.001122605774 0.8942307692 18600000
warsaw+bulgaria 0.001332210621 0.8557692308 17800000
warsaw+academy 0.002884881888 0.8413461538 17500000
warsaw+bridge 0.0008673759776 0.7740384615 16100000
warsaw+britain 0.0007179831592 0.6875 14300000
warsaw+florida 0.0003132285948 0.6730769231 14000000
warsaw+bratislava 0.0006101579041 0.6394230769 13300000
warsaw+broadcaster 1.51E-05 0.5865384615 12200000
warsaw+battle 0.003433667976 0.5528846154 11500000
warsaw+colorado 0.0002179767671 0.5240384615 10900000
warsaw+buildings 0.001273327547 0.4951923077 10300000
warsaw+bydgoszcz 0.0002835680368 0.4769230769 9920000
warsaw+astana 5.78E-05 0.4716346154 9810000
warsaw+estonia 0.0006025517766 0.4644230769 9660000
warsaw+european union 0.0008022773482 0.4177884615 8690000
warsaw+academy award 5.94E-05 0.3951923077 8220000
warsaw+eastern europe 0.001577163715 0.3701923077 7700000
warsaw+documentary film festivals 1.19E-05 0.3557692308 7400000
warsaw+empire 0.002540920777 0.3475961538 7230000
warsaw+armed 0.001089016094 0.325 6760000
warsaw+album 0.0005870350373 0.3076923077 6400000
warsaw+fort wayne 0.000136518359 0.3014423077 6270000
warsaw+filmmaking 1.22E-05 0.2610576923 5430000
warsaw+attraction 0.000160270252 0.2490384615 5180000
warsaw+communist 0.002373897525 0.2370192308 4930000
warsaw+bonn 0.0001521606372 0.2240384615 4660000
warsaw+foreign investment 5.03E-05 0.2153846154 4480000
warsaw+ethnic 0.0004054963786 0.2004807692 4170000
warsaw+charlottenburg 1.59E-05 0.1826923077 3800000
warsaw+county seat 0.0002657706025 0.1677884615 3490000
warsaw+fiction 0.0004408883829 0.1649038462 3430000
warsaw+biography 0.0004991958468 0.1509615385 3140000
warsaw+central europe 0.000650809086 0.1413461538 2940000
warsaw+churches 0.0006918588024 0.1389423077 2890000
warsaw+black walnut 1.57E-05 0.09807692308 2040000
warsaw+brandenburg 0.0001277065518 0.09759615385 2030000
warsaw+film festival 0.000533614835 0.09038461538 1880000
warsaw+bombing 0.0002355447962 0.08653846154 1800000
warsaw+city planning 3.37E-05 0.08509615385 1770000
warsaw+berlin philharmonic 2.55E-05 0.07980769231 1660000
warsaw+associated press 0.0002758594688 0.07836538462 1630000
warsaw+constitutional monarchy 2.34E-05 0.05817307692 1210000
warsaw+administrative district 0.0002506757432 0.05769230769 1200000
warsaw+economic growth 8.04E-05 0.05576923077 1160000
warsaw+association football 4.74E-05 0.04951923077 1030000
warsaw+contemporary art 7.55E-05 0.04855769231 1010000
warsaw+cavalry 0.0002262865396 0.04730769231 984000
warsaw+east germany 0.000537102666 0.04663461538 970000
warsaw+baltic sea 0.0003071918651 0.04115384615 856000
warsaw+demographics 5.37E-05 0.03769230769 784000
warsaw+ethnic relations 1.86E-05 0.03423076923 712000
warsaw+fortification 4.80E-05 0.03413461538 710000
warsaw+art museum 7.27E-05 0.03254807692 677000
warsaw+dwelling 7.14E-05 0.03254807692 677000
warsaw+archbishop 0.0007740575795 0.03168269231 659000
warsaw+city council 0.00020002797 0.03139423077 653000
warsaw+carpathian mountains 6.46E-05 0.03110576923 647000
warsaw+border control 7.75E-06 0.03024038462 629000
warsaw+adolf hitler 0.0001639562623 0.02778846154 578000
warsaw+architectural style 1.73E-05 0.02206730769 459000
warsaw+francisco goya 5.44E-06 0.01990384615 414000
warsaw+east berlin 9.32E-05 0.01836538462 382000
warsaw+esperanto 0.0001284924012 0.01802884615 375000
warsaw+art deco 7.72E-05 0.01769230769 368000
warsaw+cemeteries 0.0002612378266 0.01596153846 332000
warsaw+cyfrowy polsat 4.65E-06 0.01548076923 322000
warsaw+buildings structures 8.63E-06 0.01336538462 278000
warsaw+domino theory 1.01E-05 0.01192307692 248000
warsaw+all saints 8.06E-05 0.01100961538 229000
warsaw+apartment building 1.66E-05 0.01043269231 217000
warsaw+anti communist 0.00011888045 0.009230769231 192000
warsaw+burgher 3.98E-05 0.008894230769 185000
warsaw+castle square 0.0004229585835 0.008509615385 177000
warsaw+film production 2.95E-05 0.008221153846 171000
warsaw+central intelligence agency 1.08E-05 0.008221153846 171000
warsaw+daewoo 4.14E-05 0.007788461538 162000
warsaw+enigma machine 2.94E-05 0.007788461538 162000
warsaw+benton county 0.0002598797853 0.006778846154 141000
warsaw+commemorative plaque 3.82E-06 0.006778846154 141000
warsaw+fields medal 1.20E-05 0.005961538462 124000
warsaw+bletchley park 3.04E-05 0.005336538462 111000
warsaw+coshocton county 1.55E-06 0.005 104000
warsaw+belweder 0.0003062181016 0.004754807692 98900
warsaw+andrzej wajda 4.42E-05 0.004274038462 88900
warsaw+dunkin donuts 1.55E-06 0.003399038462 70700
warsaw+democratic left alliance 5.84E-05 0.003307692308 68800
warsaw+flag of poland 6.97E-06 0.0030625 63700
warsaw+christian national union 3.87E-06 0.002985576923 62100
warsaw+auschwitz concentration camp 3.80E-05 0.002908653846 60500
warsaw+city counties 1.27E-05 0.002673076923 55600
warsaw+barbakan 8.85E-05 0.002663461538 55400
warsaw+brask 1.52E-06 0.002634615385 54800
warsaw+civic platform 0.000107874225 0.002610576923 54300
warsaw+curzon line 1.63E-05 0.002504807692 52100
warsaw+all saints day 6.75E-05 0.001793269231 37300
warsaw+congress poland 0.0003431013639 0.001360576923 28300
warsaw+constitution square 9.68E-05 0.0006538461538 13600
warsaw+alfred tarski 7.24E-05 0.0004721153846 9820
warsaw+barbakan warsaw 7.40E-05 0.0003384615385 7040
warsaw+corylus colurna 5.08E-07 0.0002418269231 5030
warsaw+belweder warsaw 9.60E-05 9.76E-05 2030
warsaw+charles x gustav of sweden 8.52E-06 4.42E-06 92
warsaw+berlin border crossings 7.75E-07 2.40E-06 50
warsaw+barbakan warsaw poland 5.48E-05 1.01E-06 21
warsaw+belweder warsaw poland 8.73E-05 9.62E-07 20

Känslan för warsaw är att export för hela datamängden kommer ligga bättre än resp. debug-export och Google motsvarande när vi betraktar det som relationer närastående mängder av sökkoncept för en sökning eller som byggs från sökningar relaterade. Men jag är ganska nöjd här också särskilt som inga av de i datamängd riktigt feta arbetshästarna använts alls. Det vore därför en senare högst relevant jämförelse association för query data och faktiskt för enstaka kontroller (snarare än för meningsfullt data-insamlade) närmare möjligt för Google data om jag minns rätt.

Övriga värden "warsaw" finns sist.

Vad kan man ha dessa värden till?

Allt möjligt varför det lönar sig att göra det brutalt stort när det väl uppdateras upp i start-tillstånd. Men förutom mycket annat för att undvika att sitta och förberäkna diverse latenta eller implicita koncept som kastar bort exakthet och möjlighet till mer fin beskrivning av vad vi söker efter när det just efterfrågas samtidigt krävande en massa diskreta tunga beräkningar. Där värden för relationerna är en grupp inparametrar att beräkna vikter utifrån (expanderande från sökkoncept) för hur en enskild stycke data (ex. nyhet) ska värderas i en SERP.

Ett till exempel är när kombinerat Bluelight's relationer resp. Bluelight's intensity för sattande ett mindre rum av i långsiktig tid ganska stabil vetskap för vilka sedan PAB-relationer kan ge en sund ordning av mot vad som faktisk intresserar folk för att välja ut indikationer till andra sökresultat ex:

Ungefär som de flesta av de större sökmotorerna numera gärna gör via relaterade sökningar.
Möjlighet att givet ett presenterat data där uttrycka en ökad exakthet redan presenterad.
För ett tänkbart antal situationer jämförbart med föregående men presenterat likt första alternativet via länksökning snarare än ett resultat redan uttryckt.
Ex. med Amazon i Information i SERP: Tillståndsinformation sökmotor resp. läsare / sökare är en presentation besläktad med de två föregående (men med lite annorlunda vikter mötet den som söker och data vi rangordnar).

Samt en hel del närmare att söka mer "avancerat" med större kontroll.

Och betraktar vi relationerna med högst värden av alla framgår från tre - "warsaw poland", "warsaw pact", "warsaw ghetto", warsaw+"pact" - möjligheten att söka föra ett indikerat koncept till ett förstått mer exakt indikerat koncept indikerande det första konceptet d.v.s. en aspekt search suggestions kan uttrycka. Just exemplen ska dock inte tas för kanske de bäst lämpade värdena just för det då debug-körningen från en total mängd tung från forskning, politik och uppslagsböcker än mer så än generella första vikt för allt tillsammans blir (exporten saknar tror jag nära nog allt ej direkt "tråkigt" där det kanske närmast folks bredare intresse utanför ev. mer för resp. individ roliga mer läsvärda studier bör vara data genererat ut från EU resp. FN). Nedan märks särskilt upplever jag (utan att kontrollerat det och man tar lätt fel gissande vad som ger vad) uppslagsböckerna (bl.a. Wikipedia och förutom i storlek mindre ett par till mycket stora).

warsaw+"poland" 0.06048906769 0
warsaw+"warsaw poland" 0.03190553805 0
warsaw+"polish" 0.02523323043 0
warsaw+"ghetto" 0.01666576157 0
warsaw+"warsaw pact" 0.01538579671 0
warsaw+"pact" 0.01504084644 0
warsaw+"uprising" 0.01377676851 0
warsaw+"warsaw ghetto" 0.01240929251 0
warsaw+"university" 0.01193706072 0
warsaw+"people" 0.009938907971 0

"Warsaw": Alla från debug-export

Med jämförelse Google där det samlades in i sista kolumnen och när värde saknas satt till 0.

warsaw+"poland" 0.06048906769 0
warsaw+"warsaw poland" 0.03190553805 0
warsaw+"polish" 0.02523323043 0
warsaw+"ghetto" 0.01666576157 0
warsaw+"warsaw pact" 0.01538579671 0
warsaw+"pact" 0.01504084644 0
warsaw+"uprising" 0.01377676851 0
warsaw+"warsaw ghetto" 0.01240929251 0
warsaw+"university" 0.01193706072 0
warsaw+"people" 0.009938907971 0
warsaw+"new york" 0.008298684603 0
warsaw+"world" 0.008197832231 0
warsaw+"treaty" 0.007764801359 0
warsaw+"europe" 0.007444191786 2.096153846
warsaw+"warsaw uprising" 0.007336778637 0
warsaw+"city" 0.006929825771 5.480769231
warsaw+"national" 0.006773295273 0
warsaw+"jewish" 0.006384989044 0
warsaw+"history" 0.0063105556 0
warsaw+"warsaw ghetto uprising" 0.005942222879 0
warsaw+"warsaw treaty" 0.005921364602 0
warsaw+"military" 0.005237756691 0
warsaw+"capital" 0.00509155 1.129807692
warsaw+"warsaw university" 0.004985647067 0
warsaw+"slavic" 0.00456051304 0
warsaw+"central" 0.004497587161 3.115384615
warsaw+"county" 0.004490628698 1.100961538
warsaw+"germany" 0.00436902934 0
warsaw+"russia" 0.003966297435 0
warsaw+"berlin" 0.003760377568 2.423076923
warsaw+"street" 0.00369649197 0
warsaw+"town" 0.003685508598 0
warsaw+"london" 0.003602355663 0
warsaw+"moscow" 0.003504920932 0
warsaw+"organization" 0.003464941023 0
warsaw+"work" 0.003464902097 0
warsaw+"battle" 0.003433667976 0.5528846154
warsaw+"economic" 0.003383498334 1.081730769
warsaw+"jews" 0.003316333703 0
warsaw+"prague" 0.003222385581 0
warsaw+"world war" 0.003221290551 0
warsaw+"museum" 0.003205876893 0
warsaw+"department" 0.003175846297 1.245192308
warsaw+"world war ii" 0.003170900429 0
warsaw+"france" 0.003112558757 2.418269231
warsaw+"village" 0.003112233321 0
warsaw+"academy" 0.002884881888 0.8413461538
warsaw+"indiana" 0.002859802887 0
warsaw+"district" 0.002795369432 1.149038462
warsaw+"palace" 0.002792193968 0
warsaw+"vienna" 0.002713869136 0
warsaw+"budapest" 0.002631859504 1.677884615
warsaw+"soviet union" 0.002581289049 0
warsaw+"empire" 0.002540920777 0.3475961538
warsaw+"russian empire" 0.002539474264 0
warsaw+"church" 0.002535174099 0.9711538462
warsaw+"travel" 0.002511589798 0
warsaw+"vistula" 0.002479540895 0
warsaw+"president" 0.002393580648 0
warsaw+"hungary" 0.002393315555 0
warsaw+"ukraine" 0.002387691086 0
warsaw+"communist" 0.002373897525 0.2370192308
warsaw+"holocaust" 0.002249688142 0
warsaw+"warsaw convention" 0.002154221912 0
warsaw+"warsaw indiana" 0.002086620251 0
warsaw+"hotel" 0.002070198306 0
warsaw+"warsaw pact countries" 0.002043478419 0
warsaw+"square" 0.002029536612 0
warsaw+"building" 0.00202911313 1.576923077
warsaw+"force" 0.002026112673 1.067307692
warsaw+"italy" 0.001965886105 0
warsaw+"austria" 0.001950624527 1.129807692
warsaw+"lithuania" 0.001826671474 0
warsaw+"israel" 0.001720752709 0
warsaw+"nazi" 0.00171811087 0
warsaw+"canada" 0.001707116769 2.0625
warsaw+"china" 0.001692105968 1.759615385
warsaw+"romania" 0.001651372941 0
warsaw+"eastern europe" 0.001577163715 0.3701923077
warsaw+"railway" 0.001533900496 0
warsaw+"vistula river" 0.001407317398 0
warsaw+"rome" 0.001358158441 0
warsaw+"bulgaria" 0.001332210621 0.8557692308
warsaw+"sweden" 0.001319793533 0
warsaw+"spain" 0.001282409802 0
warsaw+"buildings" 0.001273327547 0.4951923077
warsaw+"roman" 0.001258412528 0
warsaw+"park" 0.001248461371 0
warsaw+"model" 0.001210367781 0
warsaw+"usa" 0.001201821546 0
warsaw+"kiev" 0.001194279041 0
warsaw+"road" 0.001188759474 0
warsaw+"stock exchange" 0.001157601223 0
warsaw+"jew" 0.001154198961 0
warsaw+"universities" 0.001153523609 0
warsaw+"vilnius" 0.001144196556 0
warsaw+"england" 0.001122605774 0.8942307692
warsaw+"structure" 0.001111394751 0
warsaw+"location" 0.001110061843 0
warsaw+"missouri" 0.001095961427 0
warsaw+"armed" 0.001089016094 0.325
warsaw+"lublin" 0.001084742627 0
warsaw+"poles" 0.001067977517 0
warsaw+"norway" 0.001053757599 0
warsaw+"chicago" 0.001049752452 1.793269231
warsaw+"old town" 0.001042538298 0
warsaw+"lake" 0.001036470957 0
warsaw+"riga" 0.00101981166 0
warsaw+"mexico" 0.001018823549 0
warsaw+"sofia" 0.0009983733099 0
warsaw+"illinois" 0.0009694286305 0
warsaw+"denmark" 0.0009595375587 0.9134615385
warsaw+"latvia" 0.0009431406828 0
warsaw+"madrid" 0.0009429192714 0
warsaw+"polish academy" 0.0009197110717 0
warsaw+"japan" 0.0009190352133 0
warsaw+"minsk" 0.0009123709643 0
warsaw+"politician" 0.0009057414149 0
warsaw+"map" 0.000885591525 0
warsaw+"swedish" 0.0008801884331 0
warsaw+"amsterdam" 0.0008758745355 1.947115385
warsaw+"bridge" 0.0008673759776 0.7740384615
warsaw+"copenhagen" 0.0008623511676 1.480769231
warsaw+"turkey" 0.0008578956836 0
warsaw+"structures" 0.0008172439347 0
warsaw+"european union" 0.0008022773482 0.4177884615
warsaw+"brazil" 0.0007774283701 1.153846154
warsaw+"archbishop" 0.0007740575795 0.03168269231
warsaw+"national museum" 0.000767280711 0
warsaw+"virginia" 0.0007299819508 0
warsaw+"world war i" 0.0007263395585 0
warsaw+"revolution" 0.0007200867509 0
warsaw+"britain" 0.0007179831592 0.6875
warsaw+"prussia" 0.0007170515678 0
warsaw+"wola" 0.0007104794523 0
warsaw+"national defence" 0.0007005572936 0
warsaw+"california" 0.0006988823485 1.009615385
warsaw+"north carolina" 0.0006966443555 0
warsaw+"churches" 0.0006918588024 0.1389423077
warsaw+"newspaper" 0.0006915758913 0
warsaw+"personal" 0.0006850157792 0
warsaw+"united states" 0.0006839722755 0
warsaw+"asia" 0.0006731392376 0.9903846154
warsaw+"oslo" 0.0006712669615 0
warsaw+"lot" 0.0006704205155 0
warsaw+"st petersburg" 0.0006619768636 0
warsaw+"central europe" 0.000650809086 0.1413461538
warsaw+"latin" 0.000648415619 0
warsaw+"istanbul" 0.0006327336962 0
warsaw+"praga" 0.0006326840386 0
warsaw+"kentucky" 0.000626855856 0
warsaw+"ohio" 0.0006232983963 0
warsaw+"siege" 0.000619651703 0
warsaw+"saint petersburg" 0.0006144432072 0
warsaw+"toronto" 0.0006143947736 0
warsaw+"bratislava" 0.0006101579041 0.6394230769
warsaw+"estonia" 0.0006025517766 0.4644230769
warsaw+"synagogue" 0.0005968391783 0
warsaw+"frankfurt" 0.0005936254533 0
warsaw+"album" 0.0005870350373 0.3076923077
warsaw+"relation" 0.0005747788765 0
warsaw+"newspapers" 0.000568433496 0
warsaw+"description" 0.0005682325154 0.9134615385
warsaw+"buenos aires" 0.0005592760695 0.9759615385
warsaw+"katowice" 0.0005569886386 0
warsaw+"organisation" 0.0005519953694 0
warsaw+"east germany" 0.000537102666 0.04663461538
warsaw+"film festival" 0.000533614835 0.09038461538
warsaw+"train station" 0.0005286149878 0
warsaw+"stadium" 0.000519958242 0
warsaw+"kosciusko county" 0.0005173082278 0
warsaw+"railway station" 0.000505127533 0
warsaw+"maps" 0.0005049773576 0
warsaw+"lvov" 0.0004994346142 0
warsaw+"biography" 0.0004991958468 0.1509615385
warsaw+"vietnam" 0.0004991351049 0
warsaw+"kaunas" 0.0004670608304 0
warsaw+"hitler" 0.0004616873243 0
warsaw+"western europe" 0.000458715544 0
warsaw+"lviv" 0.000458601219 0
warsaw+"stalin" 0.0004555344544 0
warsaw+"rotterdam" 0.0004420469553 0
warsaw+"fiction" 0.0004408883829 0.1649038462
warsaw+"settlement" 0.000436781562 0
warsaw+"red army" 0.0004339773336 0
warsaw+"plac" 0.0004285979753 0
warsaw+"castle square" 0.0004229585835 0.008509615385
warsaw+"taiwan" 0.0004216404641 0
warsaw+"united kingdom" 0.0004151858886 0
warsaw+"south korea" 0.0004092731259 0
warsaw+"ethnic" 0.0004054963786 0.2004807692
warsaw+"seoul" 0.0003898213174 0
warsaw+"stuttgart" 0.0003811785778 0
warsaw+"thailand" 0.0003795711307 0
warsaw+"skyscraper" 0.0003564981945 0
warsaw+"tel aviv" 0.0003518472979 0
warsaw+"warsaw ghetto inmates" 0.0003505170507 0
warsaw+"kielce" 0.0003452136829 0
warsaw+"bangkok" 0.0003434270814 1.125
warsaw+"congress poland" 0.0003431013639 0.001360576923
warsaw+"kazakhstan" 0.0003428885888 0
warsaw+"taipei" 0.0003264172314 0
warsaw+"florida" 0.0003132285948 0.6730769231
warsaw+"iron curtain" 0.0003126149749 0
warsaw+"baltic sea" 0.0003071918651 0.04115384615
warsaw+"radom" 0.0003063212941 0
warsaw+"belweder" 0.0003062181016 0.004754807692
warsaw+"general government" 0.0002991728124 0
warsaw+"international airport" 0.000288209747 0
warsaw+"odessa" 0.0002876467942 0
warsaw+"bydgoszcz" 0.0002835680368 0.4769230769
warsaw+"reconstruction" 0.0002810380182 0
warsaw+"mongolia" 0.0002801015891 0
warsaw+"new town" 0.0002792802465 0
warsaw+"associated press" 0.0002758594688 0.07836538462
warsaw+"public library" 0.0002753429693 0
warsaw+"gdynia" 0.000266950642 0
warsaw+"nicolaus copernicus" 0.0002669204512 0
warsaw+"county seat" 0.0002657706025 0.1677884615
warsaw+"wisconsin" 0.0002645673268 0
warsaw+"gniezno" 0.0002621586517 0
warsaw+"cemeteries" 0.0002612378266 0.01596153846
warsaw+"benton county" 0.0002598797853 0.006778846154
warsaw+"north dakota" 0.0002587457855 0
warsaw+"supreme court" 0.0002585502635 0
warsaw+"national theatre" 0.0002585259184 0
warsaw+"administrative district" 0.0002506757432 0.05769230769
warsaw+"polish language" 0.0002473385407 0
warsaw+"minnesota" 0.0002460461077 0
warsaw+"san diego" 0.0002441535989 0
warsaw+"holocaust jewish" 0.000243316588 0
warsaw+"november uprising" 0.0002431704763 0
warsaw+"bombing" 0.0002355447962 0.08653846154
warsaw+"unesco" 0.0002349214996 0
warsaw+"cavalry" 0.0002262865396 0.04730769231
warsaw+"colorado" 0.0002179767671 0.5240384615
warsaw+"montenegro" 0.0002131867362 0
warsaw+"ursus" 0.0002078874477 0
warsaw+"plaza" 0.0002066975879 0
warsaw+"phoenix" 0.0002050598252 0
warsaw+"warsaw pact nations" 0.0002045706326 0
warsaw+"siedlce" 0.0002019162138 0
warsaw+"city council" 0.00020002797 0.03139423077
warsaw+"holy cross church" 0.0001997187296 0
warsaw+"neighbourhood" 0.0001979168019 0
warsaw+"kampinos forest" 0.0001962123284 0
warsaw+"otwock" 0.0001956310034 0
warsaw+"operation tempest" 0.0001892946485 0
warsaw+"visitor" 0.0001864010355 0
warsaw+"lichtenberg" 0.0001823971034 0
warsaw+"gazeta wyborcza" 0.0001767865335 0
warsaw+"osage river" 0.0001698993877 0
warsaw+"sopot" 0.0001686430784 0
warsaw+"adolf hitler" 0.0001639562623 0.02778846154
warsaw+"lublin voivodeship" 0.0001609737564 0
warsaw+"attraction" 0.000160270252 0.2490384615
warsaw+"kalisz" 0.0001594741085 0
warsaw+"higher education" 0.0001594571251 0
warsaw+"narrative" 0.0001585052329 0
warsaw+"prudential warsaw" 0.0001577431311 0
warsaw+"warsaw pact states" 0.000153833718 0
warsaw+"bonn" 0.0001521606372 0.2240384615
warsaw+"coventry" 0.0001500113552 3.163461538
warsaw+"market square" 0.0001491982655 0
warsaw+"second polish republic" 0.000140977298 0
warsaw+"world bank" 0.0001389565733 0
warsaw+"fort wayne" 0.000136518359 0.3014423077
warsaw+"hancock county" 0.0001353717299 0
warsaw+"ulica" 0.0001304449694 0
warsaw+"esperanto" 0.0001284924012 0.01802884615
warsaw+"brandenburg" 0.0001277065518 0.09759615385
warsaw+"harbin" 0.0001252765199 0
warsaw+"hanoi" 0.0001209524211 0
warsaw+"trinity church" 0.0001201254681 0
warsaw+"anti communist" 0.00011888045 0.009230769231
warsaw+"grand theatre" 0.0001160405613 0
warsaw+"richmond county" 0.0001159208463 0
warsaw+"lake city" 0.000115145414 0
warsaw+"civic platform" 0.000107874225 0.002610576923
warsaw+"malbork" 0.0001073301934 0
warsaw+"vatican city" 0.0001036328838 0
warsaw+"rio de janeiro" 0.0001022472711 0
warsaw+"socialist realism" 9.86E-05 0
warsaw+"medical school" 9.85E-05 0
warsaw+"senator" 9.84E-05 0
warsaw+"grand theatre warsaw" 9.77E-05 0
warsaw+"constitution square" 9.68E-05 0.0006538461538
warsaw+"gallatin county" 9.67E-05 0
warsaw+"pictorial" 9.60E-05 0
warsaw+"belweder warsaw" 9.60E-05 9.76E-05
warsaw+"hamamatsu" 9.46E-05 0
warsaw+"ohio river" 9.40E-05 0
warsaw+"modern art" 9.39E-05 0
warsaw+"east berlin" 9.32E-05 0.01836538462
warsaw+"north bridge" 9.29E-05 0
warsaw+"transylvania" 9.22E-05 0
warsaw+"barbakan" 8.85E-05 0.002663461538
warsaw+"partitions of poland" 8.75E-05 0
warsaw+"silesian voivodeship" 8.75E-05 0
warsaw+"belweder warsaw poland" 8.73E-05 9.62E-07
warsaw+"tourist attraction" 8.71E-05 0
warsaw+"ochota" 8.45E-05 0
warsaw+"radio station" 8.38E-05 0
warsaw+"public transport" 8.37E-05 0
warsaw+"personal narratives" 8.24E-05 0
warsaw+"henryk sienkiewicz" 8.19E-05 0
warsaw+"all saints" 8.06E-05 0.01100961538
warsaw+"warsaw metro stops" 8.06E-05 0
warsaw+"economic growth" 8.04E-05 0.05576923077
warsaw+"world heritage" 7.94E-05 0
warsaw+"holy trinity church" 7.92E-05 0
warsaw+"public space" 7.75E-05 0
warsaw+"art deco" 7.72E-05 0.01769230769
warsaw+"contemporary art" 7.55E-05 0.04855769231
warsaw+"holocaust victims" 7.53E-05 0
warsaw+"warsaw cave" 7.42E-05 0
warsaw+"barbakan warsaw" 7.40E-05 0.0003384615385
warsaw+"treblinka extermination camp" 7.37E-05 0
warsaw+"art museum" 7.27E-05 0.03254807692
warsaw+"alfred tarski" 7.24E-05 0.0004721153846
warsaw+"warsaw pact country" 7.19E-05 0
warsaw+"dwelling" 7.14E-05 0.03254807692
warsaw+"pope john paul ii" 6.89E-05 0
warsaw+"all saints day" 6.75E-05 0.001793269231
warsaw+"lot polish airlines" 6.67E-05 0
warsaw+"carpathian mountains" 6.46E-05 0.03110576923
warsaw+"skierniewice" 6.24E-05 0
warsaw+"hard rock cafe" 6.10E-05 0
warsaw+"insurance company" 6.10E-05 0
warsaw+"light rail" 5.98E-05 0
warsaw+"nazism" 5.95E-05 0
warsaw+"academy award" 5.94E-05 0.3951923077
warsaw+"democratic left alliance" 5.84E-05 0.003307692308
warsaw+"astana" 5.78E-05 0.4716346154
warsaw+"barbakan warsaw poland" 5.48E-05 1.01E-06
warsaw+"military operation" 5.47E-05 0
warsaw+"middle class" 5.41E-05 0
warsaw+"demographics" 5.37E-05 0.03769230769
warsaw+"rice county" 5.36E-05 0
warsaw+"warsaw west county" 5.19E-05 0
warsaw+"operation bagration" 5.15E-05 0
warsaw+"sea level" 5.14E-05 0
warsaw+"french language" 5.13E-05 0
warsaw+"pictorial works" 5.06E-05 0
warsaw+"foreign investment" 5.03E-05 0.2153846154
warsaw+"nature reserve" 4.90E-05 0
warsaw+"fortification" 4.80E-05 0.03413461538
warsaw+"kovel" 4.74E-05 0
warsaw+"association football" 4.74E-05 0.04951923077
warsaw+"polish united workers party" 4.65E-05 0
warsaw+"french army" 4.63E-05 0
warsaw+"konin" 4.62E-05 0
warsaw+"joseph conrad" 4.56E-05 0
warsaw+"andrzej wajda" 4.42E-05 0.004274038462
warsaw+"frankfurt am main" 4.34E-05 0
warsaw+"office building" 4.27E-05 0
warsaw+"daewoo" 4.14E-05 0.007788461538
warsaw+"burgher" 3.98E-05 0.008894230769
warsaw+"grozny" 3.95E-05 0
warsaw+"auschwitz concentration camp" 3.80E-05 0.002908653846
warsaw+"prisoner of war" 3.72E-05 0
warsaw+"municipal government" 3.60E-05 0
warsaw+"unemployment rate" 3.58E-05 0
warsaw+"war crime" 3.53E-05 0
warsaw+"great northern war" 3.49E-05 0
warsaw+"city planning" 3.37E-05 0.08509615385
warsaw+"walsh county" 3.22E-05 0
warsaw+"roman polanski" 3.16E-05 0
warsaw+"bletchley park" 3.04E-05 0.005336538462
warsaw+"stara" 3.03E-05 0
warsaw+"karol szymanowski" 3.02E-05 0
warsaw+"slavic languages" 3.01E-05 0
warsaw+"radomsko" 2.95E-05 0
warsaw+"film production" 2.95E-05 0.008221153846
warsaw+"enigma machine" 2.94E-05 0.007788461538
warsaw+"military decoration" 2.93E-05 0
warsaw+"strategic bombing" 2.82E-05 0
warsaw+"religious communities" 2.81E-05 0
warsaw+"lesser poland voivodeship" 2.72E-05 0
warsaw+"national democracy" 2.61E-05 0
warsaw+"loughborough university" 2.59E-05 0
warsaw+"berlin philharmonic" 2.55E-05 0.07980769231
warsaw+"vienna circle" 2.53E-05 0
warsaw+"high jump" 2.49E-05 0
warsaw+"khmelnytsky uprising" 2.40E-05 0
warsaw+"military campaign" 2.37E-05 0
warsaw+"constitutional monarchy" 2.34E-05 0.05817307692
warsaw+"silver screen" 2.33E-05 0
warsaw+"swedish empire" 2.31E-05 0
warsaw+"underground movements" 2.19E-05 0
warsaw+"landscape architecture" 2.18E-05 0
warsaw+"napoleon i" 2.02E-05 0
warsaw+"wolin" 1.98E-05 0
warsaw+"private universities" 1.93E-05 0
warsaw+"regional rail" 1.91E-05 0
warsaw+"kampinos national park" 1.86E-05 0
warsaw+"ethnic relations" 1.86E-05 0.03423076923
warsaw+"persecutions" 1.84E-05 0
warsaw+"fresno county" 1.84E-05 0
warsaw+"plac teatralny" 1.82E-05 0
warsaw+"ukrainian diaspora" 1.81E-05 0
warsaw+"pope paul vi" 1.78E-05 0
warsaw+"prussian army" 1.77E-05 0
warsaw+"free french forces" 1.77E-05 0
warsaw+"architectural style" 1.73E-05 0.02206730769
warsaw+"irene adler" 1.70E-05 0
warsaw+"united states army" 1.70E-05 0
warsaw+"warsaw stock exchange" 1.70E-05 0
warsaw+"apartment building" 1.66E-05 0.01043269231
warsaw+"curzon line" 1.63E-05 0.002504807692
warsaw+"massacres of poles in volhynia" 1.63E-05 0
warsaw+"charlottenburg" 1.59E-05 0.1826923077
warsaw+"saint andrew" 1.58E-05 0
warsaw+"black walnut" 1.57E-05 0.09807692308
warsaw+"pole vault" 1.52E-05 0
warsaw+"broadcaster" 1.51E-05 0.5865384615
warsaw+"mtv networks" 1.49E-05 0
warsaw+"kamienica bornbachowska warsaw" 1.47E-05 0
warsaw+"kamienica bornbachowska" 1.47E-05 0
warsaw+"movie theater" 1.42E-05 0
warsaw+"interfax" 1.41E-05 0
warsaw+"madeleine albright" 1.40E-05 0
warsaw+"planned community" 1.40E-05 0
warsaw+"pine forest" 1.39E-05 0
warsaw+"religious freedom" 1.39E-05 0
warsaw+"historical period" 1.38E-05 0
warsaw+"european parliament constituencies" 1.32E-05 0
warsaw+"varsovian" 1.32E-05 0
warsaw+"tomb of the unknown soldier" 1.32E-05 0
warsaw+"saki" 1.27E-05 0
warsaw+"city counties" 1.27E-05 0.002673076923
warsaw+"isaac bashevis singer" 1.24E-05 0
warsaw+"munich massacre" 1.23E-05 0
warsaw+"filmmaking" 1.22E-05 0.2610576923
warsaw+"plac teatralny warsaw" 1.22E-05 0
warsaw+"ulica smolna warsaw" 1.22E-05 0
warsaw+"ulica smolna" 1.22E-05 0
warsaw+"fields medal" 1.20E-05 0.005961538462
warsaw+"documentary film festivals" 1.19E-05 0.3557692308
warsaw+"sigismund ii augustus" 1.16E-05 0
warsaw+"nisan" 1.16E-05 0
warsaw+"warsaw uprise museum" 1.15E-05 0
warsaw+"talmud torah" 1.14E-05 0
warsaw+"nature conservation" 1.11E-05 0
warsaw+"central intelligence agency" 1.08E-05 0.008221153846
warsaw+"gross domestic product" 1.08E-05 0
warsaw+"maidenhair tree" 1.08E-05 0
warsaw+"lusatia" 1.08E-05 0
warsaw+"mastercard" 1.06E-05 0
warsaw+"stanley kubrick" 1.05E-05 0
warsaw+"ulmus americana" 1.03E-05 0
warsaw+"domino theory" 1.01E-05 0.01192307692
warsaw+"foreign relations of belarus" 1.01E-05 0
warsaw+"foreign relations of estonia" 1.01E-05 0
warsaw+"foreign relations of finland" 1.01E-05 0
warsaw+"polish state railways" 1.01E-05 0
warsaw+"town house" 9.53E-06 0
warsaw+"steel mill" 9.51E-06 0
warsaw+"john f kennedy international airport" 9.30E-06 0
warsaw+"deserted settlement" 9.14E-06 0
warsaw+"housing project" 9.07E-06 0
warsaw+"ulmus parvifolia" 8.95E-06 0
warsaw+"gas works" 8.83E-06 0
warsaw+"buildings structures" 8.63E-06 0.01336538462
warsaw+"charles x gustav of sweden" 8.52E-06 4.42E-06
warsaw+"foreign relations of canada" 8.52E-06 0
warsaw+"foreign relations of croatia" 8.52E-06 0
warsaw+"foreign relations of italy" 8.52E-06 0
warsaw+"foreign relations of the republic of ireland" 8.52E-06 0
warsaw+"border control" 7.75E-06 0.03024038462
warsaw+"national library of poland" 7.75E-06 0
warsaw+"russo polish war" 7.75E-06 0
warsaw+"visitationist church" 7.75E-06 0
warsaw+"juglans nigra" 7.45E-06 0
warsaw+"scouting museums" 7.18E-06 0
warsaw+"flag of poland" 6.97E-06 0.0030625
warsaw+"royal castle warsaw" 6.97E-06 0
warsaw+"public housing" 6.92E-06 0
warsaw+"personal narratives polish" 6.60E-06 0
warsaw+"legislative power" 6.39E-06 0
warsaw+"koleje mazowieckie" 6.20E-06 0
warsaw+"pseudotsuga menziesii" 6.19E-06 0
warsaw+"prime meridian" 6.17E-06 0
warsaw+"panel painting" 5.88E-06 0
warsaw+"intensive care unit" 5.66E-06 0
warsaw+"pock" 5.59E-06 0
warsaw+"francisco goya" 5.44E-06 0.01990384615
warsaw+"foreign relations of cyprus" 5.42E-06 0
warsaw+"foreign relations of hungary" 5.42E-06 0
warsaw+"gare du nord" 5.42E-06 0
warsaw+"ignacy krasicki" 5.42E-06 0
warsaw+"konfrontacja sztuk walki" 5.42E-06 0
warsaw+"vaslav nijinsky" 5.42E-06 0
warsaw+"cyfrowy polsat" 4.65E-06 0.01548076923
warsaw+"poczta polska" 4.65E-06 0
warsaw+"wyoming county new york" 4.65E-06 0
warsaw+"christian national union" 3.87E-06 0.002985576923
warsaw+"foreign relations of lithuania" 3.87E-06 0
warsaw+"mily balakirev" 3.87E-06 0
warsaw+"world war ii crimes in poland" 3.87E-06 0
warsaw+"commemorative plaque" 3.82E-06 0.006778846154
warsaw+"reversi" 3.82E-06 0
warsaw+"ginkgo biloba" 3.55E-06 0
warsaw+"southern united states" 3.10E-06 0
warsaw+"foreign relations of argentina" 2.32E-06 0
warsaw+"foreign relations of armenia" 2.32E-06 0
warsaw+"foreign relations of latvia" 2.32E-06 0
warsaw+"foreign relations of poland" 2.32E-06 0
warsaw+"foreign relations of the netherlands" 2.32E-06 0
warsaw+"lithuanian soviet socialist republic" 2.32E-06 0
warsaw+"sergey brin" 2.32E-06 0
warsaw+"south african air force" 2.32E-06 0
warsaw+"the honeymooners" 2.32E-06 0
warsaw+"john irving" 2.30E-06 0
warsaw+"valerius" 2.30E-06 0
warsaw+"kate mosse" 1.79E-06 0
warsaw+"coshocton county" 1.55E-06 0.005
warsaw+"dunkin donuts" 1.55E-06 0.003399038462
warsaw+"peoples republic of china" 1.55E-06 0
warsaw+"united states post office" 1.55E-06 0
warsaw+"brask" 1.52E-06 0.002634615385
warsaw+"joy division song" 1.52E-06 0
warsaw+"berlin border crossings" 7.75E-07 2.40E-06
warsaw+"foreign relations of albania" 7.75E-07 0
warsaw+"foreign relations of australia" 7.75E-07 0
warsaw+"foreign relations of luxembourg" 7.75E-07 0
warsaw+"foreign relations of romania" 7.75E-07 0
warsaw+"foreign relations of slovakia" 7.75E-07 0
warsaw+"foreign relations of sri lanka" 7.75E-07 0
warsaw+"foreign relations of syria" 7.75E-07 0
warsaw+"foreign relations of turkey" 7.75E-07 0
warsaw+"jewish political movements" 7.75E-07 0
warsaw+"languages of the united states" 7.75E-07 0
warsaw+"moscow military district" 7.75E-07 0
warsaw+"roads in ireland" 7.75E-07 0
warsaw+"warsaw business journal" 7.75E-07 0
warsaw+"warsaw international film festival" 7.75E-07 0
warsaw+"corylus colurna" 5.08E-07 0.0002418269231