Visar inlägg med etikett Yago. Visa alla inlägg
Visar inlägg med etikett Yago. Visa alla inlägg

Yago3: Fler språkområden med härledd cross-cultural fördjupning av koncepten

2015-04-20

Och fler språkområden använda i byggandet av Yago3 (fortsatt Yago 3) gjorde filerna ordentligt större än Yago 2 räknat i antal GB nu cirka 90 GB upp-packad (och två var dessutom också i märkbar tillväxt jämfört med Yago):



En del har gjorts byggande något vetande mellan språken jag ännu inte tittat på men åtminstone delvis förstod jag det som närmare området länkat till längre när här på bloggen men riktat för att ta ut sådant vetande Yago försöker samla på sig (med engelskan - eller själva Yago-koncepten egentligen som ju har engelska beteckningar tillsammans med övrig del av ID - som någon form av mitt och en del tänk kring att försöka hantera osäkerhet för saknade koncept i primärt antar jag engelskan).


Och såklart finns Yago 3 att även hitta via Google där vi ser att A Knowledge Base from Multilingual Wikipedias – YAGO3 (service.tsi.telecom-paristech.fr) ligger före Max Planck Institute for Informatics trots alla år Yago funnits där såväl som kraftigt inlänkad.



Jag tänker att orsaken är att konceptet Yago 3 är nytt och det prövas lite i början samtidigt som jag tror att något någonstans refererar relevant utifrån någon dimension. Kanske att artikeln är länkad eller att personer kross-förekommer. Säg kanske också sedan en tid rent av.


Vem som helst som vill ha ett bra common sense ska givetvis inte använda Yago 3. Ingenting i tre jämfört med Yago och Yago 2 är en god start ty utbyggnaden handlar mer om att utnyttja samband likt:



Resp. ge datat färdigt för alla som är intresserat av sådant resp. en mängd jämförbara användningar. Tidigare versioner är för alla normala användningsområden common sense mer hanterliga (särskilt den mindre "core-versionen"). Båda (eller egentligen tror jag tre tidigare versioner) tidigare versioner håller hög kvalitet motsvarande Wikipedia (med en del extraktions-fel man kan råka på ibland men egentligen inte särskilt mycket eller kanske mindre man får hämtande ut datat på andra sätt). En bra representation sparande tid.



Och för ett viktigare ämnesområde man prioriterar så vinner Wikipedia-vetskap oavsett om man tar vetande via Yago eller inläsande infoboxar och kategorier, rubriker m.m. direkt på att kombinera med andra system med domän-prioritet. Och för den delen andra breda och stora common sense även för små områden därför att de av och till är ganska olika på vad de är bättre (såväl för en hel del uttryckande märker man mellan många samma sak därför att alla möjliga ontologier hamtar data från varandra - ibland i små cirklar tror jag). Att inte utnyttja Wikipedia idag är dock verkligen att begränsa sig.


Själva storleken på vad Wikipedia växt till - och att det fortsätt växer i bredd, djup och med kvalitetsuppföljning - såväl som att Max Planck Institute for Informatics ger en hel del av vad man kan få ut väldigt färdigt att använda (och även om de efter dom här åren slutar att släppa nya versioner är knappast något förlorat på det: Bara att ta vad som finns och börja ta direkt från Wikipedia igen för dom delar Yago stödjer).


För statistiska samband mellan koncept är en text-källa (av några stycken) att ta direkt underrubrikerna. Åtminstone förr fanns en del färdigt kring länkar och kontext för dem men rubriker är bra data. Ger en hierarkisk-indikation i själva artikeln och det är inte så dåligt när datakällan är Wikipedia där ett viss långsiktigt förtroende kvalitet resp. hjälpligt (mycket bättre nu mot förr rörande all standardisering för hur sidorna ser ut= gemensam "standard" för hur rubrikerna görs.


Mer Yago och common sense

Följande inlägg bör förutom en del Yago-diskuterande ge en försvarlig mängd förslag på andra common sense. Och länkar vidare till andra inlägg från dem bör ge ännu fler ontologier särskilt inom olika ämnesområden. Troligen är inläggen 2012 och 2013 mer omfattande varandra mer av ett problem för mig ej klart vid tiden.


Världsbild och perspektiv: Några till varianter i mötet grammatik, common sense och semantik (2014-11-13)

"Volymen" information i biografier: Att förhöra biografier (2014-05-05)

Från utredning till tillämpning i tre enkla steg efter inte mer än två års funderande (2013-09-30)

Yago: Wikipedia-kategorier är inte subclass till Wordnet-koncept (2013-07)-22

Nyhetsanalys: Sunt förnuft när det gäller bildanalysen (2013-11-27)
Sunt förnuft i common sense: Problem 2 (2012-11-09)

Mening grundad i... (2013-05-15)


Yago 4: Kan bli grekiskt att motverka ett i Wiktionary "med pro-tyskt bias"

Och som det sägs göra "något åt" all snål tyska som lärs ut som andra och tredje språk i Europa.

Yago 4 tror jag de flesta förväntar sig ska fånga upp kunskap som finns i Wiktionary. Särskilt definitioner, grammatiska klasser, relationerna på sidorna till andra språk o.s.v. Wiktionary sidorna börjar ju verkligen se bra ut för många ord att en aktör nu ordentligt erfaren från tidigare versioner av Yago kan klara det medan få om någon resten av världen kan göra det bra första versionerna och antagligen ger upp innan man nått till något användbart.


Många förväntade sig kanske att Yago 3 skulle haft Wiktionary medan andra menade att relativt svårigheten nog inte kunde klara det. Jag försvarade alltid Max Planck Institute for Informatics här och trodde absolut inte som en del kanske känner nu att Max Planck Institute for Informatics inte riktigt vågar sig på den kanske fortfarande lite flexiblare strukturen där man möjligen kan behöva tolka meningarna vid sidan om rubriker.


Och jag tror heller absolut inte på dom här rykten om något med arbetsnamn ZAO (Omega - sist - och så Alfa - och fyndigt tillbaka till "omega": Kan bara göras så fint med ett antikt språk som grekiskan) som i princip tar befintliga Yago och adderar på ett Wiktionary hos ett grekiskt universitet: Och som man säger alla "viktiga" språk i Europa men kanske inte tyskan som folk säger. Dessutom "offspring" på Swahili passande den framtida generationen:


"Swahili
Noun
zao (ma class, plural mazao)
offspring"

Från: Zao | Wiktionary

Hur som helst vore Wiktionary seriöst och komplett med all kunskap exporterad till fina CSV-filer vara oerhört användbart. Bara att hämta upp listor och vissa kategorisidor kan ge en hel del användbart (roller, yrken, kategorier av adjektiv och verb m.m., exempel på särskilda ordklasser m.m.). Men att enkelt t.ex. se vilka adjektiv som beskrivs relaterat introvert. Färre än förväntat om sådant var standardiserat rörande beskrivning vilket så klart ej är en rimlig nivå att förvänta sig någonsin för ett lexikon / ordlista av den här sorten. Men ett ex:


Adjective

withdrawn (comparative more withdrawn, superlative most withdrawn)


Max Planck Institute for Informatics are withdrawn from a sad Wiktionary crying. Max Planck Institute for Informatics are introvert."


Från: Withdrawn

Information i SERP: Tillståndsinformation sökmotor resp. läsare / sökare

2014-05-19

Låt oss diskutera sökninginternet - kanske närmare perspektiv sökmotor resp. entiteter betraktande generell tillståndsinformation synlig - utan särskilt mål annat än att uttrycka vad en SERP är för läsaren av sökresultatet.


Koncept. Vad vi skriver i sökrutan.


Mer fokus på hur det ser relaterat tillståndsinformation det motsvarar även när tillståndsinformationen är reducerad sammmanfattad över annat.


  • 1. Vikter och skattningar: NGRAM- och språkmodeller
    • 1.1. Antal resultat för koncept
    • 1.2. Antal sökningar på koncept
    • 1.3. Antalet läsare av allt i resp. sökresultat
    • 1.4. Antal dollar / kr för koncept
    • 1.5. Abstrakta värden (kronor vi ej enkelt kan handla för)
  • 2. "Rubrikerna" i SERP
    • 2.1. Rekursion och arbetsminne
    • 2.2. Snippet
  • 3. Rekommenderade sökningar
  • 4. Volym sökningar igen: Bing - Google

1. Vikter och skattningar: NGRAM- och språkmodeller

Vi konstaterar först att vi har tre grundläggande variabler för två mycket ofta använda både i information direkt läsbar för den söker eller den som påverkar vad synligt via kanaler för reklam.


1.1. Antal resultat för koncept

För index över koncept i ett tidsfönster ej äldre än T[1] och ej yngre än T[2]: Hur troligt / vanligt relativt alla index över samma tidsfönster är att något relevant publicerats.

1.1.1.a För ett tidsfönster gäller att resultat publicerade inom det kan argumenteras ha ett minsta antal läsare approximativt samma som antalet artiklar i tidsfönster. Därför att skribenten har läst resp. innehåll själv.

1.1.1.b Ett problemområde blir tydligt när tidsfönstret expanderar genom att ökat fönster tenderar (tycks det för mig) göra det mindre trivialt att filtrera ut innehåll publicerat av datasystem för innehåll och presentation (jämför alla sidor i en webbutik dynamiskt formade utifrån olika perspektiv som en spindel ibland kan ta ut fler i antal än webbutik troligt haft totalt antal människo-sidvisningar).

1.1.1.c Normalt tidsfönster för sökmotorer som Google och Bing för webben allmänt är många år. Antal indikerade skattas troligen ofta från motsvarande en språkmodell ev. härrörande från hur data är organiserat (en försvarlig andel sökningar görs troligt över en ganska lång tidsperiod inte av mer än en eller ett fåtal: möjligt är det exakta antalet träffar vad som fodrar att någon vandrar bakåt görande resultaten behövda vilka kanske inte ens innan "fuzzy" därifrån framåt kanske finns beräknade i index).


1.2. Antal sökningar på koncept

För index över koncept i ett tidsfönster ej äldre än T[1] och ej yngre än T[2]: Hur troligt / vanligt relativt alla index över samma tidsfönster är att någon söker på koncept.

1.2.1 Emedan antal resultat ofta publiceras med en indikation tillsammans med SERP anges detta typiskt inte och är inte helt trivialt att få vettiga skattningar av också när ganska grova antal söks (eller snarast dessa medan det kanske rent av är enklare att få söka förändringar givet en utgångspunkt).


1.2.2. För primitiver / grundteorier för hur sökresultat kan beräknas gäller för huvuddelen i domän av query model ( P(Q) ) att man snarast undviker att använda faktiska värden för sannolikheten avseende respektive sökning. Vi kan ju annars tänka oss att när sannolikheten för ett resultat i SERP ska beräknas betraktat som ett där antal koncept lokaliserade givet koncept Q att trafik för del-koncept i koncept resp. lokaliserade koncept kan användas som vikt.


1.2.3. Skattande värden för query volum via flera i sig begränsade källor - och delvis ej direkt från sökmotorer - är det ganska tydligt att just för användningen typisk i 1.2.2. är kanske datakvaliteten för de flesta inte sådan att man vinner särskilt på att använda skattningar av query volym (andra former av vikter och modeller kan tillföra tydligt värde).


1.3. Antalet läsare av allt i resp. sökresultat

Från 1.1. och 1.2:


För tidsfönster p.s.s. som tidigare kan vi för allt indexerat förenklat skatta totalta antalet läsare som summan av de som söker och de som skriver.

1.3.1. Ovan under förutsättning att trafik som når resp. i övrigt är försumbart alt. att summan i övrigt implict kan ge en skattning av trafiken i övrigt.


1.3.2. För stora entiteter med många läsare för innehåll i index är det mycket tänktbart att när de länkar (ex. för en del innehåll hos några av internets tio största tidningar på engelska förekommer ibland länkar till varandra för referens) att det ger märkbar påverkan.


1.3.3. Över en webb med en mängd läsare uttryckande en respons via bloggar, sociala media m.m. är det tänkbart att det också ger påverkan via trafik av andra. Trafiken resp. skribent skapande sådan respons (säg när vi kan klara att se dem entydiga d.v.s. en människa gör respons på en plats) är jag ganska trygg skattas vettigt från query volum om man har den och tror jag men vet ej säkert hur väl och var större avvikelser kommer från mängden innehåll publicerat större entiteter stationära uttryck läsare är kända för.


1.3.4. Mängden länkar enligt 1.3.2 och 1.3.3. tycks bedömt från data jag läser in vara tämligen begränsat i mängd träffande ett sannolikt index relativt det antal som kan argumenteras representeras av endast skribenterna av respons i sig. D.v.s. utgår vi från att ingen läser deras respons mer än dom själva och att de faktiskt besökt och läst vad de länkar är det ändå en ganska begränsad mängd trafik givet mängden respons-data jag samplat (säg från några testperioder totalt cirka 100 GB rss- och atom-strömmar med en försvarlig andel av kända bloggtjänster där default är att hela strömmen publicerat). D.v.s. "ganska" mycket data krävs här resp. alt. att en vettigt korrekt trafikskattning av vilka respons-entiteter som kanske avviker uppåt för vilken trafik de ger.


1.3.5. Jag tror eller lutar åt att för de flesta som söker skattningar av respons att det enklare och kanske ofta korrektare är att söka sampla väldigt många entiteter troligt beskrivna en individ vardera och betrakta dem tillsammans snarare än att när tidsfönster är tämligen smalt (säg från någon timme upp till ett par veckor för nyheter) ge hög andel eller alls beakta rekursiva trafik-skattningar för resp. respons-entitet. D.v.s. en riktigt hög andel Twitter, Google Plus, Wordpress.com-blogg,Blogger-blogg,Tumblr.com-blog-community-grunka o.s.v. är enklar att komma rätt med i "laplace-smoothing" viktning om vi kan ta väldigt många entiteter.


1.4. Antal dollar / kr för koncept

Vad jag egentligen menar här avstår jag bättre från att försöka ge en entydig definition av eftersom jag ännu inte byggt viktsystem klart för det. Vi kan emellertid konstatera vad känt både före och efter "internet".


1.4.1. Vi antar en "modell-sökmotor" som endast visar produkter och har full vetskap om antalet som söker. Priset för resp. produkt har ej ett självklart linjärt förhållandet till antalet som söker. Söker en miljon personer på car är kanske inte produkten överst som är bäst en bil utan kanske en bok eller annan informationsresurs om det. Tydligare indikation koncept om att vi är intresserade att köpa - "buy car" + "volvo 240" + "cheap" + "police auction" + "used in diamond_OR_gold hit and run" - bilen tänker jag har färr som söker på det men kan tänkas göra dyrare produkt i form av en bil till försäljning mer sannolikt genererande värde.


1.4.2. Förhållanet pris, trafik och koncept håller ej heller över SERP utan varierar med position och kan vara mer eller mindre varierade beroende på sökord.


1.4.3. För läsaren av sökresultat framgår priset för resp. resultat men ej hur mycket de genererar i intäkt. Värde manifest resp. latent existerar.


1.4.4. Priset är manifest och är vad vi löst kan jämföra med mer allmänna begrepp som status. Informationen - eller enklare variansen - är dock praktiskt styrande för alla sådana jämförelser över en SERP. Detta genom att ett högre latent värde för manifesta värden associerade status när konverterande till valuta gäller för typiskt tio resultat per sida att enstaka sådana stoppas in brett över koncept där mycket entydig statistik är vek för eller där det redan visat löna sig. Är variansen för ett manifest värde indikerande tänkbar status emellertid låg medan vi skattar query volumen hög är det dock kanske troligare dollar-status associerat.


1.4.5. P.s.s. enligt 1.4.4. existerar låg-pris paketeringar där ev. status är mindre associerad till att realisera värdet av det. Ex. en bok, sekundär informationsresurs i form av hemsida o.s.v.


För index över koncept i ett tidsfönster ej äldre än T[1] och ej yngre än T[2]: Hur troligt / vanligt relativt alla index över samma tidsfönster är att någon söker på koncept.

1.5. Abstrakta värden (kronor vi ej enkelt kan handla för)

1.5.1. Försök att uttrycka sådana värden - ofta näraliggande uttryck av den större flock personer på nätet - börjar bli ganska vanligt. Längre tillbaka var ett fåtal annat än ovanliga (bl.a. Google PR och Alexa ranking). Numera försöker sökmotorer oftare addera information om sådant som recensioner, tweets och jämförbart.


1.5.2. Att uttrycka både dessa "reaktioner" och "vad" som uttryckt dem är tämligen svårt redan i visuellt utrymme. Och ännu svårare (tror jag) i tolkning av vilka som gjort dem och vad de är i meningsfull "flock-mening" för den som söker.


1.5.3. Status och andra värden associerat flock behöver ju komma med en förståelse av vad den underliggande valutan är. Är det en valuta person som söker informationen är intresserad av alls? Och på vilken nivå växlar den in för denne. En del personer värderar information mer från en viss flock och mindre eller rent av negativt från en annan.


1.5.4. Är sådan association vad som svårligen framgår eller kanske inte ens går att enkelt se faller uttrycken ner till enklare standard-uttryck utan "brand power" från flock. Kostnaden för att betrakta det föreligger fortfarande och behöver utan extra hjälp av "brand power" drivas av en historik av värde av att utnyttjat det troligare närmare konkret och rationellt bedömt än mer abstrakta värden, upplevda känslor eller default donerat värde oavsett resultat av att stämma närmare en flock vi gillar.


1.5.5. Att skapa uttryck av dessa reaktioner utan att addera en problematisk nivå av kostnad innan ev. värde levereras användare kan därför vara väldigt svårt.


1.5.6. Bättre mer framarbetade uttryck utifrån en mängd responer är självklart möjligt men kräver värdering av de underliggande responserna. Av upplever jag ordentligt att döma av vad jag ser praktiskt sökande själv ligger en stor utmaning för sökmotorerna här. Tänkbart är det primära värdet för dem just nu av att visa dom enlare reaktionerna att lära sig att värdera dem (ex. filtrerande ut sådant som recensioner egentligen gjorda eller beställda av den som säljer en associerad produkt).


1.5.7. Utmaningen i sådan värdering kan jämföras med möjligheten att värdera en länk som en besökare för varje entitet vi tror är en individ. Men skillnaden att vi antagligen har ordentligt färre responser från denna grupp att värdera jämfört med hur många som är en "elegantare" / "smutsigare" (från mitt perspektiv tar jag verkligen ingen ställning: både riktiga och köpta recensioner är bra data att analysera byggande information om värden associerade koncept från olika perspektiv och jag har föga problem att särskilja dem - och i enstaka manuella kontroller byggt från etablering erfarenhet längre bak kan jag ganska ofta rent av se vilken entitet som gör marknadsföringen och ibland troligare skrivit det).


2. "Rubrikerna" i SERP

Vi har information i SERP uttryckt för resp. resultat. Denna kan vara mer av vad jag bredare kallar DO och vi enklare här ser som "rubriker" eller i "fetstil". Vidare vad jag kallar DESCRIBE - givet ett DO vad som sätter kontext för koncept i DO och vars tolkning och förståelse styrs och påverkas från primacy effect av aktuellt DO - och typiskt för sökresultat snippets.


2.1. Rekursion och arbetsminne


2.1.1.1. Vi vi enkelt och effektivt skummande tar in i arbetsminne är en funktion av uppmärksamhet / motivation / exakthet vi är beredda att investera för visuell yta och dess visuella komplexitet. Desto mindre uppmärksamhet / motivation / exakthet ju hårdare skummare vi efter tydliga träffar med hög "vikt / potens" (ex. i vissa sammanhang brand power tillsammans med starkt emotionellt uttryck likt fiktiva rubrik och första rad snippet: Google VP stabbed Microsoft CEO with sword in new release of computer game).


2.1.1.2. Resp. där behandlat läggs i kontextuellt pågående motsvarande direkt vad vi ser i en vanlig scen i vardagen. Av betydelse, understrykt och av typ vi specifikt söker läggs i arbetsminne.


2.1.1.3. Vi kan göra switch av kontext pågående i arbetsminne. Är det kontextuella avståndet kortare kommer det med lägre kostnad och vad vi sökande information av allt att döma från mycket nvända kommersiella produkter är beredda att göra. Några exempel:


  • Andra resultat - ex. nyheter - i webbsökning.
    1. Presenterande resultat i SERP av en viss typ. Jämför hur Google bl.a. söker föra in resultat av typ nyheter eller sociala media i webbsökning.
    2. Jag spekulerar att det tänkbart är dyrare switch än övriga men värdet är ju också en funktion av antalet som faktiskt söker just information av denna sort resp. typ resp. hur väl de klarar att hitta samma innehåll allmänt i webbsökning annars och/eller kommer rätt via användning ex. Google News.
    3. Dyrare därför att vår organisation av långsiktig vetskap om hur här relevant koncept förhåller sig varandra - tänkbart underliggande och åtminstone påverkande hur arbetsminne är funktionellt - är topologiskt organiserat via närhet av dem. D.v.s. den närmare topologiska motsvarigheten i spatiell mening är ex. förhållandet "nyhet" eller "webbresultat" d.v.s. ungefär det samma över ett ganska få typer. Medan distansen koncepten kommer tendera att vara större mot det större flertalets intresse (troligare irrelevant i perspektiv av en genomsnittlig sökare).
    4. Störning för större flertalet totalt givet relativt få insprängda resultat enkla att "aldrig se" eller betrakta är tänkbart lågt jämfört med värde för dem som faktiskt söker något av typen enligt två eller är allmänt prospekterande. Kostnaden switch är med andra ord vad vi kan lära oss att undvika.
  • Enklare att resonera om är rekursiva uttryck av mer exakt information.
    1. Givet ett resultat bland tio på en sida - låt oss jämföra det med en rubrik på nivå 1 - kan vi för det ge mer information. Konstruktionen används bl.a. av Amazon.
    2. Besläktat ofta utnyttjad är att länka föreslagna andra sökresultat vilket vi dock inte avser här.
    3. Istället avser vi när denna mer exakta information ges på samma sida i form av visuellt associerad information motsvarande en rubrik nivå större än ett (helt normalt underliggande ev. med mindre font eller annan visuell paketering som gör att det stör mindre för den som ej var alls intresserad av nivå ett).
    4. Läsaren ser information på nivå ett för ett resultat. Det intresserar denne. Informationen på nivå två filtreras ej bort för detta resultat och switch till ett mer exakt kontext sker: informationen nivå två går in i arbetsminne.
    5. "Vi" (jag) kallar denna operation för rekursivt innåt. När besläktat i organisation information är upp - associerat men bredar i vad som avses - och ner - associerat smalare mer exkat - i thesaurus och för båda från ett troligt perspektiv av vad som avses avgränsat av koncept vi utgår från.
    6. Gör vi därefter rekursivt uttåt återkommer vi föregående nivå. Förkastades mer exakt som ej ledande till avslut påverkar de ej i introduktion av något nytt i det arbetsminne vi återkommer till. Även om det gäller när vi tänker oss biologiskt modell av arbetsminne påverkad av organisation koncept i långtidsminne - vilket menar jag är ytterst rimligt eftersom denna organisation uppenbart påverkar och styr hur vi resonerar och laborerar med vad aktiverat i arbetsminne - gäller att viss post-aktivitet kan inverka. En aktivering av något ointressant i ett uttryckt rekursivt innåt kan tänkas inverka när vi ser något annat efterföljande om än mindre troligt än något direkt tillsammans med sådant resultat.

2.1.2. Den visuella naturen av 2.1.1 ligger nära perfektion när det kan uttryckas organiserat jämförbart men när rekursivt ovanför ej störande visuellt. Ex. listor ungefär motsvarande ranking från 1 till 10 på nivån ovanför. Antalet behöver emellertid vara fler där historiken bakom tio resultat tänkbart blev möjligt och standard delvis därför att två visuella centraliteter togs ut efter varandra genom ett pagedown förr när upplösningen på datorer var annorlunda. Vidare ligger belastning redan givet från koppling till kontext rekursivt ovanför. Tänkbart (jag vet inte exakt var nivån ligger) cirka fem objekt.


2.2. Snippet

2.2.1. Sökresultat organiserar sig dock ej enligt 2.1.1 och 2.1.2 som vanligast där det normala istället är the snippet. Denna ger dels uttryck som är av DESCRIBE mot aktuellts resultatts DO (här titel) med koncept från sökningen styrande vilket DESCRIBE som plockas ut från sidan vanligen markerat med fetstil. Jag finner det lätt problematiskt att enkelt passa in det i mitt resonemangssystem av DO och DESCRIBE. Det är från tror jag troligare ren DESCRIBE (ex. brödtext i en artikel) men agerar här DO i den mån läsaren betraktar informationen och därefter går vidare och läser hela artikeln (d.v.s. kommer påverka vår förväntan om vad vi där kommer läsa) men ger ju också om vi ej gör det en DESCRIBE för direkt i SERP uttryckt DO:


2.2.1.1 När betraktar snippet som DESCRIBE av aktuellt DO i sökresultat läst men ej resulterande av att läsaren går vidare till sida (låt oss anta en person som sitter och läser några sidor SERP:ar) gäller att "vetskap", "tolkningsrymd" för DO kommer påverkas av resp. DESCRIBE. Personen bygger en viss förväntan / vetskap om vad en viss DO i ett sökresultat vanligen har för DESCRIBE i snippet.


2.2.1.2. Och över många sökresultat vilka koncept i DESCRIBE som oftare associerade till koncepten i resp. DO. Kanske rent av föranledande en särskild sökning. Eller inverkande på hur sannolikt personen väljer en rekommenderad besläktad sökning.


2.2.1.3. Dispergensen mellan snippet - från "transformation" DESCRIBE till DO - och rekommenderad besläktad sökning är dock ganska tydlig. Möjligen är ev. påverkan närmare en känsla av att "bottnat" ut vad ett sökresultat kan ge för att hamna rätt.


2.2.1.4. Det tycks för mig att åtminstone för Google är mer eller mindre det ändå syftet och värde av snippet att visa kontext sökorden förekommer utan mer "sofistikerade" metoder för association till besläktade manifesta eller latenta koncept troligare använda för att peka vidare till andra sökningar.


3. Rekommenderade sökningar

Sist betraktar vi dom rekommenderade sökningarna och vi kan där inkludera vad som direkt ges i rekommendationer i input-fältet. En försvarlig mängd standard-algoritmer ofta välkända innan i andra praktiska områden inom clustering av data av olika slag (inte minst just ord eller flergram eller entiteter av olika slag) finns. Mer praktiskt näraliggande den som söker kan vi dock konstatera att:


3.1. Dessa rekommendationer kan vara uttryck för rekursivt innåt. Givet koncept A kan vi föreslås koncept A + B där A + B kommer med ett antagande av att A ger en yttre avgränsning med ett antagande om en eller ett fåtal övergripande "ämnen" där B (som vi tänker oss kan erbjudas i ett fåtal vanligare alternativ) uttrycker en mer exakt aspekt av resp. sådant antagande.


För exemplet nedan från Google tycks ngram-modell användas där resp. adderat "sub-koncept" (ngram som kan adderas från listan) antagligen speglar sannolikhet från publicerat innehåll ev. med preferens mot en typ som antas bättre passande. Emellertid kan jag också tänka mig att sannolikhet från faktiska sökningar påverkar i den mån de finns. I sista exemplet där tipspayload söks - d.v.s. troligt väldigt osannolikt både över allt publicerat innehåll resp. vad folk söker på - faller förslagen ner till att föreslå resp. ord.



Thesaurus och liknande organisationer används också ofta. Näraliggande fortsatt med Google som exempel är definition av ett koncept motsvarande koncept sökt som bedöms troligare vara vad sökt eller vanligare uttryckt indikation om att man betraktar koncept möjliggörande sådan användning både här och i övrigt. Ett enkelt exempel är när vi i samma organisation också har entiteter (jämför ex. med Yago m.m. byggt från Wikipedia) och mer troligt hamnar rätt i förslag när en specifik artikel, bok eller film söks där man kanske inte minns hela titeln. Likt Library of Congress nedan:



Min erfarenhet från perspektiv sökande information pekar ganska tydligt på att storlek index och/eller mängd sökningar att analysera kan addera ordentligt värde oavsett om artiklar, böcker, film eller annat söks där man inte fullt minns vad det egentligen heter. Library of Congress koncept ovan till ganska stora delar byggda av ngram-modeller från titlarna är där praktiskt sämre för mig än Googels mycket blandade approach.


4. Volym sökningar igen: Bing - Google

Här har jag dessutom av och till nyligen funnit en spännande förändring i det relativa värde Bing leverar jämfört med Google. Längre bak presterande den för mig och många andra ganska dåligt. Sedan ett par år har Microsoft uppenbart bedömt bl.a. från artiklar publicerade såväl som presentationer (av och till riktigt ambitiösa såväl som användbara sammafattningar: ) gjort ett mycket ambitiöst arbete för att bygga långsiktigt grundvärde. Även om effekt av det nog var märkbart var det fram till nyligen inte på nivå att det egentligen motiverar mig att av och till försöka den.


Sedan kanske några månader nu märker jag emellertid att det kan prestera när jag inte på vettig tid får Google att visa vad jag vill hitta. Ett exempel är identifikation av sidan relateratMongoDB länkad i Sydsudan: Vapenvila efter inte avgörs av politisk förmåga och för resp. sida kraft att se dom egna problemen speglade hos "dom andra" (2014-05-12). Det var ej i URL den sida jag sökte men jag är övertygad om att det var exakt det innehåll jag sökte (vilket gör det mer intressant).


Orsaken torde ligga i att aktuellt stycke data hos Google är noterad på domän mycket kraftigare associerad MongoDB. Troligt den jag tyckte mig minnas att jag läst den på: antingen www.mongodb.org eller nära associerad. Men där som vanligt är - eller default bedömd från organisation plattformar publicering - uttryckt underliggande artiklarna ev. med pagination över kommentarer samtidigt som mängden sidor därifrån relaterat MongoDB är "enormt". Samma data publicerat andra sajter kan ändå konkurrera med det obefintliga resultatet från den MongoDB-tyngre sajten.


Den tänktbart mer styrande faktorn i vad som avgör skillnaden mellan Bing och Google när vi lämnar den MongoDB-tunga sajten med kamrater:



Kan tänkas komma ner till för Google-styrande verkan:


1. Eventuellt vikter relaterade till tidigare uttryckta långt bakåt i vår lista här:


"1.2.3. Skattande värden för query volum via flera i sig begränsade källor - och delvis ej direkt från sökmotorer - är det ganska tydligt att just för användningen typisk i 1.2.2. är kanske datakvaliteten för de flesta inte sådan att man vinner särskilt på att använda skattningar av query volym (andra former av vikter och modeller kan tillföra tydligt värde)."


Eller vad som motsvarar det. Likt hur jag såg att antingen Google eller Microsoft (minns jag rätt Google) patenterat något kring att beräkna similarity via de sökresultat man redan har i SERP:ar för att hjälpa surfaren till besläktade sökningar kan man så klart börja skatta länkar från egen trafik såväl som förr kanske mer trafik från länkar. Viss risk för "rundgång" - eller "stående vågor" - eller vad ska kalla det finns kanske ibland.


2. Och oavsett exakt vad som ger vikten tidigare diskuterat för Wikipedia-koncept i:



Där det som ett uttryckt av det kan vara oerhört svårt att söka information om Wikipedia, Wikimedia, Mediawiki m.m. Istället föreslås uppslagssidor i Wikipedia. Expansion av tillåtna egenskaper i vad relevant entitet publicerat ordentligt tilltagen där det mer exakta avgränsade område utanför det inte får plats.


Här är Vietnam vårt Wikipedia. Om vikten är trafik är det givetvis tilltalande attraktivt data att ha en av få riktigt feta samlingarna av men det är inte alltid trivialt att tänka sig mer exakt hur man bör låta det styra. Kanske (jag är inte riktigt säker på vad som egentligen sker: ids inte betrakta det överdrivet) föranleder större tyngd Vietnam i trafik en för min målsättning sökande irrationell expansion av vilka egenskaper relaterade Vietnam som tillåts visas där avgränsning från närmare relaterat MongoDB ej orkar inverka tillräckligt.

Yago: Wikipedia-kategorier är inte subclass till Wordnet-koncept

2013-07-22

Åtminstone inte i någon enkel mening med mindre än att man inför givna definitioner av resp. kategori och från dessa avlägsnar delar i form av kategori-kopplingar och artiklar som ej passar in. Idag gäller ju att variationen och också det relativa avståndet från särskilt för artiklar sådana som ligger långt ifrån vad vi oftare tar som mer "naturlig" tolkning kan vara stort.


Det är därför lite vådligt att addera flera Wikipedia kategorier man anser mer exakta eller avgränsade under ett Wordnet-koncept man antar omfattar dessa i mening. Kategorierna kan ju ligga tämligen långt utanför.


Väljer vi hellre en statistisk tolkning med viktmatriser och sannolikheter o.s.v. givet vilket kontext aktuellt för vad vi bedömer något från blir det en helt annan sak. I den mån outliers vi spontant inte ser hur de passar in (och av och till är fel-placeringar eller riktad marketing i irrelevanta segment av Wikipedia) har värde detekterar vi det om våra statistiska källor är tillräckliga för vår användning med dess krav på korrekthet.


Wordnet mycket mer inriktad på ett fåtal koncept i form av 1-gram - och som sådana vanliga ord - kommer den enklare avgränsningen mycket mer naturligt. Det är jämförbart magnituder enklare att göra en bruksordlista funktionell för att slå upp alla vanliga ord vi kan träffa på och behöver kunna tolka riktat för tolkning i meningen eller ännu smalare i den medan det i en uppslagsbok som ej utesluter någon kunskap är fråga om ett gigantiskt arbete.


Därmed inte att jag säger att det är fel att göra som i projektet Yago vid Max-Planck-Institut Informatik i den mån användningen i sig är mycket lokal och man inte förväntar sig en exakthet i kategorierna som inte finns där. Och vidare minst lika viktigt:


Att man organisatoriskt och i management generaliserat av Wikipedia inser att det inte går att generellt ha färdiga definitioner av kategorierna.


Jag betvivlar dock att det problematiken är trolig även om många aktörer som söker smalare värden av Wikipedia som datakälla för att lösa konkreta problem man ser nu i användning av semantiska relationer gärna vill att Wikipedia försöker i så mycket som möjligt uttrycka sig i färdiga kunskapsdimensioner.


Också om de semantiskt i skisser semantiskt mer definierade idéerna gärna för de flesta spontant känns oerhört rätt (strukturellt kanske likartade med hur vi resonerar övergripande givet just den kunskap vi har aktualiserad för en situation aktuellt just nu om än kanske inte kunskapen samlad) tror jag en stor praktiskt realitet finns från att de flesta skribenter och läsare egentligen struntar fullständigt i Wikipedia som datakälla för annat utanför just väldigt kontextuellt smala och varande i artiklar givna sammanhang (typiskt infoboxar resp. delvis kategorier av enklare typer av instanser som olika typer av personer i list-former där ju meningskontext i dessa just ger kontext ex. Kvinnor födda i Berlin politiskt aktiva under 1930-talet (för ett påhittat ex. men mycket typiskt för dessa kategorier).


Återvändande till Yago ligger ju tolkningen här också relaterat hur vi definierar subclass. Varande själv mer intresserad av förutsättning statistiska funktioner vill jag gärna se det från mängdlära. Och visst är det funktionellt om vi hellre ser det som sannolikheten varande i mängden för givet kontext vi vill använda det i (ex. tolkande mening av ett ngram förekommande i en nyhetsartikel). Notera de tre viktigaste ganska löst definierade underrum i dimensionsmening kontextuellt vi har här i Wikipedia: Subclass may refer to. Datalogins perspektiv förutsätter definitioner tillräckliga för att klara resonemang utifrån mängdlära och besläktade matematiska kunskap men är inte i någon annat än kunskapsriktade specialiserade ontologier (ex. gener eller i bredare omfång Gene Ontology (GO) database inkluderande av cellbiologin) där ett givet etablerat kontext gemensamt etablerad med början grundutbildning vad jag någonsin sett.


Vidare relaterat hur Yago gjort kastar man bort odefinierade dimensioner för kategorierna. Man säger att ett kategori-koncept kan vara undermängd (om vi väljer mängdlärans perspektiv) ex. till person i viss mening där ju dimensionen hos det senare ger indirekt (och troligt praktiskt funktionellt oftast utan att engagera sig i det närmare) men också ligger ofta mening i kategorierna som avgränsar eller expanderar kategori-mängden utanför denna eller tar det till dimensionsrum där det senare kan vara praktiskt odefinierad. Vi kan ex. tycka ett en manlig figur i en fabel eller just av manligt kön men vill vi tillämpa principen inom det ekonomiskt största segmentet för dessa system d.v.s. medicinsk och biologisk forskning är det inte funktionellt.


Egentligen är detta inte ett problem hos Yago som det oftast tycks använt - eller för den delen DBPedia m.m. likartat - i lösningar vi kan se men för mindre webb-publicerade proof-of-concept eller just uttryckt av datat i sig snarare än som grund för logik, intelligence, statistik m.m. är medvetenheten viktig och det är i forskning ett allmänt föga berört område där man hellre ser system där man infört någon beteckning som indikerar entydighet för ett koncept (ex. Wordnets synset9 som att frågeställningen på något sätt är löst generellt.


Vi kan med ett mer unikt ex. också mer praktiskt funktionellt än de många publicera relationerna lösningarna förstå vad jag avser med webb-publicerade proof-of-concept. Betraktar vi Google's söktjänst har de börjat publicera sådana här enklare fakta bredvid sökresultatet. Där är ju dock ett kontext redan inverkande sökresultaten givet. Antingen bara det skattat typiskt önskade - mest troliga mening - för den som söker eller personen mer avgränsat givet kontext av tidigare sökningar (Google typbestämmer bara från det första i någon påverkande mening runt detta och undviker annat än som instansierade mer generella koncept passande detta ex. om du söker på ett personnamn och det finns en känd person många är intresserade av så kan du födelsedata m.m. liknande fakta om denna även om du egentligen letar efter en ort med samma namn sedan en timme med olika sökvarianter runt den - en antagligen ganska vettig lösning varande en färsk lösning och givet att Google generellt arbetar runt kontext-påverkan som bedömt sökresultatens förändring resp. en del bredare forskningsprojekt, engagemang från entiteter inkl. Google m.m. och etablerad kunskap i segmentet).


Egentligen gillar jag nog mest denna tradition. Jag har en del koncept och implementationer här och vet av erfarenhet att det kan vara sunt utvecklande att göra dem själv och därför vad jag inte tycker dom här projekten ska försöka göra någon lösning av som kanske ändå inte blir särskilt riktat bra. Men indikerade det ändå därför att jag gärna skulle se att någon av projekten som gör komprimerade extraktioner av Wikipedia skapade relationer från kategorier till andra inkluderande fler i dimensionsmening. Jag påbörjade det själv mer riktat för att ta in dimensioner relaterat personlighet, sociala koncept i grupp, medicinska och genetiska aspekter av människor, men givet mängden hand-filtrerande där bokstaven "a" till cirka hälften klart manuellt tog ett antal timmar för en ganska begränsad mängd koncept kände jag inte för att göra klart det.