En namngiven tibetansk entitet i eller utanför nyhetsindexering

2016-01-09

Det är väl inte att förvänta (men åt det hållet mer och mer givetvis) att nyhets-index riktigt hunnit analysera nyheterna man ser i ex. i Google's nyhetssökning lika komplett som för sidor indexerade webbsökning. Att se nyheterna snabbt (vilket är en helt annan fråga man kan ifrågasätta om Google alltid presterar bra i för nyhetssökning) synliga för huvudsakliga / självklara ämnen och/eller sökkoncept likt kanske ofta viktigast entiteter likt personer, företag, länder, produkter m.m. (dagarna när min generation var centralitet i användandet och vi alla sökte seriösa ämnen är förbi: Nu handlar internet om den senaste PhonePodasten från Apple).


Jag vet inte riktigt hur Google gör sådant. En del om själva grund-algoritmerna tror jag i och försig finns att hitta men intresserade mig när jag noterade det för ett par år sedan eller mer inte just varande ganska just named entity och koncept relaterat kring ämnen (medan jag mer sökte då andra som tittat på kontinuerliga värde-indikationer i känslo-aspekter som motivation, risk, anger m.m. vid tillfället). Men mycket ligger i ju oavsett om man ev. har grundkoncept jämförbara i "detaljer" hanterande särskilda utmaningar: Görande saker fungerande och helst bra ligger nog i största delen i sådant.


Följande fick jag när jag sökte på en entitet (person):



Antagligen har jag fått en sådan sida som svar förr utan jag minns det (eller kanske att det är en ny respons på något man fått förr när koncept saknas i nyhetsindex).


Emellertid är entiteten jag sökte från inkopierad till Google sökningen från just ett sökresultat från Google. Indexerad både webbsökning och nyhetssökningen liksom i webcache.googleusercontent.com:



Och sidan jag citerar en bit html-kod från visande första stycket efter titel (med visuellt emellan) för denna:



Google webbsökning säger sig ha cirka 6500 - 7000 träffar (skattande eller faktiskt antal index?) för Achok Rinpoche.


Jag vet inte om en person eller företag som förekommer i nyhetssökning är samma sak som förekommande i en indexerad webbsida. Eller om det kan vara samma sak att det också kan vara mer som indexerad webbsökning.


En ev. detekterad trolig roll / named entity agerande, refererande eller talande i nyhet kanske hanteras speciellt? Medan det i webbsökning i den mån den ej är förstådd (ev. bara i meningen ej expanderande antalet named entiteter oändligt i nyhetssökning även om kanske andra sökord tillåter i princip detta för aktuell tid hanterad för sökning). D.v.s. kanske inträffar att man kastar eller missar vad man vet är named entity om man ej känner den som konkurrent aktiv för en tidsperiod eller hanterad i övrigt.


Tilltalande rent konceptuellt är ju att ta in dessa entiteter när man vet att de finns som en varaktig representation och försöka lära stabil kunskap om dom man adderar på för att underlätta ex. fortlöpande indexering nyheter. Det är ett område en försvarlig andel publicerat från flera av befintliga aktörer i segmentet finns inkl. Google (även om jag inte exakt minns i vilket område publicerat här) samt även en del projekt de handlat in eller engagerat sig i av och till inte alltid varkatigt. Ex:


  • Plattform publikation likt Blogger, deras sociala media m.m. är ju också vad som har med denna domän att göra om man så önskar. Skribenten som entitet som ju kan ses i World of Facebook grundad med kontot där eller i World of Google (som ser sig som en öppen värld förr i alla fall debatternade runt kring Facebook) grundad kontot där (eller det här öpen-login eller vad det heter som jag tror någon koppling finns hos dom också kanske).
  • En av de åtminstone för mig minst värdeskapande datakällorna för att få halv-förädlade vetskap om vad koncept, ord, ämnen, innebär i relationer till andra koncept (jämfört ex. med riktigt värdefulla likt Wikipedia, Flickr förr, mina sensorer kinesiska kommunistpartiets webcams m.m. i hemmen, diverse större ontologier som underhållits aktivt åtminstone flera år, eller Library of Congress titel headings) är Freebase som Google köpte för några år sedan. Jag spekulerade då att de köpte den kanske för en ev. bra plattform hanterande koncept och koncept-relatioenr (länken går till dokumentation hos Google beskrivande en del av strukturering synlig för användare) snarare än innehållet på den nivå med då (men inte alls då åtminstone bara en massa små "kategorier" och kunskapsrelationer relaterade high-value search words utan en del faktiskt värde om än inte direkt ej fodrande filtrering på varierad nivå).

Och utan tvivel finns ett ofantligt värde i att utnyttja samspelet sökord kommande tillsammans, förslag andra sökning och beteende runt detta när det arbetas upp under längre tid. Det är en datatyp som fint kan komplettera och bygga vidare på viss mängd stabila tillförlitliga relationer med bara själva företeelsen av samtidighet aktualitet index och där uttryckt utan övrigt data: Jfr produktlansering i ett generellt koncept som (kallas det notebook nu de här platta större bärbara telefonerna eller är de fortfarande mobiler? Apple-Phone? Flat-phone? Flat-rate kommer till mig? Kan det vara flat-rat när man surfar mobilt med UMTS? Det var ju vad alla operatörerna och telekom-operatörerna arbetade nitiskt med kund-glädjen inför framtiden 2000 år när UMTS standarderna gjordes klara.) de mobila flat-rate telefonerna som både kan telefonera, visa film, spela musik från nätet utan behov av att lagra mp3-filerna själv och surfa nätet - i koppling samtidigheten avgränsat tidsmässigt produktområdet (Fllat rate), leverantören hårdvaran (som ju vi lärt från hem-pc:en blir alltid mindre viktig år från år: Man köper bästa hårdvaran till bästa pris så kanske någon mediator till diverse lego-tillverkare i Kina, Pakistan m.m. som Amazon) "Flat-Rate Lego", och så den faktiska produkten med ett namn såväl som vad som presenterar produkten i återförsäljningen liksom mer konkret events (flygresa ner till legotillverkaren kanske skapande nytta i övrigt för ett utvecklingsland likt Pakistan: Ej som förr när det var IBM, Microsoft eller annat i någon del av USA uppenbart mycket mer välbeställt bedömt storlek kontor, luftkonditionering m.m. än här i Sverige).


Vetskap delvis lättare därför tidsbegränsad: Enklae att se vad det har att göra med särskilt och ännu lättare om du redan har en befintlig sökning där folk hjälper till sökande det du vill lära att indexera bättre över tiden. Som vi insåg från hur jag okunnig i Flat-Rate telefonerna är en människans högre förmåga att resonera och bredare vetskap kulturellt och kunskapsmässigt förankrad i en hel livserfarenhet svårslagen. Likt evolutionen strävar ju också allt till det bättre: Bättre vetande, Bättre flat rate och bättre hårdvara / mjukvara billigare.


Så frågan är vad som hänt med Achok Rinpoche? Tappades det hantering nyheten medan få eller inga andra fanns? Eller hanteras inte entiteten därför att den är udda i språk-kultur och/eller ovanlig förekomst? Och om så varför inte skapa den när förekommande om den bekräftas av statistik webbindexing om än bara via diskreta kontroller av och till. Nyheten är ju ändå från november 2015.


Det kan vara så (jag vet ej) att nyhetssökning kanske inte är så intressant rörande annonsintäkter eller de andra typer av intäkter man försökt få ut av dem (analysstöd är ju det kanske egentligen intressantare området om man lämnar tänket med massor av användare) och därför av Google, Yahoo, Microsoft m.fl. prioriteras föga. Situationen att en entitet från en / ev. tidigare i en större politisk entitet i en politiskt extremt infekterad och explosiv fråga i relation näraliggande några av de internationellt störst inte fångas upp. Förvisso rör nyheten i sig inte sådant omedelbart men det är given vetskap utan utmaning bara ej implementerat. Förutom själva sökning som sådan kan man ju tänka sig att tjänster likt dessa kunde utnyttja indikationer för riktad indexering mer eller mindre (kanske helt) automatiserat för att göra troligare att man tar upp alla nyhetskanaler (eller jämförbart webbsökning).


Ett problem finns kanske också i att nyheter har en aspekt av förtroende - mer så tror jag i Europa - så det bör ligga en motivation där också att prioritera det bättre hos alla stora. Att nyhetspublicisterna knappast alltid själva gör en engagerad insats att prestera (tycker jag i allt egentligen från egen nyhetsbevakning till plattformar och kanaler mot läsare oavsett hur skickliga en del av skribenterna är att uttrycka sig där jag idag ex. imponerades av hur jag hela vägen i artikel Expressen - tryckta versionen hörande deras rop på hjälp med nya raden förklarande att dom är billiga: Jag kom och jag handlade! Nästa gång får ni göra en tjänst åt mig - fram tills offret med far gick ut ur restaurangen utan att det egentligen sas rätt ut tog för givet att personen hade mer eller mindre halspulsådern avskuren) är inte jämförbart oavsett om de går bra eller ej. Något likt Yahoo och Google är ju fler produkter så det kanske kan ge lätt men kontinuerlig negativ-känsla påverkande allmänt utan att det lätt märks.


Men ev. får jag kanske ta att låta spindling kontinuerligt små-störa bredband i övrigt. Det ger en del i övrigt att kunna göra analys-lokalt även om ett separat nät hade varit bättre.