Metoder för att kombinera vektor-representationer för ord till koncept (flergram) och koncept-relationer utnyttjande statistik för koncepten ej relaterad ordvektorerna

2016-01-01

Varning: Diskuterande sampling av Facebook spekulerde jag utan att tänka på det rörande vilka ord användarnas subkultur tänkbart hade kunnat etablerat för deras "tweets". Jag inser nu i efterhand att exemplen "likes" / "dislikes" antagligen såväl för inkorrekta som olämpliga för kvinnor, barn och andra känsliga läsare. Ej heller upplever jag att jag här levt upp till det föredöme jag normalt kanske förväntas vara och den tänkbara situationen med korrekt Sverige- och familje-byggande fäder som tillsammans med sina barn läser om natural language processing för att kanske bygga något fint som ett analys-verktyg att besegra en ev. rysk-invasion med i domän av intelligence här istället kan resultera i en obehaglig händelse. Utmaningen i hur man ska hantera de annars moraliskt trygga såväl kognitivt stimulerande lexikon-expanderande lite ovanligare orden just för exemplen ska hanteras kan jag ej ge råd i. Jag vill emellertid spekulera att barnets ålder kan spela in här och tänkbart kan kanske lärare, skolpsykolog eller kanske en imam / präst eller motsvarande ge råd om skadan redan realiserats och avvägning mellan värde kunskap kan realisera (ej nödvändigtvis i den sociala domänen för ungdomar eller några år senare för nu barn utan ett stort ordförråd är i sig ett värde) resp. om det kan komma med en nersida i form av socialt genererande kostnader för föräldrarna såväl i förklarande eller när barnet språkar med andra vuxna som är på besök.


Rörande ord-vektorerna i Reasoning With Neural Tensor Networks for Knowledge Base Completion (bl.a. Manning kanske mer känd i praktiska sammanhang för dennes referensbok parsning baserad på statistik: Se också Åsikter i recensioner: Varför först dyrt parsa meningarna för att kasta bort den bästa informationen? och Chunk parser: Fras-relationer för grammatisk- och semantisk information), för representation av ord som koncept föreslår jag här en jämfört nära nog lika enkel metod som den som m.fl. ger i men som är konkret bättre (åtminstone med rätt representation och storlek på denna för koncept-relationer att bygga kompletterande data ifrån).


Utökad möjlighet till att se denna väg är ganska självklar för mig. Grundmetoden för att kombinera ord-vektorerna till koncept likt exempelvis Indian people from Gotland, Sweden (troligen ej ett för mig befintligt existerande koncept om än vad som kan approximeras) eller vad nu aktuellt:


  • Dels vanlig ngram-statistik motsvarande normala - de valda för mig de enklare - för att representera sannolikheten för konceptet som sådan oberoende av konceptets förekomst i corpus i sin helhet. Vi återkommer till statistiken till metoden.
  • Att jag ej är begränsad till Wordnet utan håller cirka 30 000 000 fler-grams koncept motsvarande verkliga koncept från vetenskap, orter, strids-strategier, mer kända personer o.s.v. med relationer mellan dessa uttryckande ej huvudsakligen - eller ens 30% - baserat eller skapat direkt från statistik-analys.

Ordvektorerna är en till väg att förankra dessa koncept för i vissa fall snabbare (och ibland i övrigt effektivare ex. presterande bättre medan andra typer av jämförelser är konkret mer begränsade via ord-vektorer än ex. similarity via de kända relationerna andra koncept eller olika former av path-analys utifrån statistik samförekomst).


Från ordens förekomst i dessa koncept (vilka i antal ord varierar från ett upp till cirka 30 - 35 st ord med antalet ord ovanför säg 15 - 20 ord varande väldigt få och resp. QA gjord brukar vanligen resultera i att innan cirka hälften till 75% betraktade manuellt kastas som defekter av olika slag) oavsett - ej utnyttjad här - statistik för konceptens förekomst i allt publicerat för aktuell domän (allt i mening samplat nyhetstidningar, journaler, indexerade hemsidor i snippets, abstracts o.s.v. - cirka när filtrerat ner till samtidighet mellan två koncept havande relationer med varje relation representerad en gång med ett heltal ca 5 T eller cirka 900 MB med samma för varje koncept + om jag minns rätt en del decimal representationer) beräknande "sannolikheten" (bättre givet vad detta beräknas från enligt noterat innan: "Vikten" då sannolikhet som koncept indikerar något vi skattar eller predikterar medan vi här känner ett faktiskt värde för en konstant i scope ej föränderlig representation vars "sannolikhet" ej motsvarar något relaterat till antalet gånger ex. enskilda ord eller koncepten förekommer i något corpus utanför representationen) för resp. ord på position 1, 2, 3, ..., n vilket görs utan någon särskild hantering rörande smoothing eller utnyttjande bigram tänk o.s.v. 30 miljoner verkliga koncept tycks räcka bra för mig här därför att förutom dessa används:


Alla relationerna mellan koncept där ett koncept A havande relation till ett koncept B komemr förekomma i dess samling av relationer och räknas därmed en gång till för resp. relation.

Och därefter prövade jag - men minns ej om jag fann det bättre eller sämre just för detta vilket var utanför den faktiska användningen planerad - co-occurences mellan relationer utifrån varje resp. samling.


Ordvektorerna i dess core är ej byggda från dessa relationer. Jag gillar att ha saker byggda ibland när tämligen grundläggande primitiver som troligt blir använt för en växande mängd delar skapade från olika datasamlingar vilket jag tänker mig ska detektera en mängd QA-problem eller rena fel hos varandra (men som oftare ej tycks göra det: Att manuellt detektera problem närmast av en slump och tittande förhand igenom någon feltyp som tycks indikerade med lite skript-kod slår dessa mer systematiskt eleganta idéer i en gigantisk magnitud: Ledigt 10 000 tals fler gånger fel upptäckta).


Läroboksförfattare Manning med forskningskamrater kombinerar ordvektorerna till koncept i sammanhang av bl.a. relationer genom att beräkna medelvärdet av ordvektorerna. Jag har prövat denna metod och också funnit den delvis bättre (såväl som beräkningseffektivare jämfört med en del andra metoder jag prövat dock inkluderande en del metoder optimerade för att ej överdrivet riskera att expandera ut storleken av ordvektorerna i mening av antalet postioner / "ord" som ej är noll).


Problemet med metoden är att den ej utnyttjar från ngram för konceptet enkel kunskap som av och till har faktiskt värde: Ex. om vi bör värdera ordvektorerna för resp. People from Norway annorlunda beroende på positionen. Det överlägset bästa - bedömt från parsning av semantisk mening av sådana här uttryck - är just konkret parsning med ganska omfattande vetskap om vad ord betyder snarare än endast en ngram-modell. Dock med ett fast antal koncept (mina 33 miljoner) och en "programmerings-kultur" då högst aktuell för hela subsystem inriktad på prestanda (därför att ordvektorerna är snabbare än fler-gram metoderna för diverse men är därmed inte någon absolut mening naturligt snabba alls inkludernade ex. delsteg med jämförelser av typiskt 20 000 index-positioner i resp. vektor och resp. sådan jämförelse som försöker täcka upp samlat en tämligen försvarligt stort antal - men självklart jämfört med alla möjliga kombinationer liten i andel - av kombinationer av olika ord till ord förberäknande vilket självklart Bluelight representationen av ngram-koncepten med relationer ger en bra väg för att identifiera meningsfulla fruktfulla relationer att förberäkna för att identifiera ex. kombinationer som skapar och fyller upp ämnes-dimensioner för transport, ekonomi-områden o.s.v.).


Istället för medelvärdet utnyttjas ngram-modellen för att kombinera orden men resp. position för agera oberoende utan den som för meningar typiskt förekommande multiplikationen av "sannolikheterna" eller additionen av log. Vidare värderas positionerna utifrån hur indikerat "värdefulla" de är för den typ-kombination som sker samt viss grundläggande vetskap om vad vi har för typ av ord i den "typ-av-ord-kombination" (ex. för ett koncept likt People from Norway har vi en mängd i struktur liknande sådana vilka för mig till cirka hälften av antalet förekommande härstammar från Wikipedia-kategorier: from värderas ej p.s.s. som People eller Norway men är ytterst funktionellt som en operator visande hur ordvektorerna bör kombineras i mening av hur resp. ska viktas vid kombinationen).


För ex. likt People from Norway hade med största "sannolikhet" medelvärdet av people och norway (jag valde att göra alla ordvektorer small-case för att dra ner tidskostnad samt vidare nöja mig med totalt i vektorerna 23 000 existerande ord vars vikter från samförekomst corpus ej utnyttjades direkt utan expanderades vidare - varefter samtidighet i ordvektorerna beräknades tillsammans med ett fåtal varians-uttryck vilket därefter fick bilda nya vektorer snarast av en intern "core-typ" för en värld där totalt bara 23 000 ord också har ord-vektorer vilket förövrigt också förutom tidigare refererade jämförelser i förberäkning också tog riktigt bra med tid att köra på min ganska begränsade dator - varefter de från annan statistik samförekomst kan skapa upp andra godtyckliga ord: Syftet här var också att kunna hantera mer eller helt okända ord i detta corpus men kunna skapa upp dem från statistiken rörande samförekomst för koncepten i Bluelight vilket är statistik byggd på gigantiskt större data).


Utan att överdrivet gå in på de här ändå ganska begränsade regler operatorer resp. ngram-statistiken (är man intresserad tror jag nog att man ganska lätt kan hitta rätt för där det kan ge något vilket också varierar ganska ordentligt med kulturen koncepten kommer ifrån - taxonomier som latinska termer, medicinskt-teknisk utrustning m.m. skiljer sig generellt ganska ordentligt åt rörande regeloptimering även om jag just för detta ej minns om det lönade sig med något särskilt) är trivialt första och sista ordet allmänt för väldigt många koncept mer diskriminerande i mening av att de bättre värderade tenderar att medverka till att koncept uppenbart bättre relaterade clustrar sig i automatiserad process (utan förtränade samples eller annat).


Första och sista ordet är vidare som vår biologiska "parsning" resp. minnesfunktion tenderar att värdera annorlunda. Första ordet tycks ha en primacy-effekt när koncept representerade av fler-gram tolkas ut (när hänsyn till att man mött hela konceptet tidigare många gånger antingen ej hanteras eller hanteras separat) ej konceptuellt annorlunda än för hur vi bättre minns första ordet från listor. Samma konceptuella likhet med sista ordet från sedan längre tillbaka välkända fenomen listor gäller också.


För ex. har också People en naturligt och självklart enkel primacy att förstå: Vi inser direkt att det hela handlar om människor. Själva formen som sådan just för Wikipedia med vana användare har säkert i sig viss primacy-indikation när man skummar sidor snabbt (i ex. bl.a. från det för kategorierna typiska from).


Emellertid utnyttjande en annan struktur-syntax för även här den ganska stora gruppen av Wikipedia-kategori-koncept (säg cirka 6% ännu trots ej någon riktad ny inhämtning på mer än ett år just från Wikipedia) hade vi istället kunnat tänka oss exempelvis: Sweden: People. Med landet som primacy och därefter vad vi kan välja att kalla egenskap. Det är därmed ej självklart när ordvektorer (snarare än löpande text) hanteras att ta viktsystem för minnesfunktion människor direkt in i det. People och Sweden bör för ex. ligga närmare varandra än den jämfört med övriga ord mellan mycket mer begränsade skillnaden men ändå ganska stora i effekt.


För ett bigram av denna typ om alla ord för resp. position antas lika "sannolika" och en global vikt kombinerande en konceptuellt idf-liknande egenskap med statistik förekomst baserad på sannolikheterna skattade av statistik etablerad från större corpus (för koncepten och deras relationer). D.v.s. vad vi kan se utnyttjande samförekomsten mellan orden för vektorerna, en enkel 1-gram-modell baserad på globalt data ej lokalt påverkat, och en indikation ("IDF" - i skapelse tämligen lika - men via ändå en del förändring lite bättre för att få ut diskriminerbarhet för användning likt denna där just koncept-relationer ligger i närhet eller vad vi direkt laborerar på).


Kommentar IDF

Byggd från förekomst i koncept Bluelight, förekomst i antal SERP:ar för två - varav den mindre av de två numera är ägd från Asien och är en av de få jag vet förekom så tidigt som 1995 - 1998 kanske om jag minns rätt om än mer av en katalog (ej Yahoo) då tror jag och den andra vad jag skulle associera "tillhörighet" i företag runt som mindre Linux än andra från de då fem större sökmotorerna (en kan ha varit lite nedanför det - jag bedömer sådant spontant ibland lite fel liggande ibland lite efter utvecklingen) - men ingen av de två är Google som givet de förr i alla fall 10 000 - 12 000 serpar per dag jag tror var OK att ta ut i mening att de därefter stänger ner access för IP tills ny dag inträtt alltid kändes för få för mig för att vara värd besväret att pröva på givet att samtidighet mellan koncept med citationstecken runt är det mer intressanta innebärande att vi helst bör ha många miljoner resultat att arbeta med. Vidare sociala media förutom tämligen små men ämnesriktade tjänster (ett par inom science, två inom foto m.m.) dominerad av Facebook (bra api, riktigt snabb förbindelse, föredömligt god dokumentation, korrigering av förr störande problem relaterade till geo-lokalisering av ip-adress vilket flera år gav defekta svar med onaturligt mycket svenska head-cuts / cunnilingus-love eller vad deras tweet med polaritet negativt och positivt kallas denna ganska vulgärt explicita subkultur: Man lär sig sampla snart att man får vara beredda att stöta på det ibland från den övergripande kulturer ganska divergerade språket inte sällan lite osmakligt eller med rå humor inkludernade olämpliga stereotyper vilket i början var vad jag kunde må lite dåligt av - Särskilt subkultur medicin kan vara väldigt bondsk i sin förkärlek för explicita uttryck och ibland foton).


Vidare förekomster i bibliotekssystem rörande böckernas meta-beskrivningar - bl.a. från Library of Congress - förekomst abstract och titel (liksom till mindre del kategorier vilka dock tenderar att vara mer problematiska att använda då antalet typer är väldigt varierade medan titlar ju är fria i vad vi kan ha för koncept förekommande i såväl som abstract) för journaler, samt data från indexerade journaler, patenter, EU-publikationer och dokument, FED publikationer och dokument, militära publikationer relaterat USA (där kanske dock något kallat COOP kan ha används men det är nu något annat än Google's globala sökmotorer och ej vad de kan reglera access till medan det var helt ok att göra för Department of Defence när jag några år efter det mesta gjordes frågade "cleaning up" det lilla tänkbara för korrekthet om det blir av att finansiera upp det nästa år för due dilligence och riskanalysen varför jag helt säkert kommer passera ut det "icke-linux-relaterade" datat varande ändå av mer begränsat värde givet alla andra källor - och ej en källa som igen hämtas överhuvudtaget då den egentligen ej samplades för mig utan för grounding av Baidu's serpar betraktade som koncept för att kunna förstå dem utan att titta på dem: Något att jämföra med för ett språk där enkel inarbetad statistik - engelska - fanns för mig (och oavsett hur användbar datat potentiellt skulle vara för SEO sparades inget data annat än vad növändigt för grounding Baidu d.v.s. ej själva sajterna förekommande i dem utan endast antalet träffar).


Jag har ibland en närmast kognitivt defekt känsla av att överdriven ärlighet är bra. Det har dock reducerat ner sig sundare närmare en mer normal nivå år från år nu ett tag. Och det är väl i balansen mellan tendens och reduktion vi hamnade någonstans ovan. Medan jag minns mig mer explicit diskuterat annan sampling bakåt om ej någon av denna. För att uttrycka något av min coola stand up for the value of my less "smart" / "experienced" readers kan jag förövrigt peka på att idéen att det skulle vara bättre att sampla exempelvis en sökmotor i och runt en försäljning bara är över-tänkande man kan få för sig om man har en bakgrund i säkerhetssystem: Allmänt gäller att endast ett fåtal entiteter alls hanterar sampling oavsett om gående via ex. avsedda apier eller betraktande som en användare utifrån kanske en defekt funktion returnerande fel för tidigt alltid som upptäckt år senare rörande kontroll robot-filer - och i princip av större aktörer är det bara Google jag tror engagerat försvarar sig mot sampling samtidigt kan äldre men ändå ganska gigantiska mängder Google-SERP data faktiskt hittas indirekt kommande från dem via ett fåtal universitet - Närmare nutid är mitt intryck dock att just serp-data om det alls delas i större mängd universitet ej delas p.s.s. att det kan publiceras av universiteten - medan enklare statistik för förekomst ngram böcker m.m. om än ej serp:ar tror jag finns att hitta publicerat av Google själva).


För typisk statistik användbar natural language processing, "ontologisk-semantik" m.m. är dock mitt intryck att man ändå inte vill använda Google. Dels därför att de laborerar för mycket med serp:arna. Vi vill nog mycket hellre själva hantera ev. bortfiltrering av exempelvis sådant som Google kan betrakta som spam om ej icke-konstruktiva bias ska införas (flera spam-områden uttrycker ex. tämligen tror jag välbalanserat reward-mängden för dem över populationen oavsett "romantik", "scams", "droger" o.s.v.). Vidare har de en upparbetad mängd underligheter och tror jag defekter från sista åren för hur sökorden hanteras (några exempel nedan jag ännu ej spekulerar om orsaken för men noterade dem idag ev. för mig nya - jag har ej sökt med Google på några månader kanske - och fler finns publicerade tidigare). Mer problematisk har de - antagligen via ord-vektorer - försökt få till hantering av jämförbar betydelse och synonymer vilket upplever jag emellertid varit problematiskt ända sedan jag först märkte att det ändrats och ännu idag är delvis upplever jag ganska undermåligt (ev. har de reducerat ner antalet dimensioner ganska hårt eller använt någon effektiv men egentligen "smal" kontinuerlig representation - i försök att snabba upp det hela och glömt bort att expandera ut det när datakraften över de kanske två - tre år som gått säkert växt: Jag upplever 20 000 efter dimensions-reduktion lagom medan många tycker att 200 - 300 är bättre men fler tycks göra clustering utan träningsdata mer välfungerande krävande mindre av manuellt hanterande av sådan typ acceptabel för stora dimensioner man vill ha många år men ej för mer godtyckliga sådana av behov något år - Men så clustrar jag inte med någon överdrivet sofistikerad algoritm och varierat de vanligaste som av och till ex. en variant av N-mean utnyttjande ett par till någon gång tre globala vikter ej relaterade aktuellt data kombinerande eller i egna dimensioner förutom själva statistiken direkt).


Notera den ev. kopplingen till hur text som har att göra med domän - kanske url - tycks fungera. Jag följde ej upp alls något nedan så om vi ev. har en bredare funktionell egenhet eller något relaterat sajterna vet jag inte. Det rörande de resp. "undersidor kanske lite som underdomän men syntaktiskt underligt" är dock eventuellt intressanta att om man kommer ihåg det pröva på några andra sökningar.








Varken egenheter som ovan om just här ev. verkliga eller som känt för mig förekommande av och till i övrigt eller att ord representeras om obra förändrande deras mening såväl som mängden träffar de motsvarar på nivåer förändrande datat till inkorrekt statistik gör dom till vad jag skulle gissa är funktionella att sampla rörande sökträffar resp. kanske titlar och snippets. Egentligen mer allmänt är mitt intryck att sökmotorer baserade mer på egentligen mer föråldrad teknik som begränsade endast till förekomst och IDF med föga "förädlade" ordvektorer rörande ranking är mycket lämpligare så kan man istället själv göra ev. filtreringar korrekt för just detta perspektiv (ganska annorlunda från ranking som sådan även om metoder för att göra ranking med självklart i algoritmer i mycket är ungefär det samma) så att man får bra data. Dessutom tar jag bättre bort riktade SEO-manipulationer bättre denna väg därför de typiskt är ofullständigt hanterade hos större sökmotorer vilket emellertid trots att de kvarstår störande enskilda ord kan vara svåra när få att få ut tillförlitligt mönster för mer komplett uppstädning av medan de annars ofta när i nivå att de stör statistiken syns väl för enklare lite mer "teknik-föråldrade" sökmotorer. Och ej otroligt att jag idag kanske ej skulle sampla om alls aktuellt någon av de vid tidpunkten tämligen stora sökmotrer då de spekulativt ev. har "för mycket av bättre serpar idag".


Lite relaterat ord-vektorer och serpar tror jag mig förövrigt nyligen någon gång i år läst antingen Google eller Microsoft (vilka ju har sökmotorn Bing även om jag tror diskussionen ev. om det var Microsoft ev. handlande koncept-representationer i form av något kanske liknande en ontologi?) experimenterande med kontinuerliga representationer av koncept eller om det ev. var ord. Det är gissar jag ett kanske funktionellt område för just sökmotorer görande smoothing till något ev. lättare att anpassa lättare till olika rymder av sökords-behov-grupper såväl som kanske lättare korrigera problem införda snabbt. I mycket känns det "Hans-kognitivt-artifakt-artat" mer naturligt för mig den vägen även om jag gjort föga av det själv givet att nära nog allt man såg på Teknisk fysik liknande sådant här var kontinuerliga funktioner för vågor och annan icke-språk-relaterad-fysik-junk snarare än den för det mänskliga mer storslagna teknik-domänen språk och kreativitet representerar. Det insåg jag antagligen överlevt i något grund-bias troligen idag bara från antalet bilder av grafer m.m. man sett snarare än inkluderande en massa gedigen kunskap om hur man kan göra sådant som idag mer ligger i diskreta vektor-representationer än skattade grupper av kontinuerliga kanske deriverbara-funktioner (minns jag rätt innebär deriverbara att man ska slå upp i Beta istället för physics handbok - något subkulturellt uttryck för att uttrycka tribe i matematik snarare än fysik man troligen vid all hederlig sund matematik som bygger räknar verkliga värden som stålar i handen snarare än skattande kurvor för andras options-handel (eller varför inte handel med derivat?) helt slipper [Red. Jag prövade att derivera mina gamla svenska silver femkronor man fann inte att deras värde eller antal ökade. Svenska kronan är ej deriverbar. På nätet läste jag dock att amerikanska 1 dollar sedlar åtminstone förr kunde deriveras i vattenkar med blekmedel till 100 dollar sedlar. Ytan under kurvan för en dollar sedeln är numeriskt större och ger därför för ett fåtal en hel 100 dollar sedel. QED (utnyttjande den sociala förmåga riktigt språk ger för att visa ändå inte vara "omänsklig" i hur jag ser ner på matematikens mer djuriska tråkigheter: Matematikern tror så van vid förkortningen att jag egentligen är en av dom men för mig är matematik endast ett verktyg: Det smutsigaste verktyg jag så fort möjlighet ges lär plåga folk man via geo-avstånd lätt kan avhumanisera glömmande tortyren man aldrig ser - Kanske indien, Vietnam eller någon liknande kultur som sägs vara ofriskt födda "bättre" i matematik - Inget för en man från en fin gammal europeisk-kultur) att språk är mer kreativt och i verkligt sanna mänskliga värden överlägset det mer sekteristisk matematik-språk eller än värre fysikens ibland rent påhittade (ändå i kontrast mot filmer likt Star Wars och många romander anmärkningsvärt - nästan vådligt - tråkiga) universum. /Hans].


Själv har jag alltid haft svårt för alla de vanliga smoothing-metoderna och vill för mycket användning mena att man mycket hellre struntar i det och istället samplar riktigt ordentligt och för ovanligare ord riktat för att garantera åtminstone några hundra upp till kanske tusen samples för alla koncept: Att kvalitativt korrekt avspeglande verkligheten få ut statistik rörande samförekomst av ämnes- eller "emotionellt / kognitivt"-besläktade koncept från smoothing när vi går in i specialistområden är vad jag aldrig tyckt att någon av de vanliga algoritmerna klarat: Så givet internet varför inte ge sampling sex månader extra när det handlar om långsiktigt värde för att se till att alla koncept är samplade med så långt det går alla innan kända meningsbärande relationer? Utanför det är den ända smoothing jag gjort i core-värden för P ( A | B ) att acceptera att om vi frågar efter förekomsten av ett koncept eller koncept i relationer till ett koncept så har de för en stor grupp av aktuella anropande subsystem med säkerhet detekteras i alla fall en gång och vi returnerar därför ett. En metod som dock möjligen hade kunnat förbättrats en del via sådant som morfologiska jämförelser för att hitta troligt besläktade vid intresse också ovanliga termer inom udda forskningsområden, gamla tyska vapen-leventörer från 1800-talet m.m. där förekomst något bättre antagligen kunnat "gissats" från dessa - såväl diverse andra metoder också ganska annorlunda från vanliga smoothing-algortimer likt den säkert mycket vanliga Good Turing om än möjligen lite sämre än en del andra kanske sällan på nivå att det har någon betydelse om man nu tycker sig få värde alls av dessa metoder - Vanliga referensböcker som kanske Mannings brukar i allmänhet rekommendera denna typ av smoothing menande att det gör det färdiga resultatet bättre men jag tror nog det har mycket att göra med storleken av antal typer över antalet ämnen resp. hur mycket motivation man egentligen hade att sampla tillräckligt av tillgängligt språk samt för vissa användningsområden hur ofta man samplar in uppdateringar - Dessutom "små-fuskar" man lite vid riktad sampling av potentiellt mer än ovanliga istället tydligt ovanliga koncept via sökmotor-index lär försvarliga mängder smoothing gjorda där flyta in ändå vilket om man nu gör det bör räcka och bli över som ett till perspektiv att se värdet resp. problemet med dessa metoder från - Massor av defekta underligheter för ovanliga ord-kombinationer är mer regel än undantag utan tvivel i stora delar från smoothing-liknande algoritmer man låter operera på index i vissa fall resp. för hantering av sannolikheterna rörande ord globalt vs lokalt i resp. artikel - Förövrigt en "domän" jag tror mig diskuterat här tidigare med ett exempel noterat för Google där sökmotorn uppenbart predikterade / modellerade förekomsten av träffar snarare än att utnyttja befintlig vetskap utifrån perspektivet jag som användare tar där allt Google oavsett ev. uppdelning databaser, dc m.m. är samma sak).