Visar inlägg med etikett Google Ngram. Visa alla inlägg
Visar inlägg med etikett Google Ngram. Visa alla inlägg

POS Google 5-gram: En första fil delad (frukt) resp. en moraliskt uppbygglig text (att läsa om man ej delar data tillbaka)

2015-05-27

Jag tittade idag över några initiala samlingar av ett antal av Google 5-gram filerna jag lagt i ett antal kataloger motsvarande maximalt antal trådar. En bunt är klara. Helt säkert mestadels tämligen små-filer. Men åtminstone några stora är faktiskt klara. Jag lutar att låta det fortgå med det mindre än från början satt antal trådar som nu går (cirka tre stycken). Det stör föga undantaget mer sällan när BDB-databaser byggs om (vilket tycks vinna trots att de mer eller mindre löser hårddisk-accessen utan att jag åtminstone efter installation givit det särskilda rättigheter: Atomära koncept jag verkligen inte behöver ty jag skriver när jag bygger dem så står de statistiska diskret tid därefter - När Emacs fryser på auto-sav av några bytes vet man att en BDB synkroniserar slutligt mot disk för ej helt litet data).


Frågan är bara hur man ska få nytta av dem med tanke på att det så mycket mer praktiskt realistiskt ej ska kräva alla av filerna. En del användning finns naturligtvis men inget jag direkt upplever att jag inte redan har eller att det är inte troligt är jämförbart eller sämre för. Men tveklöst att det kan vara praktiskt att ha åtminstone när klart kompletterande en 80 MB - 100 MB titlar jag parsade ut mer än som här med en enklare optimerad version längre tillbaka (med fraser, relationer mellan fraserna, full intelligent POS-tagging så långt titel räcker till o.s.v.).


Men 100 MB är ju inte så mycket jämfört med alla 5-gram filerna. Cirka samman för färdiga filer ligger det troligen (om jag inte minns fel eller missade någon ev. egen output för första mängden som startades) cirka 800 MB inkluderande enkla fraser detekterade om NP resp. särskilt runt verb, IN och ett fåtal till, POS-taggarna, alla år, alla års resp. typer av frekvenser explicit, själva meningen och något mer jag inte just nu minns. Ej över 1 T helt säkert (jag frigjorde ungefär vid halva körningen ungefär 400 MB från partitionen det körde på från att då ligga på 30 MB fritt från innan 600 MB ledigt - samma partition som OS så jag tog och av det verkar några hundra gått åt nu - I min Linux får resurser jag startar ta vad helst de önskar relaterat CPU, minne och hårddisk så just OS-partitionen tror jag är klokt att vara försiktig med så man slipper bök att starta den från CD och städa upp bland filerna).


Minns inte exakt hur många de är. 400 kanske? Eller mindre? Och många på flera hundra MB styck. Bra ord börjande på ett par ovanliga bokstäver har mer föredömligt kortare filer.


Egentligen kunde man pröva dela ut den optimerade pos-taggern och några filer åtminstone när man kommer till tid när man från viktigare allokerar allt i datorerna längre tid och se om det kan ge några större filer.


I fortsättning av:



Relaterat initiala diskussionen ovan och parsade titlar tog jag ut och sparade traditionella mycket konservativa träd för resp. förutom övrigt mer praktiskt nära för mig i alla fall. Kanske kunde jag börja och dela en färdig fil och sedan varje gång Stanford eller någon annan - normaliserat deras storlek i head-count jfr mig - delar något jämförbart delar jag en till? Lite väl mycket Open Data åtminstone dagar jag vill ha internet-dator till nöjes-användning också kanske. Men om man nöjer sig med en stor så. En 300 MB kanske (den största av dom som körs nu kommer nog ligga där när klar om jag inte höftade till fel) ? Jag är exempelvis attraherad av ej små specialiserade ordlistor eller små-uppslagsböcker för forskningsområden eller särskilda kunskapsområden (inkl. mer konstnärliga eller kanske något praktiskt mekaniskt) där jag kan se värden men tvivlar på att det lär bli av att tagga ut någon av de fåtal jag har (sunt konverterade text-format).


På försök delade jag en fil. Tillsvidare i alla fall och som nästan är kutym är resp. fält tab-separerade ej dokumenterade. Lägger man inte överdrivet med tid bör de dock framgå. Vidare att kommentera finns också fraserna och linjära relationer från hur den förenklade snabbare POS-taggern arbetar. D.v.s. det ska normalt gå att direkt ta ut åtminstone motsvarande vad som i en mening (om det ev. varit det om ej här istället för fragment) medan vad som ej tycks görligt här om jag minns rätt kastas (om ej så kan jag ta och komplettera eventuellt hur man inser att POS-taggning ej ger ut NP-fras koncepten). Det var för mig bara NP som intresserade mig (relaterat viss dynamik adverb-adverb-adjektiv).


googlebooks-eng-all-5gram-20120701-mu
101 MB

https://drive.google.com/file/d/0B5IBnalBS0bxdmZxM2lCeVF1ZzQ/view?usp=sharing

Att jämföra med My jag lät bli att ladda upp ej heller brutalt stor men absolut inte liten heller (en av den större storleksgruppen där ingen färdig ännu inte blivit brutalt större styck för någon men så har jag inte startat något börjande på c ännu eller något på s, eller de verkligt stora filerna för 5-gram som börjar på a) på något mer än 300 MB.


Vad kan man få tillbaka av att dela data? Utmaningen man ej äger problemet för: Motivation och Verkshöjd / år

Längre tillbaka - på 1960-talet - kunde forskare inom språk sitta och räkna ut förhand (efter omfattande förarbete hålkort m.m.) dimensions-positionering av koncept. Normalisera dem relativt varande så att de kan ritas upp.


Idag är det väldigt vanligt att samma typ av forskare gör det. Men idag görs det med dataprogram givande fina illustrationer som dock typiskt säger ganska lite och som vanligen har positionerat många tusen koncept relativt varandra med mer tveksamma algoritmer man använda förr. Och så görs det i två-dimensioner idag.


Så klart kan man göra det i tre-dimensioner men komplexiteten är ordentligt värre där. Med dator. Att göra det förhand är minst sagt krävande annat än för ett fåtal. Möjligen att det kan vara värre än att beräkna planet-banorna. Nedan har vi några av en mängd liknande skisser jag råkat på från samma två författare lite varstans:



Större rymd över koncept relativt varandra från allmänt data. Motsvarande "attraktion" mellan koncepten utefter tre-dimensioner har räknats vidare från mätning människa propagerat och dimensionsreducerat.

Motsvarande men här från mätning individ vid en tidpunkt (ytterligare ett "mindre" antal - ej över fem som jag minns det - finns för andra tidpunkter så man kan följa förändringen). Här är det upplever jag mest visualiseringen och arbetet bakom datat som imponerar medan jag inte tycker att man ska tolka in något alls i det relaterat metod psykologi relativt individen. För en sak finns föga md den exakthet aktuellt här ens idag för en större population eller relaterat annan mer medicin förändring (och ej heller för personlighet, DSM m.m. heller om man försöker ta det direkt till metoder motsvarande aktuellt här. Aktuell del av de två böckerna resp. artiklar där motsvarande använt har mestadels använt för att illustrera metoden resp. anar jag varande ett "exempel-uttryck" för den större metoden "riktad" mot en väsentlig praktisk subkultur inom psykologi (motsvarande som Osgood kan jag tolka kanske också gjorde mot många inom språk, psykologi m.m.) eller lika gärna när metoden varande så ny blev allt mer känd uppmuntrades att paketera inriktade artiklar mot olika områden.

Ett mer ytlig mening kanske uppfattat längre ifrån psykologi var START resp. första konkreta resultatet Salt-1 (och SALT-1 gick i hamn ungefär samma år Osgood dog: Jag kan inte påstå att han här kände sig något så när nöjd med sina flera ganska imponerande arbeten relaterat attityder, språk m.m. och därmed kände sig redo och vila men jag tror att något att lära här kanske ändå finns: Rätt tänkt).

Och faktiskt att koncept rörande förtroende, distans konflikt, mening och betydelse vi lägger i symboler är vad jag kan se egentligen inte när man försöker skapa en till praktiskt tillämpning mot ett större problem är allt är distanserat alls. Jag har emellertid allmänt haft en del problem p.g.a. ålder och ovettiga priser att skapa en komplett samling och det jag särskilt har just rörande tillämpning atombomber och att förhandla kring det har jag inte tittat alls särskilt på: Det var mig okänt att jag hade dem där jag hittade det genom att söka atombomber för åren snarare än författaren. Det är atombomber: Förtroende och kraftfulla symboler - Adderar förstärkning i kontext nästan lite som adjektiv när de kraftigt modifierar ett näraliggande annars mer neutralt eller tråkigt noun. En av de första större politiska händelser jag minns var förhandlingarna mellan Reagan och Det Symboliska Ondskans Imperium denne ändå klarade att möta konstruktivt skapande för första gången under Kalla Kriget reducerad risk: Vi får se om Obama klarar det samma med Iran och om vi kanske närmaste åren ser en mer allmän positiv förändring i Iran reducerande det så problematiska teokratiska.

Jag ska undersöka om jag kan dela själva böckerna och artiklarna: Artiklarna är svåra att få fatt i men via antologier m.m. såväl elektroniskt från internet resp. inhandlande för normalt 10 kr - 25 kr är de lättare att få tag i (utan att betala något skämt-pris till journal-hus som i övrigt givit upp). Tills dess får man leta rätt på exempelvis The nature and measurement of meaning jag såg Google Scholar lågskattade till 14200 citat cirka (underskattande ett antal årtionden bakåt just p.g.a. sämre uttryckt på nätet idag). Google Books såg jag på sökning med strängen inom citationstecken gav cirka 10 000 träffar.


På många sätt tror jag att man lättare med dagens verktyg skulle få gedigna POS-taggade ordlistor från några tiotals år-sedan än idag. Och det säger jag som delvis formad av den kultur jag föddes in i även om jag många år försökt arbeta bort det (reward learning: Introducera kostnadsfria symboliska belöningar funktionella -> Vi har kul när vi arbetar! Att slutföra ett delsteg är belöning intränad till att motsvara mer förslappade nöjen också om jag får erkänna att nöjes-tittande på teve jag började med kanske tidigt 2012 eller sent 2011 är faktiskt mätbar kostnad och tror jag inte bara relaterad tid). Det kan i alla fall vara någon moraliskt normalitet att tänka utifrån när man reflekterar något lämpligt att POS-tagga och dela efter jag gjort det.


Sista versionen av Britannica är vad större folk förr hade delat en head-count normaliserad motsvarighet till att jag ev. delar ut Google 5-gram allt eftersom. Om de hade något bara lite närmare dagens dagens verktyg. De flesta ska tror jag se en rimligare ambitions-nivå och en gott steg nog uttryckande något av bättre kvaliteter än de flesta idag har. En avgränsad specialiserad liten ordlista eller uppslagsbok är gott arbete nog om deras särskilda format och struktur hanteras mer än att bara bara menings-fragment styckvis. Man kan se det som att för alla domäner utanför biomedicin (och besläktade områden) ska det färdiga resultatet börja ungefär där de största motsvarigheter man i övrigt hittar publicerade ofta relaterat artiklar eller små-mini-projekt vid universitet man sedan ej byggt vidare på utan övergivit (dålig uthållighet - Själva formen av symbolen att göra något mer än värdet, innehåll och att skapa något större krävande tid räcker för de flesta).


Copyright-frågorna delande ex. Britannica är dock redan lösta problem utredda med metoder konstruerade (whitening). Så just det är inte problemet. Knappast heller att man inte behöver hålkorta saker eller bara kan sampla ner det från deras sajt som html (och minns jag rätt fler format).


Målar jag världen idag sämre jämfört med några årtionden bakåt?

Det är förstår jag lätt att tycka att jag klagar "oblanserat". Saken här är emellertid att det just inte är obalanserat. Jag har sett nog av vad publicerat från 1960-talet till idag för dom här områdena för att kunna bedöma det utmärkt. Bara en sådan sak att enkla grund-metoder i algoritmer för analys knappast adderat något alls normalt använt. Dimensionsreduktion trots bättre alternativ görs fortfarande normalt med den enklare om än statistiskt tveksamma (latent semantic) som inte kom mycket senare som använd i området såväl sociologin som faktoranalysen. Vanligen görs den faktiskt med euklidiska avstånd för resp. distans nedanför trots såväl problem som lösningar relaterat det finns. Född in i dagens kultur och började här i vad man läser och lär tar det tag innan man riktigt ser detta och förstår det som mer eller mindre så illa det ibland verkar.


I koncept parsa text oavsett via statistik eller byggande små-träd står de bästa applikationerna oftast använda i vad de ger inte överdrivet längre ifrån vad väldigt tidiga skapelser inkluderande hålkort befann sig.


Sådant är nog delvis relaterat att bra skapelser tidigt är vad man sunt använder sökande andra värden. Någon mening att lösa samma problem flera gånger finns inte. Men relaterat dessa problem såväl som större koncept och modeller, data-representationer m.m. är också att annat än få har svårt att ta saker till något större över längre tid. Få upp det till mer än vad som tillför egentligen lite jämfört med mycket annat ungefär samma sak, förvalta och bygga vidare på det över längre tid o.s.v. Mer korta sämre relaterade uttryck som kanske är lättare att uttrycka ut (jag har inte försökt bedöma det) så att det märks utan att något större byggs över tiden. Andelen personer med värde de bygger över tiden meningsfullt att följa särskilt reduceras över åren. Och jag identifierar dessa personer ursprungligen typiskt aldrig först manuellt därför att jag söker generella problemområden som ungefär är relaterade problem jag har så får det sedan gå in i större artikel-representation så att man meningsfullt kan få ut vad man mer direkt behöver utan att själv behöva sitta och detalj läsa hundra tals artiklar innan man mot förmodan hittar något som ej igen löst samma problem p.s.s. som tusentals andra tidigare (och inte sällan sig själv av och till tidigare med något meningslöst väldigt begränsat nytt och lite omskriven artikel).


Så är det i engelska språkområdet. Min representation har fortfarande enormt bias mot Europa och USA med något bättre representation för Japan inom mindre områden (reward prediktion bl.a. där jag gillar preferens hos några där att använda de praktiskt lika fungerande logaritmiska formerna snarare än a / (b + cX) i vad dom kallar den hyperbola-formen). En grov approximation är emellertid att inget av värde i vettigt uttryckt storlek kultur är att förvänta från den arabiska världen under överskådlig framtid (de verkar upptagna med något annat). Mer sällan kan man hitta något intressant publicerat Sydafrika.

Kina utvecklas anmärkningsvärt snabbt: När man är van med annan nivå på motivationen

Kina märks dock kraftigt mer snabbt nu bara från journaler jag läser ytligt av och till direkt när de publiceras.


MDPI (mycket rekommenderad som enkel väg för att få översikt över kreativitet i forskning över rekorderligt stor ämnes-bredd och av och till också mer tyngre sammanfattande artiklar från ett känt starkt koncept av känd person) var det var längre tillbaka inte en känsla av kinesiska namn - från Kina såväl som i relativ andel minskande andra länder - står för en allt större andel av det totala bidraget. Det har av och till funnits en kultur här där man är noggrann med detaljer särskilt i mening av att referera och utgå från välkända inarbetade namn vilket då fick en större relativ andel än annars normalt när de refereras eller andel där man utgår och bygger vidare från deras koncept. Detta var inte alls nödvändigtvis alltid dåligt per artikel där det åtminstone normalt distansierade sig mot mer standardmässig referens till något vedertaget koncept utan mening eller ens specifik relevans uttryckt för det egna arbetet.


Men i kreativ mening var det tecken på problematisk kultur. Och jag kan tacka min mer noggranna mindre kreativa sida för att jag ej skrev överdrivet tolkande från den här företeelsen även om jag kommenterade det några gånger med exempel. Ty detta tycks upplever jag i rent manuell upplevelse reducerats ordentligt nu. Sista två åren har inneburit förändring här.


Sådan förändring ska ej ses som relaterad statlig påverkan. Jag är emellertid rent praktiskt i värde per artikel inte odelat negativ till mer sådant i Kina än vi i här skulle finna normalt. Faktiskt har jag av och till fått ut konkret värde (är jag tämligen till mycket säker på) relaterat mycket konkreta intresse. Av och till har jag ju betraktat deras språkområde och kultur. I en icke moraliskt - eller praktiskt när det konkretiseras rörande sådant här ofta amoraliskt - finns av och till så att säga ett besläktat intresse rörande att följa och mäta en del saker. Det tenderar att indirekt - ibland tror jag ganska direkt faktiskt - komma ut via publicerade artiklar och arbeten (även om mer teoretiskt och när praktiskt ofta långt ifrån vad man kan spekulera kring om än oftare idag tycks för mig mindre distanserat som uttryckt i artiklar).


Och mitt subjektiva intryck är att det finns motivation drivande framåt här. Jag tror att kanske förklaringen - om jag har rätt - till hur det tidigare större fokus auktoriteter (kanske vad man kan jämföra med även om man ska akta sig för att ta person-känslor så direkt till större grupper via så sekundära såväl som "tråkiga" texter som journal-artiklar: Osäkerhet ännu lite ovan kanske publicerande så globalt såväl som vid hur man rätt balanserar mot kommunistpartiets ofta irrationella idéer kring ditt och datt där det kanske inte alls är görligt att först fråga om något är korrekt därför att det stänger möjligheten).


Ännu är de dock varken inom psykologi eller språk framme där dom amerikanska universiteten publicerar ut. Åtminstone för det engelska språkområdet och de journaler jag läser och tittar över ibland manuellt på nypublicerat. Säger jag att de är där om två år menar antagligen de flesta att jag har fel men jag tror det för områden som intresserar mig. Motiverade, asserting themselfs as good thinkers m.fl. labers man kan sätta på saker en förkärlek att förklara från relativ makt finns för. Färskhet ny information, nya impulser man ser färskt från omvärlden är emellertid också vad som stimulerar kreativitet (som ju ligger nära inlärning d.v.s. vad som när det går framåt - Vi har roligt när vi arbetar! där hjärnan lär sig lätt att motivera på - föder motivation vidare). Betänk också hårdvarusatsningar vi kan förvänta bör börja komma inarbetade som resurser tillgängliga i mening som börjar skapa praktiskt värde också här (så slipper man utilisera The Internet Walls routrar till att analysera sitt adverb-adverb-adjektiv data och kanske istället kan få färdiga slutsatser bättre tänkta än en själv: Skämtande men likväl uttryckande en sida av problematiskt möte forskning och diktatur).

Kina största nation när det gäller handel? Kommer DARPA ge oss svaret?

2013-02-19

Rörande följande:



Resp. tidigare uppgifter om att Kina är störst är hur man normaliserat valutorna inte oviktigt. Och om man klarat att hålla sitt big-data sunt utan datafel som propagerat.


Jag noterade nyligen i nyheter men har inte läst rapporten att man värderat om Kinas handelsöverskott med ca 25%:


THE Organisation for Economic Cooperation and Development (OECD) and the World Trade Organisation (WTO) released intriguing results of their joint Trade in Value-Added Initiative last month.
The study analysed "the value added by a country in the production of any goods or service that is then exported".

[...]

That is the reason China's trade surplus with the United States was estimated to be 25 per cent lower than using the conventional exports-minus-imports measure, indicating "the high level of foreign-sourced content in Chinese exports".


Från: Trade talks take one small step | New Straits Times


Min erfarenhet av den sorts statistik sådana här rapporter och analyser bygger på är att man går uppåt från en mängd detaljer till sammanfattade slutsatser som blir görliga. På den vägen är dock risken för att datafel ska propagera väldigt stor (precis som att det motsatta också kan vara möjligt d.v.s. att datafel försvinner långa perioder av "slumpmässiga" orsaker för att sedan plötsligt få betydelse). Kan man för sin applikation acceptera en felmarginal på ca 25% har vi ju åtminstone ett exempel på att det inte ställer mindre krav än datat orkar.


Problematiken är absolut ingenting unikt för ekonomiska uppgifter utan jag har genom åren när jag importerat från olika organisationer, datarepresentationer för universitet, grupper m.m. kunnat konstatera dem i det mesta från ontologier, Wikipedia-extraktioner till ekonomisk statistik.


Ett exempel diskuterades i:



Särskilt intressant med Världsbanken som ex. vilket ej tas upp är att datat de sammanställt kommer från en mängd källor. Det illustrerar väl en sida av dessa problem. Datafelen kan vara i data som du har dålig kontroll över rörande hur en annan organisation arbetar med quality assurance. Ett test man praktiskt kan göra själv när det har betydelse är att leta rätt på tydliga fel (finns alltid att hitta i den här typen av data) och testa organisationen genom att rapportera det. Jfr. exempel som med Wipo och PRV:



Där jag inte såg några särskilda indikationer från WIPO på att de då hade färdiga rutiner för att hantera indikationer på datafel.


En del idéer rörande dom här frågorna från landet med världens största krigsmakt och (kanske) näst-största handelsnationen trots modigt importerande inte minst från Europa och Kina har vi ett ganska färskt Darpa-projekt:


"The XDATA program aims to meet challenges presented by this volume of data by developing computational techniques and software tools for processing and analyzing the vast amount of mission-oriented information for Defense activities. As part of this exploration, XDATA aims to address the need for scalable algorithms for processing and visualization of imperfect and incomplete data."

Från: XDATA | Darpa.mil

Ett mycket starkt paradigm i detta område när det är möjligt är att se datakvalitet och datarelevans som i vilken utsträckning det för ett praktiskt värde klarar att prediktera framtiden. Det gör att man slipper i big-data när det handlar om väldigt varierat data mycket problematiska beräkningar och kontroller, och antagligen inte oviktigt för en krigsmakt eller underrättelsetjänst klarar det att hantera att värdet i datat kan variera över tiden bl.a. styrt av förmågan att klara att ställa rätt frågor.


Egentligen ska jag inte skämta över Darpa eftersom jag tror att jag ligger bit (inte otydligt) före dem för saker jag har skäl att tro blir aktuellt att handla upp längre fram något besläktat med detta. Men eftersom fallstudie: humor pågår är det svårt att låta bli. Nedan har vi Darpa's pressbild illustrerande big data:



Kanske hur Darpa upplever och känner runt det big-data de möter idag på jobbet?


Nedan har vi en av projektets viktigaste målsättningar:


"DARPA's XDATA program was launched to create tools to assimilate and process mountains of data that come in disparate types and sizes, and then provide visualization tools to allow users to analyze trends and glean value from the data."

Från: EXTRACTING RELEVANCE FROM MOUNTAINS OF DATA | Darpa.mil

Vi inser varför de köper in kompetens över ett antal projekt från olika företag och organisationer (och antagligen egna myndigheter och funktioner). Jag menar jag ser som inte ens vad det är för sorts big-data de har i sin bild? Binära-siffror. Ett vanligt stolp-diagram skulle säga mer. En geografisk karta tror jag kan fungera bra både för soldater och skeppare.


Också på temat datakvalitet berör ju vår förmåga att bedöma och förstå vad det är för data vi egentligen extraherar från en källa. Just Google har jag egentligen aldrig praktiskt använt för NGRAM-frekvens eller association (förutom Google NGRAM), och oftare har jag tittat på specialiserade datakällor (och en del som test också Microsoft bredare). Diskuterat närmare slutet i:



Ovan vad är definitionen av ett koncept som sökord "konc ept" avseende antal dokument instanser. Och hur jämför det med ex. "konc"? Kan vi få fler träffar "konc ept"? Är det inte dokumenterat vad mätvärdet egentligen avser och användningen radikalt skiljer sig från vad det är avsett för blir det upp till oss att försöka bedöma.

Google googlar med Google-NGRAM: Antalet indexerade sidor fel

2013-02-10

Vågar vi spekulera att Google's index nu är mer beroende av sista versionen av Google NGRAM? Denna hade ju part-of-speech med adjektiv, subjektiv, verb m.m. utmärkta. Själv har jag tråkigt nog inte mäktat att få den nedladdad (mycket annat tas ju nuer kontinuerligt och pos har gjort stort till ganska stort om än inte gigantiskt - och big data blir det först med P ( A | B ) över långa relationer för olika expertområden d.v.s. ex. om Google för varje ngram beräknar frekvensen de förekommer med tillsammans med varje annat i resp. bok) - Google skickar mig nog en USB eller liknande med alla Google NGRAM filer för att jag skrivit om det antagna felet här (annars kan ju folk få för sig att de börjar bli veka och rädda för konkurrenter och smyger med varje små-saker som kanske inte är 100% rätt så att inte Bing ska hoppa på dom).


Tittar vi på träffarna Google gav mig för dessa fyra sökord noterar vi att den längsta termen ger oss flest träffar:


“the man” = 581,000,000
“old man” = 259,000,000
“the old” = 879,000,000
“the old man” = 997,000,000


En orsak kan vara att Google skurit citationstecknen utan att meddela. Google vill allt oftare kanske sista året gärna ta bort det, och sällan eller aldrig med vad jag upplevt har någon fördel. Ett exempel är sökrutan där om jag har ett initialt citationstecken och väljer att gå vidare med nästa ord i förslagen i markov-ledjan kstar Google bort mitt citationstecken som jag behöver lägga till. Kanske är det så att Google snabb-parsar sidor helt utan the m.m.? Kanske fungerar bra för det mesta utom vad man särskilt kanske gör det för.


Emellertid skär vi citationstecknen får vi:


old man = 2,380,000,000
the old man = 2,510,000,000
the man = 4,850,000,000
the old = 9,900,000,000


D.v.s. förklaringen tycks inte ligga i att Google skurit citationstecken."


En förklaring skulle dock kunna ligga i hur Google parsar med hjälp av nya Google Ngram (se också för en längre introduktion till Google NGRAM) Notera först att vi får ca 840 M i summa när vi adderar “the man” + “old man”.


Jämför gär a ex. med hur jag ser på NP konvergens i drifting thoughts där aktiviteten för NP konvergen till motsvarande en neuron här för the old man men konvergensen styrs av föregående, eller kanske enklare dependency grammar där the och old kommer peka på man. Dom relationerna kan vi ju förslagsvis bestämma statistiskt med just P ( A | B ).


Men om vi inte parsar på det sättet kan det ju ligga nära till hands att se att "the old" hamnar högre i frekvens än "old man" och därmed bli benägen att välja "the old" som en fras och "man" som en fras efteråt trts att det verkligen inte blir riktigt rätt här. Problematiken var generellt var vad Lauer pekade på i samband med att introducerade sin dependency parser: Corpus Statistics Meet the Noun Compound.


Mannings (s. 429) menar dock att det inte behöver vara ett argument mot träd-grammatik (vilket jag avstår att bedöma då jag inte använder dem) utan att problemet går att komma ifrån där också om representerar trädet genom att också markera varje NP och där utgå från dom noder som kommer närmast åt egentligen rätt håll.


Antar vi att vi gissar rätt ligger det kanske nära tillhands att tro att Google antingen skulle ha dels en 2gram representation och en 1gram på den. Men jag skulle gissa mer på att det är något med taggningen i den senaste Google NGRAM som gör att man kanske hamnar i sådana här preferenser lite varstans. Oavsett om det är relaterat det datat eller annat har jag en känsla av det kanske är relaterat till diverse småsaker jag upplever mig störas av hur Google ibland ger sökordsförslag med en irritation ny sedan ett tag nu.


Med stor glädje och förhoppning om att detta är ett exempel med en mängd liknande större problem för mer ovanliga ngram av dom sorter man i brist på andra corpus tenderar att använda sociala media, webben, specialiserade sökmotor (jag hade stor nytta av att spindla ner MIL (finansierar mycket forskning och publicerar många av artiklarna i egna register som finns på webben: bra corpus för hard science medan computer science inte adderar något jämförbart med Citeseerx) och utnyttja deras sökfunktioner men det tycks ha stängts ner nu i den mening att förfrågningarna last-delas ner till långsammare tid så nästa gång blir det att tröskla deras PDF-filer lokalt istället) givet att det knappast lär störa sökresultatet eller informationssökare, men däremot alla veta och rika företag och universitet som betalar för att göra annat än få sökmotorförfrågningar (2010 tror jag att jag prövade det sist och om jag minns rätt bottnade fria förfrågningar ut redan efter kanske 10000 förfrågningar vilket verkligen är ingenting). Har det inte ändrats känns det bra med lite sunda utmaningar. Får folk vana i att ta data från en källa sitter det hårt och det byts ogärna på tio till 20 andra.


Google ska förövrigt noteras ha värde framför Bing rörande detta och värde av den sort vi gärna vill se i verktyg som används i skolan. Google via API:erna jag noterade förr, resp. också numera av och till när jag söker normalt men utesluter domäner från sökresultaten (d.v.s. vad som tänkbart kan göra att man kan plocka ut relativa potens-skillnader mellan sajter läckande mer än nödvändigt) kommunicerar Google det tydligt genom att fråga om jag är människa. Det irriterar mig men jag får inte förfalskad information tillbaka. Förfalskad information besvärar inte mig i något relaterat detta eftersom det detekteras utan problem men det är mycket problematiskt genom att det indikerar att man saknar design rules för quality assurance and true moral commit. för sådana här tjänster får man givetvis aldrig ge korrupt information ut. Särskilt inte om man inte sunt kan separera det till IP utan det går bredare ut över många motsvarande IP-rymder hos ISP:er.


Bing är också tråkig i att Microsoft uppenbart har information och statistik nog för att göra något vettigt av den men ändå tycks det aldrig bli av. Om något känns det lite som att de kanske har ett problematiskt fokus på kunskapskoncept som var och fortfarande är viktiga i Word m.fl. liknande produkter men inte alls är vad som just adderar något bra för att generera sunda sökresultat. Faktiskt är det inte svårt att med information Microsoft exporterar räkna om deras SERP:ar med spam-sajterna nerskjutna och bättre överensstämmelse med vad man faktiskt söker efter utan att behöva utnyttja trust-indikationer domän, inlänkar eller annat.

Google: Kvalitetsproblem och Statistik samförekomst koncept: Enkel metod för att förstärka värdet statistik från generellt språk ger vid tillämpning inom specialistområden

2012-12-05

Eftersom det "konkret" känns som att jag kan få en del nytta av studien diskuterad i inklusive. ev. två referenser (en jag ej sett indikerande något intressant och en jag vet är intressant men totalt glömt bort och ev. ej utnyttjar indikerat värde) ska jag för gott karma och också balansera läsarens bild av mig så att inte bara den fördomsfulla komikern ej främmande för att girigt glädja sig själv med vulgariteter bidrar jag har med ett enkel men mycket potent möjlighet för att kompensera för en av de största statistiska utmaningarna i lingvistik och data mining bredare.


Samtidigt för att inte bara visa upp den generösa själen som inte är rädd för att verka omanlig genom att dela med sig av sin kunskap och med kirurgisk exakt rocket-science skapa möjligheter för vanliga människor att lösa avancerade problem, är det viktigt att jag understryker det kalla affärssinne - likt vargskräcken innan elnätet kom bland mina konkurrenter eller "fiender" jag brukar kalla dem - genom att göra karma balansering på svenska istället för engelska och därmed utesluta de flesta läsare (kan gudinnorna och gudarna värdera ner dig för att du använder språket från landet där de lät dig födas? Knappast så jag lär få min karma belöning trots det) och genom att ge kunskapen som en bild så att den ej blir allt för enkelt tillgängligt för alla som söker information (människan är ett flockdjur och det är rimligt att anta att det också är gudinnans större plan med människan och därför att riktat bidra lite extra till den egna flocken bör även om det skulle visa sig felaktigt knappast när det är så pass rimligt minska karma-belöningen). Och som bonus för mina läsare visar jag i mötet mellan på en sidan av vågskålen (en vågskål jag med kompetent medmänskligt affärssinne sätter handen på för att alltid få vikterna att komma rätt) karma tillsammans med en spirituell balans där vi vågar ge och på den andra det evolutionärt riktiga mitt kallt-beräknande höggradigt effektiva sinne, tillsammans den moderna företagsledare världen idag söker både som problemlösare och förebild. Ett bonus-värde som bör förklaras för att alla ska förstå är att här skrämmer jag dessutom upp Google - särskilt medarbetarna med alla deras optioner som i ett feldrag av företagsledningen öppnat upp dem för denna typ av påverkan - genom att demonstrera vem som är alpha-male i deras kompetens område. De vet att om de springer över min fot kommer snart en kraftfullare sökmotor - kanske beskyddad genom en väpnad samling karma av rent av övernaturliga varelser - som klarar mer än 1-grams prediktion.


En utmärkt sammanfattad diskussion om problemområdet vi här ger en enkel lösning på finns i Foundations of Statistical Natural Language Processing. Ännu kortfattat gör språkets enorma flexibilitet och kreativitet att vi alltid lider svår brist på statistik om ord, koncept, deras relationer o.s.v. I lokala NGRAM på nivå samexistens i en mening är problemet för språk allmänt tämligen begränsat för varje person med tillgång internet och en modern dator.


När vi också behöver statistik om relationer mellan koncept på längre avstånd än några ord bort expanderar snabbt mängden data vi måste analysera. Sista försöket att uteslutande generera sådan statistik (typen P ( koncept A tillsammans med koncept B | kontext ) ) uteslutande från data som fanns lokalt på min dator inkluderade om jag minns rätt totalt 90 Giga byte data från bl.a. CiteSeer-X, flera av de journaler som publicerar fritt, Wikipedia och flera taxonomier och thesaurus i områden som kultur och geografi. Statistiken från den genereringen kastade jag bort därför att datamängden var ej tillräckligt för att ge ett värde jag inte redan hade.


Efter det för att bygga grund-plattform avseende statistik samlar jag istället in den direkt eller indirekt från närmare "allt" människan publicerar på nätet (faktisk metod är väldigt komplex inbegripande många frågeställningar att diskutera så jag avstår nu och helt säkert för all överskådlig framtid att diskutera hur jag gör förutom ett indikera en av ett större antal metoder eftersom jag tidigare nämnt den d.v.s. "indexeringen" av Department of Defence, USA, all publicerade forskning, rapporter m.m. tillgänglig på webben avseende nyckelord bedömt relevant). Samt ta in djupare statistik för avgränsade områden bedömda viktigare (ex. relaterat publicering av visuella uttryck som bilder, filmer, konst o.s.v.).


Nackdelen med sådan allmän statistik är den är optimal för att efterlikna den genomsnittliga människan. Inom specialistområden är den mindre bra. Metoden för att extremt mycket bättre dra nytta av denna statistik också för specialistområden finns kortfattat förklarad i bilden nedan (skärmdump av kod-kommentar). Klicka gärna på bilden för att läsa lösningen (punkt tre byggd från punkt två innan).



Genom att använda similarity där värderingen av feature relationer mellan ett koncept och andra koncept är utvalda från förståelse av kunskapsdrivna relationer (ej ett svårt problem p.s.s. rörande datakällor) och med värdering av features bland annat genom existerande P ( A | B ) statistik, tillsammans med ett intensitetsmått som korrekt värderar och skattar dom relationer vi utnyttjar (för att "skala" världen rätt så att säga mellan avbildningen i feature relations relativt statistik för co-occurance), får vi en praktiskt fungerande motsvarighet till P ( A | B ) vi kan använda på ungefär samma sätt med hög kvalitet för relationer vi annars hade saknat meningsfull statistik för. Värdet ligger ungefär på nivå att för områden välutvecklade i antalet feature relations klarar denna algoritm av att skatta P ( A | B ) värden i direkt frekvens på nivån att det inte behöver ligga mer fel än ofta cirka 2 gånger rätt svar (vilket kanske är ungefär felnivån för frekvensdatat ett steg åt vänster så att säga d.v.s. inverkande på första värdesiffran emedan normalt fel ligger i andra - i båda fallen när vi gör väldigt försiktigt konservativa datakvalitets bedömning).


En begränsning av metoden jag ej teoretiskt varit 100% säker på och därför själv på flera sätt försökt komma runt är att statistiken vi förstärker värdet av i specialistområden i "typ-form" behöver stämma med användningen. Är vi ex. intresserad på samexistens i ett kontext behöver det vara sådan statistik. Eller mer konkret för mina användningsområden har Google NGRAM där statistiken kommer från mycket lokala kontext nere på meningsnivå ett mycket begränsat värde (ett undantag finns från det som jag teoretiskt heller inte fullt förstår även om det mycket troligt är relaterat till konvergens per ord relaterat mening diskuterad i Ord som konvergerad mening: när varje koncept är 1-gram och relationerna mellan koncept vi söker är mycket nära normal thesaurus fungerar åtminstone 3- och 4-grams statistik utan hänsyn ordning och utnyttjande av hela ngrammen för statistik generering utmärkt när vi normaliserar för koncept existerande snarare än alla orden).


På samma tema som begränsningen av möjligheten att ta "lokal" NGRAM-statistik vidare ligger spekulativt en vad jag upplever sedan ett antal månader försämring av hur väl Google för specialistområden klarar att prediktera nästa ord i sökrutan (något jag använder väldigt ofta som del av hitta tillbaka till saker, rättstava, komma ihåg vad artiklar heter o.s.v.).


Möjligen kom den upplevda försämringen ungefär samtidigt som Google också blev konkret bättre på named entity recognition jfr exemplet nedan där de förstår att Department of Defence som sökord är samma sak som DoD i Common sense: Arkitektur.



Vad är problemet jag upplever med Google här? Att prediktionen övervärderar statistik från co-occurance i meningsbyggnad och lokala relationer på meningsnivå. Ev. har Google blivit bättre på detta men om så är det egentligen ingenting jag märkt då jag mer sällan söker på det sättet. Rättstavningen jag använder detta till också upplever jag var bra innan och är inte bättre på länge på något sätt jag märkt.


Däremot upplever jag mer säkert har istället prediktionen för sökordskombinationer när vi ligger närmare vad som motsvarar statistik av typen här diskuterat blivit sämre. Ex.
sökords-koncept från olika kunskapsområden men relevanta i något sammanhang, viktiga koncept från i näraliggande kunskapsområde höggradigt relevanta ex. för en forskningsartikel man söker hitta tillbaka till (ex. ett begrepp i titel tillsammans med en eller två samma eller motsvarande studiens taggar journalen publicerat den med)


En intressant fråga är om samma försämring också gäller samma typ av sökordskoncept men inom populärkultur (eftersom det där är givet att ordentligt med statistik direkt från sökningar finns). Det har jag ej kontrollerat. Ändå misstänker jag lätt att en delorsak till förändringen jag upplever är att Google värderat ner statistik från faktiska sökningar och tagit in NGRAM-statistik.


Ett förenklat exempel på tror jag samma problem som inför diskussionen om vad vi kan lära från det här bättre tydliggör har vi från när jag söker på ANEW. För 2-gram a new gäller att associationen mellan 1-gram a och new är enorm: vi skriver väldigt ofta a new. Att som Google direkt tolka om till a new (här utan kommentar ev. relaterat att de är så säkra på att jag skrivit fel eller att a tidigare hos Google var stopp-ord och fortfarande är det för en del men inte alla algoritmer) är dock helt fel eftersom vad jag söker efter heter just ANEW. Och det är dessutom vad jag sökt efter flera gånger och på bloggar identitets-bundna till samma konto jag söker med skrivit om medan jag aldrig sökt efter a new och såvida det inte är en populär film eller bok tvivlar jag på att särskilt många andra heller gör det. Ex. Plos One klarar dock utmärkt av sökningen.


Google tolkar anew helt felaktigt och ger irrelevanta sökresultat. Förutom första sökordet när site:edu får hjälpa till är inget av sökresultatet topp-tio vad som avser konceptet jag sökte efter.
Fotnot med kommentar till sökresultatet: Resultat tio är särskilt intressant: Constructions: a new theoretical approach to language. Så vitt jag såg avser artikeln ej något relevant ANEW men tycks ju åtminstone ligga nära i kompetensdomän. Gissningsvis speglar det att Google här använder statistik från mina tidigare site:edu sökningar eller sökningar bredare indikerande att sådan statistik ännu kanske bara får utrymme kompletterande på låga positioner ev. oftare när tvetydighet eller omtolkningar görs.

Att Plos ger relevanta sökresultat bör ej förklaras med deras som publicist flera världsledande journaler stora kunskapsbank relaterat forskning. Det ska här ej göra någon skillnad eftersom de publicerar fritt för alla att indexera samtidigt som det kontext vad de publicerar beskriver ligger mycket nära vad jag söker efter många gånger mer eller mindre dagligen.


Plos ger relevanta sökresultat.

Och för NGRAM-statistiken att de gått in i (menar en del t.ex. jag) myten om att NGRAM-statistik byggd över längre NGRAM ej adderar något värde. Längre NGRAM-statistik adderar ej värde enligt användning motsvarande beskriven i de studier som konstaterat att värde bottnat ut vid 5-gram och att värdet 5-gram ger framför 4-gram är ytterst begränsat. För hur folk namnger webbsidor, kombinerar sökordsområden o.s.v. är det dock givet att värde finns att hämta ordentligt för tydligt längre NGRAM också när tillämpningen primärt är som nu närmare meningsbyggnad. Jag inte tror men känner ibland att statistiken heller inte är 4-gram, och kanske att de ofta för att optimera och göra prediktionen väldigt snabb endast utnyttjar 1-gram och om algoritmen tror sig ha fått en tydlig träff nöjer sig med det. I så fall kanske problemen helt eller delvis har att göra med att man för flera sökordsområden faktisk inte i 1-gram och 2-gram kontext kan bedöma om prediktionen man där gjort är så pass tydlig att statistik från längre NGRAM ej behövs tillsammans med hänsyn till NGRAM-bakåt i sökord avseende samma sökning tillsammans med föregående närstående sökningar indikerande kontextuell domän (mest konkret när indikationer att användaren ej kommer rätt ändå uttrycka en ungefärlig mängd där tidigare sökningar troligt uttrycker relevant similarity i meningen att vi kan avgränsa i kontext och över flera förfrågningar dra slutsatser pekande mot vad som är rätt ungefär som named entity exemplet men i sökrutan istället för indexerade dokument och som slutsats skapad från ej lokalt data).


Frågan är vad motivet till förändringen är om orsaken ligger högre upp mer konceptuellt? Kanske att Google i så fall försöker optimera värdet all statistik för ord som lexem kan ge inom områden som ligger längre ifrån deras kärna (också i meningen att ex. deras anställda neurologiska experter kanske har mindre erfarenhet av språkanalys). Förutom Google NGRAM jag ej vill utesluta att de använder till sådant här kan det även gälla statistik som MRC Psycholinguistic Database eller ANEW (som välkända exempel men ej för ANEW rekommenderat utan åtminstone kombination med annat data och dimensionsförändring, och vidare gäller att deras mer begränsade publicering av datat gör att färre använder det vilket medför att kvalitetsproblem mer troligt kvarstår - jag känner själv till problem de från perspektivet psykologer ej insett att de gjort - jämförbara med vad som upptäckts i mycket annat liknande efter att de började att publiceras fritt). Personligen tror jag att det är ett misstag delvis relaterat vad som diskuterades i Abstrakta och konkreta koncept (diskussion: "The semantic richness of abstract concepts") rörande behovet av att transformera och/eller konvergera från ord till ett meningsfullt övergripande koncept för att klara att ta värde i ett dokument vidare ut från det (sökning i eller efter ett enskild dokument har ej varit ett svårt problem på flera år annat än för optimering av CPU, minne och hårddisk när budget är begränsad), också därför att jag sedan flera år har ett starkt bias mot att hellre se koncept - 1-gram, Ngram, bild, foto, konstverk, varumärke, byline... avser det samma sak är det lite av men inte exakt samma sak - oavsett representation snarare än ord:


"Att i sig utnyttja emotional potential eller för den delen egentligen allt tänkbart data som kan härledas från free-association norms m.m. liknande per ord statistik (se ex. MRC psycholinguistic database för ett antal trevligt samlade) är praktiskt för ex. nyhetsanalys väldigt meningslöst under förutsättning att vi ej också i motsatt riktning till hur övergripande mening påverkar lokal konvergens till mening kan göra en transformation av vad dessa samlat i ett kontext indikerar om tolkning och betydelse för den övergripande mening kontext konvergerar till (ett trivialt exempel kan vara vad en Wikipedia sida handlar om som mening övergripande kontext konvergerar till i betydelsen av hur vad som sägs på sidan påverkar läsarnas attityd, tolkning och förståelse av det övergripande konceptet).

Ett parallellt till både Blue Light Intensity och Emotional potential också använt är News Power som indikerar den emotionella tyngden (angenämt, otäckt m.m. i den dimensionen oavsett typ som ökar känslan i ett ämne eller en text), För alla tre (och många andra dimensioner också nödvändiga) görs just en transformation till övergripande koncept."


Kortfattat: Vilken mening med i ett visst situations-kontext "överför" ex. bilderna i en Wikipedia artikel till det koncept hela artikeln handlar om för personer i ett visst kultur-kontext och med vilken sannolikhet?


Hela den här diskussionen är ju dock uteslutande från mitt perspektiv. Vad som är optimalt för de flesta eller inte otroligt nästan alla användare av sökmotorer har jag ingen aning om. Och inte heller är detta särskilt viktigt för mig (jag är snarast mer "engagerad" - i modern jag bloggade om det en gång mening - i diverse inställningar Google inte klarar av att göra ex. addera Scholar bland övriga sökmöjligheter och göra gränssnitt från Scholar till övriga Google samma som för alla andra sökfunktioner istället för att de har kvar ett nu flera generationer äldre gränssnitt, sätta längre videoklipp som standard givet att jag aldrig annat än av misstag sökt på något annat m.m. liknande som mer regelmässigt stör mig av och till periodvis dagligen liksom att addera rankningsbelöning för att man tar sig tid och ger Google kritik och indikerar problem m.m. för att demonstrera att de välkomnar sådant och inte döljer bloggpostningar långt ner ex. här ge denna första platsen säg tre veckor på några viktiga sökord som Google, Statistik och Språk eller vad som nu bedöms relevant).


Relaterat

För den som vill lära mer om området eller oavsett kunskapsdomän helt enkelt inspireras av ett för bloggpublicering välgjort koncept inom Freedom och Knowledge Sharing inför ett eget projekt rekommenderas:


Ny Google Ngram annoterad: Klassbaserad prediktion i n-gram tycks möjlig

2012-10-24
När jag behövde ersätta 2-gram filer jag råkat radera idag såg jag att Google Ngram uppdaterats. Dels har av allt att döma mängden data om ngram co-occurance (viss risk att jag bedömde fel från antal och storlek givet övriga uppdateringar) men viktigare finns nu information om de viktigaste ordklasserna (ex. markörer för adjektiv och verb).

Den fördel jag ser (egentligen den enda jag ser för egen del och gissar för de flesta om metoden är mer allmän känd) är att det går att förbättra prediktion i ngram-modell ganska tydligt samtidigt som problematik med att vissa co-occurance kombinationer saknas lättare kan hanteras.

Tänker vi oss enklaste möjliga n-gram modell predikterar vi nästa ord från föregåendes "sannolikhet" och jag sätter citationstecken därför att det mindre är sannolikhet och mer en ganska dålig approximation via ett s.k. Markov-antagande.

För ngram-modeller som gör prediktioner som bygger på fler ord bakåt blir det ganska snabbt bättre. Ofta uppges att förbättringen når "praktiskt" bästa värde vid 5-grammen varefter värdet föga ökar medan givetvis minnes- och beräkningskostnad ökar desto mer för varje steg. Det gäller vanliga ngram-modeller men med varianter går det visst att nå bättre resultat med mer data än 5-gram beroende på vad du vill göra. För att bara prediktera orden framför räcker det dock säkert utmärkt medan andra slutsatser vinner på mer data bakåt.

Kan vi öka värdet av prediktionen från n-gram modell som bygger på n stycken ord bakåt genom att utnyttja statistik rörande sambanden ex. mellan ordklasser som adjektiv och verb vinner vi normalt alltid på det rätt gjort därför att medan vi expanderar antalet ord bakåt vi använder ökar beräknings- och minneskostnad ordentligt i varje steg medan semantiskt information fint går att lägga med en "linjär-kostnad" billigare (detta är dock något beroende av hur tillämpningen exakt är rörande vad som är möjligt där tillämpningar för mig mindre har att göra med språkrader och mer grupper av aktiverade koncept relaterade med varandra i komplexa grafer).

Förutsättningen för att det ska vara meningsfullt är så klart att bra algoritmer med faktiskt värde utan att vara plågsamt slöa. IBM publicerade några stycken tidigt (någon gång under 1990-talet) och även om jag är säker på att många varianter publicerats - och inte otroligt bättre - tror jag att för normala applikationer ger de ungefär det värde man rimligt kan förvänta sig.

Utan hänsyn till kunskap från ordklassen skulle enklaste tänkbara n-gram modell prediktera med approximationen:

    P ( nästa ord vi söker GIVET alla föregående ord i texten ) = P ( nästa ord vi söker GIVET föregående ord )

När vi lägger till kunskap om ordklassen är enklaste tänkbara modell under Markov-antagande som både utnyttjar föregående ord och en viss ordklass:

    P ( nästa ord vi söker GIVET alla föregående ord i texten ) = P ( ordklass för ordet vi söker GIVET ordklass för föregående ord) * P ( ordet vi söker GIVET ordklass )

Jag tror varianten ovan stämmer med hur IBM uttryckte den ena av modellerna. Praktiskt är just denna man kanske hellre inte väljer. Den gör en del antagande rörande antalet ordklasser eller kategorier vi anser möjliga för ordet som sällan är enkla att få att fungera. Tänker och minns jag rätt hamnar man i att man bäst behöver ha en kategori per ord.

Den andra varianten är bättre och har kanske mindre kända värden för situationer där vi gör operationer vi kan jämföra med översättning. Tänkbart relevant för att ta dokument, nyheter, webbsidor, databas-information m.m. för att sammanfatta ner till ett meta-språk för vidare analys eller för att skapa en behändig sammanfattning till sökresultat eller annat (samma forskare vid IBM har förövrigt publicerat en del om översättning men minns jag rätt rörande andra algoritmer).

Ett värde troligt intressantare för fler är att det är möjligt att hantera brist på statistik om sam-förekomst på ett till sätt. Oavsett hur mycket testdata man samlar på sig är det aldrig nog. Laplace-smoothing, Good turing m.m. är ju vad många använder men har begränsningar och i vissa applikationer där fel just nära noll får stort avtryck olämpliga (kanske är rent av att kasta situationer där avsaknaden av datat inträffar att föredra för att hämta ett nytt sample hellre än att riskera modellernas korrekthet för vad som är mycket troligare). Genom att utnyttja markeringarna för ordklasser för att skapa kluster passande vad vi vill ha ngram-modellen till (själv skulle jag tänkbart ex. acceptera taggen för verb varande ett verb och sedan ta ut dess subklass för att beräkna dess nivå i concretness och abstract, och göra en liknande operation med adjektiv, men ev. strunta i resten).

En till möjlighet är att utnyttja att Google Ngram just sträcker sig långt tillbaka i tiden rörande indata och innehåller en försvarlig andel felstavningar genom att utnyttja ordklasserna tillsammans med annan statistik och så långt det går givetvis ev. strikt kunskap man har för att samla ord med likartad betydelse oavsett stavfel eller genom åren ändrad stavning i kluster för att därigenom hantera ex. ovanliga felstavningar. Det senare är mindre intressant för mig men troligt en bra möjlighet för många applikationer och IT-system som behöver hantera varierat språk som kommer in.

Vidare är det lättare att ta ngram-statistiken för engelskan och kombinera ex. med den för japanska för att i mötet ta ut mer kunskap om orden. Det är dock troligt enklare med ev. också större värde att göra via enklare vägar som Wikipedia. Men det är möjligt via varianter här också.

Möjlighet för studenter som vill komma före i karriären


Oavsett copyright hade jag för det här datat gärna sett en rimligt prissatt kommersiell lösning innebärande att någon annan sparar ner alla filerna, med alla artiklar, och allt annat intressant på en lite mobil-hårddisk som sedan kom hemskickad. Det är tidsödande att ladda ner och sedan ska det packas upp och extraheras till internt-format. Och sedan i värsta fall upptäcker man att en fil råkat komma två gånger utan feldetektion och så får man börja om med extraktionen.

Däremot ett passande projekt för t.ex. en datastudent för att få erfarenhet av att arbeta mot kravspecifikation av datarepresentation (den verklighetsförankring arbetsgivare alltid tittar efter). Dessutom är det big data... Det enda inom data som är manligt.

Jag skulle här rent av om tjänsten kommer med bevakning av nya uppdateringar förutom 500 - 1500 kr mobil-hårddisk kunna tänka mig en ersättning av rent av 200 kr + porta (eller kostnad bussbiljett för hit-resan) vilket verkligen är mer än vad det bör ta i tid för någon yngre och mindre disträ än vad jag är. En verkligt fin möjlighet både för att tjäna extra pengar och bygga upp ett kraftfullt CV redan innan universitet är klart!