Visar inlägg med etikett Statistik. Visa alla inlägg
Visar inlägg med etikett Statistik. Visa alla inlägg

Folkligt och kul: Tappad bakom flötet

2015-10-18

Fiskekniven kanske?


Men kan man skämta - och det är kul - om att blanda samman ett talesätt med ett annat (resp. med tänkbara komiska dimensioner i sig men ej heller unikt så eller kanske ens normalt så)?


  • Tappad bakom en vagn.
  • På bandring / På vagnen undan svälten överlevande genom en hårdare världs "abort-lösning"?
  • Bakom flötet.
  • Funktionella jordbrukks-arbetare långt tillbaka (1000 talet?) skapades ibland när de föddes på gården via syrebrist i vattnet. Förutom arbetet fick de emellertid möjlighet till att använda sjön att fiska från för mat.

Kan conceptual blending motsvarande naturlig felsägning (tänker jag mig) vara komiskt=.


1. Närhet mening är givetvis ej stor mellan koncepten. Likväl tror jag vi i allmänhet för felsägning i allmänhet ska förvänta någon direkt eller ganska omedelbar grupp av koncept gemensam aktivering för att de ska ej otroligt komma så här. Antingen nyligen eller repeterat av och till några gånger om kommande senare.


2. Eller resp. Och med:


  • Itlösande potential enligt tidigare indikerat görande det relevant vilket tänkbart kanske oftare krävs för ej helt korta - i som vi här förstår enkelt från antal ord för sådana här mer emotionella koncept vi fyller mening till själva i kontext eller egen tolkning snarare än del av gemensamt publikt språk.
  • Vi kan se hur föregående via ett indirekt eller direkt koncept kan aktualisera sig givet tidigare nlärning med det eller nytt förstärkande sådan. Ex. en person associerad i någon intressant händelse med båda som besöker oss för att förklara oss tappade bakom en vagn och säg samma dag intensivt med högt emotionellt språk o.s.v. förklara en gemensam vän bakom flötet.

Eller givet 1. (och / eller faktiskt med två också) en ganska begränsad gemensam men mer tydligt tids-relevant just nu eller så indikerat tämligen nyligen feature. Vilken kan vara vad som man kan tolka satte riktningen för själva felsägningen (eller den kreativa associationen).


  • Tappad bakom flötet.
  • Foster överlevande abort-metoden fick ibland möjlighet att överleva svälten genom att en vänlig lokal-hövding tog dem in som jordbruksarbetare istället för att ta risken att komma dåligt med syrebrist shaping av lokalt född person. Deras lustiga missuppfattningar av världen m.m. kunde man kanske referera till som tappad bakom flötet?

Något indikativt rörande olika typer av intensitets-vikter aktuella ovan kan sägas via att vi i form-likhet (för att välja något där fler alternativ finns passande conceptual blending som man ofta ser uttryck av det) mellan funktioner vi kan skatta ut:

pröva
  • Glömmande (forgetting curve) d.v.s. avstånd i tiden bakåt till aktivering vid något bindande aktualitet till något. D.v.s. från respons-time studier.
  • Features i meningarna för ord, ngram eller vad av alfabeten man nu väljer att arbeta med var för sig eller tillsammans (mindre än ord känns lite mer än annat än tror jag sällan nödvändigt för sådant här men SJÄLVKLART vilket som helst av alfabeten är funktionella och om något tycks bättre än ett annat i resultat har det endast med hur väl de använts eller brist på statistik uttryckande alfabetet ofullständigt d.v.s. ett ort som ord-former är lättare att fånga alla typer av resp. skatta deras frekvenser i resp. kombination korrekt) via typiskt ofta refererade zipf-Mandelbrot. Ty resp. alfabet givet att vi också för att kunna hantera propagering av kontextuell frekvens tolka språket - grammatik, syntax o.s.v. för att klara att sampla hur vanliga resp. är - ger oss mening alla av de övriga bär med sig: 1-ord till koncept n-gram, o.s.v. neråt och uppåt. Därav att det varierar lite år från år vilka vilka enstaka eller kombinatione rav dessa fler tror är som rätt här och som kommer i fler nya studier (vanligen dock ej beräknande bra skattningar frekvens själva utan utnyttjande något färdigt ofta räknande ganska grovt). Just nu är det mycket runt ljud-alfabeten (minns ej vilket av dem: Tittar man på ex. bokstäverna vilket vi alla så klart gör alltid när vi skriver är lite dum antagligen delvis därför att de räknar frekvens dumt eller använder dum-frekvens och då tappar man ibland lite mer mening märkbart dålig fekvensstatistik på en del ord skrivna som bokstäver som ett par ganska i samplingsmängd och metod magra färdiga data-sets har).
  • Eller som jag SJÄLVKLART när möjlighet ges hellre skriver ex. Wikipedia konceptet People from Sweden living during World War II: People, Sweden, living during World War, World War, World War II... m.m. så man verkligen förstår explicit vad som implicit kan ligga nära. Jag tror vi är många som gärna hellre skulle vilja att vi utan transformationerna och graf-strukturernas operatorer och i sig "alfabet" bara borde skriva själva orden eller n-gram för att uttrycka mening. Vem behöver mer? Man kan rent av sortera om det hela eller slumpa ordningen man skriver det i enligt någon vikt vanlig subkultur kallar för sannolikhet eller ge sig på att dra ord från blandningen och tänka sig att det simulerar mänskligt tänkande./li>

  • Vikt-dimensioner är vikter påverkande resp. en eller flera saker vi tänker vidare med. Exemplet längre ned för dendrit-träden i biologiska neuronnät är därför kanske ganska bra: Vi förstår enkelt ganska stor komplexitet bara i trädet resp. att det är vad som går in i en större mängd neuroner med information inlärd i så många mer uttryck än vad vi är vana att se som alfabet (ex. ord, fler-gram vad vi vanligen kallar alfabet eller avstånd mellan neuroner vad vi mindre sällan ger representation med en symbol för o.s.v.)





  • Såväl som learning-curve också ex. från här respons-time.




Och som vi förstår från det om annan dimensions-information än bara frekvens-värden för förekomst (emotionella dimensioner) den subjektiva intensiteten för någon. Skrivet på formen:

a * ( b + c * x )e

Jag vågar inte föreslå att det kan vara bättre för värden relaterade situationen ovan i [0,1] att använda följande funktion (inte minst därför att jag ej kom till att passa in konstanterna) - ex. någon viktskattning vi kan likna vid sannolikhet - med:

a * ( b + c * x )e * x

Och positivt e för decay / forgetting.

Eller föreslå att det kanske egentligen är en kombination av något med en expoentiell fördelning approximerade mer bland biologiska neuroner morfologiska former (d.v.s. dendrit-träden) som skulle kännas mer naturlig för mig (men knappast vad något av alla tänkbara alternativa skulle bli mer eller mindre rätt i någon begriplig mening eftersom träden i sig är ganska varierade lite hur som helst resp. som funktion av den varaktiva inlärning när avstånd reduceras till co-activation). Mitt mot sändande "nod" är ju vad som reducerats avstånd medan när vi går utåt med en radie ligger andra sidoträd troligare åt sidan resp. längre ifrån d.v.s. lite vad vi kan likna vid ex. en 3D normalfördelning med varians-parametern tagande egenskap från dendrit-trädet (möjligen kanske self-information eller något distans-mått för resp. arm?).

En upparbetning med andra liknande funktioner för andra delar av kommunikationen är verklighet. Men det samma gäller nu ex. Zipf-Mandelbrots lag där man bättre om man känner starkt för en väldigt "rak-linje" bör separera exempelvis sina ord i grupper av flera alfabet (som funktions-operatorer likt a, an, the, ord med storre mening mening än vad co-occurence context ger o.s.v. vad som nu visar sig stämma - mycket tänkbart säkert i någon mening verklighet bör nog vara tämligen försumbart givet själva normala nivån av "förväntat resultats" rimliga exakthet. Varför inte kalla operatorerna för "stopp-ords-alfabetet" så hittar säkert den intresserade enkelt många exempel: stop words).

En tolkning av Zipf-lag från punktlistan med "kurvor" är självklart att:

  • Ett fåtal vanliga ord är latta att minnas.
  • Många ovanliga ord är svårare att komma ihåg.
  • Det svåraste konceptet att minnas är det "längst ner" med minsta alfabet i förhållande till antal token-frekvens (ex. post lateral sphincterotomy dilation<. Och gärna i underliggande formation ej självklart enkelt predikterbart d.v.s. utan förståelse av själva konceptet som sig men med god vetskap om resp. del-koncept som dilation kanske det hela ej känns självklart (mer i ex. att det sista ordet kommer från en associerad eller alternativ teknik i här konstruerat - kanske existerande i övrigt - för viss conceptual blending igen för återkommande tema). <(li>

  • Ju längre tillbaka konceptet var aktuellt, desto mindre intensivt det var då, och ju mindre sannolikt det är i det kontext vi befinner oss för en tid vi betraktar desto troligare:




    • Glömmer vi det.
    • Ju mer grund-intensivt i subjektiv tolkning är det om det kommer aktuellt "indirekt".
    • Medan om ej indirekt kan det samma gälla men ev. beroende på fall - ex. via risk-dimensioner m.m. - när överraskande aktiveras lite extra.

    Pöva gärna själv genom att köpa ett plast-svärd, en väldigt osannolik mask - gärna gullig kanske Disney - målande den osannolikt röd och kanske någon mer färg, och så hoppar du fram överraskande framför någon kanske äldre lokal-bo som stört dig - argumenterat är väldigt gamla personer här bättre att experimentera på eftersom man inte riskerar att störa samhälls-produktionen om någon produktiv-yngre får slaganfall eller dyligt [Red. Jag nekar till att Mandelbrot i någon trolighet dog av att ha läst vad jag skrev om honom. Sådant som kommer samtidigt av slumpen ej fullständigt ovanligt när man skriver regelbunde. Ommam färävrogt gamsla ögt bakåt: Gunnar Blom, statistik, kryptering o.s.v. tror jag evigheter sedan. Också säkert en ren slump. Mer vad feature Mandelbrot givet städande upp bland alla onyttiga gamlingar samtidigt som vi lär oss något hela världen kan göra bra saker av om människans kognition gav en kreativ association. /HH] /HH] ).

Sannolikheten för att den vi hoppar fram för ska reflektera situationen - implicit - att denne kommer "glömma" alla koncept lagrade (genom att avlida) med en viss sannolikhet. Är vad vi kan se som en del av dynamiken. Folk är inte så klippsa i stora verkliga risker som man kan tro men är det konkret i rummet med höga ljud och färger är upplevd magnitud av intensiteten mycket väsentlig. Faktiskt kan nu intensiteten rent av passera det "verkliga" från teve tillochmed introducerande "vaksam mindset" upplevande risker i skuggor m.m. (vanligen defekt hanterat i metodik: Korrekt är attse dig för vad du ska vara i de kontext som när relevant här ofta föreställs - antagligen inkorrekt - den som flexibilitet utnyttjar arenan för vad perspektiv bäst för dig: The Hunter Hunting the Beast searching for you. Vilket fungerar bättre emotionellt såväl som som naturligt öppnande upp fler perspektiv på lösning: flö om bra, men också jaga bakåt den som jagar dig för att ta ut föregripande denne i överfall).

I denna mening är klassiska formen för psykologins välkända idé om översättning mellan intensitet indata människa till upplevd intensitet på formen: a * log ( I) ), Ej perfekt. Eller åtminstone om ej hanterande indatats "dimensioner" och mening perfekt lätt att komma fel i. Vi kan komma i vad jag vill skriva som "högre subjektiv intensitet än intensitet i indata.". En förvirring i rummet av fiktion och verklighet som kan uppträda konkretiserat av exemplet när någon mindre lämpligt stabil[Red. Vad blev det av alla Haldol-hem man kunde göra iväg gamlingarna till när passerande 70 år cirka därde fick ett avkopplat avslut på livet sista 20 åren kognitivt avkopplade via ett par dagliga injektioner?) Och varför fick vi aldrig något liknande kommunalt? Skulle säkert öka skatte-moralen). kanske angriper ditt fiktiva angrepp (möjligen ej fiktivt om i smyg syftande till att mörda åldringen via inducerat slaganfall) men icke-fiktiva försök för att lära om personer, genom att rubbat icke-fiktivt angripa dig med konkreta verktyg (kanske en s.k. tryckt bok iPhone spekulear jag).

Eller hade vi någonsin dessa haldol-hem? Kanske en kreativ innovation att födas av mig. Konceptet i vad det kan ge människan i möjligheter återkommer av och till till mig. Jag minns ej när konceptet kom i mina tankar men någon gång senaste åren här. Kanske mer värde människan och mindre från äldre förekomst dess ursprung ligger i.Men jag förstår då domänen här och vilken nytta ett förstående äldre-hem långt ute i skogen utan störande spring eller över-nyfikna "äldre-aktivister" kan störa har att ge när kombinerat den moderna världens avancerade mediciner likt lämplig kombination säg haldol, och någon atypisk hård på såväl dopamin så standardisering av demens-behandling går att göra som bonus: 70 år till haldol hemmet, dagen efter dement, frid i världen, och entydig predikterara samhällssystem hälsa.

Kanske vad som behöver själv-organiseras av några äldre vänner? Jag är väldigt på om inte någon så här spontant självorganiserar något kanske antytt här tidigare. Dödande kul, Hard core comedy. The death of comed with everyone laughing.

Söka bredare vetskap koncept-association: Wikipedia / Wiktionary på många språk

2014-04-15

Enligt principen enkel att förstå från:


  • Vi har definition på engelska (vi säger är vårt "mitt-språk" eftersom det är mitt) ex. integral i Wiktionary.
  • Där konstruktionen är sådan att motsvarande sida länkas i andra språkområden. Vi utgår där från länkning i vänstra marginalen motsvarande samma system i Wikipedia.
  • Vi utgår där från integral (svenska) som exempel.
  • Och gör översättning: integral (Google Translate).

En metod för att skapa system översättning bygger på alignment mellan text motsvarande samma definition eller jämförbart i olika språk. Vi inser att ex. Wiktionary är vad som tänkbart kan vara en del av data möjligt att använda för det. Jag kan föreställa mig att Google Translate är ett ex. på system som tydligt tidigt prioriterat denna typ av data för inlärning av statistiska relationer (nu antar jag att feedback från användare är den märkbara delen för förändring görande finare nyans korrektioner och inlärning).


Här är en av de två utgångspunkterna att denna inlärning är befintlig i systemet för översättning. Därmed görande översättningen från språk två (i exemplet svenska) får vi där indikerande koncept med sin troliga engelska motsvarighet. Det är vidare ytterst rimligt att anta att Wiktionary såväl som Wikipedia hör till datakälla ofta utnyttjade för väl-använda översättningssytem såväl i inlärning som feedback d.v.s. att ex. Google Translate utmärkt klarar översättning mellan definitioner eller uppslagssidor.


Därmed får vi kompletterad vetskap om associationer aktuella för aktuellt koncept och koncept i definitionen eller relationer mellan de koncept i definitionen.


Denna vetskap kan vara kontextuellt för språkområdet eller mer aktuellt för mig (där kontextuell inverkan hanteras via logiska beräkningar över generell vetskap association av ett antal typer) behandlade alla relationer detekterade p.s.s. för att bygga vetskap association.


I någon mening är det egentligen samma sak man gör när man tränar översättningssystem med tidigare indikerad algoritm. Och det var därifrån jag fick idéen till algoritmen.


Troligt ej aktuell för mig praktiskt förrän nästa omgång att söka kompletterande vetskap association från långsamt föränderliga datakällor i "uppslagsboks-tiden". Ett tänkbart problem praktiskt för mig är att jag ej har egen lösning översättning med den trovärdighet korrekt rörande olika sense på orden nödvändig här och ej heller underhålligt eller använt samtidigt som jag ej vet riktigt hur många request Google gillar per tyngd innan man stängs ner till nästa eller alternativt börjar betala för dem. Förr ett antal år sedan gällde ofta ungefär totalt 10 - 12 k requests medan stycke-prisen var sådana ovanför att jag ej ser praktisk meningsfullt för den här typen av användning när många miljoner requests behöver ske över en mängd datakällor (d.v.s. ev. krävande kanske rent av en budget på ett par miljoner).


Alternativa lösningar finns säkert men jag har ingen uppdaterad bild. Jag tror förövrigt att Google Translate är mycket ledande just i dom algoritm-system och deras maskin-inlärning viktigt för denna lösning. Mer regelbyggda lösningar och/eller statistiska med mindre eller ingen feedback från de som gör översättning (d.v.s. etablerande goda översättning mellan välbesökta sidor representerande motsvarighet - särskilt här där författare, redaktörer m.fl. kanske själva gör kvalitetskontroll) kan vara mycket sämre när kontext antingen lokalt mellan och i stycken resp. meningar eller aktuellt för något mer lokaliserat språkområdet är intressant. Men som sagt jag har väldigt dålig bild av hur väl alternativa lösningar fungerar här.


Komplettering: Jag vet ej (läste ej artikeln) om man gör samma sak i Polish and English wordnets - statistical analysis of interconnected networks men är jag ganska säker på utnyttjar en till uppenbar (men mycket mindre för språkområden såväl som data koncept-associationer) datakälla - Wordnet anpassningar för olika språk - jämförbart rörande metod ta ut statistiken för associationer. Ett problem med Wordnet-varianter utanför Princeton's välkända (wordnet.princeton.edu) är att åtminstone ett fåtal skapades med EU-finansiering föga genomtänkt rörande värdeskapande för medborgare och företag i unionen innebärande att de ej är tillgängliga för användning utan betalning licens resp. troligen inte normalt är tillgänglig för någon oavsett om betalning sker. Jag har fått intrycket att detta problem allmänt är vad EU nu ska ha börjat sett över med förändrade riktlinjer rörande finansiering av grundforskning med avgränsade leverabler. Ett annat problem jag ej vet om man hanterar ännu är att sidor med leverabler och redovisning av skapade saker (ex. resultat av intresse för alla som ska vara fritt) ofta efter en tid försvinner från nätet (ibland relaterat med att anpassningar av det sålts till kommersiella företag).

Hans-faktor i smoothing konverger Eulers-konstant som funktion av antalet typer

2013-09-28

Lätt irrterad såg jag en lösning på problemet jag inte fann i färdig algoritm föranledande Snabb och mycket acceptabel smoothing för särskilda användningsområden inom natural language processing (2013-09-27) skapelsen när jag sökte rörande nästa steg sättande värde-typ-beroendet (där det tycks fungera väl med log antal av dessa typer utan att behöva blanda in antal för första och sista typen i storleksordning) i:



Där vad refererat "This is called Smith-Devine prediction (1985)." i formel (7) när utvecklad i uttryck (8) i avsnitt "Enhancement of Smith-Devine law" ger oss att vad "Hans-faktor" konvergerar mot - som man också ser ganska tydligt som funktion av sample-storleken - är Eulers-konstant. Notera för hur Hans-faktor används att vi beräknar ett minus faktorn (den konvergerar just ett minus Eulers).


När sample expanderar tender som den samplings-metod och identifikation av koncept bestående av flera ord, ord o.s.v. allt mer approximera väl utan behov annan hänsyn än endast antalet typer enligt formel och blir på det sättet en allt bättre approximation. För Hans-konstant var ju dock ett delbehov att värdera upp mindre samples något mer varande oftare utvalda därför att det ansetts viktiga varande expert på något eller balanserande en annars möjligen likartad världsbild från stora mycket kvalitativa färdiga data (likt Biomedcentral.com alla artiklar med dess journaler färdigt för nedladdning i stora xml-filer med ett antal mindre journal-hus också med öppen publicering som ett begränsat cirka 40 MB sample från Mdpi.com).


Jag är väl egentligen ej klar över ännu om viktning med värde-ranking om funktionell räcker förutom normalisering [0,1]. Eventuellt kanske omräkning som funktion för P(A,B) som funktion av P(A) och P(B) tvingas till (vilka jag om så ogillar precis som den omfattande stopp-listan men knappast heller där att något direkt tydligt omedelbart problem ges av det). Men jag gissar att det nog ej krävs (och om så kanske snaare som funktion av P(A) resp. P(B) alt. mindre troligt men kanske tillräckligt reducerande problem med små-värden för antingen A eller B maximum om division känns som ett mer tidseffektiv alternativ än här kanske lite bättre lösningar givet att vi antagligen har "ett antal" fall där varken A eller B förekommer förutom i ett P(A,B) givet att vi nu såg A med B sorterade som typen snarare än mängden av alla hittade typer A och B. Men verkligen att det ofta nog fungerar bättre för mig tycker jag att pröva lite erkännande att jag inte så mycket härledde Hans-konstant som att notera den när jag sorterade några små-filer i en Excell-liknande applikation i Star office: en osund färdighet som kommer efter några år tagande in diverse liknande data för att sortera från max till min för att upptäcka ev. problem och reflektera hur man normaliserar det).


Även om det kan tyckas lite långsökt bara från detta tror jag med diverse annat från annat att det uttrycker när vi här ser det i språket hur vi organsierar våra biologiska neuronnät där i många delar överföring svåäl som topologiska-relationer exponentiellt avtagande förhållanden finns. Och vi noterar också dess användning inom bildanalysen ex. i COSINE INTEGRAL IMAGES FOR FAST SPATIAL AND RANGE FILTERING. Jag har väl också sedan något år eller så egentligen accepterat att det snarast troligare handlar om cosinus-transformationerna (ex. snabba approximationer av vourier) än wavelet dr de senare kanske snarare är en omväg (jag var ganska övertygad om waveletäs innan det: varande upplevde jag elegantare för rum- och tidsberoende men vid den tiden hade jag heller inte prövat dem på större datamängder).


Och Laplace transform där ev. om jag minns rätt egentligen inte behövt plåga mig med dem på väldigt många år praktiskt att vi kanske kan se kopplingen till exponentiella fördelningar inom sannolikhet.


Intressant är givetvis också användning inom extremvärdesteori (och där aktuella fördelningar). Det är ju vad vi har när mängden typer som för språk fortsätter att växa ju mer vi samplar och troligt med fler tidigare aldrig sedda kombinationer tillkommande dagligen i vad dom humana-språk-genererings-noderna skapar på Twitter, Plos m.m. vi kan läsa in för att förbättra våra modeller. Ej väldigt otroligt alls har jag nod-språkgenererande här gjort just det.


Därmed inte sagt att jag just tror att något särskilt i naturen grundläggande finns just med Eulers-konstant. Den återkommande här har nog mer med våra approximationer eller ideal för sett att avbilda. Även om jag relaterat det egentligen själv alltid upplevt dom logaritmiska uttrycken - ex. relaterat dopamin-decay i våra biologiska neuronnät - som troligare (utan att själv försökt skatta det från verkligt data rörande belöning, inlärning, prediktion runt det från alla ap-försök med josbildningar m..m. utan edast språk) snarare än dom hyperbola-funktionerna. Inlärningsbias från att alltid ha använt dem och säkert aldrig en hyperbol sedan universitet kan ha inverkat där misstänker jag också (i någon mening bör det väl ändå tycker jag komma ner till nedbrytning av dom kemiska substanserna via enzym-system och det är ju domäner man också precis som informationsteori och språkanalys ligger i uttryck nära dom logaritmiska decay-funktionerna).


P.s.s. noterar vi citateet "The information entropy of the Weibull and Lévy distributions, and, implicitly, of the chi-squared distribution for one or two degrees of freedom." i Wikipedia. Och ytterst relevant här gäller - med viss risk att jag något mindre eller större fel i detalj - att betraktar vi uttrycket (jämför gärna den ev. skalning mot P(A) och P(B) att skillnaden mellan information rörande dessa och P(A,B) ex. användande Shannons-uttryck för information med:


H(A) + H(B) - H(A,B)


, där vi när vi multicerar värdet med antalet utfall samt ungefär 1.386 får vi Chi2-värdet för att avgöra om hypotesen att A och B är oberoende är rätt eller fel. Gamma distribution är förövrigt anpassningsbar skattande mänsklig-inlärning även om jag prövande fördelningsfunktioner på värden skattade med olika former av vikter (mina upp och ner m.m. görande det mer noggrant på de tio viktigaste) finns flera andra fungerande ungefär lika bra. Men kopplingen informationsteori gör det ganska tydligare såväl som att rent visuellt kan se hur vi kan forma både inlärningskurvan och sigmoid-kruva såväl som mängden typer när sample-storlek växter.

Snabb och mycket acceptabel smoothing för särskilda användningsområden inom natural language processing

2013-09-27

I NLP görs tror jag smoothing nästan huvudsakligen när P ( A givet B ) utifrån relativa frekvenser skattas. Antag emellertid att vi önskar betrakta P ( A,B) där vi vill se "A,B" som en symbol i sig och där utan att ordning har betydelse.


Antag vidare att vi skattar förekomst från olika corpus varierade i storlek, varierade i exakt vad vi samplar (jfr samförekomst i titel rörande detektion av fler-gram och/eller ord respektive samförekomst i taggar för artiklar i journaler).


Vidare gäller att vi ej vill se varje sample som vad vi sparar särskilt för enskild användning men samtidigt heller inte vill kasta bort den expertis det kan representera. Korrekt praktiskt har varje sample gjorts utvalt för att förstärkta där det ses meningsfullt i en övergripande grundläggande språkmodell i meningen hur språk speglas ner ex. i similarity-operationer eller när stöd där saknas rörande nya relationer (vi antar att vad vi här skapar byggs kontinuerligt vidare men smalare i typdokument som skattas: endast gårdagens nyheter fortlöpande vi uppdaterar med).


Vi har endast från resp. sample sannolikheterna att utgå från - därför att dessa filer är elegant samlat i en katalog på en snabb-hårddisk medan filer med själva antalen ligger spridda över tre eller fyra hårddiskar och skulle ta ej trivial tid att kopiera över till snabb-hårddisk - och önskar ej att mycket stora sample ex. från alla artiklars titlar i BMC och NIH eller United Nations dokument avseende olika rubriker skattat sekundär ej ska bestraffas för mängden typer oavsett per värde eller ngram ska reduceras abnormt (ca 8 - 16 GB styck) - eller internt Wikipedia-refererar-annan-artikel på antagligen cirka 40 GB eller mer (ej sammanfört en fil så det enkelt att räkna ut). Samtidigt vill vi ge erkännande åt att sample typiskt när optimalt rörande denna faktor ungefär 40 - 80 MB, och med medvetenhet om att vissa små-sample i mycket är mycket sämre värt än allt annat men just i sina unika områden kan addera visst värde.


Smoothing-målet här skiljer sig inte bara rörande detta från mer traditionell tillämpning där diverse mer eller mindre acceptabla algoritmer finns (vanligen med inte bättre koppling till distribution av typerna, token-antalet, eller informationsteori än grovt tumskattande på nivå med vad man själv kan komma fram till ex. lite linjärt skattande mellan antalen för saknande värde-antals-räknande och därefter beräkna lutning igen mellan resp. antal och humpa till något som oavsett hur föga optimalt med all trolighet är bättre fungerande än vad man "naturligt" får om man gör tämligen små samples), utan också genom därför att vi vill göra smoothing effektivt d.v.s. helst göra maximalt än beräkning per värde fortlöpande från givna värden snarare än att tröskla igenom varje rank eller kolumn.


Själva koncepten bakom tror jag alla vanliga smoothing algoritmer för traditionell användning ger oss att det rimligen är möjligt (jfr exemplet ovan för Good-Turing humpande med linjära log-skattningar i varje bak - rimligen görligt samlat ungeäfär lika bra som funktion av resp. faktiskt värde för resp. ngram-symbol).


Jag hade stora problem att se en bra lösning på det. En tyckte jag säre lösning jag annars använt fler år är att skatta från bl.a. max-värdet vilket när resp. mängd förekommande typer varierar relativt lite är funktionellt.


Efter reflekterande detta av och till flera veckor faktiskt där jag fått förkasta två lösningar jag var trygg nog i från små-tester att beräkna in (d.v.s. får räkna bort igen) hittade jag en vikt relativt funktionell rörande egentligen allt tycks det också om jag räknar med att behöva efter sammanförande av värde normalisera så att sannolikheterna summerar "rätt", förutom kanske 50 - 70 sample corpus behöva införa en extra där sannolikheterna för resp. PAB beräknas av PA * PB på hela, för att trycka ner outliers i små-corpus ej förekommande i övriga, samt ev. någon mer viktoperation (inte otroligt funktion av types avseende värden snarare än ngram-kombinationerna).


Vi börjar med att beräkna Hans-Faktor vilken är:


( 2 * ln ( ln ( types_ngram_kombination ) / ln 2 ) / ln 2 ) / ( ln ( types_ngram_kombination ) / ln ) )


Där vad vi dividerar med möjligen - även om jag ej tror det för Hans-faktor - kan vara kopplat en tidigare vikt (exakt samma) som tas bort fortlöpande på värden efteråt (lätt att tänka fel kring sådant tycker jag praktiskt och jag brukar få pröva upplever jag). Men jag tror divisionen ska vara där.


Detta ger ett värde som ungefär börjar på 0.39 för samples i storlek av cirka 300 - 400 MB (och om jag minns rätt neråt 0.32 för riktigt stora sample men som nu är utelämnade då jag ej är säker på att alla fått sina värden sammanförda vilka möjligen ställer skattningen av types ifråga vilket jag ej kontrollerat). Och cirka 0.52830 för det minsta samplet på endast 2.2 MB.


Hans-faktor utnyttjar vi därefter som smoothing-faktor. Önskar vi att kombinera väldigt få samples är det vettigare att använda den på detta sätt genom att styra hur mycket vi låter själva anpassningen av värdet vs. ursprungligt värde påverka. Här är emellertid utifrån våra särskilda krav viktigare att vi först (innan de indikerade senare operationer jag utgår från att behöva göra) att saker ligger i jämförbar magnitud utan att abnormt nervärdera stora samples (jfr Google 5-gram, NIH, UN m.fl. större) eller kasta bort expertkunskapen i mindre riktade sample (ex. Citeseer-X, DOE, NAP (alltid värd ett besök och givet samspel finanserande beställarroller d.v.s. the Congress, kvalitativt-oberoende och budget oavsett hur liten många andra datakällor rörande rå-dokument-storlek ett bra värde för långsamma faktorer vi kan önska få med kombinationer runt), Reuters välkända sample avseende endast titel- men ej ett parallellt jag gjorde själv spindlande som snarast hör till de stora om ej i närheten av UN m.m. - avseende endast titel medan om vi jag tagit ingress eller brödtext där hade de varit abnormt stora så klart - eller ännu mindre Google 5-gram men endast avseende rader uttryckta endast med stora bokstäver eller Eurostat's definitions-system avseende rubriker, underrubriker resp. varje stycke för resp. definition oberoende för resp.).


Vi gör nu brutalt hård - mycket mycket hårdare än jag hade tänkt och absolut egentligen inte gärna vill göra därför viss användning förlorar på det för övrigt lika gärna kan göras vid användning - filtrering på stopp-ord. Detta därför att en faktor jag tar in är min gamla vana att låta max-värdet påverka. Givet att datakällornas typ varierar mellan rubriker, ingress, brödtext, taggar, interna referenser Wikipedia, referenser science-articles m.m. varierar naturlig förekomst av stopp-ord ordentligt. De flesta stoppord ex. is, for m.m. är i vissa av dess typer av datakällor abnormt vanliga vs. ex. i taggar. Skalar vi som funktion av maximalt värde fas-förskjuter det brutalt out-of-sync mellan dessa d.v.s. stopp-filtrering på några hundra ord.


Därefter blir ev. kvarvarande naturliga out-liers missade under sample synliga (ex. emerican + ämnesområde för yrkesorganisation inom subområde i medicin vars journaler vi samplat). De bör väl bäst hanteras om man inte som jag tänker pröva om om PAB * PAB hanterar det nedtryckt men ändå speglande den samhällspåverkan och i kunskapsförvaltning dessa organisationer när värda att sampla kan argumenteras ha.


För implicit-etablerande för-smoothing finns också samples speglande de viktigare användningsområden det hela förbereds för. Ex. är en av alla sample ett falskt sample utnyttjande samförekomst i vänner i Blue light d.v.s. just där de färdiga värdena hanteras. Bättre hade jag egentligen antagligen där viktigast med Blue light intensity men eftersom Blue light precis uppdaterats från optimerat tämligen liten till stor (kanske 100 000 typer tlll för första två värdesiffror 11 miljoner) var det ej gjort och praktiskt tämligen tidsödande om en ej på nivå med detta. Det gör nu små-värden på alla kombinationer som förekommer där och trots att varje relation oviktat förekommer exakt en gång varierar de något därför att det är samförekomsten mellan vänner resp. nod har (indirekt en väldigt förenklad similarity-operation).


Blue light sample får Hans-faktor på 0.409666347738257 vilket eftersom endast beroende av typer - ej summa - endast speglar antalet kombinationer beaktade. Det avviker från hur jag egentligen hade önskat det med kanske större bestraffning neråt naturligt från början förväntat både av den och kanske 4 - 6 andra "smoothing-samples" där vikt av förekomst-antal är mindre viktigt än att relationen skapande ett PAB sample faktiskt förekommer verksamhets-, forsknings-, eller dyligt styrande i något ekonomiskt kostande eller predikterande sammanhang även om vi ej kan ge det ett viktvärde.


Kanske kan vi kalla denna implicit-etablerande smoothing för modern-fast-internet-smoothin? Mer styrt av övriga smoothing sample än just Blue light. De gör ju ett avsevärt bättre uttryck över en tänkt fördelning än mycket annat när vi för varje sådant kan se att det är en värde med "kontinuerlig-värde-vikt-mening" vettigt styrande tillämpningsområdets fördelningsfunktioner (ex. information retrivial givande en preferens större än rent skattade kombinationer därför att vi vet att det är tydligt samhällsinverkande faktorer och som därför förr eller senare ger avtryck i ex. nyheter - när något gått fel där - ex. dataregister lagar för myndigheter).


För varje sample identifierar vi nu max-värdet. För varje värde vi önskar vikta - till korrekt samarbetsgemensamt magnitud-språk - dividerar vi med max-värdet. Eftersom vi vill ge viss - i alla fall lätt grovt skattad - preferens till mindre sample därför att dessa typiskt bär större vetskap (jämför gärna med hur vi för samma bl.a. behöver reducera antalet tydligare ör ej uttryckt per relativ-frekvens i närmare traditioell användning därför att symboler / typer ej är resp. kombination: mycket enklare men mindre flexibelt användbart) multiplicerar vi med (1 - Hans-faktor) d.v.s.


(1 - Hans-faktor) P (nuvarande kombination ) / P (största sannolikhet över i resp. sample förekommande samples)


Notera ovan skillnaden mot om vi snarare görande det för färre sample-grupper och utan pre-sample-smoothing-filerna låter det värdera mot original-värde eller om vi så vill i distans från ett. Hade vi gjort så hade antagligen något del-moment efterföljande reducerats men hade kanske - tycks så för mig - minskat värdet av vår implicita-smoothing genom att sample stora kombinationsrymder inkluderande ex. i nyheter oftare mindre vanliga kombinationer men i själva samhällsstrukturens kunskapsbevarande representerande en viktig faktor fortlöpande påverkande nyheter vi ser givande bättre fördelning på smoothing ovanliga kombinationer mellan ovanliga A och B.


Och oavsett hur praktiskt tycks det elegant fungerande utgångspunkt bör vi räkna och utgå från att en faktor funktion av värde-förekomsterna (d.v.s. närmare entropi som funktionellt mer "core-human" än som indirekt approximerat via dess uttryck i vårt språk via ordens samförekomst) krävs.


Samt no doubt at all en vid sidan om totala antalet samples värdering med varandra till ett värde - bland dessa ej mer värderat än något annat - skattat PA * PB för att få bort abnorma out-liers topp 10 - 50 000 (givetvis oerhört beroende på sample-storlek: det tycks för mig att det praktiskt från att små-tittat manuellt i några mindre filer normalt snarast slutar att vara problem egentligen snarare topp tio till 20 bland de minsta och kanske aldrig är det när vi går över 40 - 60 MB men vi förlorar ej något om jag ej tänker fel på att anta att det sträcker sig ner åt 5% för genomsnittlig storlek på filerna d.v.s. 500 MB ungefär och topp 10 000 - 50 000) för resp. sample,


Hur som helst bra värden och mycket snabbt jämfört med de alt. genom att kombinera flera smoothing och back-tracking algoritmer mer anpassade ex. statistiska parsers för språk.


Sådant här bökigt brukar jag vara jag genom svagheter i min personlighet finna svårt att dela när jag löst när så konkret. Men här upplever jag vis av erfarenhet att en hel del för-viktande jag plockar bort antagligen påverkat en del i viktfunktionerna vilket korrekt utvecklande för ev. person att lösa samma sak bör ge åtminstone rätt utgångspunkt för en del personliga utmaningen hoppas jag. Problemlösning är endast korrekt samhällsbyggande långsiktigt när en sund utmaning och arbetsinsats finns och här finns helt säkert mycket lokalt beroende misstänker jag färdigt att explodera för mig nästa gång jag gör det såväl tillämpning här.

Gediget etablerat förståelse av komplexa tillämpnings- och problemområden är realitet för innovationens finansiering såväl som faktiskt leverande värde

2013-09-21

Att se i dimma där du inte såg innan tillräckligt energieffektivt eller snabbt nog för att det ska ha mening (minikravet är att du är före vad du ser i tiden).


Det kanske i detaljer lite mindre elegant uttryckt i detaljer reducerande min brand surface för ev. läsare önskade jag ha det publicerat för en personlig punkt i on-going versions-övergång plattform. En sampling av mig själv rörande humör och reaktion så att säga. Antecknande lokalt ibland spar jag det nära nog aldrig.


Vem vill inte ha allt egentligen i dom här områdena? Det är vad som förvånar mig mest. Antingen är horisont så trivialt smal förstådd
tycker man sedan densiner som language models, probability parsers, eller är det helt ute i det mindre troliga, riktigt dyra och samtidigt
saknade varje idé om vad man har det till (mer än jfr modellera hela människan få det att tänka med tio billioner dyra cpuer s.v.).

Men jag såg det alltid i allt i det praktiska och lösningen. Allt jag ser i alla fall. I mycket är det verkligen samma sak. Den sista och högsta domänen av de säkerhets-filosofiska domänen. Människans natur.

Men så finns en till som också ser det som jag. Jag minns det dock aldrig förr så elegant sammanfattat ner i punktlista för applikationerna för den som förstår ner i vad som sgs resp. på den andra vad man tror kan levera i del-teknikområden.

I övrigt är det alltid ditt och datt med ett alg.nära delområde. Sådant man väljer ut och anpassar från en abstrakt modell man formar till tillämpningar. Kanske är det inte bara från preferens i personlighet och som konsekvens över de mängd områden jag genom åren vidrört och än bevakat eller skrivit redaktionellt om utan även ett subkulturellt problem vi någonstans fått vanligare nu än längre tillbaka. Jag tycker mig se det i skillnad mot 1960-talet men kan ta fel. Inte helt lätt att jämföra när den tidens vetskap kommer filtrerad och kompilerad ner till oss medan nutid är bara samplande ut Biomedcentral för collocations mellan resp. fler-gram för i bas-fil titlarna hamnar på cirka 14 GB data.

On-going topic ska väl heller inte alltid uteslutas av samma anledning när jag nu sedan ganska länge med tydligare början tidigt 2011 adderat humor - om än numera med endast mini-datorn ansluten till näten vanligen gör den föga visuellt acceptabel.

Vem vill inte ha allt egentligen i dom här områdena? Det är vad som förvånar mig mest. Antingen är horisont så trivialt smal förstådd tycker man sedan densiner som language models, probability parsers, eller är det helt ute i det mindre troliga, riktigt dyra och samtidigt saknade varje idé om vad man har det till (mer än jfr modellera hela människan få det att tänka med tio billioner dyra cpuer os.v.).

Men jag såg det alltid i allt i det praktiska och lösningen. Allt jag ser i alla fall. I mycket är det verkligen samma sak. Den sista och högsta domänen av de säkerhetsfilosofiska domänen. Människans natur.

Men så finns en till som också ser det som jag. Jag minns det dock aldrig förr så elegant sammanfattat ner i punktlista för applikationerna för den som förstår ner i vad som sgs resp. på den andra vad man tror kan levera i del-teknikområden. Och utan att man egentligen riktigt såg det närma sig börjar man få en känsla av att man närmar sig domänerna man för evigheter började med före 2000 och krypteringen.

I övrigt är det alltid ditt och datt med ett alg.nära delområde. Sådant man väljer ut och anpassar från en abstrakt modell man formar till tillämpningar. Kanske är det inte bara från preferens i personlighet och som konsekvens över de mängd områden jag genom åren vidrört och än bevakat eller skrivit redaktionellt om utan även ett subkulturellt problem vi någonstans fått vanligare nu än längre tillbaka. Jag tycker mig se det i skillnad mot 1960-talet men kan ta fel. Inte helt lätt att jämföra när den tidens vetskap kommer filtrerad och kompilerad ner till oss medan nutid är bara samplande ut Biomedcentral för collocations mellan resp. fler-gram för i bas-fil titlarna hamnar på cirka 14 GB data."

Och också om jag av och till korta minuter inte helt sällan störs när jag ser som här big spender investerande brett och djupt än lite mer - eller gissar jag mer än så - når jag snabbt nog numera innan timmar till en förnöjsamhet över det. Det har alltid bakåt åren givit värde - också när vi vänder helt på dimman vandrande forskningen och datat bakåt av vad du delar - och mer indirekt från att ha samplat i bred mening av samarbetet så att säga. Vad man publicerar, var man satsar pengar, där man ser problem, avståndet i statistikens närhet mellan koncepten till agerande, och kanske mer än så.


Här är det dessutom tillfredsställellse att något sen mot min planering havande lite av big data hanterings-problematik krävande en del utveckling för en bättre lösning än Berkley DB trevligt att se där jag nu som förr lättare ser att man klarar från antar jag kunskapstradition i segmentet såväl som närhet till konkreta behov i bredd se tillämpningar att notera att man mer eller mindre - några delområden jag givit tid i detta saknande - men annars mer eller mindre komplett. Vi vår se om jag tittar mer på det där jag kan se viss organisatoriskt värde för egen del när jag avslutar en interaktion att roa mig med att sända det ett förslag - oavsett annat ger det ofta en bättre dokumentation när gör det mot extern-entitet där man vet att det bedöms och det kan spara tid och pengar år efteråt. Och också om jag kanske ej gör det känner jag tror jag ett par värden jag vid tillfälle ska ta och uttrycka här framöver. Det balanserar tror jag sunt en del av värdet forskning m.m. givit mig.


Big spenders i den här domänen tenderar gärna också konvergera till samma koncept. Vad du ser är verkligheten i din markov-värld med en aning naiv (statistiskt utgångspunkt). Mindre fog och du kanske ser några till. Eller om du vänder dig om.


Inte bara matematik: Koda parsers passar kvinnor och barn bättre än män

2013-02-14

Vi vet alla att träna arbetsminne är nyttigt för barn och att framtiden kommer kräva matematik av allt fler:


"Now, being on the other side of the divide, I see something that concerns me. I regularly TA undergraduate and graduate students in statistics, and I notice that many of them, while they have all the skills to do math, are absolutely terrified of it. And as soon as you fear a subject, or don’t want to learn it, you won’t. Your mind will shut down and every instinct you have will prevent you from engaging in the material. As a result, I spend the first hour of any class I’m teaching talking to the students and determining what it is they don’t understand to tailor my sessions accordingly."


Från: Mathematical Literacy: A necessary skill for the 21st century | blogs.plos.org


Också relaterat matematik:


För varje kvinna som vågar stå upp för sig själv och sitt kön är matematiken närmast ett tvingande ansvar som betydelsen varje beräkning innebär för framtidens värld gör mödan värld.


Få saker skulle glädja mig mer både som man och feminist att kunna lämna över allt detaljerat i matematiken till en kvinna och kanske några examensarbetande studenter. Det har varit något av en dröm för mig länge att både göra något bra för världen genom att lämna över matematiken och samtidigt lämna det detaljerade min organisationsförmåga har större avstånd till än det kreativa och att se möjligheterna i verktygen och vad som går att göra.


Efter att ha skrivit cirka 1/5 av chunk-parser klart ca igår och idag efter att ha givit upp på Collin parser (se också Google googlar med Google-NGRAM: Antalet indexerade sidor fel) skulle gå att optimera tillräckligt snabb vilket var vad jag egentligen ville ha tillsammans med LPost: Perl version of Brill's Part-of-Speech Tagger (helt ok Brill-tagger för Perl: Inte ett problem sedan jag först testade den och ganska snabb) under min par är det lika - mycket mer rent av - tydligt för mig att skriva parsers low-level är tillsammans med matematiken vad vi män när möjligt bör ta ett steg från och lämna över av till kvinnor och barn.


Få kända parsers - om någon alls jag träffade på - är skrivna av kvinnor. Och av de mer kompletta lösningar saknar de alla kvinnans naturliga energieffektivitet. Tar jag in venture senare i år eller nästa år ser jag gärna att ett par kvinnor anställs för matematik resp. de mer råddiga delarna av parsningen. Gärna med en bunt barn hemma som de kan sitta och räkna hemma med på kvällarna för att bibringa dem skarpa exempel på verkligheten. Därigenom vinner affären extra arbete, barnen får starkare arbetsminne och blir duktigare i matematik och kvinnans annars höga känslghet för att slitas mellan hemmets och karriärens krav hanteras genom att det blir lite samma sak och med stöd av hennes familj. Har man kul så räknar man! Eller skriver parser-kod! Och inget nöjes-räknande eller -kodande utan samhällsviktig tillväxtskapande räknande och programmerande. Precis vad riket behöver.



Det oroar mig egentligen att jag ska verka dum som är så här rolig kostnadsfritt. Komiken om kanske inte just här men av och till ligger på nivå med det bästa som produceras just nu i världen. Men jag tycker att mina läsare kan behöva det. Ofta när jag fått e-post genom åren har det varit tydligt att många av dem är väldigt tråkiga. Dessutom trots att de svenska rikedomarna växer relativt t.ex. EU just nu klagas det ständigt över krisen. Att ge något fint till alla svenskar som sparar in stora summor i resor och biljetter samtidigt som det är en kontinuerlig glädje kanske högre ger mig verkligen glädje.


Men för att lämna det mer komiska kan en kort diskussion om varför jag skrev (och skriver ett tag till troligt: kanske klar torsdag) parsern liksom en kort status på nuvarande dataimport som skett (bl.a. därför jag inte nyhetssamplar engelsk-språkområdet riktat Asien vilket är planerat för nästa större intensiva nyhets-sampling).


Området är egentligen vad som intresserar mig mindre. Det viktiga för mig är att använda det för att ta ut bra data från artiklar och nyheter samtidigt som jag kan filtrera hårdare. I princip önskar jag att ta associativa relationer förnärvarande begränsat förutom "långtidsminne" från do (d.v.s.v titel, ex. abstract m.m.) till att klara att kunna lyfta tillbaka ett äldre koncept där relationer kan bildas också i describe (d.v.s. artikel-text mellan koncept där och därifrån också till koncept verkande som describe till do som ligger abstrakt ovanför flera ex. artiklar, samt också från resp. describe till de koncept som ligger i dokumentets do).


Nuvarande parser-lösningar jag använder är uteslutande självorganiserande och bygger på delar av modellens grund-koncept både abstrakt och konkret modell, och den klarar av detta excellent och troligt med mycket bättre än vad resultatet blir efter den här typen av parser-drivna filtrering införts men även om så endast teoretiskt eftersom komplexiteten genom att det befintliga konceptet i sig inte per artikel kan göra någon intelligent filtrering genom att regelbaserat minska ner datamängden blir det brutalt minneskrävande när dessa fler typer av associationer mellan aktiverade koncept följs. Det kan lika lite mina datorer som några andra i Sverige klara av (snarare helt utan filtrering så skulle en extremt stor grid behövas om samplingsperioden inte är mycket kort: vid cirka 40 - 80 dagar bottnar vi nog ut Sverige och minna datorer vid cirka 5 - 15 dagar - exponentiell tillväxt). Jag tror också att det faktiska värdet man tappar genom att man inte klarar att uttrycka den kunskap självorganisationen representerar är tämligen begränsad genom att man också kan prioritera in att vara noga med att koncept man faktiskt är intresserad av tas med.


Samtidigt parallellt har jag förberett för en ny version av Blue light som återigen tillåts gå upp i antal koncept. Prioriterat var dels Visual light som fungerar som ett mer fristående system. Cirka 300 000 koncept med cirka 3 * 4 000 000 relationer ligger efter uppdateringen i Visual light, och med statistiskt samplade associationsmått mellan varje relation.


Visual light kan vi se som ett extra stödsystem för att klara av "bakgrunden" till händelser, kunskaps-koncept m.m. som förekommer varierat över denna. Konceptet som mindre formellt beskrivs i Fokus vs Kreativ torde ändå bra förklara ungefär vad det handlar om.


Själva Blue light har kompletterats med fler termer, fler relationer och viktigare sattes stort fokus på att komplettera statistiska associationsmått resp. skattningar för de enskilda koncepten i common sense. Totalt cirka 600 000 nya koncept relaterade biomedicin, statistik, fysik, sociologi m.m. Dessutom är det möjligt att ytterligare 50 000 - 300 000 koncept relaterade biomedicin, neuroscience och genetik tas in som gjordes klara inför förra uppdateringen men bedömdes då en aning för "isolerade" i relationer mot befintligt men som nu givet övrigt kan fungera bra att ta in. Koncept och relationer i common sense d.v.s. personnamn, företag, varumärken, organisationer, geografiska platser, föremål, fordon, astronomiska koncept, kemiska föreningar m.m. är totalt ca 30 000 000 st.


För att komplettera associationsmått mellan koncept används publicerade utredningar, böcker, rapporter m.m. relaterat US government denna gång (samt från förra gången men då ej importerat in US military). Förutom politiska organisationer som ser viktiga att försöka ta med varierat vid varje uppdatering är publicerad forskning alltid viktigt. Närmast tidigare i det större använde jag sist CiteseerX. Denna gång återvände jag till Plos som genom den höga kvaliteten med god kvalitet just på de forskningsområden som intressant rör sig både i det kortsiktigt uppmärksammade och i områden med långsiktigt värde och denna gång genom att jag tar ner alla deras publicerade artiklar och kommer extrahera den statistik jag vill ha med det nya stödet som parsern skrivs för så blir den realistiskt testad samtidigt. Det är totalt cirka 78 000 artiklar men även om detta corpus inte är enormt stort räknar jag med att det kommer addera gott värde för många för prediktion innovation viktiga relationer andra större corpus inom vetenskap jag har tillgång till.


Jag hade också hoppats ta ner Arxiv.org men tror jag stannar med dom redan nedtagna eller pågående (fler än nämnda). Där hade det i så fall också blivit endast abstract då jag knappast hade använt PDF-parsern (jag ogärna använder när formatet på pdf-filerna är varierat utan de ska helst vara från samma publicist och se lika ut).


Det finns en hel del bloggat tidigare om datakällorna bakom en del av common sense databaserna bland annat:


Google: Kvalitetsproblem och Statistik samförekomst koncept: Enkel metod för att förstärka värdet statistik från generellt språk ger vid tillämpning inom specialistområden

2012-12-05

Eftersom det "konkret" känns som att jag kan få en del nytta av studien diskuterad i inklusive. ev. två referenser (en jag ej sett indikerande något intressant och en jag vet är intressant men totalt glömt bort och ev. ej utnyttjar indikerat värde) ska jag för gott karma och också balansera läsarens bild av mig så att inte bara den fördomsfulla komikern ej främmande för att girigt glädja sig själv med vulgariteter bidrar jag har med ett enkel men mycket potent möjlighet för att kompensera för en av de största statistiska utmaningarna i lingvistik och data mining bredare.


Samtidigt för att inte bara visa upp den generösa själen som inte är rädd för att verka omanlig genom att dela med sig av sin kunskap och med kirurgisk exakt rocket-science skapa möjligheter för vanliga människor att lösa avancerade problem, är det viktigt att jag understryker det kalla affärssinne - likt vargskräcken innan elnätet kom bland mina konkurrenter eller "fiender" jag brukar kalla dem - genom att göra karma balansering på svenska istället för engelska och därmed utesluta de flesta läsare (kan gudinnorna och gudarna värdera ner dig för att du använder språket från landet där de lät dig födas? Knappast så jag lär få min karma belöning trots det) och genom att ge kunskapen som en bild så att den ej blir allt för enkelt tillgängligt för alla som söker information (människan är ett flockdjur och det är rimligt att anta att det också är gudinnans större plan med människan och därför att riktat bidra lite extra till den egna flocken bör även om det skulle visa sig felaktigt knappast när det är så pass rimligt minska karma-belöningen). Och som bonus för mina läsare visar jag i mötet mellan på en sidan av vågskålen (en vågskål jag med kompetent medmänskligt affärssinne sätter handen på för att alltid få vikterna att komma rätt) karma tillsammans med en spirituell balans där vi vågar ge och på den andra det evolutionärt riktiga mitt kallt-beräknande höggradigt effektiva sinne, tillsammans den moderna företagsledare världen idag söker både som problemlösare och förebild. Ett bonus-värde som bör förklaras för att alla ska förstå är att här skrämmer jag dessutom upp Google - särskilt medarbetarna med alla deras optioner som i ett feldrag av företagsledningen öppnat upp dem för denna typ av påverkan - genom att demonstrera vem som är alpha-male i deras kompetens område. De vet att om de springer över min fot kommer snart en kraftfullare sökmotor - kanske beskyddad genom en väpnad samling karma av rent av övernaturliga varelser - som klarar mer än 1-grams prediktion.


En utmärkt sammanfattad diskussion om problemområdet vi här ger en enkel lösning på finns i Foundations of Statistical Natural Language Processing. Ännu kortfattat gör språkets enorma flexibilitet och kreativitet att vi alltid lider svår brist på statistik om ord, koncept, deras relationer o.s.v. I lokala NGRAM på nivå samexistens i en mening är problemet för språk allmänt tämligen begränsat för varje person med tillgång internet och en modern dator.


När vi också behöver statistik om relationer mellan koncept på längre avstånd än några ord bort expanderar snabbt mängden data vi måste analysera. Sista försöket att uteslutande generera sådan statistik (typen P ( koncept A tillsammans med koncept B | kontext ) ) uteslutande från data som fanns lokalt på min dator inkluderade om jag minns rätt totalt 90 Giga byte data från bl.a. CiteSeer-X, flera av de journaler som publicerar fritt, Wikipedia och flera taxonomier och thesaurus i områden som kultur och geografi. Statistiken från den genereringen kastade jag bort därför att datamängden var ej tillräckligt för att ge ett värde jag inte redan hade.


Efter det för att bygga grund-plattform avseende statistik samlar jag istället in den direkt eller indirekt från närmare "allt" människan publicerar på nätet (faktisk metod är väldigt komplex inbegripande många frågeställningar att diskutera så jag avstår nu och helt säkert för all överskådlig framtid att diskutera hur jag gör förutom ett indikera en av ett större antal metoder eftersom jag tidigare nämnt den d.v.s. "indexeringen" av Department of Defence, USA, all publicerade forskning, rapporter m.m. tillgänglig på webben avseende nyckelord bedömt relevant). Samt ta in djupare statistik för avgränsade områden bedömda viktigare (ex. relaterat publicering av visuella uttryck som bilder, filmer, konst o.s.v.).


Nackdelen med sådan allmän statistik är den är optimal för att efterlikna den genomsnittliga människan. Inom specialistområden är den mindre bra. Metoden för att extremt mycket bättre dra nytta av denna statistik också för specialistområden finns kortfattat förklarad i bilden nedan (skärmdump av kod-kommentar). Klicka gärna på bilden för att läsa lösningen (punkt tre byggd från punkt två innan).



Genom att använda similarity där värderingen av feature relationer mellan ett koncept och andra koncept är utvalda från förståelse av kunskapsdrivna relationer (ej ett svårt problem p.s.s. rörande datakällor) och med värdering av features bland annat genom existerande P ( A | B ) statistik, tillsammans med ett intensitetsmått som korrekt värderar och skattar dom relationer vi utnyttjar (för att "skala" världen rätt så att säga mellan avbildningen i feature relations relativt statistik för co-occurance), får vi en praktiskt fungerande motsvarighet till P ( A | B ) vi kan använda på ungefär samma sätt med hög kvalitet för relationer vi annars hade saknat meningsfull statistik för. Värdet ligger ungefär på nivå att för områden välutvecklade i antalet feature relations klarar denna algoritm av att skatta P ( A | B ) värden i direkt frekvens på nivån att det inte behöver ligga mer fel än ofta cirka 2 gånger rätt svar (vilket kanske är ungefär felnivån för frekvensdatat ett steg åt vänster så att säga d.v.s. inverkande på första värdesiffran emedan normalt fel ligger i andra - i båda fallen när vi gör väldigt försiktigt konservativa datakvalitets bedömning).


En begränsning av metoden jag ej teoretiskt varit 100% säker på och därför själv på flera sätt försökt komma runt är att statistiken vi förstärker värdet av i specialistområden i "typ-form" behöver stämma med användningen. Är vi ex. intresserad på samexistens i ett kontext behöver det vara sådan statistik. Eller mer konkret för mina användningsområden har Google NGRAM där statistiken kommer från mycket lokala kontext nere på meningsnivå ett mycket begränsat värde (ett undantag finns från det som jag teoretiskt heller inte fullt förstår även om det mycket troligt är relaterat till konvergens per ord relaterat mening diskuterad i Ord som konvergerad mening: när varje koncept är 1-gram och relationerna mellan koncept vi söker är mycket nära normal thesaurus fungerar åtminstone 3- och 4-grams statistik utan hänsyn ordning och utnyttjande av hela ngrammen för statistik generering utmärkt när vi normaliserar för koncept existerande snarare än alla orden).


På samma tema som begränsningen av möjligheten att ta "lokal" NGRAM-statistik vidare ligger spekulativt en vad jag upplever sedan ett antal månader försämring av hur väl Google för specialistområden klarar att prediktera nästa ord i sökrutan (något jag använder väldigt ofta som del av hitta tillbaka till saker, rättstava, komma ihåg vad artiklar heter o.s.v.).


Möjligen kom den upplevda försämringen ungefär samtidigt som Google också blev konkret bättre på named entity recognition jfr exemplet nedan där de förstår att Department of Defence som sökord är samma sak som DoD i Common sense: Arkitektur.



Vad är problemet jag upplever med Google här? Att prediktionen övervärderar statistik från co-occurance i meningsbyggnad och lokala relationer på meningsnivå. Ev. har Google blivit bättre på detta men om så är det egentligen ingenting jag märkt då jag mer sällan söker på det sättet. Rättstavningen jag använder detta till också upplever jag var bra innan och är inte bättre på länge på något sätt jag märkt.


Däremot upplever jag mer säkert har istället prediktionen för sökordskombinationer när vi ligger närmare vad som motsvarar statistik av typen här diskuterat blivit sämre. Ex.
sökords-koncept från olika kunskapsområden men relevanta i något sammanhang, viktiga koncept från i näraliggande kunskapsområde höggradigt relevanta ex. för en forskningsartikel man söker hitta tillbaka till (ex. ett begrepp i titel tillsammans med en eller två samma eller motsvarande studiens taggar journalen publicerat den med)


En intressant fråga är om samma försämring också gäller samma typ av sökordskoncept men inom populärkultur (eftersom det där är givet att ordentligt med statistik direkt från sökningar finns). Det har jag ej kontrollerat. Ändå misstänker jag lätt att en delorsak till förändringen jag upplever är att Google värderat ner statistik från faktiska sökningar och tagit in NGRAM-statistik.


Ett förenklat exempel på tror jag samma problem som inför diskussionen om vad vi kan lära från det här bättre tydliggör har vi från när jag söker på ANEW. För 2-gram a new gäller att associationen mellan 1-gram a och new är enorm: vi skriver väldigt ofta a new. Att som Google direkt tolka om till a new (här utan kommentar ev. relaterat att de är så säkra på att jag skrivit fel eller att a tidigare hos Google var stopp-ord och fortfarande är det för en del men inte alla algoritmer) är dock helt fel eftersom vad jag söker efter heter just ANEW. Och det är dessutom vad jag sökt efter flera gånger och på bloggar identitets-bundna till samma konto jag söker med skrivit om medan jag aldrig sökt efter a new och såvida det inte är en populär film eller bok tvivlar jag på att särskilt många andra heller gör det. Ex. Plos One klarar dock utmärkt av sökningen.


Google tolkar anew helt felaktigt och ger irrelevanta sökresultat. Förutom första sökordet när site:edu får hjälpa till är inget av sökresultatet topp-tio vad som avser konceptet jag sökte efter.
Fotnot med kommentar till sökresultatet: Resultat tio är särskilt intressant: Constructions: a new theoretical approach to language. Så vitt jag såg avser artikeln ej något relevant ANEW men tycks ju åtminstone ligga nära i kompetensdomän. Gissningsvis speglar det att Google här använder statistik från mina tidigare site:edu sökningar eller sökningar bredare indikerande att sådan statistik ännu kanske bara får utrymme kompletterande på låga positioner ev. oftare när tvetydighet eller omtolkningar görs.

Att Plos ger relevanta sökresultat bör ej förklaras med deras som publicist flera världsledande journaler stora kunskapsbank relaterat forskning. Det ska här ej göra någon skillnad eftersom de publicerar fritt för alla att indexera samtidigt som det kontext vad de publicerar beskriver ligger mycket nära vad jag söker efter många gånger mer eller mindre dagligen.


Plos ger relevanta sökresultat.

Och för NGRAM-statistiken att de gått in i (menar en del t.ex. jag) myten om att NGRAM-statistik byggd över längre NGRAM ej adderar något värde. Längre NGRAM-statistik adderar ej värde enligt användning motsvarande beskriven i de studier som konstaterat att värde bottnat ut vid 5-gram och att värdet 5-gram ger framför 4-gram är ytterst begränsat. För hur folk namnger webbsidor, kombinerar sökordsområden o.s.v. är det dock givet att värde finns att hämta ordentligt för tydligt längre NGRAM också när tillämpningen primärt är som nu närmare meningsbyggnad. Jag inte tror men känner ibland att statistiken heller inte är 4-gram, och kanske att de ofta för att optimera och göra prediktionen väldigt snabb endast utnyttjar 1-gram och om algoritmen tror sig ha fått en tydlig träff nöjer sig med det. I så fall kanske problemen helt eller delvis har att göra med att man för flera sökordsområden faktisk inte i 1-gram och 2-gram kontext kan bedöma om prediktionen man där gjort är så pass tydlig att statistik från längre NGRAM ej behövs tillsammans med hänsyn till NGRAM-bakåt i sökord avseende samma sökning tillsammans med föregående närstående sökningar indikerande kontextuell domän (mest konkret när indikationer att användaren ej kommer rätt ändå uttrycka en ungefärlig mängd där tidigare sökningar troligt uttrycker relevant similarity i meningen att vi kan avgränsa i kontext och över flera förfrågningar dra slutsatser pekande mot vad som är rätt ungefär som named entity exemplet men i sökrutan istället för indexerade dokument och som slutsats skapad från ej lokalt data).


Frågan är vad motivet till förändringen är om orsaken ligger högre upp mer konceptuellt? Kanske att Google i så fall försöker optimera värdet all statistik för ord som lexem kan ge inom områden som ligger längre ifrån deras kärna (också i meningen att ex. deras anställda neurologiska experter kanske har mindre erfarenhet av språkanalys). Förutom Google NGRAM jag ej vill utesluta att de använder till sådant här kan det även gälla statistik som MRC Psycholinguistic Database eller ANEW (som välkända exempel men ej för ANEW rekommenderat utan åtminstone kombination med annat data och dimensionsförändring, och vidare gäller att deras mer begränsade publicering av datat gör att färre använder det vilket medför att kvalitetsproblem mer troligt kvarstår - jag känner själv till problem de från perspektivet psykologer ej insett att de gjort - jämförbara med vad som upptäckts i mycket annat liknande efter att de började att publiceras fritt). Personligen tror jag att det är ett misstag delvis relaterat vad som diskuterades i Abstrakta och konkreta koncept (diskussion: "The semantic richness of abstract concepts") rörande behovet av att transformera och/eller konvergera från ord till ett meningsfullt övergripande koncept för att klara att ta värde i ett dokument vidare ut från det (sökning i eller efter ett enskild dokument har ej varit ett svårt problem på flera år annat än för optimering av CPU, minne och hårddisk när budget är begränsad), också därför att jag sedan flera år har ett starkt bias mot att hellre se koncept - 1-gram, Ngram, bild, foto, konstverk, varumärke, byline... avser det samma sak är det lite av men inte exakt samma sak - oavsett representation snarare än ord:


"Att i sig utnyttja emotional potential eller för den delen egentligen allt tänkbart data som kan härledas från free-association norms m.m. liknande per ord statistik (se ex. MRC psycholinguistic database för ett antal trevligt samlade) är praktiskt för ex. nyhetsanalys väldigt meningslöst under förutsättning att vi ej också i motsatt riktning till hur övergripande mening påverkar lokal konvergens till mening kan göra en transformation av vad dessa samlat i ett kontext indikerar om tolkning och betydelse för den övergripande mening kontext konvergerar till (ett trivialt exempel kan vara vad en Wikipedia sida handlar om som mening övergripande kontext konvergerar till i betydelsen av hur vad som sägs på sidan påverkar läsarnas attityd, tolkning och förståelse av det övergripande konceptet).

Ett parallellt till både Blue Light Intensity och Emotional potential också använt är News Power som indikerar den emotionella tyngden (angenämt, otäckt m.m. i den dimensionen oavsett typ som ökar känslan i ett ämne eller en text), För alla tre (och många andra dimensioner också nödvändiga) görs just en transformation till övergripande koncept."


Kortfattat: Vilken mening med i ett visst situations-kontext "överför" ex. bilderna i en Wikipedia artikel till det koncept hela artikeln handlar om för personer i ett visst kultur-kontext och med vilken sannolikhet?


Hela den här diskussionen är ju dock uteslutande från mitt perspektiv. Vad som är optimalt för de flesta eller inte otroligt nästan alla användare av sökmotorer har jag ingen aning om. Och inte heller är detta särskilt viktigt för mig (jag är snarast mer "engagerad" - i modern jag bloggade om det en gång mening - i diverse inställningar Google inte klarar av att göra ex. addera Scholar bland övriga sökmöjligheter och göra gränssnitt från Scholar till övriga Google samma som för alla andra sökfunktioner istället för att de har kvar ett nu flera generationer äldre gränssnitt, sätta längre videoklipp som standard givet att jag aldrig annat än av misstag sökt på något annat m.m. liknande som mer regelmässigt stör mig av och till periodvis dagligen liksom att addera rankningsbelöning för att man tar sig tid och ger Google kritik och indikerar problem m.m. för att demonstrera att de välkomnar sådant och inte döljer bloggpostningar långt ner ex. här ge denna första platsen säg tre veckor på några viktiga sökord som Google, Statistik och Språk eller vad som nu bedöms relevant).


Relaterat

För den som vill lära mer om området eller oavsett kunskapsdomän helt enkelt inspireras av ett för bloggpublicering välgjort koncept inom Freedom och Knowledge Sharing inför ett eget projekt rekommenderas:


Vad kategorier är: Från kulturell-likhet med Sverige i siffror till ConceptNet och Taggar

2012-11-04

Jag beslutade mig för att importera in delar av relationerna i Conceptnet 5 (MIT.edu) (föredömligt välorganiserat data jag verkligen rekommenderar som vettigt tidseffektivt) för att komplettera befintlig Common sense enklare genom tydligare dataforma än direkt från den ursprungskälla jag egentligen är intresserad av och som är en av de datakällor Conceptnet använt.


En stor befogad frågeställning oavsett om man är intresserad av analys av text och data i datorer, eller följer neurovetenskapens forskning med nära avbildning av hjärnans reaktioner för vad som bl.a. kan tolkas vara kategorier är vad kategorier egentligen är.


Jag erkänner inte kategorier i min modell vilket gjorde Conceptnet 5 intressantare eftersom MIT nu principiellt tycks ha övergett idéen om att relationstyper såväl som själva "symbolerna" ska beskrivas genom ett fast antal. Istället kan godtyckliga - vilket i stort antal redan skett - relationstyper införas: "conceptnet" site:conceptnet5.media.mit.edu/web/r/.


Frågan är då hur jag hellre vill tolka kategorier? Att se dem som något som bär egenskaper enligt hårda regler - liknande de exakta definitionerna filosofiska arbeten inom ontologi ofta uttrycker - stämmer dåligt med hur vi vet hur vi själva uttrycker kategorier i olika sammanhang. Närmare sanningen tror jag att vi kommer om vi utgår från hur människor i allmänhet ex. bloggande använder taggar.


Viktiga motiv för taggning är att organisera postningar för skribenten själv resp. läsaren där fördelningen mellan dessa två målsättningar kan variera ordentligt.
Gemensamt för dessa är dock inte att beskriva hårda regler för vad som inkluderas utan praktiskt organisera informationen.


Systemets som skapas den vägen kan självklart ofta över tiden bli svårhanterat rörande organisation men jag tolkar att det normalt inte endast är konsekvensen eller ens primärt av ett stort antal icke-logiska taggar utan snarare att skribenten eller läsaren inte sett en viss tagg i kontext av aktuella postningar en tid och att dess association till exempel på vad den är liksom att bara indikera att den finns inte enkelt presenterar sig när vi hade haft nytta av taggen för att hitta information.


Den problemställningen är dock ganska generell för allt data människan producerar mer eller utan mycket noggrant genomtänkta system och vad som mer allmänt kommer ner till ett problemområde bäst hanterat via sökmotorer. Det är helt enkelt normalt lättare och mer stabilt - inte otroligt bättre fungerande - att se problemet som givet bl.a. taggar men också annan information som vad som bättre blir löst kompletterat med en sökmotor än genom en mycket noggrant användarvänlig flexibelt-uttryckande kategorisystem. För denna att faktiskt utnyttja informationen från taggar / kategorier begränsas inte av att det ska vara aktuellt i sinnet på det sätt begränsade oss själva.


Detta sätt att se på kategorier ligger givetvis nära flera fenomen kända från psykologin rörande hur vi tenderar att associera.


En del av som ibland beskrivet konceptet kategorin man kan uppleva att detta inte förklarar är vår förmåga att bibehålla kunskap om vissa relationer starkt utan att det är aktuellt. Ex. kanske uppdelning herbivorer och carnivorer.


Emellertid gäller att inlärning kan ske också genom skapandet av över tiden mycket stabila relationer. Dessa behöver inte skapas genom ett långsiktigt realiserat rationellt värde d.v.s. utifrån att vi faktiskt behöver dem många gånger och därför slutligen lär oss dem stabilt. Utan de kan skapas genom kortsiktigt rationella motiv som "tvingar" fram motsvarande samma repetition för att uppnå något inom den närmaste tiden även om vi kanske aldrig får någon nytta av det. Sådan kunskap lär vi oss massor av medan vi går i skolan.


Något jag tycker värt att peka på allmänt kring common-sense lösningar oavsett ConceptNet eller något annat är att syftet rimligen ska vara att common-sense ska lösa problem och inte begränsa lösningar. Vad ordentligt med applikationer och exempel i olika sammanhang jag träffat på senaste åren missar på här är att de utgår från vad ex. relationer de har common-sense för i ett ramverk för att lösa ett problem där de egentligen inte hade behövt common-sense på den nivån. Problemet med det är att common-sense kan vara ganska dyrt och kräver man mer common-sense än lösningen fodrar reducerar man kvaliteten på svaret man får därför att mindre data utnyttjas än optimalt.


Jag ser det ex. inte som ett problem att jag samlat med lösningar skapat själv från Wikipedia resp. , och m.m. endast kan förklara annat än statistiskt rörande förekomst inom olika ämnesområden eller statistiska samband av typen P ( koncept A givet koncept B) via common-sense kanske 1/3 av relationerna i Blue Light.


I fler algoritmer fodras inte den dyrare formen av common-sense och hade jag trots det krävt den hade beräkningarna konkret blivit sämre. Särskilt blir de sämre i komplexa områden relaterat avancerade forskningsområden därför där är det oerhört mycket svårare att arbeta med common-sense koncept som is-a m.m.


Följande är ett relaterat exempel på det jag tog från ett förarbete till en kravspecifikation relaterat import bl.a. avseende delar av ConceptNet där delar av ett exempel för att illustrera värdet mer data ger illustreras. Värdena för similarity ligger i [0,1] och kan via vikter som sannolikheter i olika domäner rörande association mellan subjekten för relationerna och själva symbolen översättas till statistisk-betydelse i verkligheten. Jag gillar att man från similarity skattningar kan beräkna vad det innebär i faktiska förekomster av något eller en kombination av symboler. Det gör både tillämpning och quality assurance via prediktion så mycket enklare.


Fint illustrerat av hur kulturellt lika följande entiteter är med kulturen Sweden, Stockholm, Science och Baltic Sea. Att sätta i relation till de direkt skumma numeriska värden Concept net levererar för similarity eller beliefs skattningarna Nelly gör.


Symbol Släktskap Släktskap * ( 1 - BLI(Symbol) )
Sweden 0.716049948945941 0.608697891756309
Stockholm 0.716049948945941 0.704932249476218
Germany 0.370120714497302 0.214885518837722
Berlin 0.368597504473908 0.342686280662257
France 0.325635056508147 0.165064851302575
Paris 0.0752668916621714 0.0719148209666794
Norway 0.495348298417664 0.450315166272826
Oslo 0.432085221561181 0.427508580630474
Finland 0.480617438065445 0.440658620447361
Japan 0.204524199218353 0.113410257317182
London 0.327376396031508 0.215881461422828

Antar vi att vi inte betraktat relationstyper och jämförande kulturella symbol-markers som självorganiserande givet statistiska vikter i similarity operationerna och istället satt stort fokus på relationerna vi direkt förstår att resonera om i den mening att vi beskrivit dem i en särskild domän snarare än att bara beskrivit dem hade similarity värdet särskilt för Norge blivit abnormt lågt jämfört med Tyskland genom att Tyskland tillskillnad från Norge är direkt relations-kopplat Baltic Sea förutom Sverige.


Det räcker inte bara att kunna beskriva relationer ens i tillräcklig mängd. Att tillämpa dem istället för att jämföra direkt självorganiserat från vad kulturhistorien givit i avtryck förutsätter att de också konkret klarar att värdera vilka relationer som är meningsfulla. Här slipper vi det. Norge giviet dess närmare historia till Sverige än Tyskland, och Tysklands närmare än t.ex. Frankrike och England ges naturligt.


Vore Baltic Sea itället det primära hade det enklare styrts i vad vi definierar kulturen med med symboler fler i Baltic Sea än som här med en kraftig country symbol och dess huvudstad och ett hav, där vikten mellan dem självorganiseras till att sätta landet i fokus med övrigt som aspekter på det där släktskap också med dessa eller dessa och ej uttryckt för landet ökar likhet.


Det enda problem som funnits exemplifieras mellan Berlin och Tyskland vilket för en del varianter av algoritmen kan upplevas givit för högt värde på Berlin relativt Tyskland inte bara relaterat underliggande data.


I princip tycks det rimligt att Tyskland har större likhet än Berlin. Accepterar vi konceptet att similarity alltid är relativt också vad vi ej ser likhet med kan givetvis Berlin vara mer besläktat. Avvägningen mellan det som givit i data ovan uttrycker mycket mindre av detta som standard vilket gör att den sista kolumnen infört för att normalisera storleken på symbolen vi jämför med och därmed hur troligt den uttrycker likhet oavsett olika relationer inte behöver användas.