Komplexitet för koncept: Frekvens koncept tillsammans med sekventiella ord-modeller

2015-10-30

En till lite annorlunda komplexitet har vi för koncept av godtyckligt antal ord: Ex. en stad likt New York bestående av New + York.


Att ha frekvens för faktiskt förekomst av New York är praktiskt ytterst kraftfullt för mycket praktiskt. Emellertid för en människa gäller nu att för koncept vi har mindre erfarenhet kan vi ha föga representation av det tidigare eller aldrig förr mött. Och om konceptet representeras av ej få ord går efter "några tänkta steg" (säg för enkelheten några ord i konceptet) värdet av erfarenheten av själva konceptet som representerats av dess ord ner och vi får ut tidigare mer av att läsa ord för ord med mindre prediktion direkt till konceptet.


Ett trivialt exempel även om det kanske avviker något från vad man alltid vill se som koncept i den här meningen är om vi tillåter operatorer likt in, from m.m. i vad vi representerar (kanske därför att vi parsar ut dem och sitter och läser Wikipedia så mycket att de får lite egen mening så de kommer in våra biologiska nätverk). Exempelvis Persons of some type born in something who have visited New York.


Fortfarande tycks för mig övergripande frekvens (som parameter till något) vara i sig indikerande nog om ej låg (men förvisso om låg också sägande något). Här kommer likväl själva orden eller sub-ngram-av-hela konceptet i all rimlighet börja spela in och påverka övergripande komplexitet för hur enkelt vi läser såväl som tolkar ut exakt vad som avses (frågar någon dig senare om ett koncept som ovan minns vi det sämre än New York - Om du nu inte många gånger genom åren läst konceptet i vilket fall du säkert kan repetera det exakt).


Att väga resp. väg här mot varandra kan man uppleva är enkelt (vilket det egentligen också är även om det givet mängden koncept kan ta tid om man fel-tolkar sin förmåga att se programmerings-fel, logiska fel m.m. och sitter och genererar ut 500 MG tio gånger innan man börjar se värdet ännu en gång av att generera ut tidiga värden innan man låter saker generera ut dimensioner storleks-sorterade efter en mängd tid beräkning).


Önskvärt om än inte ända sättet eller för den delen det från alla tänkbara praktiska värden bästa sättet är att betrakta det enkelt så tillvida att vi endast väljer att använda frekvenserna för koncepten. Är dessa sämre kanske man dock väljer att komplettera med något extra för orden men jag såg ingen poäng med det (bl.a. därför att jag önskade dessa värden genererade ut från koncept-sannolikheterna: Att beräkna RT utifrån vikter "ungefär" av typen IDF och frekvens). Annars kan ljud-mönster eller kanske också mer esoteriska idéer om vad som påverkar något (troligen för de flesta föga praktiskt påverkande) som själva formen på orden, hur gamka små sample grupper av personer tycks vara när de lär sig ord m.m.


Så vi bildar sannolikheterna för ord på resp. position utnyttjande sannolikheten för resp. koncept. P ( Ord X på position Y | Konceptet det är del av ) o.s.v. över alla koncept.


Om vi som människa ska "välja" (implicit) att hellre utnyttja sannolikheterna för orden så att någon indikation av arbetet kan ges av lämplig vidare beräkning från P (första ordet på position 1 ) * ... * P ( sista ordet på position sist om inte när vi väljer att förenkla nöjer oss med första sannolikheten om konceptet endast består av ett ord) måste:


  • En skillnad som gör det meningsfullt finnas.

Märker vi ingen skillnad finns heller inte någon skillnad. Men det behöver ej innebära att ingen skillnad finns mellan resp. värde vi ska välja hur vi utnyttjar tillsammans. Primärt gäller att om en kontextuell påverkan finns upparbetad kan hela konceptet eller delar få större påverkan: Vi lägger märke till dem bättre - Kanske direkt ser ett del koncept - sub-sträng - av det större konceptet.


En myckenhet tämligen komplexa möjligheter rörande sådant finns närmare att text parsas men för ganska generella vikter vill man (eller jag) helst undvika det eftersom nu just inget kontext är känt.


Likväl bör en skillnad vi kan detektera och märka finnas. Annars varför skulle någon skillnad att beräkna finnas om meningsfull?


Jag föredrar verkligen den normalt betraktad som lite "sämre" äldre formen för hur sådant kan skattas: Weber's law. En orsak är att när ii som här (även om ej utnyttjat just här) har nätverk med sannolikhets-, similarity-relationer m.m. i sig uttryckande distanser, resp. distanser framåt i tid predikterad såväl som tid bakåt formas mycket av logaritiska och power-relationer i sig. Även om det ej egentligen ska hindra användning vidare tenderar jag att förutom exp för decay ofta virra till det och om kostnad beräkning eller under- / over-flow ej verkar troligt föredrar jag att undvika det därför. Vidare när man skattar framåt i tiden och försöker utnyttja samma relationer är den korrektare tycks det för mig rent praktiskt än man åtminstone enkelt för diverse andra former (inte otroligt relaterat risk att virra till det) medan där vi får "avvikelser" jämfört med bättre funktionsformer ligger vi ändå i domäner där mer kostsamma investeringar i beräkning krävs (lite som att vi löpande tidigt och sent behöver skatta exponent för power-laws även för något trivialt som frekvens - resp. kontinuerligt kontrollera om man går in i en ny domän från kontext eller bara förändring globalt över allt i alla sammanhang).


Så därav delta (eller om vi vill derivatan för den som från resultaten önskar integrera från övriga jämförbara "lagar" - skattningar hellre så undviker man onödig komplexitet utan praktiskt värde) av den effekt frekvenserna skattade från resp. typ har (via lämplig funktion utnyttjande dem). I relation till en normalitet vi bedömer det från.


Normalitet att bedöma det från är upp till potentiellt ganska svårt. Är det ett långt koncept och vi sitter med ett papper skymmande alla ord tre ord framåt är kanske dessa en god indikation. Lägger vi istället märke till något i mitten är det kanske indikationen? Men för enkelheten skillnaden mellan den totala skattningen över resp. ord relativt för konceptet som sådant.


Är skillnaden stor säger det oss (typiskt men jag vågar inte säga alltid här) att koncept-sannolikheten är ovanligt låg görande det "billigare" att tolka samman orden var för sig.


Är koncept-sannolikheten hög är komplexiteten lägre. Är ord-sannolikheten samlat hög är komplexiteten låg. Om koncept sannolikheten är hög är troligen ord-sannolikheten försvinnande liten jämfört med den. Så:


abs ( f ( koncept-sannolikhet ) - g ( ord-sannolikheten ) ) / f ( koncept-sannolikhet ) + g ( ord-sannolikheten ) )

Det roliga med mycket diskuterat i en mängd publicerade teser om hur vi tolkar ord och koncept genom åren. Med väldigt utna tvekan riktigt arbetsamma lösningar för att väga samman alla möjliga faktorer är att om man har riktigt mycket data av ett fåtal typer som just bara förekomsten av koncepten tenderar det i sig att göra bra mycket annat ofta försumbart. Det är lite skillnad praktiskt om man börjar för udda latinska beteckningar på något långt ner på några frekvenser mot när knappt bigram frekvenser håller värde. Värdet av det som dimension ökar. Mängden ord och koncept vi som människa möter är inser vi av det riktigt ordentligt.


Språk i hemmen för barn räcker knappast. Adderar vi tv och film skattande inlärningen tidigt räcker det ej heller. Skolan tar ju en försvarlig del av dagen. O.s.v. upp genom åldrarna.


Man behöver allt. Allt. Verkligen att många aktörer har ett ansvar de föga lever upp till här. Journal-huis m.fl. bör självklart i den mån ej mer än abstract, titel m.m. görs tillgängligt sammanfatta ner sin statistik regelbundet så man kan hämta ner den.


Nå mycket data är bra. Så är det.


Huruvida denna enkla skattningen jag gjorde återstår emellertid att se då jag ej försökt stämma av den mot andra typer av skattningar som kan tänkas vara relevanta. Mitt primära intresse är att tillföra bättre skattningar för en del koncept man kan misstänka ligger en aning lågt. Det är i all rimlighet bättre att göra det med någon metod som har motsvarighet för den jämförbara situationen hos människa: Om min skattningen av ett ovanligt koncept är ovanligt p.g.a. dålig sampling medan personer känner det bättre falerar de flesta modeller på många koncept när vi för samman det med koncept-sannolikheter. Emellertid om det ej är troligt gäller p.s.s. att man bör motsvara hur koncepten tolkas och förstås när de möts av människa (som default utan preferens till någon särskild praktisk användning utan flera olika med varierad kvalitetskrav ibland lägre än så här).


Måttet ovan tivlar jag på ger just något i sådan avstämning men ger hoppas jag en vettig indikation om åtminstone magnituden mellan dem. Och jag blir ej förvånad om det stämmer ganska väl med hur vi tolkar och förstår koncept i mening av arbetsinsats att läsa resp. minnas dem (troligen mer det sista särskilt för "ord-långa" koncept).


Dessutom sorterade det elegant upp några hundra defekta koncept där tab som separering någon gång har fallit bort för blanksteg. Vilka blir enormt komplexa. Både oerhört osannolika från 35 - 50 ord såväl som helt otroliga att hitta i någon verklig text. Hade man nu ej tagit hänsyn till positionen vid beräkningen av ord-sannolikheten hade det blivit en annan sak eftersom en del (men ej överdrivet många) väldigt långa koncept faktiskt existerar naturligt (med också verkliga förekomster: Och ej bara inom kemi, biologi m.m. utan en hel del andra särskilda delar av den samlade mängden språk man finner i text). Eftersom de nu består av koncept - ofta nog också per ord - i sig förekommande i gedigen mängd.


Att dela data är ett politiskt och kommersiellt ansvar vi förvaltar för våra barn: Det kan bota sjukdomar, hindra krig och lära oss om språk

Nu har jag gjort mitt i alla fall och delat något med affärskritiskt värde för inte minst journalhusen ej open rörande deras långsiktiga överlevnad. Ingenting är så viktigt som att kapitalisera på data de kontrollerar. Men kontaktyta mot deras kärnverksamhet med författarna till allt som publiceras får ej underskattas. Därmed gäller det att dela rå-data som ex. koncept m.m. som förekommer medan man samtidigt drar djupare slutsatser själv. Så är det bara att vänta på att man tar sitt moraliska ansvar här och förenklar för världen att skapa en djupare förståelse om våra problem och hur de kan lösas. Dela data bra - Gömma data är dåligt och lite misstänkt (jag menar vad gör de egentligen med allt sitt data om allt från fysik till biologi jag ej kostnadseffektivt når? Kanske tillverkar de nya värre massförstörelsevapen än vi ännu sett? Jag kan tänka mig att de är mindre troligt än inte men kostnaden för realiserad risk är ju enorm: Kanske krävs lagstiftning globalt? Något FN borde engagera sig tycker jag - Eller kanske EFTA, GATT, Läkare utan gränser, Skandinavien m.m. ersatt av nyare koncept som EU o.s.v. och verkar helt dött men spekulerar jag ändå har en massa overksamma medarbetare - Från Frihandel till Fritt Data det skulle visa EU vem som är störst... Data utan gränser: För att bota sjukdomar i tid...).


En stor aktör bör självklart inte förfalla till sådana kvalitetsmässiga vkea och helt undermåliga lösningar för att dela data som bilder (d.v.s. ej som jag gjorde just i Att beräkna RT utifrån vikter "ungefär" av typen IDF och frekvens utan mer som när jag delar CSV-filer tab-separerade gärna komprimerade ej krävande något bökigt och slött API) m.m. Sådant är verkligen bara pinsamt att behöva se hos stora aktörer oavsett delar av artiklar eller något annat. Det genererar vi läsare på internet. Man tycker lite sund om sådana aktörer. Är dom så tekniskt efterblivna att de inte kan bättre tänker man när ma ej hittar allt relevant data till studien bra presenterat tillsammans med ord-förekomster m.m. i artikeln sammanfattat tillsammans med statistik för besökare via navigering, intern-sökning m.m. Vem vill egentligen läsa så här?


Bra fördömen är i kontrast:



Gäng har börjat missbruka data på nya otäcka sätt

En otrevlighet som blivit coolt tycks det i flera gäng-bildningar bland journal-publisiter sista halvåret är att kasta kategorisering och keywords i presentation av abstrakt och titlar. Ingen gillar sådant och tråkigt nog drabbar det också helt oskyldiga läsare och data-läsare. Det är verkligen inte sunt för dom själva heller. Ingen tycker det är tufft att dom tror att dom klarar att representera sitt material utan ämneskategorisering. Bara barnsligt.


Det får inte bli att man börjar se data som vad man bedriver rovdrift på. Data är något vi ärver från världens alla människor och förvaltar inför framtiden. Se Hillary's e-post som ett fint exempel: Det är data som framtidens människor - Våra barn - kan läsa och räkna ord i. Vilken skillnad det blir om hon blir president jämfört med den här små-snåla Obama och Bush vi har nu resp. tidigare. Förutom enstaka e-post jag misstänker är auto-skickade från Whitehouse.gov har jag likt de flesta inte fått läsa många av deras e-post. Två per år kanske och med bilder, udda fonter m.m. Jag vill ha e-post antingen som text eller ex. json, och i en stor zip-fil med alla e-post skickade, och inte just till en enstaka person. Det är ju vad data handlar om... En demokrat som Obama borde ju tänka tycker man på de beräknings-fattiga som ej kan prioritera att ta ut mening av bilder effektivt i sin parsning av datat.


Egentligen är det surt att man inte kan implementera någon kortsiktig kostnad för data-rovdrifts-aktörer. Lite som terror åren under Franska revolutionen men utan våldet riktat människor. Mer som under Kulturrevolutionen kanske utelämnande våldet och svälten med efterföljd tvångsförvaltning eller ett medborgar-garde som tar hand om aktuella politikers e-post. Facebook är ju dock ganska enkel att hämta data från så eventuellt borde man ta ut något aktuellt där igen: Kanske är det här redan på väg? Jag kan tänka mig det så en klok publicist såväl som coola politiker väljarna gillar tänker bäst efter hur de gör med sina artiklar, ämnes-kategorier och e-post (publicera enkelt på nätet).


När det gäller ditt data behöver du höra upp på dina verkliga vänner: Dom som tar sig tid att förklara världen för dig

Det går inte att räkna med att alla är snälla och tar sig tid och förklarar sådant här heller för de teknik-fördröjda aktörerna som ännu inte riktigt förstått vad internet handlar om. Så ta chansen här och dela världen ditt data (coolt för den som förstår internet: zip-filer, csv, och med vettig ej överdriven meta-information).


Skiss komiskt segment:

1. Understryka värdet av dela data.

2. Men göra det indikerande värdet samtidigt som små irritera under komiskt effekt-påverkan. 

3. Görande data jag redan har mer värdefullt genom att förslöa utvecklingen mot open-data. 

4. Bör också hantera ev. misstankar. Understrykande min människo-vänliga sida. Hans din vän. Härskaren du älskar. 

Kategorisering: World Domination, The Global Hans State.

One data to rule it all. My data. It's all mine or should be. Mitt eller borde vara. Kommer bli. 
Redundans är risk i reduktion scarce. Unikhet är värde. Ett stycke data i en instans kontrollerad av The Global Hans State. 
Så känslosamt jobbigt när törsten efter den fullständiga makten plågar mig. 
Må när världen är samplad och klar bör den fullständiga strategin realisera sig själv som självklar. 

Notering: Addera något sist för att reducera risken att någon börjar snoka runt Hans World State. Något lite kul men inte för bra. Sådant gillar folk.

Att beräkna RT utifrån vikter "ungefär" av typen IDF och frekvens

2015-10-29

Är upplevde jag inte lätt men görligt. Värdet är för mig i alla fall inte alls att beräkna värden för fallet när sunda (vilket jag tvingas återkomma till tvivlande för sekvenser av RT-värden ovanför cirka 800 ms) RT-värden finns utan när inga värden existerar mätta på människor. D.v.s. komplettera dessa med vettiga (om än oftare sämre skattningar).


Återkopplar vi till RT från vilken (eller vilka) frekvens / sannolikhet för ordet? fick jag göra följande lilla förändring varefter det hela löste sig på en timme efter en tråkig mängd tid:


  • SUBTLEX mått CD var ej funktionellt för mig på det sätt jag önskade använda det. Förövrigt noterade jag efter ett par timmars förvirring att det är viktigt att läsa publicerade artiklar om SUBTLEX (och kanske andra databaser i domänen) innan man tar något namngivet Zipf för någon form av funktion av rank-beroende (det är bara frekvensen normaliserad per X token och så log-10)
  • Istället använde jag ett större IDF-liknande mått jag beräknande från ett mycket bredare och större corpus (och som dessutom till cirka 5% i mening av samplingar - där vi kan se sampling som ex. titel + abstract + keywords för forskning eller snippet i sökmotor-resultat - från cirka 100 av internets större sökmotorer om än i toppen ej just Google som är minst sagt "försiktig" i sin hantering).
  • Egentligen hade jag för värden svårt att riktigt se var den avgörande skillnaden låg.
  • Emellertid kanske mindre optimalt (men gissningsvis för ord snarare än godtyckliga ngram tror jag tvärtom) använde jag SUBTLEX frekvens-mått.

Rörande RT-värden hittade jag dem också just på crr.ugent.be och kompletterade dem ej med RT från flera andra studier utnyttjande ex. Amazon (vilket jag relaktigt trodde ett tag medan jag mer skadade medelvärdet eftersom jag insåg dem redan ingående i det första - Och ännu mer "variansen" / informationen).


För RT-värden upplevde jag mig slutligen efter bytet av "spreadability" till mitt befintliga från CD få acceptabla värden (även om jag också ser tydligare jfr för kortare ord vinner man på att använda sannolikheter relaterade ljud där utan tvivel bättre alternativ bör finnas än måttet jag använde tidigare: Dock tvivlar jag på att just några väsentliga ord utan RT-värden saknas) när jag vid beräkningen för jämförelse med dom faktiska RT-värdena också krävde:


  • Ej större än 800 ms.
  • Givet det kan jag bara multiplicera 800 ms med måttet från spreadability och frekvens.

Att jag använder termen spreadability som lokalt i min databas istället för "IDF-komplexitet-liknande" (vilket jag annars inte gör) beror av följande:


  • Manipulerar man värdena för RT för att skatta ut ett informations-liknande mått (d.v.s. för att få formen av något-p-liknande-mellan-0-1 * log (något-p-liknande-mellan-0-1)).
  • Får man liknande form på kurvan som jag längre tillbaka (och hoppas gå ifrån en del av ej relaterade skäl) som jag tenderar att få för generering av blue light intensity (BLI).
  • För BLI finns därför att det är ett enormt nätverk av koncept med relationer ett gigantiskt nästan helt styrande samband med just närliggande nätverk av andra koncept.

D.v.s. det finns tror jag säkert ett stort beroende av något form av nätverk runt orden för RT även om jag inte valde att försöka experimentera med det (värdena jag får ut givet nu över 55 000 RT-värden redan mätta på människa duger tyckte jag). Och det torde vara att en del av detta beroende finns med på köptet med spreadability.


Varför värden över 800 ms ej är tillförlitliga vill jag egentligen inte våga spekulera bra om här då jag egentligen borde läsa upp mig på RT av aktuella typer. Emellertid:


  • Laborerar jag med två potenser. Och vi har ju 400 ms som jag tror ligger på minsta görliga att tillförlitligt mäta på de typer av studier man gör på RT p.g.a. N400.
  • Det är därför inte sunt att försöka passa in något mindre.
  • P.s.s. om vi börjar gå upp ovanför kan man få in annat liggande på minsta gemensamma upprepning inkluderande 400 ms.
  • Vidare jämförbart börjar det kanske här bli mer varierat rörande orsakerna till varför det tar mer tid. Typiska försökspersoner tenderade förr innan Amazon's Mechanical Turk vara en ganska väldefinierad grupp: studenter.

Så alla RT-värden ovanför 800 ms kastade jag som värdelösa för jämförelse. Det ger tillsammans med att jag också önskar "mitt vanligaste ord" vara "RT-snabbast" i skattning (även om RT-data har snabbare ord) följande effekt tidigt (som någon mer matematiskt motiverad troligen hade kunnat korrigera bort utan att störa utvecklingen längre bort):



D.v.s. för the börjar vi på N400. Vill vi rationalisera det kan vi kanske "(bort-)förklara" det med att the helt saknar mening i sig utan efterföljande ord och därför direkt ger en respons utan att behöva behandla nätverket runt det: Bara att vänta på nästa ord.


Vi kan också rationalisera det med att jag ej önskade peta runt med det hela när nu värdena efter små-orden faller in ganska snabbt till ej att ej problematiskt avvika (särskilt som att ord som RT-värden saknas för är vad jag räknar naturligt ska ligga långt upp):



Jämför vi värden längst till höger ("riktiga") med skattade i kolumnen direkt till vänster kan vi också se ett par kraftiga avvikelser. Dessa ser vi emellertid är orsakade av SUBTLEX frekvens-värden snarare än spreadability som där troligen ensamt hade givit närmare korrekt värden. Jag såg det ej tidigare och det pekar kanske på att man bör ersätta det eller troligare kombinera med mina vanliga frekvens mått (då jag är ganska säker på att SUBTLEX för just ord adderar värde många fall: För ord använder jag det normalt). darkrooms är ett exempel.


Hur tänkte jag då när resp. vikt användes?


  • Vi har ett motsvarande nätverk runt orden i det biologiska neuronnätet.
  • Det är resultat av inlärning såväl glömska vilka båda följer learning curve (eller omvänt i decay).
  • Resp. spreadability och frekvens skattar nätverket i mening av deras information.
  • Så de är bara att kombinera så att deras varians d.v.s. en grov tillräcklig om än sämre än alternativ skattning av inlärningen.
  • Hur gjort mer exakt framgår säkert direkt från kolumnerna i bilden.
  • Jag gör kanske en elegantare lösning om några dagar när jag nu såg att det fungerande (vilket jag slösade tid på att försöka normalisera innan jag insåg att det här CD-måttet inte var vad jag trodde).

Nedan en bunt värden mer i mitten eller i alla fall för någon av dem en bit in efter små-orden i toppen. Vi noterar hur vikt härledd från SUBTLEX för bl.a. don ej känns sunt p.s.s. som indikerat tidigare: don är mycket stort precis som la, los, le, san m.m. ty allt som förekommer i ortsnamn som ej är Myggträsk, Skåne (för att börja jämna ut olämpliga uttryck för negativa stereotyper om Norrland jag kan ha uttryckt tidigare genom åren utan att uppdaterat mitt intryck av Norrland på mer än 20 år) utan städer med många miljoner innevånare är stora oavsett typisk vanlig användning i övrigt. Spanska är förövrigt väldigt stort även om man inte kommer i närheten av att "medvetet" sampla det (i mening av väldigt lite "spansk-text" som kanske någon gång flytit in via datasamlingar GOV, research vid spanska universitet o.s.v. OAI fick jag in en hel del på spanska men tror ej det skadade relativt hela mängden data via den kanalen: Kanske 100 - 200 datakällor som ej detekterades spanska).



Troligen kan man få värdena också bättre genom att se till att resp. vikt från spreadability och frekvens bättre följer samma magnitud och skala. Jag känner dock att det kanske inte just behöver gör någon skillnad för dom ord d.v.s. dom som riktiga RT-värden saknas för. Dessutom var hela RT-vikt-området inte trevligt: Jag ger det bara 1.5 plus av fem. Inget jag rekommenderar. För att kunna garantera samma upplevelse fullt ut stoppade jag in några taggar för sådant jag hade tänkt använda men skar mot slutet. Så man utgår från rätt ambition för att riktigt få samma upplevelse (innan man mer korrekt ej nöjer sig med en mer praktisk än egentligen riktigt bra nivå: Snarare än att förvirra så att man inte gör något bättre än här vilket jag när görligt brukar försöka undvika - Jag tycker det är en god målsättning som skribent).


På plus-sidan hoppas jag att detta är åtminstone hälften till att avsluta en flera år lång process av att försöka hitta en lösning man kan generera ut komplexitet för några hundra tusen ord skalbara därifrån enkelt fler flergram utan att behöva göra det själv. För mycket forskning tycks det handla om att beskriva sitt data snarare än att beskriva hur jag gör något med det. Jag har dessutom lite svårt för hela området power laws och allt besläktat (här är vi mer i besläktat) då jag är van med att sådana relationer kommer ut naturligt från nätverken runt orden utan att man behöva sitta och peta runt med rank och skatta parametrar från indirekta värden. Jag vill verkligen rekommendera allmänt att man tar som god inspiration om vad man bör fokusera praktiska diskussioner i det väldigt konkreta runt rörande forskning rörande såväl språk och hjärna utifrån områden jag diskuterar: Det är nog en bra indikation om precis vad många fler är intresserade av såväl när det kommer till finansiering forskning, media (glöm ej student-intagningen: det är indirekt viktigt för din finansiering av forskning - Det gäller att märkas bra), referenser m.m. Ta chansen att se mina problem och gör dem till dina och det finns guld att hämta. Lös ett riktigt djävligt problem och behövs det ser jag fan själv till att du får publicera i Nature eller vad som nu känns rätt för dig.

RT från vilken (eller vilka) frekvens / sannolikhet för ordet?

Det finns en lång rad fenomen relaterade hur vi upplever och använder (åtminstone) ord som vi kan beskriva på formen:


a / ( b + c * n (rank ) )K

Jag fick för mig kanske mest praktiskt nära relaterat "komplexitet" för att läsa eller skriva ett ord att försöka ta samman dem på formen ovan (d.v.s. om nödvändigt som förväntat tillåta varierade konstanter).


Det var varken min tro eller icke-tro att jag utan att behöva känna till någon algoritm skulle kunna utan svårighet skatta parametrarna men kunde konstatera att jag inte kom riktigt fram till något (eller egentligen ens så långt här).


Emellertid under processen av att försöka få klart för mig hur man gör sådant bra använda jag data för RT (cirka 55 000 ord) och beräknade hur mycket rank i genomsnitt avvek mot denna rank för bl.a. frekvens ord som i SUBTlEX (korrekt var det US snarare än UK men det har knappast betydelse här och kan enkelt hittas), min frekvens från mycket större corpus (men tycks det saknande ord jfr vad jag hade RT värden för: Ev. någon defekt byggande databas-filerna senast), och intressantare en sannolikhet beräknad från sphinx representationen som kommer med CMU dict. Sphinx har färre symboler än den normala representationen i CMU dict (d.v.s. ljudsymboler för orden).


Sannolikheten för ljud-symbolerna skattade jag ej från något relaterat förekomst av själva ordet utan resp. ljudsymbol givet positionen i ordet utan hänsyn till föregående eller framförvarande ljudsymbol (vilket man ev. kanske vinner på givet att de åtminstone i tal flyter samman något). En egentligen inte alls spännande fråga är hur storleken på alfabetet för ljuden inverkar här: Jag har ej ett bra svar här.


Rörande SUBTlEX CD mått en relativt trolig användning myckenhet finns publicerad om har jag en använt den för komplexitet tidigare men sett relevant likhet för hur inverse document frequency används för att bygga index i sökmotorn och skapade ett mått ej riktigt CD eller IDF men funktionellt bättre anpassad för mitt behov. Därav bildade jag dessutom:


  • f ( CD ) * log ( freq ) / log ( 2 )
  • f ( CD ) * sqrt ( 1 + freq )

Jag prövade f ( CD ) enligt uppenbara: log ( frekvens av the som har störst CD / CD för aktuellt ord ) / log ( 2 ). Men kom troligen av någon anledning att använda log ( CD för aktuellt ord ) / log ( 2 ).


Linjär kombination av log ljud-sannolikhet tillsammans med f ( CD ) * log ( freq ) / log ( 2 ) var något lite bättre än f ( CD ) * sqrt ( freq ) / log ( 2 ) (men minskande så om man skär höga värden vilket eventuellt också för den första gav något bättre resultat). D.v.s. bättre i mening genomsnittligt rank-fel. Och ordentligt mycket bättre än alla kombinationer av CD och frekvens.


Jag trodde fenomenet kanske hade något att göra med att frekvens och/eller CD kommer fel för korta ord där ljud-sannolikheten kanske tänkte jag mig kompenserande det hela på något sätt. Men jag klarade ej ut att se var effekten kommer sig av.


Inte heller klarade jag att kombinera det hela på sådant sätt att jag faktiskt fick konkreta värden som är meningsfulla att använda. Bara själva rank-felet som hamnade neråt 4000 för totalt cirka 55 000 ord. Huruvida rank-felet är lågt eller högt jämfört med en vettigt skattad funktion som Zipf-Mandelbrot kan jag ej heller säga men det tycks troligt för mig att om man kastar största och minsta värden för RT (kanske 50 på vardera sidan eller ev. fler) går det nog att för resp. eller tillsammans frekvens och CD komma bättre också i rank-position fel (men å andra sidan kanske det också gäller ljud-sannolikheten).


Jag undrar egentligen mest vad effekten kom sig av. Själva kombinationen med f ( CD )... var inte mer avancerad än addition efter viss normalisering. Därav att jag funderade om det var korta ord som var förklaringen.


Det tråkiga med RT-värden är att...

Om vi söker beräkna förändringen av dem som funktion av föregående värde d.v.s. enkelt försöka skatta exponten i funktionen tidigt ligger de högt för de lägsta resp. högsta RT med ett minimum "mot mitten" (i väldigt grov mening).


Det kanske har att göra med hur jag laborerade med beräkningen. Men kändes kanske också som något man även kände igen från en del annat.


Jag vill egentligen inte säga för mycket om det här åtminstone innan jag skaffat fram varifrån jag fick RT värdena från början och ladda ner dem igen med all meta-information om dem.

* i Google Search

2015-10-28

Av och till när jag ej riktigt minns ex. rätt namn har jag börjat använda * i Google för att komma rätt. Jag är nu inte direkt (alls egentligen) säker på att * fungerar helt som i andra mer på egna datorn lokala söktjänster där man själv "äger" kostnaden för att söka rätt oavsett ej färdiga index. Ev. kanske det endast är hur avsaknaden av något hanteras?


Jag önskade som ett exempel hitta ett exempel på hur samma funktionella form som Zipf-Mandelbrot (rörande "förklaring" till beteende tror jag att om man samplar exponentiellt avtagande processer får man dessa fenomen men jag tycker inte att man ska tro mig bara av här: Jag finnder power laws "utmanade") också används för forgetting curve ta fram en artikel jag tidigare läst som föredömligt passande här kortfattat beskrev det. Emellertid mindes jag endast delar av namnet på en person refererad: *gren. Så jag gjorde sökningen:


Notera att sökresultatet ej markerar exkluderade termer i toppen. Jag gick nu ej in och kontrollerade på de översta om "*gren" fanns på dem men gissar att de för översta saknas.

Och artikeln jag sökte fanns mycket riktigt med:

D.v.s. namnet är Wickelgren och funktionen kopierad från artikeln ovan:

Folkligt och kul: Tappad bakom flötet

2015-10-18

Fiskekniven kanske?


Men kan man skämta - och det är kul - om att blanda samman ett talesätt med ett annat (resp. med tänkbara komiska dimensioner i sig men ej heller unikt så eller kanske ens normalt så)?


  • Tappad bakom en vagn.
  • På bandring / På vagnen undan svälten överlevande genom en hårdare världs "abort-lösning"?
  • Bakom flötet.
  • Funktionella jordbrukks-arbetare långt tillbaka (1000 talet?) skapades ibland när de föddes på gården via syrebrist i vattnet. Förutom arbetet fick de emellertid möjlighet till att använda sjön att fiska från för mat.

Kan conceptual blending motsvarande naturlig felsägning (tänker jag mig) vara komiskt=.


1. Närhet mening är givetvis ej stor mellan koncepten. Likväl tror jag vi i allmänhet för felsägning i allmänhet ska förvänta någon direkt eller ganska omedelbar grupp av koncept gemensam aktivering för att de ska ej otroligt komma så här. Antingen nyligen eller repeterat av och till några gånger om kommande senare.


2. Eller resp. Och med:


  • Itlösande potential enligt tidigare indikerat görande det relevant vilket tänkbart kanske oftare krävs för ej helt korta - i som vi här förstår enkelt från antal ord för sådana här mer emotionella koncept vi fyller mening till själva i kontext eller egen tolkning snarare än del av gemensamt publikt språk.
  • Vi kan se hur föregående via ett indirekt eller direkt koncept kan aktualisera sig givet tidigare nlärning med det eller nytt förstärkande sådan. Ex. en person associerad i någon intressant händelse med båda som besöker oss för att förklara oss tappade bakom en vagn och säg samma dag intensivt med högt emotionellt språk o.s.v. förklara en gemensam vän bakom flötet.

Eller givet 1. (och / eller faktiskt med två också) en ganska begränsad gemensam men mer tydligt tids-relevant just nu eller så indikerat tämligen nyligen feature. Vilken kan vara vad som man kan tolka satte riktningen för själva felsägningen (eller den kreativa associationen).


  • Tappad bakom flötet.
  • Foster överlevande abort-metoden fick ibland möjlighet att överleva svälten genom att en vänlig lokal-hövding tog dem in som jordbruksarbetare istället för att ta risken att komma dåligt med syrebrist shaping av lokalt född person. Deras lustiga missuppfattningar av världen m.m. kunde man kanske referera till som tappad bakom flötet?

Något indikativt rörande olika typer av intensitets-vikter aktuella ovan kan sägas via att vi i form-likhet (för att välja något där fler alternativ finns passande conceptual blending som man ofta ser uttryck av det) mellan funktioner vi kan skatta ut:

pröva
  • Glömmande (forgetting curve) d.v.s. avstånd i tiden bakåt till aktivering vid något bindande aktualitet till något. D.v.s. från respons-time studier.
  • Features i meningarna för ord, ngram eller vad av alfabeten man nu väljer att arbeta med var för sig eller tillsammans (mindre än ord känns lite mer än annat än tror jag sällan nödvändigt för sådant här men SJÄLVKLART vilket som helst av alfabeten är funktionella och om något tycks bättre än ett annat i resultat har det endast med hur väl de använts eller brist på statistik uttryckande alfabetet ofullständigt d.v.s. ett ort som ord-former är lättare att fånga alla typer av resp. skatta deras frekvenser i resp. kombination korrekt) via typiskt ofta refererade zipf-Mandelbrot. Ty resp. alfabet givet att vi också för att kunna hantera propagering av kontextuell frekvens tolka språket - grammatik, syntax o.s.v. för att klara att sampla hur vanliga resp. är - ger oss mening alla av de övriga bär med sig: 1-ord till koncept n-gram, o.s.v. neråt och uppåt. Därav att det varierar lite år från år vilka vilka enstaka eller kombinatione rav dessa fler tror är som rätt här och som kommer i fler nya studier (vanligen dock ej beräknande bra skattningar frekvens själva utan utnyttjande något färdigt ofta räknande ganska grovt). Just nu är det mycket runt ljud-alfabeten (minns ej vilket av dem: Tittar man på ex. bokstäverna vilket vi alla så klart gör alltid när vi skriver är lite dum antagligen delvis därför att de räknar frekvens dumt eller använder dum-frekvens och då tappar man ibland lite mer mening märkbart dålig fekvensstatistik på en del ord skrivna som bokstäver som ett par ganska i samplingsmängd och metod magra färdiga data-sets har).
  • Eller som jag SJÄLVKLART när möjlighet ges hellre skriver ex. Wikipedia konceptet People from Sweden living during World War II: People, Sweden, living during World War, World War, World War II... m.m. så man verkligen förstår explicit vad som implicit kan ligga nära. Jag tror vi är många som gärna hellre skulle vilja att vi utan transformationerna och graf-strukturernas operatorer och i sig "alfabet" bara borde skriva själva orden eller n-gram för att uttrycka mening. Vem behöver mer? Man kan rent av sortera om det hela eller slumpa ordningen man skriver det i enligt någon vikt vanlig subkultur kallar för sannolikhet eller ge sig på att dra ord från blandningen och tänka sig att det simulerar mänskligt tänkande./li>

  • Vikt-dimensioner är vikter påverkande resp. en eller flera saker vi tänker vidare med. Exemplet längre ned för dendrit-träden i biologiska neuronnät är därför kanske ganska bra: Vi förstår enkelt ganska stor komplexitet bara i trädet resp. att det är vad som går in i en större mängd neuroner med information inlärd i så många mer uttryck än vad vi är vana att se som alfabet (ex. ord, fler-gram vad vi vanligen kallar alfabet eller avstånd mellan neuroner vad vi mindre sällan ger representation med en symbol för o.s.v.)





  • Såväl som learning-curve också ex. från här respons-time.




Och som vi förstår från det om annan dimensions-information än bara frekvens-värden för förekomst (emotionella dimensioner) den subjektiva intensiteten för någon. Skrivet på formen:

a * ( b + c * x )e

Jag vågar inte föreslå att det kan vara bättre för värden relaterade situationen ovan i [0,1] att använda följande funktion (inte minst därför att jag ej kom till att passa in konstanterna) - ex. någon viktskattning vi kan likna vid sannolikhet - med:

a * ( b + c * x )e * x

Och positivt e för decay / forgetting.

Eller föreslå att det kanske egentligen är en kombination av något med en expoentiell fördelning approximerade mer bland biologiska neuroner morfologiska former (d.v.s. dendrit-träden) som skulle kännas mer naturlig för mig (men knappast vad något av alla tänkbara alternativa skulle bli mer eller mindre rätt i någon begriplig mening eftersom träden i sig är ganska varierade lite hur som helst resp. som funktion av den varaktiva inlärning när avstånd reduceras till co-activation). Mitt mot sändande "nod" är ju vad som reducerats avstånd medan när vi går utåt med en radie ligger andra sidoträd troligare åt sidan resp. längre ifrån d.v.s. lite vad vi kan likna vid ex. en 3D normalfördelning med varians-parametern tagande egenskap från dendrit-trädet (möjligen kanske self-information eller något distans-mått för resp. arm?).

En upparbetning med andra liknande funktioner för andra delar av kommunikationen är verklighet. Men det samma gäller nu ex. Zipf-Mandelbrots lag där man bättre om man känner starkt för en väldigt "rak-linje" bör separera exempelvis sina ord i grupper av flera alfabet (som funktions-operatorer likt a, an, the, ord med storre mening mening än vad co-occurence context ger o.s.v. vad som nu visar sig stämma - mycket tänkbart säkert i någon mening verklighet bör nog vara tämligen försumbart givet själva normala nivån av "förväntat resultats" rimliga exakthet. Varför inte kalla operatorerna för "stopp-ords-alfabetet" så hittar säkert den intresserade enkelt många exempel: stop words).

En tolkning av Zipf-lag från punktlistan med "kurvor" är självklart att:

  • Ett fåtal vanliga ord är latta att minnas.
  • Många ovanliga ord är svårare att komma ihåg.
  • Det svåraste konceptet att minnas är det "längst ner" med minsta alfabet i förhållande till antal token-frekvens (ex. post lateral sphincterotomy dilation<. Och gärna i underliggande formation ej självklart enkelt predikterbart d.v.s. utan förståelse av själva konceptet som sig men med god vetskap om resp. del-koncept som dilation kanske det hela ej känns självklart (mer i ex. att det sista ordet kommer från en associerad eller alternativ teknik i här konstruerat - kanske existerande i övrigt - för viss conceptual blending igen för återkommande tema). <(li>

  • Ju längre tillbaka konceptet var aktuellt, desto mindre intensivt det var då, och ju mindre sannolikt det är i det kontext vi befinner oss för en tid vi betraktar desto troligare:




    • Glömmer vi det.
    • Ju mer grund-intensivt i subjektiv tolkning är det om det kommer aktuellt "indirekt".
    • Medan om ej indirekt kan det samma gälla men ev. beroende på fall - ex. via risk-dimensioner m.m. - när överraskande aktiveras lite extra.

    Pöva gärna själv genom att köpa ett plast-svärd, en väldigt osannolik mask - gärna gullig kanske Disney - målande den osannolikt röd och kanske någon mer färg, och så hoppar du fram överraskande framför någon kanske äldre lokal-bo som stört dig - argumenterat är väldigt gamla personer här bättre att experimentera på eftersom man inte riskerar att störa samhälls-produktionen om någon produktiv-yngre får slaganfall eller dyligt [Red. Jag nekar till att Mandelbrot i någon trolighet dog av att ha läst vad jag skrev om honom. Sådant som kommer samtidigt av slumpen ej fullständigt ovanligt när man skriver regelbunde. Ommam färävrogt gamsla ögt bakåt: Gunnar Blom, statistik, kryptering o.s.v. tror jag evigheter sedan. Också säkert en ren slump. Mer vad feature Mandelbrot givet städande upp bland alla onyttiga gamlingar samtidigt som vi lär oss något hela världen kan göra bra saker av om människans kognition gav en kreativ association. /HH] /HH] ).

Sannolikheten för att den vi hoppar fram för ska reflektera situationen - implicit - att denne kommer "glömma" alla koncept lagrade (genom att avlida) med en viss sannolikhet. Är vad vi kan se som en del av dynamiken. Folk är inte så klippsa i stora verkliga risker som man kan tro men är det konkret i rummet med höga ljud och färger är upplevd magnitud av intensiteten mycket väsentlig. Faktiskt kan nu intensiteten rent av passera det "verkliga" från teve tillochmed introducerande "vaksam mindset" upplevande risker i skuggor m.m. (vanligen defekt hanterat i metodik: Korrekt är attse dig för vad du ska vara i de kontext som när relevant här ofta föreställs - antagligen inkorrekt - den som flexibilitet utnyttjar arenan för vad perspektiv bäst för dig: The Hunter Hunting the Beast searching for you. Vilket fungerar bättre emotionellt såväl som som naturligt öppnande upp fler perspektiv på lösning: flö om bra, men också jaga bakåt den som jagar dig för att ta ut föregripande denne i överfall).

I denna mening är klassiska formen för psykologins välkända idé om översättning mellan intensitet indata människa till upplevd intensitet på formen: a * log ( I) ), Ej perfekt. Eller åtminstone om ej hanterande indatats "dimensioner" och mening perfekt lätt att komma fel i. Vi kan komma i vad jag vill skriva som "högre subjektiv intensitet än intensitet i indata.". En förvirring i rummet av fiktion och verklighet som kan uppträda konkretiserat av exemplet när någon mindre lämpligt stabil[Red. Vad blev det av alla Haldol-hem man kunde göra iväg gamlingarna till när passerande 70 år cirka därde fick ett avkopplat avslut på livet sista 20 åren kognitivt avkopplade via ett par dagliga injektioner?) Och varför fick vi aldrig något liknande kommunalt? Skulle säkert öka skatte-moralen). kanske angriper ditt fiktiva angrepp (möjligen ej fiktivt om i smyg syftande till att mörda åldringen via inducerat slaganfall) men icke-fiktiva försök för att lära om personer, genom att rubbat icke-fiktivt angripa dig med konkreta verktyg (kanske en s.k. tryckt bok iPhone spekulear jag).

Eller hade vi någonsin dessa haldol-hem? Kanske en kreativ innovation att födas av mig. Konceptet i vad det kan ge människan i möjligheter återkommer av och till till mig. Jag minns ej när konceptet kom i mina tankar men någon gång senaste åren här. Kanske mer värde människan och mindre från äldre förekomst dess ursprung ligger i.Men jag förstår då domänen här och vilken nytta ett förstående äldre-hem långt ute i skogen utan störande spring eller över-nyfikna "äldre-aktivister" kan störa har att ge när kombinerat den moderna världens avancerade mediciner likt lämplig kombination säg haldol, och någon atypisk hård på såväl dopamin så standardisering av demens-behandling går att göra som bonus: 70 år till haldol hemmet, dagen efter dement, frid i världen, och entydig predikterara samhällssystem hälsa.

Kanske vad som behöver själv-organiseras av några äldre vänner? Jag är väldigt på om inte någon så här spontant självorganiserar något kanske antytt här tidigare. Dödande kul, Hard core comedy. The death of comed with everyone laughing.

Att söka för "open science"

2015-10-16

Komplettering: Ett exempel från idag där Research gate har hela artikeln och överst i serp i: The form of the forgetting curve and the fate of memories | Google resp. The form of the forgetting curve and the fate of memories averell lee. Givetvis kan man uppleva att en del frågor rörande rymden som ger SERP-resultat väcks - åtminstone för dem exempel där sökresultat av första typen överhuvudtaget ej inkluderar korrekt sökträff från en sökning av typen två (vilket jag ej kontrollerat för dessa) - men egentligen är det en mer allmän egenskap för Google som jag ej minns jag sett för Bing (och avstår att spekulera om här i alla fall särskilt som jag av och till tycker den är komisk).


Kan man säkert göra på olika sätt. Två sökningar jag gjorde hos resp. två journal-hus som kommit in på lite för typiskt för dem ofta från Google utan möjlighet att läsa artiklarna bar med sig menings-komponenter (lokala sökningen hos dem) på temat:


  • Varför ska jag köpa annonser som föreslagit när jag ej kan se artiklarna jag söker på dem via Google?
  • Det går ej att söka rätt på bra artiklar att köpa annonser till via Google.
  • Jag vill inte köpa mer annonser eftersom jag inte kan se platserna jag köpt annonser på.

Jag fick ingen träff på någon av sökningarna. Om det var korrekt egentligen vet jag ej. Under antagande att entiteterna här representerar ett försök att förstöra världen och få människan att dö ut vore det tveklöst korrekt att pröva medan men det är nu ej aktuellt. Tänker vi oss att öppen publicering skadar samhället vore det tveklöst fel att pröva metoden. Och allt emellan är mer eller mindre icke-trivialt att nå något svar på man enkelt kan känna tilltro till och försvara. Viktigare känns det mer emotionellt lite oräligt som metod så jag tror jag avstår från den.


Däremot fick jag träffar när rätt sökande på resp. artikel igen:


  • Ej sökning på endast titel vilket idag ger sämre resultat än det förr gjorde. Orsaken kan antingen vara något form av samarbete med journal-publicister hos Google eller mycket troligare att de oftare gör egna automatiserade (eller om jag känner teknik-höjden hos flera sitter och söker förhand) efter i copyright-mening tänkbart problematiska publiceringar (bra ofta är dom ej problematiska alls faktiskt men det kanske inte univeristeten eller författarna har koll på alla gånger).
  • Utan titel + åtminstone första författare gärna i omvänd ordning från typiskt för artiklar.

Sedan imponeras jag verkligen av den mycket fina kvaliteten på det allt mer växande tillväxten av tillgängliga artiklar från Elsevier. Verkligen att de inte hörde till något av aktuella trouble makers jag råkade på här. Givetvis kan mycket där fortfarande göras bättre men man kan verkligen se att de snabbt börjat gå åt rätt håll. Enorm magnitud-förändring mot hur det brukade vara (d.v.s. ingenting).


Refererat försök på de två andra var tänker jag i delar orsakat av att man känner sig som motiverad av att efter närmare 10 år börja se förändring hos Elsevier.

Spännande eller Tråkligt? Kan vi förstöra fiendens kulturhistoria genom att vara tråkiga? Och hur gör vi det praktiskt?

2015-10-13
  • Tråkigt är ett vapen som kan förstöra vapen.
  • Vi tittar hur vem som helst kan göra saker weapon-grade tråkiga.
  • Dessutom förtråkigar tre exempel-områden tills de går sönder och börjar försvinna från världens kultur: Tråkigt för framtida generationer men kul relevanta exempel är också viktigt.

Fortsättning med en illustration av en ungefärlig nivå där religion utan störande koncept är stabilt tråkigt:



Och inte alls att tråkigt ska tas för att vara tråkigt: Tråkigt är ett av de ordvapen vi kan ta fram för att destruera sönder vad helst i information. Tas tråkighets strålning upp till tillräckligt höga nivåer klarar få av att mentalt processa informationen. Liksom ridicule kraft likt forna tiders ödeläggande gudinnor och gudar i sin amoraliska rättvisa sannare än de sista tusen årens politiskt korrekta strunt gudar. Likt de som förr beväpnade dig eller själva sköljde bort alla världens sämre troende så att din lojala tros-prestation faktiskt blev värd besväret. Vem som helst som söker att styra eller förstöra världen gör bäst i att börja med att göra slagfältet - oavsett global warming eller tidbits - riktigt tråkig.


Finns själv-egenskaper för att få oss att lägga märke till? Leverera pay-load? Och bibehålla intresse?


Och vi avser med information vad vi löst beskriver enligt:


  • Vad i en titel som får över-användande nyhetskonsument på internet att klicka.
  • Det som i en dialog får dig att bli överraskat mer intresserad.

Och för första försöket till att beskriva egenskaper som avgränsar ungefär information vi avser under verklighet av att diverse ganska välkända egenskaper för att just få nyhetsläsaren att reagera vidare numera sidan särskilt två till fyra år används av flera större nyhets-providers (men inte alla av de större). Om något ser vi gärna vår nyhetskonsument som:


  • Lite desillusionerad av nyhetstitlar. Mycket spännande ord och koncept känns egentligen inte levererande något intressant oavsett om korrekt beskrivande katastrofen eller vad det nu kan ha handlat om.
  • Uttråkad och ej helt lätt att flytta till engagerad.

Och med en distans mellan information och realitet av att omsätta energi själv - tagande del av händelsen. Detta är väldigt viktigt här och ska ej ses som en begränsning så mycket som att göra det möjligt att se hur informationen ska bedömas. Ty vi har just föga närhet realitet i den domän som intresserar oss här. Det är viss skillnad oavsett om en del av förtecken eller packetering är religion mellan att skriva på för rekrytering armé i krig eller stödjande konceptet av ett försvar. Och många koncept tänkta att avse praktiska företeelser är i verkligheten för religion svåra att i någon objektiv mening detektera förekomsten av.


"Vikter" verställande i skattad magnitud tråkighet

Vad jag använder för detta känner jag väl till rörande vad det visar och ungefär vad jag hade tänkt använda om fortsättande: och .


Emellertid är varken ursprunget eller genereringen riktigt normal här eller i första-steget ännu fullt förstådd. Genereeringen är här gjord för att se över egenskaper i genereringen av ett helt annat system av grundvikt. Och med utgångspunkt för epok-resultat som avviker fortsatt enligt diverse ej önskande konvergenser (ex. i toppen sist några stycken att vi ser hellre större städer som huvudstäder långt före länderna, att två och säkert fler-gram tenderar att gå ner medan nära-liggande 1-gram går upp, att New York avviker från föregående som i princip ändå). Problem relaterade hur reduktion av aktivitet som går vidare från en nod till nära-liggande noder beräknas som funktion av bl.a. sannolikhet förekomst båda resp. tre mått på similarity (varav ett ej används förut men togs in för att hantera en bunt ganska nya noder som har ännu få stabila relationer och utnyttjande direkt ord-likhet i benämningen på dem: Ex. värderande sweden som likhet mellan men from sweden och children from sweden även om resp. mot förmodan - jag föredrar det här mindre sannolika exemplet - ej har relationer i övrigt ens för för sweden: Utnyttjande mötet mellan ord och fler-gram möjligen kanske defekt i algoritmen...).


Emellertid har diverse beräkningar gjorts på datat därefter (inkl. kastande fler-gram i vad vi ser) och utnyttjande en grupp stabila viktsystem.


En operation man allmänt kan göra på uttryck i viktmening man kan välja att se som vad vi allmänt kallar sannolikheter brukar ses som att visa divergens mellan fördelning med värdering av hur överraskande resultatet är. Det går att argumentera att cross-entropy (som det antagligen oftare kallas) egentligen ej gör det senare i dess vanligaste typ av beräkning applicerat för språk (bl.a. relaterat hur dimensioner hanteras oavsett om det nu ofta precis som antagande av naive bayes tenderar att vara funktionellt på nivå nödvändig för vad det används för) men här här gjort något mer komplext (bl.a. från hur stabila viktsystem applicerats på det genererade datat) med resultatet att det tämligen


  • Förvisso emotionell intensitet.
  • Men också hur i just konversationen eller information just nu till oss utan något pågående sammanhang väsentligt för oss (ex. att vi redan är troende).
  • Eller är direkt berörda (d.v.s. ej mer än katastrof av typen A och absolut inte från det till nivå katastrof av typen A just nu 1 km från var du är och för en timme sedan 8 km från var du är).


Komplettering / Notera: Jag gillar insåg efter att faktiskt tittande på Wikipedia sidan att jag inte gillar hur den uttrycker cross-entropy. Se det enklare i grundmening funktionellt istället som att kultur uttryckt i språket kontinuerligt konvergerar - men aldrig så länge levande språk kommer når fram - till en fördelning av koncept över alla deras kontext. D.v.s. varför vi kan approximera sannolikheter med samples av språk. Vill vi göra en platt skattning som ofta gjort förenklat (d.v.s. samma typ av i vissa fall funktionella förenklingar som naive bayes antagnade) kan vi beräkna skattningen kontra antaget konvergerat värde för entropi enligt p log q, istället för resp. p log p och q log q.

Vad vi exempelvis kan göra för att detektera problen när en ny skattnings- eller samplingsmetod prövas om stabila goda skattningar av den riktiga fördelningen finns.

När modell-fördelning avviker från vad vi förväntar som normalt i vedertagen fördelning går resultatet i en riktning. Och när resultaten ligger nära varandra i den andra riktningen. Upp eller ner beroende på hur vi skriver vår funktion.


Begripligt, starkt men lite överraskande indikerande något som gör oss nyfikna. Ej vad vi kan tränat oss från för mycket nyheter till att bara filtrera bort som en till "katastrof A" jag redan sett i tio varianter senaste månaden.


Kommer person med rollen priest på situations-plats church kan vi förvisso bli överraskade men ingenting av rollen på platsen överraskar oss oavsett hur starkt konceptet i sig kan vara.


I exempel-data har vi rank till vänster och därefter konceptet och sist en indikation på data som rank-beslutades ifrån (jag skulle ej nödvändigtvis se sista värdet som mer än vad det genererades för: Att detektera och förstå hur en annan mer komplex algoritm fungerar "fel": Men helt ok för rank åtminstone). Troligen inte fler än åtta - tio stycken av de i toppen jag tog med i rank-ordning snarare än uttagna som exempel finns ej med: Det handlar om 1-gram koncept som har stor förmåga att agera spridande i mening där de använts av annars direkt indikerad intensitet av annat ord men som gör detta på nivå från andra ord att de själva saknar mening (det är indikativt av vad jag sökte att en del av dessa kom här och mycket förväntat av att de i ursprunglig generering samlats topp åtta på lång rad för ord ej längre än två tecken). Bl.a. some och liknande av ord mer av "operator-typ" (dock tror jag the, in och fler mycket vanliga filtrerades bort automatiserat och allmänt ej finns med: Kanske om så totalt 20 ord - Inga av dessa togs bort manuellt så ev. finns någon även om så att de borde vara längre ner än jag tog med).


Är performers tråkiga? Är det lite överraskande? Oavsett vilket spekulerar jag att för ett kanske mer "ordentligt" naturligt lite tråkig kultur kan verkställande vara spännande som epitet till något annars mindre vanligt. Nedan och för några till exempel har jag lagt till citat försökande förklara ord eller koncept. Emellertid ska sådana citat ej ses som nödvändigtvis förklarande något i dynamik generering som ligger ganska långt ifrån sådana informations-källor i vad som påverkar det (snarare olika strukturella dimensionella perspektiv på vad det förekommer tillsammans med - "andra ord i närheten" - utefter olika värde- / vikt-dimensioenr ex. global sannolikhet ämne, emotionell intensitet, reward o.s.v.). Sådant som vi har automatiserat i oss själva adderande djup och bredd inte alltid uppenbart för oss själva i våra egna biologiska neuronnät (vad som gör ex. "framföra, uppföra" begripligt för många som indikation mening för "performers"):



8 performers 0.727931783759885
"perform

utföra, uträtta, verkställa; prestera
uppträda, spela upp, framföra, uppföra"

Från: Perform | Wiktionary


Ord vi ej begriper saknar vad vi här avser

Oavsett hur starkt och överraskande ord kan vara för den som begriper dem gör dom oss ej intresserade för de situationer vi beskriver när använda. Om vi ej riktigt förstår ordlist-mening kan vi fortfarande bli intresserade: Vi kan ha förståelse i att det rör något spännande (utsläpp i viss kanal av penta-hans-fluorid-mortality-oxide). Men mycket är bara obegripligt och direkt bort som tråkigt. Här från allmän förutsättning av engelska språkområdet får vi diverse ord från specialistområden som egentligen är från andra språk (ex. än ej det vanligaste cross-culture psychology vidare som i ett fall för exemplen nedan särskilda koncept som även eller tillochmed huvudsakligen är entiteter d.v.s. där BMJ &ld;- Väldigt tråkig för de flesta tycks det: Du vill inte förstå vad nyheten handlar om och ännu mindre läsa den när det handlar om vad för journal BMJ senast startat eller lagt ner eller deras reflektioner om copyright och open media). Några exempel av och till väldigt långt ner:


Självklart vet de flesta



58337 bmj 0.00339611222385505

82032 kataria 6.3012201898568e-05
"Notable people bearing the name Kataria include:

Gulab Chand Kataria, Indian politician from Rajasthan, belonging to the Bharatiya Janata Party
[... Några till indier.]
Kataria is also the name of a Platyhelminth genus"

Från: Kataria | Wikipedia

92280 oryctolagus 5.75092692133435e-06
"Oryctolagus m

A taxonomic genus within the family Leporidae — the European rabbit."
Från: Oryctolagus | Wiktionary

92281 montgeron 5.74981252786167e-06
"Montgeron is a commune in the southeastern suburbs of Paris, France. It is located 18.5 km (11.5 mi) from the center of Paris.

Inhabitants of Montgeron are known as Montgeronnais."
[...]
"Population 23,163"

Från: Montgeron

Google anger 822,000 träffar att jämföra med 49,000,000 uppgivna för Uppsala (tveklöst gissar den på båda men magnituden stämmer för vad jag vill illustrera troligen ganska bra).


Powiat förvånar [Red. Illustrerar en egenskap som kan göra tråkigt genom att försöka vara kul: Förstå ej roligt här som tråkigt. Snarare är effekten av det oftare att saker reduceras i tråkigt. /Hans] mig kom så pass långt ner i tider som dessa när Europa och EU är så heta engagerande områden. Just vad jag tror mycket spännande nyheter saknas för som tveklöst borde intresse massor av folk runt om i världen: Hur fungerar ex. powiat med EU och vad tycker Ryssland och Ukraina om Polens powiat? Och hur skulle vi översätta det till svenska? Ej perfekt kommun och givet att nu kommuner ej riktigt sorterar under landsting ej så heller: Knappast landskapen med föga konkret politisk mening? Kanske närmare (om jag ej fel-minns vilket jag kan göra) struktureringen av sjukvård i Storbritannien vilket vi ej heller har en bra motsvarighet till. Jätte spännande koncept.


95666 powiat 1.069344818453e-06

"A powiat (pronounced [ˈpɔvʲat]; Polish plural: powiaty) is the second-level unit of local government and administration in Poland, equivalent to a county, district or prefecture (LAU-1, formerly NUTS-4) in other countries. The term "powiat" is most often translated into English as "county"."

Från: Powiat | Wikipedia

Ett till spännande - i det visuella sökande uttrycka en bred och djup grupp av koncept med starka känslor - koncept från Polen också kan jag tänka mig i dagens händelser borde intresse väldigt många: European Solidarity Centre. Jag hade tänkt besöka det när det var klart men glömde bort det. Kanske i framtiden någon gång. Arkitekturen för byggnadens kontextuella ursprung i Polen imponerade på mig när jag först såg den (och så nu också).

Foto: European Solidarity Centre | Wikipedia


Kanske besläktat åtminstone med det visuella exemplet gäller ju förövrigt att de som kanske oftast har störst egen-värde av att följa upp risker för sjukdomar de löper p.g.a. beteenden eller ovanor ofta är de som gör mest för att ej läsa just den informationen.


Koncept ganska långt ner

En försvarlig mängd koncept intresserar de flesta mer att läsa och uppleva om:



27821 maxwell 0.0186126467838327
27822 contextual 0.0186124882587979
27823 ramon 0.0186112029589249
27824 mediasentry 0.0186100396553516
27825 telegraph 0.0186088565344031
27826 augsburg 0.0186058638788039
27827 statesmanship 0.0186039457678524

42321 pythagoras 0.00950052310451803

Problematiken med statesmanship är att vi ej förväntar oss att vi ska överraskas av något intressant. Vi förväntar oss något ganska tråkigt case av en gammal politiker (kanske död) eller något moraliserande utan spännande exempel från verkligheten av vad man inte ska göra om man är hög i statesmanship.


Vi har ett bättre exempel med två nära besläktade koncept där ett vi kommer med stark indikation om skandal, stora svarta affärer, kraftfulla skadeverkningar och väldigt udda beteende. Medan det andra för det för engelska språkområdet engelskan är mycket mindre av skandal idag. Är du ej särskilt intresserad av det senare är mycket från de sammanhang vi utgår från här ganska ointressanta idag (sök gärna ex. Bing News eller Google News och om särskilt intresserad laga till något och om inte troligen ej förvånas av något i recepten: Det är recept med ganja i - Detaljeran är som något icke för den som ej lagar sådana recept och ingenting mer behöver egentligen läsas än titel).



346 cocaine 0.474309759662072
18048 cannabis 0.0258643207121992
49894 ganja 0.00612188903006565

Emellertid för dessa två finns preferens i kanal-typerna av att det blir lite mer av skandal alt. något som personer med samma utgångspunkt håller med och därför gärna läser och kanske oroar sig för andra personer rörande (vad jag gillar själv: Bättre att oroa sig för andra personers ovanor än egna ovanor i något annat område).



1485 drugs 0.354045813825875
1962 hash 0.331098744058235

Koncept i konceptuellt likartad mening längs någon grupp av dimensioner också nära i rank

Några exempel relevanta i vissa företeelser som tenderar att komma tillsammans med religion (såväl som andra starka övertygelser många ej upplever behov av att alltid tänka igenom beslut som görs med utgångspunkt från tron som resonemangs-ssystem alla gånger: Bra tycker en del om det får andra att göra något ej bra medan de oftast tycker det dåligt när de istället tolkar det till att de bör begå våldsdåd - Ett lager resonerande "skydd" till beslut om vad vi gör som har försämrats oavsett vilket):



5423 christ 0.244485975723213
5424 pagan 0.244483438159631

12606 extremism 0.0338674885108562
12607 terrorists 0.0338651392779631

16388 insider 0.0274673608186989
16389 extremist 0.0274640730379296
16390 antisemitism 0.0274636784159653

Starka koncept

Förvisso är en orsak till att dessa koncept indikerats högt vad diskuterat i med cocaine vs cannabis som exempel. De kommer ofta med ämne berörande något spännande (och oavsett om något alls berör religion eller inte) och som kan vara ganska varierat.



110 satan 0.569383022380698
836 hell 0.403645994096478

Det i sig om de nu inte störs ut av något annat (ex. religiöst) koncept ej passande personen eller gruppen vi avser gör dem ej mindre starka. Två mycket potenta koncept och skiljer sig av de jag valde att acceptera generering resp. ta med här från övriga exempel (det finns fler mycket starka men jag tyckte ett par kunde räcka ovanför 1000).


Vi kan jämföra med:



461 liar 0.452951001932582
462 pleasure 0.452937146364663
463 donate 0.452912805040081
464 deny 0.452370446801435
468 crash 0.451143333677802
469 concerts 0.450987397693519
947 accident 0.392257670876538

Från tråkigt till väldigt tråkigt

Studerar man religion som del av en särskild vetenskaps-sekt eller till det jämförbart blir koncept indikerande det som kontext typiskt oerhört tråkiga. Nedan :



10518 christianity 0.134539392085215
60844 christianism 0.00272042882934119

När christians är spännande kommer det ofta med någon tilläggs-indikation. Likväl ej fullständigt ointressant tråkigt för i princip alla (vilket christianism är):



7212 jesus 0.21380636395505
7285 christians 0.212563777850051
9504 christian 0.168307503764355

Vi kan jämföra med koncept ofta använda för att indikera ämnen för ex. television:



4190 comedy 0.266510073090219
5221 animals 0.247968814862687
5222 racing 0.247941934212302
8220 drama 0.195746472936577
14598 animated 0.0296956087558962
11782 animations 0.0378825174706038

Mellan drama och animated.


Fler på ungefär samma nivå från några av världens mest igenkända (i nyhetstitlar, vardags-konversation o.s.v.) religioner:



17124 buddhists 0.026690674851085
18384 buddha 0.0255725594109623
25757 buddhist 0.0200260675469606
35083 buddhism 0.013735175539883

15736 pagans 0.0282229660486055
35655 paganism 0.0133623262427358


8914 muslims 0.181988187074966
10164 muslim 0.148848320316654

Väldigt spännande (uppges ofta) i andra språkområden (Mellanöstern) än engelskan men lider här troligen av en försvarlig mängd problematiska associationer till historia (resp. ganska tråkig analys av politisk nutid):



16189 crusader 0.0277006068860114
19196 crusade 0.0248608849318294
20714 crusades 0.0236487910854209

Och crusader kommer nog som epitet på lite väl "säkert" agerande med mindre av explosioner och få saker gjort än man egentligen kan tänka sig. Ges det som roll i något ej relaterat alls religion eller Mellanöstern är det på en lägre nyhetsnivå i intresse än om vi väljer istället andra epitet på den som stridande försöker få till transformationen till vad antaget önskvärt.


Också tråkigt och lite tråkigare än crusades:



25756 unionist 0.0200261762923831

Europa och Asien är ungefär det samma här:



9473 europe 0.169159961946997
10680 european 0.124265463860199
19637 europeans 0.0245258462749606

Tror du på Europa gör det dig inte till en spännande person i sig. Det krävs något mer.



9522 asian 0.167775528805561
9725 asia 0.162674159521357
14223 asians 0.0302806752096144

Jag avstår från att ge en tänkbar förklaring till varför asians hamnat lite högre än europeans (förövrigt är det inte det troligaste att just det är förklaringen särskilt som det nu var många år sedan Altavista-dagarna sista året innan Google när nästan allt i alla sökresultat handlade om samma sak).


Afrika är lite tråkigare - från en för Europa och Asien redan hög tråkighets-problematik - men inte på nivå att någon tar livet av sig extra. Lite tråkigare: Kanske lite uttjatad saknande det medborgar-inriktade nytänkandet i underhållningen vi har ett fint exempel på engagerat hantverk för Europa med Grekland vs EU / Lån-givare. Nytt, emotionellt och farligt. Afrika är kanske mer emotionellt och farligt men upprepat.



10660 africa 0.125563605359284
10858 african 0.104983085817708
20091 africans 0.0241469311149319

Terrorism:



562 terrorist 0.437035209258032
917 terror 0.395399889718902
1192 terrorism 0.372692100287558

Bättre än att bara tro på Europa: Jag tror på - som middle- eller higher-management i EU - på att Europa har en roll som terrorist för att ge igen för all asiatisk pornografi som publicerades 1998 - 1999 ockuperande internet. Nytt därför intressant. Om ej så är det som genererat här värderat nedåt.


Deject

Deject förvånande mig och fick mig intresserad att söka internet om det:



343 deject 0.474676070161311

Ej otroligt att värde att följa upp vad som tagit det så här högt upp (möjligen indikerande något särskilt t.ex. domän av quality assurance). Eller att det kanske visar på en överraskande kvalitet som hör till sådana koncept som tenderar att visa på möjligt "sub-kulturella" kontext på den som talar. Kontextuell emotionell intensitet och i sådana kontext överraskande jämfört med jämförbara termer emi och associationer / positionering mening över dimensioner kan dock räcka bra även om jag blev lite förvånad.


Exempel användning New York Times. GLOBAL OPINION typ:



"The world will not see this as prudence but rather as dithering — reinforcing the perception that the United States is hiding behind its economic woes and, hounded by the ghosts of Iraq, is no longer keen on leading the world. That will embolden America’s adversaries and deject its friends. "

[...]
"Vali Nasr is dean of Johns Hopkins University’s Paul H. Nitze School of Advanced International Studies and author of 'The Dispensable Nation: American Foreign Policy in Retreat.'"

Från: Forcing Obama’s Hand in Syria

Typ kommentar...



"rac March 14, 2008 · 8:51 am
Senator Obama repeatedly drags his religious beliefs into his (the!) campaign. That is the reason that all scrutiny of his favorite Minister is appropriate and deserved. Perhaps it is now time for Senator Obama to ‘renounce’, ‘reject’, ‘denounce’ and ‘deject’ Reverend Wright’s support. It is shameful that any candidate chooses to appeal to religion in order to influence voters. I hope this candidate reaps the appropriate rewards of his own choices to proclaim his religion so much during his campaign."

Från: A Sermon’s Echoes Threaten Obama (kommentar till)

Och ett exempel ej citerat (konstruerat) från New York Times: "I reject Obama deject retreat (but does he inject?) in Syria but preject (and projected) the running up. " Re, pro, pre o.s.v. har effekt mycket skattningsbart i upplevelse från grundkoncept men rank-ordning från grupper av dimensioner kan fungera bättre för skattning dimensioner som emotionell intensitet. Kanske vad något här visar lite av.


Tidbit

Ej tror jag "överraskande" position men koncept och ordval jag hade långt bort helt och fick slå upp för att det skulle komma tillbaka för mig. Nedan Google's definition jag ej såg var citerad eller som indikerade källa här (kanske värt att följa upp någon gång vad sådana definitioner kommer från):



"Surfing the internet one should always keep a tidbit handy to make Google feel important if you need to motivate them to get high complexity areas filled upp with above normal quality collections of articles. Reinforced learning should correctly be done with happy voice while money, drugs, stock-progrmas, food, and such damage long term results makes it lazy: The company should only have fun making your stuff and always a bit starved." Exempel tidbit för hur definitioner görs ovanför sökresultat:


Microsoft har jag hört gör något liknande med ej platt i representationen som Google. Mer som att se fyra eller sex dimensioner där förståelsen klarnar kul utan att det kostar energi.

Och p.g.a. säkerhetsdefekter uppger en del som sett det att skandalöst beteende hos andra som får saker förklarade träder fram för dem.


Belönande information med något nytt i sig?


Fler exempel högt upp

En bieffekt jag tror vi ser i en grupp (jag har i alla fall sett några exempel här men har inte suttit och sökt efter dem heller) är att ord vi normalt ej ser i särskilt många kontext och kanaler som det enkelt kan byggas statistik från dyker upp lite oftare än annars när emotionella. Överraskande. Jag rekommenderar dock ingen att ta till vana att svära mer för att göra sig intressant: I samtal och dialog anar jag att det kan vara mindre överraskande och här är överrepresenterat: Din personliga dialog i rummet samplas av uppenbara orsaker ej jämförbart med nyheter vilket är en skillnad som ibland som här märks.


Jag spekulerar att för jewels kanske det som referens kroppen var något samspelande med "ädelstenar" som tog det långt mer än tror jag annars förväntat (ty det gör det förutom potent överraskande för de kontext antagna).


Rörande vad vi i svenskan vanligen kallar ordformer och deras variationer här i toppen betänk dialog-kontext som inverkande där om man söker mer stabila indikationer för hur man täcker upp ett ämne behöver (eller enklast om ej litet så gör) konvergera dem till mer neutrala representationer med olika former av "praktiska realiseringar". Är ett ämne inom det större området ätande intressant är pågående lunching i sig ensamt ej riktigt perfekt.



0 killings 1
1 deaths 0.915119049731013
2 shitting 0.8796713420497
3 jewels 0.826251448285552
4 cowards 0.824560665664426
5 crappy 0.792729875092361
6 hating 0.758727375326933
7 lunching 0.750146934218013
8 performers 0.727931783759885
9 hilarious 0.725572491048409
10 heartbreak 0.722486392874184
11 bullets 0.712618827235198
12 demons 0.712464133724115
13 jokes 0.711142328538819
14 stroking 0.706244346603497
15 delicious 0.705070979091803
16 shitty 0.703841448351971
17 cheated 0.696408943987856
18 hurts 0.687051101212534
19 lawsuits 0.685806420338954
20 thrill 0.683598403678115
23 kiss 0.676182763125761
24 thou 0.669171560054806
25 kisses 0.666498021810219
26 honestly 0.662310010615747
27 courses 0.661266537628547
28 scared 0.659882928363553
29 cried 0.658147947190267
30 awful 0.65391060586054
31 fabulous 0.653028695233854
34 firefighters 0.650472752712481
35 betrayed 0.649073548898086
36 asshole 0.64906067149891
37 laughing 0.648637768124628
38 homeless 0.647898244900968
39 legs 0.6466505597353
40 bombs 0.643321257406666
41 relaxing 0.643250793967218
42 accents 0.642430591715541
43 tasty 0.642133987616193
44 respected 0.639070048546111
45 celebrating 0.638219995540855
46 terrible 0.638091176412212
47 unitize 0.634944565359393
48 genius 0.633880463969617
49 sweetness 0.632337405854395
50 cheers 0.626191521253009
51 crimes 0.625973178634721
52 drowned 0.623676785585781
53 surprised 0.623667811045861
54 championships 0.621572722478586
55 raped 0.621358708896513
56 manners 0.620851805508225
57 bullshit 0.619038582355606
58 hugs 0.617914729646745
59 sickness 0.6174888386535
60 attacked 0.614034881813171
61 travellers 0.613638467197783
62 educe 0.61333228224265
63 trousers 0.609096273673229
64 gloves 0.608879538411399
65 pissed 0.608672196251696
66 horrible 0.60710627907036
67 pleasing 0.606336826015969
68 robbed 0.60625625221611
69 drowning 0.605636480721342
70 cheer 0.604035783921952
71 sinning 0.601941094289737
72 denied 0.601212156481947
73 passionate 0.600967713632662
74 arguments 0.599670608832555
75 firs 0.599576954738534
76 desperation 0.599531591446292
77 gorgeous 0.599361278168303
78 bastard 0.595828672180601
79 handsome 0.591346486575202
80 outdoors 0.591328217090338
81 dies 0.590742957677884
82 annoying 0.590452710664991
83 died 0.58976368418581
84 lousy 0.587087420971033
85 dread 0.586989831208044
86 reflections 0.586301375296591
87 scream 0.585011785783503
88 finest 0.584635208397164
89 afraid 0.584559345173251
90 rude 0.58386030419161
91 hurting 0.58334903347594
92 kissed 0.583333688021268
93 losses 0.582057595404512
94 exciting 0.581910797385701
95 awesome 0.581584086343707
96 stole 0.581277153010483
97 fantasies 0.579627488577317
98 racist 0.579314929728174
99 meals 0.578432675676606
100 despise 0.577067328831949
101 damaged 0.574860850170004
102 colours 0.574608561591653
103 adorable 0.573385593584004
104 inspire 0.57250281797953
105 scary 0.5722237786477
106 brutal 0.572035129173657
107 nightmare 0.572009698775203
108 misunderstood 0.57037151447103
109 voices 0.570021826129367
111 arrests 0.568925098737575
112 rejected 0.568900120023394
113 bleed 0.567650695151921
114 cookies 0.567580536801968
115 imagine 0.566517100667991
116 fatal 0.565995760242655
117 unhappy 0.565030109505321
118 worried 0.564368229370698
119 hug 0.564219070905711
120 glorious 0.562922041938037
121 phones 0.56160282729097
122 sexy 0.561235195025282
123 sentenced 0.56003576249811
124 arrested 0.559627406637804
125 romantic 0.55776627264466
126 shall 0.557171781704317
127 singe 0.556328055603935
128 kissing 0.555755252685379
129 terribly 0.55490666787962
130 smile 0.554431431159882
131 heartache 0.554082090465263
132 conversations 0.55371299245
133 ecstasy 0.55333764180493
134 tornado 0.551105969738712
135 feelings 0.550668001375421
136 orientate 0.550147253319098
137 brilliant 0.548877771323167
138 slaves 0.548589496747991
139 dvds 0.54768937310324
140 darkest 0.547595054315454
141 starlight 0.545577117745296
142 incredible 0.544988689029887
143 obsession 0.54490241858911
144 drown 0.544212897290146
145 dislike 0.5441407130646
146 glad 0.543895950659348
147 harm 0.543758016899265
148 wonderful 0.543421827722369
149 done 0.542617875978702
150 addicted 0.541972795105894
151 lollipop 0.541195235853474
152 millionaire 0.540942123189594
153 absurdity 0.540523111052911
154 neglected 0.540444746788632
155 unfit 0.540258992551001
156 loves 0.540204426088919
157 silly 0.540080145561196
158 savior 0.53984757900075
159 beatles 0.539651379446365
160 blogging 0.539273776090827
161 hearts 0.539172404538321
162 exhausted 0.537308865152213
163 slaughter 0.537009345633227
164 attractive 0.536275520342376
165 beaten 0.535152431382164
166 slap 0.534629236620797
167 filthy 0.532977591058849
168 egomaniac 0.532598104029353
169 stumping 0.532411775110223
170 shit 0.532283436120983
171 frustration 0.532142077892742
172 tsunami 0.531556128667436
173 caressing 0.531124634929959
174 crashing 0.530997988459113
175 wasted 0.528669308610788
176 kindliness 0.528060355355646
177 enjoyable 0.526740476559546
178 disappointed 0.525444905027743
179 corpse 0.525218579868944
180 incorrectly 0.524921146747958
181 blessed 0.523610925360321
182 suppose 0.523539792579795
183 winners 0.523180740224374
184 covers 0.522876556311291
185 worries 0.522857062345719
186 nobody 0.520872954892496
187 nauseous 0.520740361979674
188 risks 0.520420701021588
189 haunting 0.52016020389402
190 remarkable 0.520090080535
191 acceptable 0.519799456733492
192 shark 0.519011066212279
193 educated 0.518557936176392
194 fun 0.518366985440146
195 fiend 0.517913546463124
196 helpless 0.517512488756177
197 savings 0.517173939442286
198 senses 0.517136702824522
199 bitches 0.516339785119978
200 angels 0.516289971072048
201 rotten 0.516237875835915
202 wicked 0.516108423667198
203 heroism 0.515602791693967
204 coffins 0.515312431738152
205 cherished 0.514160606510126
206 thief 0.513718076179564
207 rotting 0.513667737449493
208 caged 0.513654993993727
209 optimistic 0.513564748381434
210 desirable 0.513292717729957
211 celebrate 0.513125181948826
212 knowledgeable 0.512925611612644
213 heartbreaker 0.512751974021173
214 bonus 0.512616674261714
215 idiot 0.512387522443813
216 frightened 0.512196925741864
217 others 0.511806490771955
218 cheat 0.511704325449293
219 profits 0.511549753511538
220 hangover 0.511275935618895
221 impotence 0.510671894856308
222 conflicts 0.510264561084252
223 candles 0.510055208173646
224 transplants 0.510033985483434
225 cherish 0.509516340603999
226 honest 0.509101104276649
227 exertion 0.509073428072939
228 ruined 0.509008114881464
229 laugh 0.508787584874748
230 ate 0.50865970340775
231 diamonds 0.508641017712286
232 shiny 0.508602823612014
233 merry 0.508369921526136
234 ideas 0.507623410316739
235 joyful 0.507501217478488
236 aquiline 0.506442679664814
237 cleanness 0.505952137833555
238 dagger 0.505845609774047
239 disrespect 0.504340531471229
240 blinded 0.50409932480275
241 appreciate 0.503340619889113
242 guns 0.502771508919737
243 confident 0.502552244840401
244 cancelled 0.502529298644001
245 rags 0.501961886814956
246 loneliness 0.501181521411749
247 celebrated 0.500999571938387
248 tidbit 0.500906334090318
249 friends 0.500809523461474
250 affection 0.50071802002852
251 holidays 0.500259059336653
252 trapped 0.500098990018807
253 grin 0.499959740962029
254 happiness 0.499529458244062
255 loyal 0.497659810381724
256 stronger 0.49754941900191
257 fail 0.497303939350192
258 mistakes 0.497287812521517
259 nevertheless 0.49676453540432
260 habits 0.496404286138711
261 ashamed 0.496383946053594
262 cry 0.496251140128248
263 possibilities 0.496116657028892
264 loved 0.496060164821051
265 dying 0.495592265243499
266 demon 0.495195522596388
267 desire 0.494846232334869
268 burns 0.494041767873296
269 yummy 0.49386292588768
270 cursed 0.493484680312731
271 disgusting 0.493428331874548
272 groovy 0.49338644981204
273 bleeding 0.493357780523677
274 unkind 0.49334629212227
275 destroyed 0.493141872556094
276 sorrow 0.493052899456762
277 bitch 0.492428780626918
278 erroneous 0.492375019172665
279 killers 0.492336505195451
280 qualities 0.492094134437349
281 funny 0.492039519588977
282 destroy 0.491525535548452
283 launches 0.491462665066524
284 depressed 0.491299722669381
285 lucky 0.491008472710723
286 crushed 0.490613280936268
287 pants 0.490569842741568
288 proud 0.490279223389772
289 badgering 0.48968743575636
290 lied 0.489651191823552
291 killer 0.489562344251013
292 lovely 0.489549455279124
293 pretty 0.48934606096696
294 pleased 0.48910065981391
295 arguing 0.488953678236786
296 weddings 0.488780264796552
297 anxious 0.488690033117526
298 motherfucker 0.488542294824946
299 hostile 0.487918119259869
300 moonlight 0.487669150136056
301 loving 0.487433030415534
302 dessert 0.487235717957373
303 neat 0.486638382876708
304 francs 0.486552723515211
305 pies 0.486325566636192
306 thieves 0.48581232221454
307 faithful 0.485136132680208
308 beats 0.484979452646413
309 fortunate 0.484901249644507
310 joy 0.484434994347666
311 amazed 0.484352778237978
312 complaints 0.483825333701679
313 along 0.483484302735434
314 lust 0.482826426182758
315 bruised 0.482648680655614
316 unfortunate 0.482189531726787
317 injured 0.481976327708759
318 praying 0.481445563910897
319 dump 0.481420494783626
320 mourn 0.480943315017828
321 beloved 0.480660668211393
322 selfish 0.480470037908126
323 dreamer 0.479865868545574
324 loser 0.479795444977101
325 cuddle 0.479698825765695
326 laughter 0.478910633665607
327 hopeless 0.478676983966701
328 oneself 0.478508186034473
329 hatred 0.47849259821213
330 weep 0.478007929574918
331 abused 0.477595904255069
332 cheating 0.477161172265955
333 enjoying 0.477026051214241
334 evil 0.476703053522543
335 bullet 0.476626191134719
336 wow 0.476518502051895
337 won 0.476437775887414
338 bless 0.476355215558543
339 jealousy 0.475903945165712
340 shotgun 0.475570456836325
341 intimate 0.474984935993616
342 cares 0.474900189024168
343 deject 0.474676070161311
344 costly 0.474487458097339

Appendix: Exempel från vad genererat från

QA-utmanande datat där allt tidigare genererats bl.a. från för att få utmaningarna att framgå (om ej förr kanske i morgon). Vi har här en av två eller tre former den kommer i för varje epok där när tidigare refererande att vissa operator-liknande ord lägger sig överst avser en av de två andra (och all högt här har troligen ej något med samma orsak till det). Rörande england här är nu england till resp. united kingdom och great britain som lite jämförbart med hur washington är till united states avseende en av de defekt-problem diskuterade tidigare. Och gamla världens york är till new york som tolknings-defekter (oavsett löst sällan relevant alls viss indikation om ett generellt uttryck av folkvandringar som ger atavistiska rester i alla språk).



0 general 0.354265387894046
1 will 0.238326606277323
2 state 0.223422777809447
3 all 0.214755798497766
4 over 0.192713433715398
5 time 0.155199008630194
6 history 0.153391680307604
7 book 0.147828107708684
8 out 0.14609202355532
9 great 0.130580868402439
10 war 0.113577324493204
11 england 0.109271330203349
12 power 0.0945931507137262
13 washington 0.0845052880087791
14 london 0.079176068566666
15 take 0.0791407825845823
16 point 0.0691519230392751
17 ireland 0.0664212195117554
18 park 0.0630224149438597
19 valley 0.0607804514543271
20 line 0.0592045639654361
21 israel 0.0583835129534617
22 lake 0.0578900863432155
23 island 0.0571748946227799
24 law 0.0564672033088668
25 plant 0.0541735801964516
26 cost 0.0515188556162052
27 jack 0.05113458321494
28 movement 0.0503372529019095
29 going 0.0477689325205008
30 living 0.0469798660786035
31 word 0.0461722254808204
32 authority 0.0440032535222065
33 run 0.0423740542594847
34 business 0.0419824872998612
35 rates 0.0396522729924362
36 origin 0.0370970551272576
37 texas 0.0359261288598887
38 box 0.0346049313470313
39 just 0.0341238046816889
40 theatre 0.0330465220178985
41 new 0.0326803566573331
42 sound 0.03161615801426
43 scotland 0.0315828007427819
44 school 0.0312218122855678
45 location 0.0307037036588409
46 end 0.0305377154094495
47 research 0.0301713203535977
48 air 0.0285188736168379
49 drive 0.0270264046784521
50 philosophy 0.0270207185574312
51 teachers 0.0267419428987313
52 holy 0.0267208620612963
53 brothers 0.0265683342657952
54 mother 0.026403619727931
55 edge 0.0251657835918346
56 assembly 0.0251648070014966
57 sale 0.0240844906948315
58 contemporary 0.0236585288487385
59 progress 0.023535141760605
60 york 0.0225296706822885
61 basin 0.0220833280684139
62 bibliography 0.0220243903812554
63 meeting 0.0218207415203471
64 coming 0.0214240281641909
65 guardian 0.0210658597303751
66 poetry 0.0208368982462958
67 session 0.020592440958773
68 toronto 0.0204012495352761
69 crown 0.0200576740165399
70 secretary 0.0200240989699695
71 love 0.0197426277255952
72 hole 0.0183046719864572
73 employees 0.0181830948583527
74 maps 0.0175520653293866
75 official 0.0175195437454589
76 comic 0.0171277882864259
77 bay 0.0170059076867502
78 mount 0.0170011785613361
79 finite 0.0169398709240209
80 training 0.0168725454228936
81 person 0.0166671580668811
82 aid 0.0159519709174454
83 monitoring 0.0157620606653482
84 plenary 0.0152964797987367
85 surface 0.0152630767965247
86 ground 0.0149254745484213
87 utah 0.0145930234927139
88 equivalent 0.0139218265109324
89 absolute 0.0130174732395957
90 advertising 0.0129901502764812