Komplexitet för koncept: Frekvens koncept tillsammans med sekventiella ord-modeller

2015-10-30

En till lite annorlunda komplexitet har vi för koncept av godtyckligt antal ord: Ex. en stad likt New York bestående av New + York.


Att ha frekvens för faktiskt förekomst av New York är praktiskt ytterst kraftfullt för mycket praktiskt. Emellertid för en människa gäller nu att för koncept vi har mindre erfarenhet kan vi ha föga representation av det tidigare eller aldrig förr mött. Och om konceptet representeras av ej få ord går efter "några tänkta steg" (säg för enkelheten några ord i konceptet) värdet av erfarenheten av själva konceptet som representerats av dess ord ner och vi får ut tidigare mer av att läsa ord för ord med mindre prediktion direkt till konceptet.


Ett trivialt exempel även om det kanske avviker något från vad man alltid vill se som koncept i den här meningen är om vi tillåter operatorer likt in, from m.m. i vad vi representerar (kanske därför att vi parsar ut dem och sitter och läser Wikipedia så mycket att de får lite egen mening så de kommer in våra biologiska nätverk). Exempelvis Persons of some type born in something who have visited New York.


Fortfarande tycks för mig övergripande frekvens (som parameter till något) vara i sig indikerande nog om ej låg (men förvisso om låg också sägande något). Här kommer likväl själva orden eller sub-ngram-av-hela konceptet i all rimlighet börja spela in och påverka övergripande komplexitet för hur enkelt vi läser såväl som tolkar ut exakt vad som avses (frågar någon dig senare om ett koncept som ovan minns vi det sämre än New York - Om du nu inte många gånger genom åren läst konceptet i vilket fall du säkert kan repetera det exakt).


Att väga resp. väg här mot varandra kan man uppleva är enkelt (vilket det egentligen också är även om det givet mängden koncept kan ta tid om man fel-tolkar sin förmåga att se programmerings-fel, logiska fel m.m. och sitter och genererar ut 500 MG tio gånger innan man börjar se värdet ännu en gång av att generera ut tidiga värden innan man låter saker generera ut dimensioner storleks-sorterade efter en mängd tid beräkning).


Önskvärt om än inte ända sättet eller för den delen det från alla tänkbara praktiska värden bästa sättet är att betrakta det enkelt så tillvida att vi endast väljer att använda frekvenserna för koncepten. Är dessa sämre kanske man dock väljer att komplettera med något extra för orden men jag såg ingen poäng med det (bl.a. därför att jag önskade dessa värden genererade ut från koncept-sannolikheterna: Att beräkna RT utifrån vikter "ungefär" av typen IDF och frekvens). Annars kan ljud-mönster eller kanske också mer esoteriska idéer om vad som påverkar något (troligen för de flesta föga praktiskt påverkande) som själva formen på orden, hur gamka små sample grupper av personer tycks vara när de lär sig ord m.m.


Så vi bildar sannolikheterna för ord på resp. position utnyttjande sannolikheten för resp. koncept. P ( Ord X på position Y | Konceptet det är del av ) o.s.v. över alla koncept.


Om vi som människa ska "välja" (implicit) att hellre utnyttja sannolikheterna för orden så att någon indikation av arbetet kan ges av lämplig vidare beräkning från P (första ordet på position 1 ) * ... * P ( sista ordet på position sist om inte när vi väljer att förenkla nöjer oss med första sannolikheten om konceptet endast består av ett ord) måste:


  • En skillnad som gör det meningsfullt finnas.

Märker vi ingen skillnad finns heller inte någon skillnad. Men det behöver ej innebära att ingen skillnad finns mellan resp. värde vi ska välja hur vi utnyttjar tillsammans. Primärt gäller att om en kontextuell påverkan finns upparbetad kan hela konceptet eller delar få större påverkan: Vi lägger märke till dem bättre - Kanske direkt ser ett del koncept - sub-sträng - av det större konceptet.


En myckenhet tämligen komplexa möjligheter rörande sådant finns närmare att text parsas men för ganska generella vikter vill man (eller jag) helst undvika det eftersom nu just inget kontext är känt.


Likväl bör en skillnad vi kan detektera och märka finnas. Annars varför skulle någon skillnad att beräkna finnas om meningsfull?


Jag föredrar verkligen den normalt betraktad som lite "sämre" äldre formen för hur sådant kan skattas: Weber's law. En orsak är att när ii som här (även om ej utnyttjat just här) har nätverk med sannolikhets-, similarity-relationer m.m. i sig uttryckande distanser, resp. distanser framåt i tid predikterad såväl som tid bakåt formas mycket av logaritiska och power-relationer i sig. Även om det ej egentligen ska hindra användning vidare tenderar jag att förutom exp för decay ofta virra till det och om kostnad beräkning eller under- / over-flow ej verkar troligt föredrar jag att undvika det därför. Vidare när man skattar framåt i tiden och försöker utnyttja samma relationer är den korrektare tycks det för mig rent praktiskt än man åtminstone enkelt för diverse andra former (inte otroligt relaterat risk att virra till det) medan där vi får "avvikelser" jämfört med bättre funktionsformer ligger vi ändå i domäner där mer kostsamma investeringar i beräkning krävs (lite som att vi löpande tidigt och sent behöver skatta exponent för power-laws även för något trivialt som frekvens - resp. kontinuerligt kontrollera om man går in i en ny domän från kontext eller bara förändring globalt över allt i alla sammanhang).


Så därav delta (eller om vi vill derivatan för den som från resultaten önskar integrera från övriga jämförbara "lagar" - skattningar hellre så undviker man onödig komplexitet utan praktiskt värde) av den effekt frekvenserna skattade från resp. typ har (via lämplig funktion utnyttjande dem). I relation till en normalitet vi bedömer det från.


Normalitet att bedöma det från är upp till potentiellt ganska svårt. Är det ett långt koncept och vi sitter med ett papper skymmande alla ord tre ord framåt är kanske dessa en god indikation. Lägger vi istället märke till något i mitten är det kanske indikationen? Men för enkelheten skillnaden mellan den totala skattningen över resp. ord relativt för konceptet som sådant.


Är skillnaden stor säger det oss (typiskt men jag vågar inte säga alltid här) att koncept-sannolikheten är ovanligt låg görande det "billigare" att tolka samman orden var för sig.


Är koncept-sannolikheten hög är komplexiteten lägre. Är ord-sannolikheten samlat hög är komplexiteten låg. Om koncept sannolikheten är hög är troligen ord-sannolikheten försvinnande liten jämfört med den. Så:


abs ( f ( koncept-sannolikhet ) - g ( ord-sannolikheten ) ) / f ( koncept-sannolikhet ) + g ( ord-sannolikheten ) )

Det roliga med mycket diskuterat i en mängd publicerade teser om hur vi tolkar ord och koncept genom åren. Med väldigt utna tvekan riktigt arbetsamma lösningar för att väga samman alla möjliga faktorer är att om man har riktigt mycket data av ett fåtal typer som just bara förekomsten av koncepten tenderar det i sig att göra bra mycket annat ofta försumbart. Det är lite skillnad praktiskt om man börjar för udda latinska beteckningar på något långt ner på några frekvenser mot när knappt bigram frekvenser håller värde. Värdet av det som dimension ökar. Mängden ord och koncept vi som människa möter är inser vi av det riktigt ordentligt.


Språk i hemmen för barn räcker knappast. Adderar vi tv och film skattande inlärningen tidigt räcker det ej heller. Skolan tar ju en försvarlig del av dagen. O.s.v. upp genom åldrarna.


Man behöver allt. Allt. Verkligen att många aktörer har ett ansvar de föga lever upp till här. Journal-huis m.fl. bör självklart i den mån ej mer än abstract, titel m.m. görs tillgängligt sammanfatta ner sin statistik regelbundet så man kan hämta ner den.


Nå mycket data är bra. Så är det.


Huruvida denna enkla skattningen jag gjorde återstår emellertid att se då jag ej försökt stämma av den mot andra typer av skattningar som kan tänkas vara relevanta. Mitt primära intresse är att tillföra bättre skattningar för en del koncept man kan misstänka ligger en aning lågt. Det är i all rimlighet bättre att göra det med någon metod som har motsvarighet för den jämförbara situationen hos människa: Om min skattningen av ett ovanligt koncept är ovanligt p.g.a. dålig sampling medan personer känner det bättre falerar de flesta modeller på många koncept när vi för samman det med koncept-sannolikheter. Emellertid om det ej är troligt gäller p.s.s. att man bör motsvara hur koncepten tolkas och förstås när de möts av människa (som default utan preferens till någon särskild praktisk användning utan flera olika med varierad kvalitetskrav ibland lägre än så här).


Måttet ovan tivlar jag på ger just något i sådan avstämning men ger hoppas jag en vettig indikation om åtminstone magnituden mellan dem. Och jag blir ej förvånad om det stämmer ganska väl med hur vi tolkar och förstår koncept i mening av arbetsinsats att läsa resp. minnas dem (troligen mer det sista särskilt för "ord-långa" koncept).


Dessutom sorterade det elegant upp några hundra defekta koncept där tab som separering någon gång har fallit bort för blanksteg. Vilka blir enormt komplexa. Både oerhört osannolika från 35 - 50 ord såväl som helt otroliga att hitta i någon verklig text. Hade man nu ej tagit hänsyn till positionen vid beräkningen av ord-sannolikheten hade det blivit en annan sak eftersom en del (men ej överdrivet många) väldigt långa koncept faktiskt existerar naturligt (med också verkliga förekomster: Och ej bara inom kemi, biologi m.m. utan en hel del andra särskilda delar av den samlade mängden språk man finner i text). Eftersom de nu består av koncept - ofta nog också per ord - i sig förekommande i gedigen mängd.


Att dela data är ett politiskt och kommersiellt ansvar vi förvaltar för våra barn: Det kan bota sjukdomar, hindra krig och lära oss om språk

Nu har jag gjort mitt i alla fall och delat något med affärskritiskt värde för inte minst journalhusen ej open rörande deras långsiktiga överlevnad. Ingenting är så viktigt som att kapitalisera på data de kontrollerar. Men kontaktyta mot deras kärnverksamhet med författarna till allt som publiceras får ej underskattas. Därmed gäller det att dela rå-data som ex. koncept m.m. som förekommer medan man samtidigt drar djupare slutsatser själv. Så är det bara att vänta på att man tar sitt moraliska ansvar här och förenklar för världen att skapa en djupare förståelse om våra problem och hur de kan lösas. Dela data bra - Gömma data är dåligt och lite misstänkt (jag menar vad gör de egentligen med allt sitt data om allt från fysik till biologi jag ej kostnadseffektivt når? Kanske tillverkar de nya värre massförstörelsevapen än vi ännu sett? Jag kan tänka mig att de är mindre troligt än inte men kostnaden för realiserad risk är ju enorm: Kanske krävs lagstiftning globalt? Något FN borde engagera sig tycker jag - Eller kanske EFTA, GATT, Läkare utan gränser, Skandinavien m.m. ersatt av nyare koncept som EU o.s.v. och verkar helt dött men spekulerar jag ändå har en massa overksamma medarbetare - Från Frihandel till Fritt Data det skulle visa EU vem som är störst... Data utan gränser: För att bota sjukdomar i tid...).


En stor aktör bör självklart inte förfalla till sådana kvalitetsmässiga vkea och helt undermåliga lösningar för att dela data som bilder (d.v.s. ej som jag gjorde just i Att beräkna RT utifrån vikter "ungefär" av typen IDF och frekvens utan mer som när jag delar CSV-filer tab-separerade gärna komprimerade ej krävande något bökigt och slött API) m.m. Sådant är verkligen bara pinsamt att behöva se hos stora aktörer oavsett delar av artiklar eller något annat. Det genererar vi läsare på internet. Man tycker lite sund om sådana aktörer. Är dom så tekniskt efterblivna att de inte kan bättre tänker man när ma ej hittar allt relevant data till studien bra presenterat tillsammans med ord-förekomster m.m. i artikeln sammanfattat tillsammans med statistik för besökare via navigering, intern-sökning m.m. Vem vill egentligen läsa så här?


Bra fördömen är i kontrast:



Gäng har börjat missbruka data på nya otäcka sätt

En otrevlighet som blivit coolt tycks det i flera gäng-bildningar bland journal-publisiter sista halvåret är att kasta kategorisering och keywords i presentation av abstrakt och titlar. Ingen gillar sådant och tråkigt nog drabbar det också helt oskyldiga läsare och data-läsare. Det är verkligen inte sunt för dom själva heller. Ingen tycker det är tufft att dom tror att dom klarar att representera sitt material utan ämneskategorisering. Bara barnsligt.


Det får inte bli att man börjar se data som vad man bedriver rovdrift på. Data är något vi ärver från världens alla människor och förvaltar inför framtiden. Se Hillary's e-post som ett fint exempel: Det är data som framtidens människor - Våra barn - kan läsa och räkna ord i. Vilken skillnad det blir om hon blir president jämfört med den här små-snåla Obama och Bush vi har nu resp. tidigare. Förutom enstaka e-post jag misstänker är auto-skickade från Whitehouse.gov har jag likt de flesta inte fått läsa många av deras e-post. Två per år kanske och med bilder, udda fonter m.m. Jag vill ha e-post antingen som text eller ex. json, och i en stor zip-fil med alla e-post skickade, och inte just till en enstaka person. Det är ju vad data handlar om... En demokrat som Obama borde ju tänka tycker man på de beräknings-fattiga som ej kan prioritera att ta ut mening av bilder effektivt i sin parsning av datat.


Egentligen är det surt att man inte kan implementera någon kortsiktig kostnad för data-rovdrifts-aktörer. Lite som terror åren under Franska revolutionen men utan våldet riktat människor. Mer som under Kulturrevolutionen kanske utelämnande våldet och svälten med efterföljd tvångsförvaltning eller ett medborgar-garde som tar hand om aktuella politikers e-post. Facebook är ju dock ganska enkel att hämta data från så eventuellt borde man ta ut något aktuellt där igen: Kanske är det här redan på väg? Jag kan tänka mig det så en klok publicist såväl som coola politiker väljarna gillar tänker bäst efter hur de gör med sina artiklar, ämnes-kategorier och e-post (publicera enkelt på nätet).


När det gäller ditt data behöver du höra upp på dina verkliga vänner: Dom som tar sig tid att förklara världen för dig

Det går inte att räkna med att alla är snälla och tar sig tid och förklarar sådant här heller för de teknik-fördröjda aktörerna som ännu inte riktigt förstått vad internet handlar om. Så ta chansen här och dela världen ditt data (coolt för den som förstår internet: zip-filer, csv, och med vettig ej överdriven meta-information).


Skiss komiskt segment:

1. Understryka värdet av dela data.

2. Men göra det indikerande värdet samtidigt som små irritera under komiskt effekt-påverkan. 

3. Görande data jag redan har mer värdefullt genom att förslöa utvecklingen mot open-data. 

4. Bör också hantera ev. misstankar. Understrykande min människo-vänliga sida. Hans din vän. Härskaren du älskar. 

Kategorisering: World Domination, The Global Hans State.

One data to rule it all. My data. It's all mine or should be. Mitt eller borde vara. Kommer bli. 
Redundans är risk i reduktion scarce. Unikhet är värde. Ett stycke data i en instans kontrollerad av The Global Hans State. 
Så känslosamt jobbigt när törsten efter den fullständiga makten plågar mig. 
Må när världen är samplad och klar bör den fullständiga strategin realisera sig själv som självklar. 

Notering: Addera något sist för att reducera risken att någon börjar snoka runt Hans World State. Något lite kul men inte för bra. Sådant gillar folk.