Inte bara matematik: Koda parsers passar kvinnor och barn bättre än män

2013-02-14

Vi vet alla att träna arbetsminne är nyttigt för barn och att framtiden kommer kräva matematik av allt fler:


"Now, being on the other side of the divide, I see something that concerns me. I regularly TA undergraduate and graduate students in statistics, and I notice that many of them, while they have all the skills to do math, are absolutely terrified of it. And as soon as you fear a subject, or don’t want to learn it, you won’t. Your mind will shut down and every instinct you have will prevent you from engaging in the material. As a result, I spend the first hour of any class I’m teaching talking to the students and determining what it is they don’t understand to tailor my sessions accordingly."


Från: Mathematical Literacy: A necessary skill for the 21st century | blogs.plos.org


Också relaterat matematik:


För varje kvinna som vågar stå upp för sig själv och sitt kön är matematiken närmast ett tvingande ansvar som betydelsen varje beräkning innebär för framtidens värld gör mödan värld.


Få saker skulle glädja mig mer både som man och feminist att kunna lämna över allt detaljerat i matematiken till en kvinna och kanske några examensarbetande studenter. Det har varit något av en dröm för mig länge att både göra något bra för världen genom att lämna över matematiken och samtidigt lämna det detaljerade min organisationsförmåga har större avstånd till än det kreativa och att se möjligheterna i verktygen och vad som går att göra.


Efter att ha skrivit cirka 1/5 av chunk-parser klart ca igår och idag efter att ha givit upp på Collin parser (se också Google googlar med Google-NGRAM: Antalet indexerade sidor fel) skulle gå att optimera tillräckligt snabb vilket var vad jag egentligen ville ha tillsammans med LPost: Perl version of Brill's Part-of-Speech Tagger (helt ok Brill-tagger för Perl: Inte ett problem sedan jag först testade den och ganska snabb) under min par är det lika - mycket mer rent av - tydligt för mig att skriva parsers low-level är tillsammans med matematiken vad vi män när möjligt bör ta ett steg från och lämna över av till kvinnor och barn.


Få kända parsers - om någon alls jag träffade på - är skrivna av kvinnor. Och av de mer kompletta lösningar saknar de alla kvinnans naturliga energieffektivitet. Tar jag in venture senare i år eller nästa år ser jag gärna att ett par kvinnor anställs för matematik resp. de mer råddiga delarna av parsningen. Gärna med en bunt barn hemma som de kan sitta och räkna hemma med på kvällarna för att bibringa dem skarpa exempel på verkligheten. Därigenom vinner affären extra arbete, barnen får starkare arbetsminne och blir duktigare i matematik och kvinnans annars höga känslghet för att slitas mellan hemmets och karriärens krav hanteras genom att det blir lite samma sak och med stöd av hennes familj. Har man kul så räknar man! Eller skriver parser-kod! Och inget nöjes-räknande eller -kodande utan samhällsviktig tillväxtskapande räknande och programmerande. Precis vad riket behöver.



Det oroar mig egentligen att jag ska verka dum som är så här rolig kostnadsfritt. Komiken om kanske inte just här men av och till ligger på nivå med det bästa som produceras just nu i världen. Men jag tycker att mina läsare kan behöva det. Ofta när jag fått e-post genom åren har det varit tydligt att många av dem är väldigt tråkiga. Dessutom trots att de svenska rikedomarna växer relativt t.ex. EU just nu klagas det ständigt över krisen. Att ge något fint till alla svenskar som sparar in stora summor i resor och biljetter samtidigt som det är en kontinuerlig glädje kanske högre ger mig verkligen glädje.


Men för att lämna det mer komiska kan en kort diskussion om varför jag skrev (och skriver ett tag till troligt: kanske klar torsdag) parsern liksom en kort status på nuvarande dataimport som skett (bl.a. därför jag inte nyhetssamplar engelsk-språkområdet riktat Asien vilket är planerat för nästa större intensiva nyhets-sampling).


Området är egentligen vad som intresserar mig mindre. Det viktiga för mig är att använda det för att ta ut bra data från artiklar och nyheter samtidigt som jag kan filtrera hårdare. I princip önskar jag att ta associativa relationer förnärvarande begränsat förutom "långtidsminne" från do (d.v.s.v titel, ex. abstract m.m.) till att klara att kunna lyfta tillbaka ett äldre koncept där relationer kan bildas också i describe (d.v.s. artikel-text mellan koncept där och därifrån också till koncept verkande som describe till do som ligger abstrakt ovanför flera ex. artiklar, samt också från resp. describe till de koncept som ligger i dokumentets do).


Nuvarande parser-lösningar jag använder är uteslutande självorganiserande och bygger på delar av modellens grund-koncept både abstrakt och konkret modell, och den klarar av detta excellent och troligt med mycket bättre än vad resultatet blir efter den här typen av parser-drivna filtrering införts men även om så endast teoretiskt eftersom komplexiteten genom att det befintliga konceptet i sig inte per artikel kan göra någon intelligent filtrering genom att regelbaserat minska ner datamängden blir det brutalt minneskrävande när dessa fler typer av associationer mellan aktiverade koncept följs. Det kan lika lite mina datorer som några andra i Sverige klara av (snarare helt utan filtrering så skulle en extremt stor grid behövas om samplingsperioden inte är mycket kort: vid cirka 40 - 80 dagar bottnar vi nog ut Sverige och minna datorer vid cirka 5 - 15 dagar - exponentiell tillväxt). Jag tror också att det faktiska värdet man tappar genom att man inte klarar att uttrycka den kunskap självorganisationen representerar är tämligen begränsad genom att man också kan prioritera in att vara noga med att koncept man faktiskt är intresserad av tas med.


Samtidigt parallellt har jag förberett för en ny version av Blue light som återigen tillåts gå upp i antal koncept. Prioriterat var dels Visual light som fungerar som ett mer fristående system. Cirka 300 000 koncept med cirka 3 * 4 000 000 relationer ligger efter uppdateringen i Visual light, och med statistiskt samplade associationsmått mellan varje relation.


Visual light kan vi se som ett extra stödsystem för att klara av "bakgrunden" till händelser, kunskaps-koncept m.m. som förekommer varierat över denna. Konceptet som mindre formellt beskrivs i Fokus vs Kreativ torde ändå bra förklara ungefär vad det handlar om.


Själva Blue light har kompletterats med fler termer, fler relationer och viktigare sattes stort fokus på att komplettera statistiska associationsmått resp. skattningar för de enskilda koncepten i common sense. Totalt cirka 600 000 nya koncept relaterade biomedicin, statistik, fysik, sociologi m.m. Dessutom är det möjligt att ytterligare 50 000 - 300 000 koncept relaterade biomedicin, neuroscience och genetik tas in som gjordes klara inför förra uppdateringen men bedömdes då en aning för "isolerade" i relationer mot befintligt men som nu givet övrigt kan fungera bra att ta in. Koncept och relationer i common sense d.v.s. personnamn, företag, varumärken, organisationer, geografiska platser, föremål, fordon, astronomiska koncept, kemiska föreningar m.m. är totalt ca 30 000 000 st.


För att komplettera associationsmått mellan koncept används publicerade utredningar, böcker, rapporter m.m. relaterat US government denna gång (samt från förra gången men då ej importerat in US military). Förutom politiska organisationer som ser viktiga att försöka ta med varierat vid varje uppdatering är publicerad forskning alltid viktigt. Närmast tidigare i det större använde jag sist CiteseerX. Denna gång återvände jag till Plos som genom den höga kvaliteten med god kvalitet just på de forskningsområden som intressant rör sig både i det kortsiktigt uppmärksammade och i områden med långsiktigt värde och denna gång genom att jag tar ner alla deras publicerade artiklar och kommer extrahera den statistik jag vill ha med det nya stödet som parsern skrivs för så blir den realistiskt testad samtidigt. Det är totalt cirka 78 000 artiklar men även om detta corpus inte är enormt stort räknar jag med att det kommer addera gott värde för många för prediktion innovation viktiga relationer andra större corpus inom vetenskap jag har tillgång till.


Jag hade också hoppats ta ner Arxiv.org men tror jag stannar med dom redan nedtagna eller pågående (fler än nämnda). Där hade det i så fall också blivit endast abstract då jag knappast hade använt PDF-parsern (jag ogärna använder när formatet på pdf-filerna är varierat utan de ska helst vara från samma publicist och se lika ut).


Det finns en hel del bloggat tidigare om datakällorna bakom en del av common sense databaserna bland annat:


Because: Underskattat ord

Jag har varit oförmögen att hitta någon som riktigt prioriterat because den uppmärksamhet ordet mycket möjligt förtjänar. Speech and Language Processing ger oss det mest grundläggande:


"For extracting coherence relations, we rely on cue phrases called connectives, which are often conjunctions or adverbs, and which give us a cue to the coherence relations that hold between segments. For example, the connective because strongly suggests the EXPLANATION relation in [...]."


Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition
S. 727.


Prentice Hall Series in Artificial Intelligence
Pearson international edition
Authors Dan Jurafsky, James H. Martin
Edition 2, illustrated
Publisher Prentice Hall, 2008
ISBN 0135041961, 9780135041963
Length 1024 pages


Men visar som vi kommer till en begränsning i Hobbs coherence relations för EXPLANATION.


Statistical language processing är ju väl inarbetat med olika varianter av markov-modeller, maximum / minimal entropy / informatin modeller, bayesian decision networks m.m. Det samma gäller neuroscience bl.a. för att tolka och förstå avbildningar av avbildningarna. Samtidigt tror jag inte någon modell försökt att mer allmängiltigt ta konsekvensen av markov-antagandena från perspektiv av den som uttalar information d.v.s. här använder ordet because.


Vi noterar först att strukturen grovt-förenklat ungefär följer:


    [Beskrivning / fakta / påstående] because [Påstående som kan inkludera det mesta]

Vad vi söker avbilda med markov-modellerna följer väl arbetsminne också rörande kända beskrivningar. Känt är ju också att kontext just nu, humör, tidigare nära-liggande men utanför egentligt kontext m.m. inverkar på hur vi förklarar saker och ting också när det är helt irrelevant.


Det känns därför som en vettig hypotes att det sätt vi hellre bör betrakta because om vi ska använda informationen det ger till att:


  • Skatta ett tillstånd hos den som uttalar.
  • Ex. givet känd kontext och skattning av nuvarande markov-tillstånd.
  • Försöka skatta fram (tillsammans med givetvis mycket liknande information) preferenser bakomliggande rörande värderingar m.m.

Vara vad som indikerar information som följer markov-antagandet p.s.s. allt annat. D.v.s. förklaringen som ges byggs med stark preferens på det aktiverade tillståndet givet kontext medan kunskap, idéer, attityder m.m. närmare vad vi kan kalla långtidsminne påverkar i den det är relevant aktiverat.


Jämför gärna med hindsight bias som jag tror följer nära nog samma mekanism (i den mening att bedömer att samma algoritmer och metodik används där för att söka likartade skattningar). Aktuellt vid hindsight bias är informationen just då starkt aktuellt, och för att praktiskt försöka undvika dess effekt måste vi gå bakåt i våra anteckningar och aktivera upp efter bästa förmåga minnen och förutsättningar (en anledning till att jag försökt bibehålla också emotionella loggar med musik på Hans Husman om Prylar).


Se gärna också Sampling bias i Scholarpedia. Sampling bias beskriver givetvis också detta. D.v.s. att förklara världen från det data vi ser just nu men där detta data inte är riktigt lämpat för det. En förklaring är att vi låtit vårt tillstånd och våra egna idéer påverka hur data samlats in. Vi passerar då från ett markov-tillstånd med detta bias till ett tillstånd där vi bedömer det. Eftersom vi "lider" av markov-antagandets värld styrt av vad vi står med föregående tillstånd som indata är förklaring because ger vad som bekräftar vårt bias snarare än att säga sampling bias.


"Sampling bias means that the samples of a stochastic variable that are collected to determine its distribution are selected incorrectly and do not represent the true distribution because of non-random reasons. Let us consider a specific example: we might want to predict the outcome of a presidential election by means of an opinion poll. Asking 1000 voters about their voting intentions can give a pretty accurate prediction of the likely winner, but only if our sample of 1000 voters is 'representative' of the electorate as a whole (i.e. unbiased). If we only poll the opinion of, 1000 white middle class college students, then the views of many important parts of the electorate as a whole (ethnic minorities, elderly people, blue-collar workers) are likely to be underrepresented in the sample, and our ability to predict the outcome of the election from that sample is reduced."

Givetvis är det i praktiska värdet because kan ge inte förklaringen i sig utan vilket markov-tillstånd givet den nod vi står på som förklaringen indikerar också finns, och de associationer mellan dem och föregående tillstånd, och kontext. Vad som ges via because är vad personen med aktivt hindsight bias själv skattar kan vara ett tillstånd innan som givit vad som sägs innan because.


Förutom konkret-analys-värde i den mån de intresserar är det också ett fint test av de vanligaste algoritm-grupperna i dom här sammanhangen. Och det är väl kanske så att en lösning av ex. Kullbacks divergence, bayes-sats (lättsamt utan just någon matematik annat än lite för syns skull: Statistiska språkmodeller
med klass | Uppsala Universitet
) i någon variant, distribuerad similarity m.m. inte räcker riktigt till (jag kombinerar flera av varianter av de två sista med ytterligare en form av algoritm men har inte trots många försök av och till sett att Kullbacks divergence någonsin presterar bättre än varianter av bayes sats om än inte mycket sämre heller: kanske är dennes preferens mot chi-2-fördelningar för H(x) termen inte helt optimalt som approximation av språket i dom här sammanhangen).


Emellertid har jag inte tillämpat indikerade lösnings-modellen nämnd på specifikt because vilket var orsaken till att jag sökte efter vad som redan kunde ha varit dokumenterat. Det är ju praktiskt en fråga om because med dess tillstånd ska hanteras särskilt ner till Drifting thoughts och Dreamer eller om det kanske inte tillför större värde än att det ändå blir inkluderat utan särskild behandling.

Rekommenderad bok: Speech and Language Processing

Nedan en recension (med betyget 5) jag skrev på Google Books för boken Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition | Google Books av Dan Jurafsky och James H. Martin (i samband med att jag var in för att ersätta mitt trasiga register med Books). Mer om boken på dess hemsida: SPEECH and LANGUAGE PROCESSING | University of Colorado Boulder. Och efter citatet av min recension kompletterat med två bilder av aktuell bok.


"I have a rather large reference library - very even large - and in it's most important area - the area regarding language, neurolinguistics, psychology, neuroscience, information science, semantics, syntax theory, human perception, signs, different languages, media, propaganda and so on containing in closer to indicated rather narrow (as I choose the books for this part) around 200 good quality books (and more not sorted with the rest but keept).


No book have I used so many times to look up things and that though I never (but perhaps a few) looked up anything in the chapters regarding speech processing (but a one or two pages regarding mahalanobis distance (as part of a sub project to a much bigger project unifing it as used in speech synth with it's use in mri and text mining and extraction).


The result is that the book is starting to fall to pieces though not yet two years ago. Almost all of the register is gone and in the front it start at 21.


Until I get a new one I will hence some times have to use Google Books to get the right pages.


Edit: I should though point out that I doubt it is a suitable book for a short course. Rather it would be suitable as part of perhaps three courses together with simpler more narrow books. If learned correctly that way it will provide years of happy productive language processing. If anything I find the idea of it used in an early course a bit amusing thinking of the hate and dislike the students would have for it.




Förr kunde jag av och till uppleva obehag när en uppskattad bok tog skada. Jag har emellertid accepterat den mycket mer konstruktiva utgångspunkten att böcker jag köper som verktyg använder jag som verktyg utan hänsyn till deras hälsa. Går böckerna åt så att säga är de användbara och jag köper ett nytt exemplar om så krävs. Det fungerar bra med min personlighet.