HANS HUSMAN OM MEDIA

Komplexitet och Grammatik: Fruktflugans romantiska språk vs Människans språk

2015-04-20

Den här studien jag drog mig till minnes från några år tillbaka är ett elegant exempel på hur ett trevligt lite intressantare objekt att testa hypotesen på ibland är vad man träffar på:

Studier på sällskapsdjur som hundar och romantiken hos människor är ju ofta också vad som ofta når lite bredare än annars för ämnet. Konceptet demonstrerat ovan och säkert varför det dök upp i minnet är en elegant illustration vad som gör den form av snabba men helt funktionella skalning av andra viktmått samverkande (tillåtande där optimerad beräkning):

"[Language] exhibited by common fruit flies Drosophila (‘D.’) during courtship is as grammatically complex as the most complex human-spoken modern languages. This finding emerges from the study of fifty high-speed courtship videos (generally of several minutes duration) that were visually frame-by-frame dissected into 37 fundamental behavioral elements. [...] The languages categorization in terms of position in Chomsky’s hierarchical language classification allows to compare Drosophila’s body language not only with computer’s compiler languages, but also with human-spoken languages. Drosophila’s body language emerges to be at least as powerful as the languages spoken by humans."

At Grammatical Faculty of Language, Flies Outsmart Men
Ruedi Stoop, Patrick Nüesch, Ralph Lukas Stoop och Leonid A. Bunimovich,
PLoS One. 2013; 8(8): e70284.
2013 Aug 23. doi: 10.1371/journal.pone.0070284

Och något kompletterat inne i ett annat inlägg i brist på något romantiskt hos djur eller människor att referera (som inte skulle generera de flesta mer än vad som är accepterat utanför kommersiellt kraftfulla koncept som Game of Thrones där det ej är förväntat och tidsmässigt separerat när ungdomar under 25 gått och lagt sig - Med emotionella viktsystem och mer kan det nog gå att göra språk-uttryck åtminstone romantiskt mer upprörade än fruktflugornas språk):

Rörande diskussionen i övrigt i inlägget har jag för ena sidan av algoritmen - POS-sannolikheterna också gjort en till anpassning där resp. sannolikhet även normaliseras med ordets längd fångande något av en till sida av informationen men fortfarande tillåtande snabb hantering ej krävande att alla databaser är uppmonterade:

Jämför med Word lengths are optimized for efficient communication (PNAS) även om jag just nu i alla fall utnyttjar ord-längden i antal bokstäver resp. (hanterande korta ord 3 - där börjar vi räkna) eller färre särskilt) och positionering av vokaler inkl. på-räkning med 1 för ord med färre än två vokaler som ej slutar på vokal då formen av konsonanter och vokaler är jämförbart relaterat med informationen påverkar kodning i mänsklig kognition vilket jag tyckte gav viss "elegans" även om det egentligen inte gör skillnad med den exakthet aktuell oavsett om bättre eller sämre.

Konstant^L får skala ner resp. POS-sannolikhet. Enkelt och snabbt ej fordrande att alla databas-partioner är igång.En enkel effekt att se är att korta determiners likt the ger mindre skattning komplexitet jämfört med de längre mer ovanliga.

Och ett mer relevant exempel för mig att när delar av NP som exempelvis orden Winston + Churchill med taggar NN + NN förvandlas till Winston Churchill och NN skalas det om enkelt och för denna användning tillräckligt väl i vad som kommer ut) i någon ännu ej noggrant kontrollerad spontant känsla.

Från: Åsikter i recensioner: Varför först dyrt parsa meningarna för att kasta bort den bästa informationen?

Och ovan räknar jag på NP-frasen: D.v.s. en i allt normalt direkt linjär struktur utan fraser instoppade i den. I traditionell mening: Även om jag nog tror att delar som adverb verkande på adjektiv såväl som Winston + Churchill går till färdig mening som delsegment när det är effektivt och möjligt utan den övriga informationen (att vi förstår Winston Churchill direkt i sig utan att behöva information exempelvis i form av en roll eller titel indikerad innan).

Och för det linjära ord-fallen finns en korrekt uppgillande mina läsares intryck av mig långsam lite i korrekturläsning och strukturering direkt slö skrivelse av hur vi skattar mer än med ordlängden (precis som The Guardian lär oss: Röst och Känsla: Rätt röst för att tydliggöra de lugna och trygga kvaliteter folk gillar - Mycket slött språk som precis som refererade tester säkert kan få barn att somna om man läser upp det det):

Fraserna i mening: Probabilistisk grammatik och sannolikheter för ord - Direkt jämförbara utan träning konstanter (via typ-antal och sannolikheterna för resp. ord och POS-tecken 700 k resp. ca 40 typer) antalen (ofattbart förvånande)

Effektivitet är viktigt värde och vad man ska prioritera när möjligt. Även om jag får erkänna att enkelheten ger en lätt känsla av att utnyttjande diverse sannolikheter o.s.v. korrektare uttrycker den faktiska komplexiteten i skapelsen ovasett hur snabb resp. kort i kod. För koncept med fritt antal ord likt Winston Churchill hade antal typer om fortfarande använd även för vad jag utnyttjar varianten utnyttjande också ordlängden börja beroende på vad accepterar som hanterat på cirka 2 000 000 st.

Ex. namn på orter och personer med ovanligt många ord är föga tillförlitliga och har troligt skrivits i text man analyserar med en längre variant än normalt använd exempelvis klumpande samman en plats på en ort eller skrivande ut ett mellannamn eller jämförbart vilket man gärna vill undvika att reda ut på ej få ord därför att det skalar ej linjärt i beräkningskostnad med ord-längden: Vanligen brukar jag inte långt innan i detektionen av koncept ta ut de som har längre än tre ord för alla användningsområden där prestanda värderas. Jag tror det är en mycket god gissning att vår hjärna arbetar jämförbart optimerande. Vi kan trots allt läsa godtyckligt lång text utan att det behöver kosta mer för resp. mening och så länge meningarna inte är mer krävande än normalt jämfört med genomsnittet upplevt normalt är de inte brutalt annorlunda i beräkningskostnad för att vi väljer att uttrycka något med två adjektiv istället för ett eller förstärkande med ett adverb. Och skriver vi Premiärminister Churchill resp. Premiärminister Winston Churchill kan det senare kännas kanske lite omständlig beroende på övergripande kontext men skillnaden växer inte exponentiellt (så länge vi inte behöver bryta tolkningen: Flow i läsande för att tänka efter ty om så växer tiden spenderad abnormt men för sådana fall är det inte längre samma funktioner som används längre utan fler är involverande kanske rent av funderande över gamla minne av vad Hans skrivit om förr för att reda ut vem den här Churchill är: Något med pund-sedlar kanske?).

I all praktikalitet har man mer sällan om alls noterat i övrigt en funktionell väg att styra över texter vilka läsare man vill ha för olika ämnen. Vill man ta upp ämnes-motivation filtrerande något i ett ämne kan man uttrycka sig med lite längre meningar görande det hela mer bökigt och tröttsamt för den som egentligen inte är intresserad (eller helt jämförbart görande sådant som manuell översättning på helt andra nivåer nödvändig än annars funktionella metoder börjande på automatiserad och sedan lite handpåläggning på slutet av människa). Eller så sägs det i alla fall från dom som kan mer om översättningar än jag gör.

Yago3: Fler språkområden med härledd cross-cultural fördjupning av koncepten

Och fler språkområden använda i byggandet av Yago3 (fortsatt Yago 3) gjorde filerna ordentligt större än Yago 2 räknat i antal GB nu cirka 90 GB upp-packad (och två var dessutom också i märkbar tillväxt jämfört med Yago):

Yago-naga Yago: Yago3 | Max Planck Institute for Informatics

En del har gjorts byggande något vetande mellan språken jag ännu inte tittat på men åtminstone delvis förstod jag det som närmare området länkat till längre när här på bloggen men riktat för att ta ut sådant vetande Yago försöker samla på sig (med engelskan - eller själva Yago-koncepten egentligen som ju har engelska beteckningar tillsammans med övrig del av ID - som någon form av mitt och en del tänk kring att försöka hantera osäkerhet för saknade koncept i primärt antar jag engelskan).

Och såklart finns Yago 3 att även hitta via Google där vi ser att A Knowledge Base from Multilingual Wikipedias – YAGO3 (service.tsi.telecom-paristech.fr) ligger före Max Planck Institute for Informatics trots alla år Yago funnits där såväl som kraftigt inlänkad.

Jag tänker att orsaken är att konceptet Yago 3 är nytt och det prövas lite i början samtidigt som jag tror att något någonstans refererar relevant utifrån någon dimension. Kanske att artikeln är länkad eller att personer kross-förekommer. Säg kanske också sedan en tid rent av.

Vem som helst som vill ha ett bra common sense ska givetvis inte använda Yago 3. Ingenting i tre jämfört med Yago och Yago 2 är en god start ty utbyggnaden handlar mer om att utnyttja samband likt:

Söka bredare vetskap koncept-association: Wikipedia / Wiktionary på många språk (2014-04-15)

Resp. ge datat färdigt för alla som är intresserat av sådant resp. en mängd jämförbara användningar. Tidigare versioner är för alla normala användningsområden common sense mer hanterliga (särskilt den mindre "core-versionen"). Båda (eller egentligen tror jag tre tidigare versioner) tidigare versioner håller hög kvalitet motsvarande Wikipedia (med en del extraktions-fel man kan råka på ibland men egentligen inte särskilt mycket eller kanske mindre man får hämtande ut datat på andra sätt). En bra representation sparande tid.

Och för ett viktigare ämnesområde man prioriterar så vinner Wikipedia-vetskap oavsett om man tar vetande via Yago eller inläsande infoboxar och kategorier, rubriker m.m. direkt på att kombinera med andra system med domän-prioritet. Och för den delen andra breda och stora common sense även för små områden därför att de av och till är ganska olika på vad de är bättre (såväl för en hel del uttryckande märker man mellan många samma sak därför att alla möjliga ontologier hamtar data från varandra - ibland i små cirklar tror jag). Att inte utnyttja Wikipedia idag är dock verkligen att begränsa sig.

Själva storleken på vad Wikipedia växt till - och att det fortsätt växer i bredd, djup och med kvalitetsuppföljning - såväl som att Max Planck Institute for Informatics ger en hel del av vad man kan få ut väldigt färdigt att använda (och även om de efter dom här åren slutar att släppa nya versioner är knappast något förlorat på det: Bara att ta vad som finns och börja ta direkt från Wikipedia igen för dom delar Yago stödjer).

För statistiska samband mellan koncept är en text-källa (av några stycken) att ta direkt underrubrikerna. Åtminstone förr fanns en del färdigt kring länkar och kontext för dem men rubriker är bra data. Ger en hierarkisk-indikation i själva artikeln och det är inte så dåligt när datakällan är Wikipedia där ett viss långsiktigt förtroende kvalitet resp. hjälpligt (mycket bättre nu mot förr rörande all standardisering för hur sidorna ser ut= gemensam "standard" för hur rubrikerna görs.

Mer Yago och common sense

Följande inlägg bör förutom en del Yago-diskuterande ge en försvarlig mängd förslag på andra common sense. Och länkar vidare till andra inlägg från dem bör ge ännu fler ontologier särskilt inom olika ämnesområden. Troligen är inläggen 2012 och 2013 mer omfattande varandra mer av ett problem för mig ej klart vid tiden.

Världsbild och perspektiv: Några till varianter i mötet grammatik, common sense och semantik (2014-11-13)

"Volymen" information i biografier: Att förhöra biografier (2014-05-05)

Från utredning till tillämpning i tre enkla steg efter inte mer än två års funderande (2013-09-30)

Yago: Wikipedia-kategorier är inte subclass till Wordnet-koncept (2013-07)-22

Nyhetsanalys: Sunt förnuft när det gäller bildanalysen (2013-11-27)
Sunt förnuft i common sense: Problem 2 (2012-11-09)

Mening grundad i... (2013-05-15)

Yago 4: Kan bli grekiskt att motverka ett i Wiktionary "med pro-tyskt bias"

Och som det sägs göra "något åt" all snål tyska som lärs ut som andra och tredje språk i Europa.

Yago 4 tror jag de flesta förväntar sig ska fånga upp kunskap som finns i Wiktionary. Särskilt definitioner, grammatiska klasser, relationerna på sidorna till andra språk o.s.v. Wiktionary sidorna börjar ju verkligen se bra ut för många ord att en aktör nu ordentligt erfaren från tidigare versioner av Yago kan klara det medan få om någon resten av världen kan göra det bra första versionerna och antagligen ger upp innan man nått till något användbart.

Många förväntade sig kanske att Yago 3 skulle haft Wiktionary medan andra menade att relativt svårigheten nog inte kunde klara det. Jag försvarade alltid Max Planck Institute for Informatics här och trodde absolut inte som en del kanske känner nu att Max Planck Institute for Informatics inte riktigt vågar sig på den kanske fortfarande lite flexiblare strukturen där man möjligen kan behöva tolka meningarna vid sidan om rubriker.

Och jag tror heller absolut inte på dom här rykten om något med arbetsnamn ZAO (Omega - sist - och så Alfa - och fyndigt tillbaka till "omega": Kan bara göras så fint med ett antikt språk som grekiskan) som i princip tar befintliga Yago och adderar på ett Wiktionary hos ett grekiskt universitet: Och som man säger alla "viktiga" språk i Europa men kanske inte tyskan som folk säger. Dessutom "offspring" på Swahili passande den framtida generationen:

"Swahili
Noun
zao (ma class, plural mazao)
offspring"

Från: Zao | Wiktionary

Hur som helst vore Wiktionary seriöst och komplett med all kunskap exporterad till fina CSV-filer vara oerhört användbart. Bara att hämta upp listor och vissa kategorisidor kan ge en hel del användbart (roller, yrken, kategorier av adjektiv och verb m.m., exempel på särskilda ordklasser m.m.). Men att enkelt t.ex. se vilka adjektiv som beskrivs relaterat introvert. Färre än förväntat om sådant var standardiserat rörande beskrivning vilket så klart ej är en rimlig nivå att förvänta sig någonsin för ett lexikon / ordlista av den här sorten. Men ett ex:

Adjective

withdrawn (comparative more withdrawn, superlative most withdrawn)

Max Planck Institute for Informatics are withdrawn from a sad Wiktionary crying. Max Planck Institute for Informatics are introvert."

Från: Withdrawn

Åsikter i recensioner: Varför först dyrt parsa meningarna för att kasta bort den bästa informationen?

Nedan har vi ett säkert inte dåligt exempel på hur ganska enkla "features" som utan större ansträngning går att ta ut ur parser-träden klarar av en del (åtminstone när tillämpning inte är just väldigt hög tillförlitlighet på en mening eller en nyhet):

Extracting Opinion Propositions and Opinion Holders using Syntactic and Lexical Cues | Stanford.edu

Dessutom är det ett riktigt bra exempel på hur hela den lingvistiska världen i flera subkulturer fortfarande lider svårt av dessa parser-träd.

En enorm komplexitet och arbete från att träna modellerna för att generera dem till att göra dem för parsning på nyheterna föreligger. Och ett alldeles utmärkt pris att betala om man också drar nytta av all fet information samlad. Nedan har vi ett träd använt som exempel i artikeln (med i skärmdumpen delar av texten "citerad" med trädet):

Och ett "problem" man tycker sig behöva lösa trots att det är vad givet trädet är vad vi har redan mer information om än en binär faktor för om adjektiv-frasen finns:

ADJP: This is a binary feature indicating whether or not the constituent contains a complex adjective phrase as a child. Explorations of the training data suggested that adjective phrases with
forms like “interested in the idea” seemed to correlate highly with opinions. Simple adjectives, on
the other hand, would provide many false positives (e.g., “large” is not likely to be an indicator of opinions). Compare
(14)The accusations were flat and uniform although what is truly remarkable is that the youth
of the nation were believed [OPINION-PROPOSITION not only to be free of all discipline but
also excessively affluent].
and
(15)He felt that shareholder pressure would ensure compliance with the Code but added
[PROPOSITION that if self-regulation does not work a more bureaucratic legislative
solution would be inevitable].
which include the underlined complex adjective phrases, with the non-opinion
(16)He added [PROPOSITION that there might be a sufficient pool of volunteers to act as a new
breed of civil justices].

Falskt positivt om inte precis som vi själva bara tittar efter i vad trädet och meningen säger vilket redan är färdigt analyserad information till representationen trädet ger.

Att bygga dom här träden och sedan förutom bara en aning av information kasta bort det mesta är helt normalt. Väldigt vanligt. Orsaken tror jag att träden direkt ut är tämligen "intetetsägande" i mening av att det krävs en till parser för att tolka det vidare till mening och förståelse. Och då kan det kännas billigare att göra lösningar som ovan trots att man då egentligen lika gärna hade kunnat låtit bli att parsa lika dyrt och istället välja enklare lösningar (som chunkers inte mer än utnyttjande enkla linjära samband mellan orden och deras troligaste pos-taggar vidare till en grov NP-fras, VP-fras, ev. adjektiv-fras o.s.v.).

Den första parsern av träd jag gjorde var en chunker som tog mänskligt annoterade treebanks (eller parser-genererade) och genererade en ganska enkel dependency parser från relationerna mellan chunkerna. Den sög verkligen att göra. Att parsa dom här träden är verkligen ordentligt otrevligare programmering än en enkel linjär-chunkern av meningarna direkt. Idag kör varierade språk-parsers under en mer fullständig dependency parser uttryckande beroendena mellan fraserna vilken emellertid om än mer tidsödande ej var riktigt jämförbart otrevlig att programmera. Har man gjort rekursionen för dom en gång så går det enklare därefter: Framför allt vet man vilka relationer mellan olika verb-fraser som är de mest intressanta (jfr Bill could [Or as also judged from the phone tap data by President Obama visiting NSA to listen in on some enemy to the free world: would] decide to predict that a new political solution will be needed där de kritiska relationerna är mellan bedömningen vad vi tänkbart kommer göra till vad vi ska göra - predict - vidare från det samlat till vad resultatet av det blir d.v.s. det vi predikterar efter that: Ett 30-tal liknande relationer tar det normalt mest talande för mening medan övrigt inte otroligt ramlar ut mer eller mindre korrekt och annars vanligen ger underligheter med möjlighet att kasta datat och resultatet - Och would varianten tog jag med för att påminna om hur förvånande vanligt det är att man antingen skriver a och b eller a / b kring såväl adjektiv som noun och verb - beroende på vem som skrivit texten kan det mycket väl vara bra data). Men också vid behov - närmast i användning ej avsett för att nödvändigtvis ta den mest kostsamma vägen genereras träd underliggande parallellt för parsning.

Hela komplexiteten att ta träden och få ut semantiska slutsatser, från det mening mer övergripande lokalt, och vidare över flera meningar - kanske vid behov kombinerande med common sense som ev. slutsats om att en person som säger att en viss politiskt lösning måste till givet att förändring ej uppstår egentligen tror och kanske rent av inte ens påverkar beslutet - ger den här företeelsen där om jag förstår artikeln rätt:

Man först genererar parsnings-träden den för kulturen vanligare mer kostsamma vägen (istället för en snabbare chunker vilket här gör det samma) för att generera träningsdatat.
Träningsdatat för att tillämpa tycks dock fodra en jämförbar (kanske rent av lika komplext kostsam parsning) parsnign för att få ut features så att modellen man tränat går att tillämpa.

Samtidigt som man faktiskt har parsnings-trädet med alla relationer såväl som dom konkreta orden. Någon anledning att sitta och hantera verb-fraser som en binär-feature eller mena att man skulle feltolka diverse annan användning därför att man ej utnyttjar parsnings-trädet finns ju egentligen inte. Det finns redan mycket mer information i trädet som normalt bygger på gigantiskt mer träningsdata än någon riktad lösning kan.

Och ordentligt större tillförlitlighet från att parsa ut mening från trädet resp. orden - inga exempel vi har i artikeln är vad man ska komma fel för alls i komplexitet och konstruktion jämförbart normalt någonsin i bedömning.

Sedan är helt visst hela företeelsen att man regelmässigt hamnar i det här mellansteget i princip oanvändbart för intressantare analys (och för universitetets världen representerade problemområden som ej likt vanlig parsning är lösta problem idag sedan många år där knappast något nytt forskningsresultat alls adderande något som helst värde i effektivitet med mätbar effekt i en praktiskt tillämpning av vilken som helst annan entitet utnyttjande lösningar praktiskt kommit: Tvärtom är det normalt förväntat att kombinerande regellösningar välkända sedan evigheter med statistiska parsers hamnar man bättre än något publicerat för resp.). Att direkt ta ut representationer mer funktionella för att förstå meningen utanför grammatiken kan tyckas vettigare men etablerad kultur har sin effekt: Meningar hand-parsars av korrekt troende personer och med mindre att man mer än att sitta och kategorisera några tusen adjektiv av och till behöva ge sig på att hand-parsa meningar i större antal än ett hundra tal över några år är värt mycket tror jag för vem som helst att slippa.

En variant av att parsa mening från trädet såg jag i följande artikel att först göra en dependency-representation av den parsning redan gjord:

Generating Typed Dependency Parses from Phrase Structure Parses

Och ev. är detta en teknik också använd i Stanfords parser. Tänkbart är det snabbare när man redan har en parser som gör det första arbetet (vilket jag tror att det normalt ska vara byggande på all vetskap redan upparbetad såväl som hela vanan i hur man tänker kring sådant här såväl som har kanske redan egen kod att börja arbeta från). Och ev. är det ingen egentlig kostnad heller (jag kan inte bedöma det)

Stanfords-parser-lösning fodrar nu 64-bitars Linux medan jag har 32-bitars så jag har egentligen aldrig prövat deras större ramverk för analys (men väl någon mindre variant eller kanske sido-projekt de har) och även om jag inte på rakt arm minns hur mycket storlek på hårddisk deras modell tar komprimerad (de är default-mässigt komprimerade och dekomprimeras när de laddas alt. i chunk beroende på del av modell man behöver ta ut lite beroende på prioritet, hårdvara och om det är ett väldigt komplext språk som ett ex. jag tror mig minnas var något relaterat kemiska processer för aminosyror i något biologiskt modellsystem av människa eller något enklare).

Jag tycker mig ha för mig att Berkeley låg på cirka 30 - 50 MB komprimerat vilket jag tror är ovanligt lågt (även om den i allt jag prövade presterade excellent och var föredömligt snabb: Det kan vara ett alldeles utmärkt alternativ om licens passar och ev. om så för mig runt licensen kanske jag prövar att ta in den som default även om den fodrar en del omkodning varande lätt åldrad och mycket som färdig klar för kommando-prompt vilket inte passar under något annat - enkel kod trots att jag inte programmerat Java kommersiellt eller alls egentligen sedan 1999 på Ericsson). Vi får tror jag titta på World Wide Web hur stor Stanfords default-modell är så jag inte sitter och ljuger om jag spekulerar att den är riktigt fet kanske passerande ett par hundra MB.

Och utmärkt kontroll då modellen var mindre än jag trodde:

Där om jag begrepp Can you explain the different parsers? How can the PCFG parser produce typed dependency parses? Why if I use the getBestDependencyParse() method do I get null or an untyped dependency parse? (i FAQ för parsern hos nlp.stanford.edu) rätt behöver den resp. englishPCFG.ser.gz och englishFactored.ser.gz (medan den antar jag ev. ej laddar RNN parserns modell om den inte ska användas) även när endast den mindre och säkert snabbare PCFG används (knappast någon kostnad i minne att tala om att ladda båda) används i antar jag mer av logiken (om jag hade inte som ambition att bli kunnig på termonologin och begreppen kring ramverket så jag kan ha tolkat det fel).

Hur snabbt modellen växer när träningsdata för språk från andra exempelvis ämnesområden i publicerad forskning (eller kanske rent av svårare mer subkulturellt person till person språk skrivet) vet jag inte men det behöver inte vara särskilt mycket alls beroende på hur modellen representeras. Träningsdata i någon mellan-representation fanns också inkluderad såg jag i jar-filen när jag extraherade den och sägs nu vara:

"english{Factored|PCFG} is currently trained on:

WSJ sections 1-21
Genia (biomedical English). Originally we used the treebank beta version reformatted by Andrew Clegg, his training split, but more recently (1.6.5+?) we've used the official Treebank, and David McClosky's splits
2 English Chinese Translation Treebank and 3 English Arabic Translation Treebank files backported to the original treebank annotation standards (by us)
209 sentences parsed by us (mainly questions and imperatives; a few from recent newswire)
100 imperative sentences parsed by us
3924 questions from QuestionBank, with some hand-correction done at Stanford.
50 Tagged but not parsed sentences with tech vocabulary not seen in the WSJ"

Genia minns jag som gaska stor och är i övrigt en väldigt kvalitativ data-delning med en hel del annat vid sidan om annoterade meningar egentligen kanske (som jag haft användning i alla fall) intressantare. Minns jag inte fel finns förövrigt en färdig liten grammatik skapad från själva datat jag antar är samma som Stanford använt uttryckt i någon av filerna som kommer med vid sidan om närmare ontologiska relationer mellan koncept o.s.v. Dock kanske inte det mest användbara för de flesta användningsområden gissar jag: Just inriktad medicin och kroppens biologi. Tycks som jag tipsade om den tidigare i:

Den medicinska kulturen: Fritt skapande av händelse-begrepp med manner inbakat i konceptet (2015-03-01)

Poängen med GENIA förutom parser-träning är att samma data ger koncepten för områden tillsammans med åtminstone de relationer mellan dem som har att göra med händelser (kroppsligt biologiska händelser rörande saker mindre än vi ser):

"EVENT: EVENT is the term(s) that mean(s) biological status changing. EVENT is described by TYPE, THEME, CAUSE and CLUE.
TYPE: TYPEs of the event are the categories of the EVENT, chosen from the predefined set of event classes, the "EVENT ontology".
THEME: THEMEs are the targets of the EVENT, designated by an “ID”, term, event or sentence, etc.
CAUSE: CAUSEs are the causes of the EVENT, designated by an “ID”, term, event or sentence, etc.
CLUE: CLUE elements are the places where location information can be recorded. The information is classified and the tagged in the sentence. Tags show the object, cause etc. of the EVENT in the sentence. The rules for tagging are described in Section 3.5.
COMMENT: COMMENT is a free description for the EVENT."

D.v.s. för just dess aktuella område en excellent fördjupning i det större ämnet medicin för användning till sådant diskuterat i tillsammans med som en första utgångspunkt The Specialist (National Institute of Health).

"Vi kan se det som att stora projekt när de levererar tenderar att ge oss vad som har förutsättning om kompetent genomfört att fungera under många år med uppdateringar och förändring. Standarder, noggrann dokumentation m.m. ger förutsättning till det. PubMed är exempel på det:

PubMed

Gigantiskt i data liksom IT-plattform och applikationer. Ett exempel på vad som krävs i det förutom faktiskt IT har vi med The Specialist Lexicon:

SPECIALIST NLP Tools

D.v.s. när betydelsen av något är hög måste du ha några redundanta projekt som tar en annan utgångspunkt. Ett annat teknik- eller modell-perspektiv som visar sig kritiskt kan agera backup, och över den längre tid inkluderas in i det större projektets förutsättningar till långsiktigt underhåll."

Från: Facebook kraftfullare och förföriskt enkelt (2012-02-25)

(Och idag tillfredsställande "hämtat" i tillräckligt mängd för att ge sitt bidrag till den statistiska representationen av koncept och deras relationer vilket när funktionellt brukar komma mer korrelerat här med någon esoteriskt diskussion kring API eller gränssnitt och ev. något allmänt positivt eller negativt relaterat något helt annat åtminstone tills jag samplat ut eller slut det eller vad man kallar det. Vilket vi har ett färskare exempel på här Ny sökmotor i Mellanöstern:
2015-03-11 oavsett vad jag i övrigt kan ha sagt om ej samplande geo-området vilket för att märka ord jag ej själv förutom väldigt lite data gjorde: Sverige är nu fullt av exil-iranier med datorer precis som alla andra).

Berkeley vs Stanford

En egenhet jag såg av och till med Stanfords "lilla" parser (osäker vad den kör för modell som standard) jag försökte få Berkeley att komma fel i också är att den av och till hittar på parsning när relationer och påverkan sträcker sig över två eller tre ord i samma fras. Om det är vanligare än fallen där jag fick fram det beror det helt säkert på vilken modell man kör med. Jag kan tänka mig att sådana problem kan komma från en mindre mycket snabbare modell som kanske rent av i allmänhet är mer effektiv för vad man vanligen prioriterar. Samtidigt är ju just sådana problem - åtminstone för NP vad man enkelt kan göra med långa beroenden med en ganska enkel chunker d.v.s. det är just inte sådant man egentligen behöver parserns enorma inlärning för så lite flexibel icke-specialiserade algoritm-koncept kombinerande mer regelbaserade lösningar vid sidan om det statistiska skulle nog lösa det ganska bra.

En säkert seriösare jämförelse har Stanford själva gjort:

Stanford Dependencies

Ett som man allmänt borde bedöma saker är Stanfords parser antagligen ett säkrare och bättre val för de flesta att bygga vidare på (om licens-regler så tillåter vilket var mitt intryck utan att läsa igenom det alls egentligen). Inte minst därför att Berkeley parsern mer eller mindre saknar allt med ens ytlig likhet med "normalt förväntad" nivå rörande dokumentation. I princip har du koden och säg en A4 mer eller mindre för de flesta säkert en försvinnande del av allt man kan önska läsa väljande en parser som man inte önskar att lära sig en massa om för att grovt göra en bedömning av.

Men jag fick en bra känsla av den. Krävs mycket mer för att (i den mån licens-regler tillåter det) ev. ersättande annan lösning idag. Tillståndsmaskinen jag exporterade ut kändes också "tilltalande" (rörande diskussionen i övrigt i inlägget har jag för ena sidan av algoritmen - POS-sannolikheterna också gjort en till anpassning där resp. sannolikhet även normaliseras med ordets längd fångande något av en till sida av informationen men fortfarande tillåtande snabb hantering ej krävande att alla databaser är uppmonterade: Jämför med Word lengths are optimized for efficient communication (PNAS) även om jag just nu i alla fall utnyttjar ord-längden i antal bokstäver resp. antal - hanterande korta ord 3 eller färre särskilt - och positionering av vokaler inkl. påräkning med 1 för ord med färre än två vokaler som ej slutar på vokal då formen av konsonanter och vokaler är jämförbart relaterat med informationen påverkar kodning i mänsklig kognition vilket jag tyckte gav viss "elegans" att ta med även om det egentligen inte ger en egentlig skillnad jämfört att direkt skatta ordlängd men ej heller en beräkningskostnad - En enkel effekt att se är att korta determiners likt the ger mindre skattning komplexitet jämfört med de längre mer ovanliga samt konkret för mig viktigare att när delar av NP som exempelvis orden Winston + Churchill med taggar NN + NN förvandlas till Winston Churchill och NN skalas det om enkelt och för denna användning tillräckligt väl i vad som kommer ut) i någon ännu ej noggrant kontrollerad spontant känsla.

Det förvånar mig egentligen att inte ett större intresse rent allmänt märks runt parsern. Man hade kunnat tänka sig att åtminstone mindre i head-count konsult-aktörer skulle skapa upp en del kompletterande material men kanske finns något licens-problem någonstans kring lösningen.

För den som jag stört sig några för många gånger på lingvistikernas problem-träd och allt merarbete de skapar för hederligt folk när något praktiskt ska göras av deras upparbetade vetskap avslutar jag med hat-propaganda försökande uttrycka lingvistikerna som en form av kulturell-parasit. Det är nu vad man egentligen bör undvika att i allmänt experimentera med språkligt då det är mytbildning när etablerat har skapat enorma problem av och till i historien (exempelvis de crime against humanity Nazityskland gjorde sig skyldig till). Men jag känner stor trygghet i att hela det här inlägget ligger gediget i ett även exkluderande effekt av svenskans mini-storlek väldigt tråkigt och begränsat område som få lär läsa (och de som läser det kan tänkbart tror jag se annat intresse av det mer direkt intressant: Och om inte utnyttjande tråkigt data omoraliskt får jag väl i värsta fall ge mig på att försöka balansera effekten av det: Korrigerande till vänster tänkbar otydlighet två här i inlägget efterföljande att jag faktiskt samlat Iran upparbetad medan jag kanske givit intryck att så ej var fallet).

När Lingvistikern kommer försvinner Godtrogna datavetarna

Lingvistiken har överlevt tusentals år. Det är en kultur som överlevt "inspiration" från nya områden med knappast annat än sällan ens kännbar effekt. Unga kulturer som sociolingvistiken kan ivrigt sitta och diskutera och förstå världen från Labov's nyskapande arbeten under 1960-talet (nästan 2000 träffar på Google Scholar sedan 2014 för Labov AND sociolingvistic: Inklusive hela referensböcker som inte stort gör annat än referenade honom fram och tillbaka likt denna jag köpte som julklapp till mig själv). Men ej så den riktiga korrekt troende Lingvistikern.

Lingvistikern när han kommer med trädet är lite som den grekiska ekonomen som kommer och vill låna pengar därför att han efter många år av akut brist på pengar planerar framöver att börja beskatta utländska företag som erbjuder hasardspel (och menar att man kommer kunna följa upp hur mycket pengar det ger därför att man ska börja räkna efter framöver). Men läckta grekiska föeslag till EU belysande problemet i ett område de flesta av oss har någon erfarenhet av finns ej här. Lingvistikern kan engelskan för bra och vi vanliga hederliga datarbetare som jag och folket som gjorde den här Stanford parsern för han enkelt bakom ljuset.

Andra kulturer och ämnen inom vetenskap är vad som kom och gick från Lingvistikern. Det är dock bara när vi med vår trevligare datakultur låter oss luras som Lingvistikerna kan klara att förgifta oss med sina träd och sitt påhittade ovanpå engelskan språk: Lingvistikern talar snabbt...

Lingvistikerna äter godtrogna datavetare som ej ser upp. Det dröjer ej länge efter de börjat rita träden tills de skriver en lång artikel om verbet like. Motiverande någon esoterisk tanke med idéer om ett språk känt sedan 30 år var en missuppfattning (att det var ett språk utan verb exempelvis).

Verkligen tråkigt att man igen ska behöva se hederliga dataarbetare vid ett till universitet som dragits in i det hela och ritar parsningsträd medan Lingvistikern skrattar.

Röst och Känsla: Rätt röst för att tydliggöra de lugna och trygga kvaliteter folk gillar

Mörk och lite långsammare tal känns kanske lite vänligare för annat "folk" vi kanske behöver fördumma ner oss lite till så att dom inte blir nervösa och agiterade när vi landar i deras mindre värld:

"Low frequency, continuous sounds are far more comforting to distressed individuals than intermittent sounds, acoustic techniques which mothers tend to naturally use when trying to soothe newborn babies."
[...]
"Intonation, meaning the pattern of the pitch changes in a voice, is very important with male voices that are low pitched and follow a rising melodic trend being deemed particularly untrustworthy. The same is true for low pitched female voices which tend to fall while speaking."

Från: Is your voice trustworthy, engaging or soothing to strangers? (2015-04-16) | The Guardian

Eller åtminstone mindre relativt genomsnitt (jämfört med den som talar snabbare) krävande i beräkningskostnad per tid såväl som mindre sannolikt kanske troligare initialt riskera att utlösa tolkning av att något problematiskt kan ha inträffat (vilket en del personers default ibland kan ha som effekt om de talar högt och snabbare kombinerat med att mer oväntat börja tala eller bättre sagt ankommande scenen).

Fler konkretiseringar från The Guardians reportage:

"In general people who speak a little slower tend to be perceived as more friendly or benevolent while we often associate things like competence and authority with people who speak a little faster. But there’s a certain sweet spot to it, if you speak too fast then you sound nervous."

Från: Is your voice trustworthy, engaging or soothing to strangers? (2015-04-16) | The Guardian

Jag som är en lite lugnare personlighet som gärna tänker till för att hitta en trevlig jämförelse tänker så klart på barnvänliga, kognitivt funktionshindrade och avslappnat harmlösa Björnen Baloo från Djungelboken.

Bagheera kan mer långsamt talande förledas tro är kompetent och målinriktat från hans bedrägligt "stressat överdrivet" snabba tal och springande fram och tillbaka i djungeln medan han när vi tänker efter är en av de mest problematiska förebilder de svenska barnen möter under julen. Oavsett hur afro-indisk Bagheera är så är han mer än racist en folk-fördrivare ute efter att etniskt och genetiskt rensa djungeln från Mowgli som ska fördrivas till människo-byn.

Mer Baloo kommunikation

Men nu ej från sävliga The Guardian som fyller upp med hela stycken runt resp. tips utan med den kompetenta energi-snabba punktlistan:

Tala långsamt - men inte nervärderande åt andra tänk mer lite "långsam kognitivt" medfött - och med låga toner.
Låt meningarna avsluta naturligt lägre så att de inte falsk-predikterar dig indikerande att du kommer påbörja någon ny mening fast du är klar.
Men sluta inte riktigt helt att göra ljud och "språk": Bromma fortsatt lite lågfrekvent lugnande samtidigt som du nickar uppmuntrande mot den du talar medan de svarar.

Verkar personen vi språkar med (språkar är vad våra trevligt naturligt lugnare "etniska svenskar" från Norrländskt inland - d.v.s. vad helst i Norrland -, Närke, Dalarna och allt mera vad det kan tänkas heta: Språka är korrekt lugnare när du ska instruera personen). ) dessutom förklara något för dig denna upplever som viktigt eller bara tycks behöva en belönande boost så han kommer fram någonstans (eller lika bra omvänt om de förringar dig - vilket av och till är en bra sak man kan bygga lite vidare på här uttryckande något självklart) kan du gå upp lite i ansiktsuttryckt men inte så mycket att det stör samtidigt som du synkroniserar lite med deras tal rent motoriskt och försiktigt med kroppsrörelser.

Är du i en stor grupp (del av publik) där mycket visuellt brus finns kan du rent av toppa med att göra en uppmuntrande symbol med din tumme så att det märks att det var för dig bra information du kommer ha glädje av. Nicka lite extra innan också så att du fångar upp gaze så att det inte är bortkastad energi att engagera dig för att stimulera den kognitiva leveranskapaciteten hos den du talar med ty gör du dom lite större relativt dig blir de lite större relativt alla ett tag och kan leverera ut lite mer allmänt. Du kan innan samtidigt som du nickar lite extra också klåttra lite extra på pappret, iPad, Palm Pilot eller ej dumt här ersättande din mer trendiga PDA men den såväl synliga som riktigt slöa PDP-11 med det godtrogna lite dumma VMS (dock bedömt från före 2000).

Underskatta inte det komiska

Svåra sanningar kan man ibland uttrycka bättre i det komiska. Eller när vi behöver föra över lite visdom till en specifik person vi redan fördummat ner oss till göra det genom att diskutera "dom andra" / "folk i allmänhet" / "dom vi pratar med" snarare än folk som pratar just till oss berättande något om oss själva.

Möjligen men inte helt säkert kan "konceptet" vi diskuterade här utifrån The Guardians artikel hittas längre bak (säg runt 2009 - 2010) diskuterad som den "den lugna rösten". Om så är konceptet oavsett om så uttryckt eller inte syftande bredare och inte egentligen särskilt för röst så mycket som hur vi hanterar personer under akut emergence vi egentligen kan göra ganska lite för konkret annat än att försöka se till att de inte stressar sig irrationella när de behöver hantera akuta problem kanske relaterat personlig säkerhet.

Konceptuellbild från Kriget seger i energieffektivitet: Vapeninnovationens hastighet relativt fiende och vårt försvars- och politiska-systems förmåga att tillämpa vapnen vi skapar (2013-05-02) som kan få maskera sig som Bagheera här: Är det större kattdjur oavsett gula lejon, svarta pantrar, eller vad helst ser de i all ärlighet ut ungefär de samma för mig om de är ungefär lika stora. Katter är alltid katter och når svårligen upp till människans gamla jaktkamrat hunden. Kattdjuren är alltid ute efter gratis mat utan att bidra med något funktionellt: Naturligt lite lata. Hade inte Bagheera varje jul kommit med sin rasistiska propaganda hade jag kanske ansträngt mig mer.