Den medicinska kulturen: Fritt skapande av händelse-begrepp med manner inbakat i konceptet

2015-03-01

Givet all person-tid som relativt många andra områden gigantiska budget den medicinska forskningen har är det bara att förvänta att området kan kost oss andra (i vår säkert ofta budget-mindre värld) extra tid.


Just här hade jag räknat med att ett särskilt problemområde senare skulle ta lite mer tid än det tämligen högst eventuellt kan ha tagit inkluderande att träna om pos-taggern.


Problemet är att dom mycket mer än "normalt" gör termer fram och tillbaka mellan adverb, adjektiv och noun-ngram. Det kan ganska lätt förvirra till saker åtminstone som jag har min logik börjande med mindre under parsning och chunking - just orden bilande ngram och över till fraser och till deras relationer - medan vetskap om vad saker är fortfarande där är sämre uttryckt. Många tusen särskilda begrepp är i sig inte något problem men dom används nu också lite udda jämfört hur de flesta gör det: I princip adderar man kreativt fritt in vad helst som i sig själv är i förståelse entydigt där det för vem som helst som läser det och begriper konceptet är väldigt tydligt. Men inte riktigt som när vi parsar på orden, begreppen och relationerna ännu utan förståelse alltid hamnar rätt i.


Och vi kan hitta termer alla för att skära i något men uttryckta lite olika påverkat ex. topologiskt. Nu tror jag i och för sig inte att man kanske just samtidigt skär i hjärnan lateral (men jag har säkert fel) men jag tror vi har från axial för att ta något tämligen kort som vi kan se del av nya event-beskrivande koncept där manner (vi skär axial om axial verkligen var ett bra exempel).


En egenskap tidigt given för dessa begrepp är emellertid att:


  • Givet att globalt corpus d.v.s. inkluderande i stort alla aktuella koncept men jämförda med hela värden.
  • Kommer de just vara mer ovanliga än mer normala koncept vi alla inkl. här i medicinsk forskning använder.
  • Medan det mer vanliga också är vad som i relationer stämmer med vad vi förväntar.

Problemet som det kan uttryckas för mig när det går fel långt ner är att ex. egentligen vad vi kan kalla en manner operator avseende vad vi gör. Inte riktigt bara verb:et säkert men vad vi kan approximera så åtminstone som här adderande menings-tolkningen med verb som ingångs-nod. Denna för fallet när de skapat vad som kan tolkas som NP från säg ett adverb kommer chunkern skapande fraserna nu av och till ej riktigt veta vad den ska göra av och hellre än att riskera och spamma upp en massa små ord-np-fraser som jag inte vill hamnar den på typiskt direkt eller indirekt objekt, eller i vissa fall relaterat PP-operatorer.


Tar vi nu exemplet nedan (som inte nödvändigtvis är kraftigt typiskt men väl för ett begränsat antal argument klarat att få in många potentiella problem: även lätt utanför typiskt för hur själva verb använts för att uttrycka händelsen):


Dr Maria operates the elephant radiopharmaceutical

För själva formen ovan har vi att radiopharmaceutical mer ligger åt manner för händelsen operates men vi har jämförbara men för mig något enklare problem när mer konkret indikerande en händelse som NP där oftare annan yta får saker att hamna rätt.


Finns befintlig detektion av vad själva NP-frasen har för fraser (utanför större och bredare ngram-detektion i den ej utnyttjad under parsningen) för viktigast den fras som håller IDF-WE maximum resp. är head-noun.


Head-noun efter felparsningen är radiopharmaceutical. Medan IDF-WE är det ngram i frasen som ger det mest potenta värdet av hur väntat konceptet är (beräknat från entropi, sannolikheteten givet situationen och termens IDF). Den senare kommer alltid för allt tänkbart här ge NP-frasen med eventuella a, an, the o.s.v. borttaget men exkludera radiopharmaceutical eller vilken annan som helst ytterst specialiserad term när sist. De senare förekommer men är mycket mer ovanliga.


Givet endast det är det tämligen vågat att försöka högt upp ovanför chunkern korrigera saker och ting. Precis som det vore lika osäkert att göra det p.s.s. i chunkern (ty statistik-värdena finns redan där). Emellertid kan vi nu ta upp meningen för radiopharmaceutical utifrån:


  • Resultatet av att processas en försvarlig mängd medicinska ngram som noun resp. adverb för att terminera samtliga som NP efter morfologisk omvanliga i en eller två riktningar, och därefter kontroll av om de existerar d.v.s. statistik finns för dem från det medicinska området.
  • Och om det är funktionellt för meningen alls.

När vi gjort det har totalt cirka 90 raders kod gjorts inkl. att addera in resultatet behandlande det ungefär som en "verb-lokal" (i mening verb-nära adverb modifierande det snarare än distansierat och uttryckt som NP istället för som adverb). Och vi får:



Och _STOP ovan därför att manner-indikationen unikt saknar en fras vars ID sätts i PH genomgående. Första och kanske sista som kan skapa sådant.


Delvis upplevde jag lösningen ganska degenererad därför att det riskerar att fullständigt förvirra var saker och ting görs. Samtidigt är det heller inte att förvänta att det av vad jag kan se än korrigerande en åtminstone försvarlig mängd av en stor grupp dom här problemen kan komma på så ytterst kort tid utan något egentligen nytt.


Mer allmänna och generiska algoritmer och problem-diskussioner kring det här finns det en hel del publicerat kring när vi tittar över forskning natural language processing publicerat i medicinska eller biologiska journaler. Typiskt inkluderar lösningarna att träna om pos-tagger eller annan grundläggande del av parsern medan vi här kan säga att vi istället utnyttjande etablerad vetskap om vad koncepten betyder samt viss erfarenhet av hur felen när de av och till kommer för just dessa adverb-till-noun skapelser uttrycker sig (åtminstone som förväntat för typiska termer rörande en del andra problemområden löser det sig själv där vi har ett typiskt exempel på område jag hade räknat med en del problem i men tycks fungera av sig själv: A Rapid Lateral Flow Immunoassay for the Detection of Tyrosine Phosphatase-Like Protein IA-2 Autoantibodies in Human Serum - samt varje fall där det är eller tolkas som adverb hamnar typiskt rätt inte med fler underligheter än normalt förväntat av och till om väldigt distansierade).


Några stycken: