MEDLINE N-gram och ny version av The Specialist Lexicon

2015-04-25

Med sista version 2015 här och tycks ha kommit i första version 2014.



Givetvis kan man tänka sig några olika andra metoder och vägar för att skaffa sådant här data där jag själv prövat och använt minst sagt ganska olika. Generellt med ett visst fokus mot motsvarande titel, abstract / snippet, kategorier (troligare människogivna), och för vissa data-områden mer så där forskning bredare runt medicin och biologi är ett sådant område (utnyttjande XML-formatet hos open-data journalerna för under-rubriker m.m.).


Det finns mycket bra data att hämta allmänt utanför det här hos National Institute of Health där jag oavsett diverse andra lösningar och datasamlingar fortfarande använder The Specialist för grundläggande om resp. ord delvis därför att den har bättre uttryck för ämnesspecifika ord inom medicin vilka andra källor är sämre på samtidigt som jag använt mig använda deras notation rörande särskilt verb.


Jag tror säkert om man ska döma av allt annat jag använt dem relaterat språk och lingvistik att datat's kommer hålla mycket hög kvalitet. Dom har alltid förr varit tilltalande också i format på filer (csv-filer), svårighet att hitta fel (kring fel är de närmast unika vilket har att göra med tror jag att det The Specialist funnits länge och är tämligen tydlig i vad den representerar hållande sig till vissa saker). Så det här känns ganska lovande.


Säkert tjusigt energieffektivt och kvalitativt data att använda: Nere på hårddisk på några minuter del-klart. Snabbare än andra metoder för rådata samplande själva datarepresentationen.


Vad jag kommer ihåg har jag inte sett det här tidigare men jag hade en längre period under 2014 där jag inte alls surfade på diverse delar av National Institute of Health (mer relaterat begränsningar hos mig än dom egentligen och tror jag berört löst förra året någon gång).


Och N-Gram antal lär jag säkert använda det här och hade oavsett det troligen inte samplat dem med via alla metoder jag använde tidigare här för kanske ett år sedan. Grundrepresentation av potens för koncept kräver dock en del rörande ämnen och koncept men det var alltid mitt ledord att vara noggrann kring robots.txt letande rätt på missad subdomän i värsta fall kring ett bibliotek (vad jag minns i alla fall) men ibland kan ju saker gå defekt i någon komponent i det abstrakta eller konkreta.


Dessutom har The Specialist kommit i ny version. Jag har inte kontrollerat vad som är nytt. Det brukar emellertid inte vara några enorma förändringar.



Det är en försvarlig andel - fler än man först kan tro - lingvistiska databaser av olika slag som har sitt ursprung i finansiering eller projekt bland de amerikanska myndigheterna även om det ofta nu ligger några år bakåt kring sådant jämförbart The Specialist (mer av ett problem väsentligt delvis kvar att lösa då än idag rörande "lexikon-data"). Ett till exempel är Wordnet som började hos Department of Defence i de första projekten innan det blev legendariskt använd i allt förvaltat och fortsatt utvecklat hos Princeton: wordnet.princeton.edu. Och bl.a. en del projekt och representationer relaterat verb och roller finns att hitta också nu för många år sedan.