Upp: Värde upplevelse av att Hans delar data vs Ner: Att ge värde jag har men fler får

2015-02-14

Notera: En liten infektion öga gör att jag i princip sedan ett par dagar ser föga när jag skriver. Jag kan dock kall-skriva utan att se bokstäver tämligen ok även om det blir fel ibland på ord. Jag gissar att det är helt läsbart men kanske tittar över senare när jag tvättat ur ögonen.


Dela långsiktigt data snarare än discourse eller rådata är naturligt onaturligt för mig. Det känns fel åtminstone när det är applikations-nära (d.v.s. värde konkretiserat) att dela men väldigt naturligt att utnyttja allt delat.


Samtidigt är det korrekt att dela något när man av och till drar nytta av annat delat data. Korrekt i egen tolkning gissande lite på "rationaliserade orsaker" till den kognitiva divergensen föregående att jag delande ex. discourse eller görande medier tenderar att resp. men långt ifrån alltid samtidigt engagera i presentation uppenbar resp. prioritera ned det samma men om man betraktar det trots det djupt med kompetens finner det "korrekt" på lämplig nivå (inte otroligt lite samma sak egentligen).

Mina större data-representationer kommer aldrig delas. Emellertid aktuellt för denna gång av delning har jag ett urval av aktivt använda representationer väsentligt bättre än mest kända publicerade motsvarighet men inte central representation av motsvarande sort hos mig (där den senare balanserande innebär av bättre än bästa för mig kända publicerade av att det riktigt tunga i sådana områden är det ingen av sådana aktörer som skapar dem som publicerar dem utanför ett fåtal områden där flera idag ibland aktuella idag är drivna med datakällor likt Wikipedia nära mitten inducerande "kanske onödigt över-korrekt" licens-juridik fodrande delande)..


Alternativ ett att dela är en "liten" skapelse i funktion ej olikt Wordnet Domains (namn) men några magnituder starkare. För mig är denna skapelse ej primär men jag har ibland behövt enkel kategorisering utan att utnyttja väsentligt större common sense. Representationen är inte större än att den kan laddas direkt in i minne (minns ej exakt hur stor men representationer över 300 MB regel-där min plattform på om det fodrar att allt går direkt in i minne vid uppstart vid sidan om vissa regler implicita rörande antalet sådana som tillåts var för sig - Men säg några gånger större än ex. Wordnet men mer kompakt representerad i CSV filer). En poäng med denna är att vid behov jag önskar nu kan det läggas i denna utan att om-byggande att större common sense representationer krävs.


Hemsidorna för nästan allt (eller alla) av dom mest kända och mest använda representationerna sedan ibland rent av 1990-tal är genomgående föråldrade i utseende såväl som ofullständiga i länkning till publicerad information. De förutsätter ett mindre samhälle där hög kunskap är etablerad. Wordnet Domains är ex. på att sådant tycks ha blivit kultur ty även om Wordnet skapades (om jag ej har fel) skapades med början tidigt 1990-tal med finansiering Department of Defence, USA, och särskilt 2000 - till idag blev och bibehåll sin roll som den i särklass mest använda såväl som refererade datarepresentationen uttryckande engelska språket är nu Wordnet Domains skapad under Wordnets senare liv i separat projekt kompletterande ett område Wordnet argumenterat är sämre inom.



Lingvistiker såväl som folk arbetande inom search och intelligence (trots de senare tvås acceptable budget möjligheter) kan rörande representationer likt Wordnet Domains m.m. jämföra omfång och kvalitet vad medicin och biologi klarar att nå upp till. Deras kvalitet är mycket god delvis realiserad av menar jag väsentligt större budget per porjekt insats (oberoende av budget totalt utanför projekt), tydliga praktiska värden man kan jämföra mot (tar analysen av alla publicerade studier enligt dessa kriterier ut en representation av vetskap dessa "dna-saker" jag kan bedöma direkt och som är ytterst talande i komplexitet om systemets värde). Och lite känsligare tycks för mig att även om jag ej vågar säga något om genomsnitt (inget pekar på skillnad budget per projekt ej förklarar) så har lingvistik i bio- och medicin ett fåtal vars höjd leverans överstiger vad lingvistik generellt haft om än mindre kända ty typiskt för medicin och biologi väldigt praktiskt inriktade nära behoven läkemedelsindustrin har medan motsvarande kulturbärare lingvistik generellt skapar ex. små lösnings-system likt LCS, visuella schema inom kognitiv lingvistik o.s.v. Av denna anledning (budget, verkshöjd ibland när riktigt duktiga personer gör något och närmare praktisk användning) försöker jag för mig nya områden riiktat först titta över publicerade studier inom medicin för att se om man gjort liknande saker (där applikation intresserande mig här närmare lingvistik generellt kan ligga "gömt" under något helt annat studien handlar om varande just vad man blev finansierad att göra där lingvistika verktyg mer än verktyget man skapade i ex. ett litet säkert ofta budget dyrt under-projekt). Jag såg samma fenomen rörande tillämpning i statistisk språkanalys. Och medicin - biologi folkets common sense representationer är i storlek och kvalitet även när vi kastar all värdering av ämnes-tyngd typiskt tyngre än något annat i generalisering. Det finns två riktigt bra exempel på här som jag får återvända till senare då jag ej minns namn (en börjar nog på G och har tre bokstäver).


Topp två biomedicn common sense i generell vetskap börjar ovanför topp två av de annars mest kända bland publicerade (likt Yago, Wordnet och vilken som helst av alla övriga generella publicerade från 1990-tal till idag: Jag har ej otroligt alla). De är ibland riktigt skickliga i ämnet om än sällan ens intresserade av det (även om en del uppenbart inriktade artiklar publiceras).


Poäng två med denna är att en försvarlig andel troligen ej långt ifrån 100% av alla common sense, thesaurus, ontologier med generell kunskap m.m. har jag någon gång använt som datakälla till Blue light. När jag pågående behöver addera kategoriserad vetskap till denna mini-common sense finns det därför tillgängligt ordentligt att välja mellan. Kvaliteten blir därför för mindre ansträngning mycket hög. Särskilt relativt liknande stark inom ekonomi och biologi / medicin - samt en bit ännu uppåt politik.


Praktiskt liten sak för att få några alternativa ämnen ett koncept kan höra till. Resp. i diverse för mig applikationsnära tillämpningar få närmare direkt färdigt alternativ vad något är. I särklass störst rörande det senare såväl som tydligt i vad jag menar är om ett namn är manligt och/eller kvinnligt (medan hen alternativet ännu ej finns även om jag får erkänna att jag kan se att det har värden givet att det sparar minne: Mänskligt namn räcker bra medan vi med könen ibland behöver resp. manligt och kvinnligt samtidigt kostande kanske 7 till 64-bitar om inte oftare mer än så extra).


Alternativ två är en liten representation kring verb vars värde huvudsakligen är att den gör allt viktigt sunt representerat: D.v.s. CSV-filer där varje rad är uppenbar hur vi tar in det i minne och utnyttjar utan strunt som XML, LISP m.m. Jag tvivlar på att någon intresserad kan läsa en sådan resp. rad utan annan vetskap utan att direkt se logiken för raden. Ingen konkret vetskap finns emellertid som inte finns i någon av de cirka 6 - 8 mest välkända representationerna.


En konceptuellt skillnad för typiska användare som jag gissar är att när väldigt många bygger prioriterar man relativt output of applikation hög kvalitet där och lite arbete input men föga möjlighet att leverera generellt. D.v.s. väldigt begränsade datasamlingar fungerande. Kansk 100 koncept medan något seriöst hanterande allt språk kan krävs några hundra tusen. Där är vi emellertid typiskt (lite i intressant kontrast fall två här) i koncept likt noun om än ibland flergram. Rörande verb tycks ungefär samma presentations-nära men distansierade praktiskt verklighet önska mycket mer. Verben är kanske vad vi naturligt uppfattar lättare för stora andelar av alla vanliga (lämnande ovanliga verb "ad-hoc" skapande från "noun-flergram eller 1-gram") resp. spelande in gissningsvis att det om man utvärderar vägar till att generalisera förståelse fler-gram av "noun-typ" tidigt bör bli tydligt att man börjar någonstans runt 100 MB CSV-representation om ej ämnes-inriktad.


Inkluderat tense med all normal v-form. Subkategorisering. Roller följande notation (föredömligt minnes-effektiv) i LCS. Inga restriktioner då sådana för mig helt hanteras via mer sällan cues indikerande djupare kontroll nödvändig (ex. att vissa grammatiska länkar mellan noderna som i A VERB-TRANSER B C där B ofta är animate även om man när man följer upp stor mängd data märker att man verkligen ej kan följa tradiiionell definition av animate Snarare av mänskligt eller involverande mänskligt - Ex. representationer motsvarande geopolitik eller verbaliserande koncept från specialistområden så som medicinska operations-förfarande, eller kemiska komponenter i synteser - rörande de sista två tror jag många liknande ex. finns i andra områden men jag följde endast upp för dessa två i några del-ämnen av resp.).


Jag hade reflekterat att som ett tredje alternativ dela ett vikt-system. Mest aktuellt emotionell potens för "flergram" men endast för dess 1-gram men däremot ej utgångsvikterna för ord utnyttjade i genereringen av dessa. Men jag avstår från det.



Men jag tänker dela en sak av de två första alternativen. Spekulativt har jag cirka 8 entiteter som läsare intresserade här varav några gissar jag tror att de är väldigt "ledande" på vad de redan har även om jag konkret vet att i relationer koncept är jag både i kvalitet och storlek många gånger starkare (common sense närmare aktuellt här är man dock troligen lite starkare . Och vi reflekterar poängen av att vara en individ jämfört vara många mötande en individ av och till år efter år med början säg 1999: Iskalölt, Skit-jobbigt, stenhårt och säkert djävligt dödligt farligt för vanliga människor inte lika överlevande som jag men i alla fall vet jag mer om nivån på dom stora organisationer förmåga än de vet om mitt mest central koncept). Faktiskt kanske mitt common sense är större. Jag brukar bara använda en sub-rymd och den vet jag är mindre sådana entiteter såväl som mindre ex. Yago (men samma datakälla i allt väsentligt: Wikipedia kategorier och info-boxar) men egentligen har jag ju fler rymder här säg fem lika stora och ungefär lika stora men som åtminstone i aktuell byggnation BDB har data quality problem såväl mycket troligt massor av redundant data. NAMED ENTITY DIM jag använder idag stannar på crika 380 MB CSV-rader avseende dess IS-A relationer (en IS-A per rad och argumenterat imploderar Yago till IS-A rader men om ej så är jag så klart större men jag är väldigt säker på att jag har rätt och att Yago är cirka 40 MB större om vi antar samma data quality nivå).



E-posta eller signalera på annat sätt önskemål om alt. Troligen kommer det visa sig att ev. en önskar något och troligare gissar jag två. Ett är dock vad som över åren kommer tveklöst skapa det större värdet för alla samlat. Ex. kompletterande ett underområde inom ekonomi nyligen utgick jag från cirka 10 - 15 thesaurus "import-filer" till Blue light.