Tidsstabila adjektiv närmare NN-delarna av noun phrase: En förklaring motiverad från n-gram frekvenser för koncept

2015-04-01

Att vi har tidsstabila eller mer generellt stabilt specifierande adjektiv närmare noun delarna av en noun phrase är känt sedan länge. Ett exempel är färg (närmare NN-delarna) resp. en subjektiv bedömning av värde eller preferens kontextuellt beroende(Hans bought the more cool black horse).


Egentligen är jag inte helt road av sambanden för hur vi ser adjektiv här eftersom jag upplever det praktiskt mer funktionellt att hantera delar av de mer evaluativa tillsammans med vissa av adjektiven som en egen grupp men det bör inte påverka just här.


Varför vi föredrar - över många språk - temporalt mer stabila egenskaper närmare NN-delarna kan man föreslå åtminstone ett fåtal alla mer eller mindre troliga föreklaringar till utan koppling till någon metod att egentligen verifiera det men åtminstone med argument som tycks rimliga. Och här ger vi en till sådan jag ej sett tidigare.


En faktor predikterande ett antal faktorer relaterade intensitet som mätbar människa görande något med noun phrase är frekvenser. Och en grupp av frekvenser är frekvenserna för ord. Emellertid påverkar också fler-gram frekvenserna.


Betraktar vi en väldigt kort fras (och med därför inte mer otrolig):


[Something] VERB the black horse

Kan vi bilda relevanta 1-gram och fler-gram från högra frasen i den mån vi tidigare sett dem om vi ska bygga på ett värde känt d.v.s. potentiellt:


    the, black, horse, black horse, the black horse

Vidare är känt att vi inte otroligt också bildar the horse.


Komplettering: Antalet gram vi bildar ovan stämmer ej med hur jag tror att det sker. Jag vet inte riktigt varför jag missade ett fall som jag gör som ej förekommer - och ej är förväntat att märkas - för studier på människor rörande tre-gram (med eller utan att första ordet är determiner). Men ovan kom de som är känt predikterande samt de ofta använda 1-gram.

Saknad: the black.

Jag känner dock starkt för att the verkar lokalt. Kanske just mer relevant när det följs av property adjektiv enligt diskussion senare. Jämför gärna med följande ex. The Green Party vs The Green.

Sedan år gör jag ngram-detektion något annorlunda än vanligt. Tidigt mest därför att jag önskade en algoritm snabbt och saknade sannolikhet för koncept med många ord. Men kom senare representerande koncept mång-dimensionellt se flera poänger med detta. I den mån the green existerar som ett etablerat koncept åtminstone några stabila vikt-dimensioner finns för kommer jag ta ut det och räkna med det.

För människan inser vi självklart att vi arbetar upp koncept: Vi kan inte hålla hur mycket som helst i minnet. Men det är ett mindre problem för mig i alla fall än att testa the black och kasta eller behålla.

Förövrigt detekterar jag ej skip-gram: the horse. Men räknar dock med det rörande intensiteterna för frasen. Jag tror det är mindre rätt om vi utnyttjar the direkt för ex. horse eller green att ej detektera skip-gram åtminstone när avståndet i antal ord är så få som för 3-gram.



Bland dessa är black horse lite speciell därför att vid sidan om att black kan indikera en tidsstabil property (färg) kan det vara ett mer generellt concept. Svarta hästar kan givet ett kontext eller som vi ofta allmänt refererar ha en särskild mening.


Har vi aldrig sett black horse tidigare är frekvensen för antal gånger vi sett black horse 1. Om ej så blir det problematiskt (för mig i alla fall) hur inlärning av en ev. koncept-grupp enligt föregående stycke är möjlig.


Antar vi detta kan vi emellertid tänka oss diskriminering från relativ förekomst resp. skillnader i hur "betydelsen" av horse resp. black horse ser ut. Avses normalt bara att hästen är svart utan bredare mening bör vi få föga skillnad (och jag får här säga att även om jag längre bak tittat en hel del på detta från relationer definierande koncept är själva metoden för det jag använder annat än för för-beräknande värden alldeles för långsam för den typ av användning aktuell för enskilda meningar - trots nyligen en del försök att ta ner tiden kastande dimensioner utifrån 1-gram vikter - och jag har därför följt upp här men det tycks generellt rimligt med få undantag från direkt påverkan av corpus vi läser in alt. vad vi som person läser eller hör om jag inte helt tänker fel).


Problemet med att istället sätta våra "evaluativa" dimensioner närmare NN-delarna är dock att de alltid är ganska vanliga i den mån några individer känner sig engagerade. De är dock tämligen rörliga såväl som inte sällan vanliga för alla grova "få-antaliga" kategorier vi kan göra.


Sätter vi dessa direkt (och vi kan tänkbart ha fler alternativ här avtagande med avstånd även om jag inte upplever att det är helt trivialt att se från mätvärden eller vikter: Kanske håller preferensen helt enkelt från förväntad när fler man ev. kan vilja bilda fler-gram från finns?). Börjar vi bilda en mängd vanligt förekommande "koncept" likt: "good horse", "bad horse", "slow horse", "cool horse".


Sätter vi till dessa ett beskrivande koncept med ej försumbar intensitet donerande säg red (färger upplevde jag oroande tills jag verifierade det ligger gärna högt i flera typer av intensiteter) kan good horse kam kamrater börja kännas diskriminerande jämfört med horse. Just här givetvis men ändå bäst skrivet antar vi i egenskaper för hur detta sker varande en separat fråga: Utan detta har vi stora problem med resonemanget ovan för noun phraser när de ungefär består av endast bad + horse (men mindre så spekulerar vi utan närmare motivation för the bad horse: För vilken the bad horse och the horse är de viktigare intensitet byggande koncepten - och som jag gärna vill tvinga det till horse).


Bättre uttryckt: Stabila egenskaper kan indikera egna relaterade koncept. Oftare förekomst kan etablera dessa. Koncept vi ser som egna är just typiskt mer stabila. Sitta egenskaperna direkt före NN-delarna kan det upplevas som beteckning på det koncept som vi får värden för i resp. fall. Är detta nu evaluativt är oavsett hur föränderligt varierat månad för månad representationen återkommande ofta nog.


Man kan helt säkert göra lösningar för adjektivens påverkan på NN-delarna på flera sätt ungefär - eller väldigt nära varandra faktiskt - motsvarande varandra (även om en del kan vara långsammare, andra försökande utnyttja 1-gram eller fler-gram o.s.v.). Ett perspektiv på adjektiven rörande evaluativt (cool horse / cool car resp. property (tall people / heavy [lite både och varierat med kontext] people / yellow people) är att se de evaluerande reducerande till ett mindre antal intensity / polarity dimensioner vi också har etablerat i NN-delens koncept vi redan känner (ev. ganska generellt hårt-inlärt i en dominerande preferens ex. Nazigerman mer negativt / danger och Dalai Lama mer positiv / safe).


Vill vi kontextuellt "tillfälligt" förmå om ett koncept fungerar detta utmärkt. Vill vi kontextuellt uttrycka att någon egenskap hos Nazigerman var positivt räcker det bra att betrakta denna dimensionen och skatta effekten av det mot en målgrupp (enklast fungerande genomsnittet för approximativt allt språk: Medan hur positivt ökande Nazigerman egentligen blir för mindre grupper som redan mer ser det som positivt är svårare att göra bra eftersom vi har mindre data - relativ mängd data vi mätt tillsammans med själva själva distans-skillnaden är en ibland ej helt bra indikation: Relativt litet data indikerande stor distans pekar på problem utan att utesluta att ingen distans också kan vara problem medan om vi följer förändring dagligen varians rimligen borde fungera väl men praktiskt ofta inte adderar värde just här eftersom perioder normal förändring är att förvänta - vs. ingen aktivitet / spammande samma inlägg o.s.v. - fodrar att vi faktiskt har en acceptabelt god historisk bakåt vilket vi kan sakna för mindre sociala grupperingar och jämförbart).


Medan property stabilt indikerande diskriminerande egenskaper ev. pekande på ett eget koncept är vad vi kan se som påverka de relationer som definierar vad konceptet påverkar och påverkas av. Enkelt och mycket få-dimensionellt i påverkan ex. att horse har relation till color där vi ser påverkan av black. Populärt rörande sådant är hårt-dimensions-reducerande algoritmer där ett antal välkända finns. Diskriminerande ett troligt koncept black horse från horse tror jag säkert de alla klarar utmärkt med ett fåtal dimensioner (liksom för detta exempel förekomsten av black horse resp. black och horse klarar jämförbart bra) medan jag åtminstone ännu inte sett något publicerat som utnyttjar få-dimensionella reducerande dimensioner som klarar att uttrycka intensitet vi bygger upp jämförbart med kända samband för hur enkla kombinationer från ordet svart till häst och svart häst klarar. Gör man det mång-dimensionellt klaras detta av alldeles utmärkt men är alldeles för kostsamt för sådant här med relativt föga värde.


Ett alternativt perspektiv på ett nytt perspektiv bildas inkluderande möjligen att direkt utnyttja vikt-påverkan av ex. black till horse och det prospekterande konceptet black horse är initiering / förstärkning av just black utan att expandera ut black i dess inlärda och givna dimensioner.


Medan det mång-dimensionella gör detta samt expanderar ut black (för mig cirka 2000 dimensioner inkluderande sådana som alltid blir 0 och kastas direkt: Kandidater att avlägsnas permament - och säg 200 man får kvar filtrerande hårt för snabbare hantering) och för resp. sådan dimension (där color är en liksom noterade jag fire och human även om jag inte hann med att se vikterna innan de rann-förbi) och för resp. i den mån de är relevanta för horse påverkar dess representation ( p (dimension i | horse ) resp. similarity ( dimension i | horse )). D.v.s. för black kanske ett par hundra operationer (med resp. p (...) och sim(...)) istället för en mellan black och horse.


Söker vi positivt, negativt och liknande polarity är relationer ganska meningslösa. Givet mycket att mäta på nätet m.m. kan vi skatta detta direkt tidsberoende från uttrycka evaluativa komponenter. Emellertid vill vi skatta hur förändring i mer grundläggande egenskaper påverkar "storlek" (för NP som typiska mänskliga subjekt och objekt till verb om en egenskap gör endera starkare / mer kraftfull o.s.v. exempelvis samarbeten för länder), intensitet eller uttrycka ett besläktat koncept varande ett "underrum" (minns något matematiskt - fysisk- och matematisk PTSD är tungt - man en gång lärde sig jag emotionellt upplever kan passa här men där jag starkt betvivlar att jag kan riktigt förklara underrum på ett sätt som gör att vi kan avgöra om saker är det: Bättre uttryckt en mindre del som också finns i det större konceptet).


I någon mening är det också från detta troligt att för många property adjektiv saknande varje enkelt indikerad polarity ex. att blått ej ses som positivt eller negativt ej bra kan förenklas med detta rörande påverkan i intensitet till NN-delarna. Snarare att man behöver mäta upp deras uttryck av resp. brett förenklande över allt vi mäter på eller med kontext. Black kan vara upplevt positivt (och enligt diskussion tidigare också bilda fler-gram koncept Black Power) eller om än inte riktigt kännas negativt ändå väldigt oroande och intensitet-förstärkande om det i ett kontext är ovanligt som hudfärg samtidigt som det är mörkt: Åtminstone om man inte är färgad själv). Utan detta vet jag inte om jag vill se påverkan intensitet annat än att hantera komplexitet så att saker inte glider i väg åtminstone om vi inte har rätt typ av adverb eller adjektiv innan (men här har jag troligen lite fel men har dock lösningar för att samla intensitets-typerna över datum och tidsperioder så jag är inte helt över-motiverad när det så uppenbart fördummar ner andra värden till större mätosäkerhet).


Vill man ändå ta intensitet från property tycks kanske en vikt som funktion av P ( NN-delar bildande koncept | property-koncept ) vara mycket mer naturligt för dessa subjektivt (jag tittande på några värden prövande andra algoritmer) välfungerande jämfört med evaluativa adjektiv (med ev. förstärkande adverb sub-fras). Och därmed är vi tillbaka där vi börjande: Mer eller Mindre. ( P ( the black horse ) / P ( black horse ) m.fl. skattningar man kan pröva här).

Överraskande imponerad av NYU Department of Psychology som dock skulle gynnas av riktad finansiering med NLP-praktiskt "mål"

Rörande sökning rörande mindre mitt defekta i Determiners vs Stopp-ord så mycket som runt det allmänna området imponerades jag överraskande mycket i mängd artiklar lästa av samma person:



För artiklar är oavsett författare eller bredare runt samma ämnen följande sida bättre:



Vi hittar bl.a. diskussion rörande determiners som indikation specifikt avsett rörande del i hjärnan jag åtminstone innan troligen inte kände till (det var ett tag sedan jag läste forskning väldigt nära delar i hjärnan och ibland känns fenomen som helt nya för mig för att någon dag sedan vara vad jag inser att jag redan läst när jag ej läst allmänt inom området ett tag): LATL. Vi såg besläktat samma fenomen rörande adjektiv begränsande vad avses. Liksom en tolkning avseende effekt av adjektiv varande kanske design fixation eller frame bias (ibland kan sådant också vet jag påverkas av intern-funding men det är nog inte fallet här) hos författarna rörande adjektiv man såg mindre som property likt ex. färg och istället när ej så discourse viktiga medan jag skulle säga att resp. kanske aktiverar enligt samma princip (jämför med att vi säger my deadly sick mother därför att sick ligger närmare property hos mother i mening av troligare tidsstabil aktivering av dess representation över relationer eller tänkbart via adderandet av sick medan vi förstår deadly från detta likaväl som att parsning och intensitet av deadly kan ses avslutad i mening av dess vikt kan få verka som given till vad sick ger utan särskild hänsyn till noun representationen: Varande en av få saker jag åtminstone ännu har någon form predikterbarhet från min djupare noun phrase parsning till data utanför det - Och om jag istället säger deadly red mother skiljer det sig inte - men varande också renare i effekten - medan deadly bad skiljer sig tydligare - om jag minns rätt här).


Följande bedömde jag som kanske inte intressantare än en del annat jag sparade ner men mer relevanta den första interna länken (av ett större antal ned-sparade medan jag fortfarande utgick från närhet till första artikeln i listan jag nådde först):



I såg också (troligen inte länkad ovan - ev. annan författare) såg också en studie jämförande en skattning av komplexitet mellan subjekt-bias och objekt-bias för "psykologiska verb-koncept" likt (a loves / hates b: subjekt bias, a annoyes / angers b: objekt bias) där man noterande en tänkt större complexitet för objekt bias. Rörande objekt bias gäller tycker jag mig minnas från bakåt relaterade skapandet av ämnes-kategorier med tillhörande verb-argument en del (två åtminstone) exempel på kan hittas nu till ett par månader bakåt att vi har tämligen stor andel verb med argumenterat negativ eller farligt kontext (i sig inte helt ovanligt för just verb rörande antal unika utan hänsyn till deras frekvenser). Oavsett det med högst eventuell påverkan har vi för objekt-bias vad som i linjär-ord-ordning för objekt-bias vad som inte enormt skiljer sig från den typ av noun-fras jag gör just nu och diskuterar också tidigare. För subjekt bias ges a som given och en egenskap av den förklaras och något behov av att manipulera a för att förstå intensiteten (likt sick mother tidigare) finns inte p.s.s. medan vi för objekt-bias just gör något jämförbart med detta. Att vi får samma likhet som här mellan objekt-bias och noun phrase för alla typer av verb betvivlar jag dock: Tänkbart ska det vara adjektiv-nära verb (absolut inte running där det hela fortfarande pågår och dess eventuella påverkan till en varaktig förståelse och representation ej är klar - jag har lite svårt för stative och state som verb-typer men det är väl vad man kan kalla vad vi ex. vill avse här men om värden för något annat visar på jämförbar effekt så vill jag inte utesluta dom heller).


Vi har också denna utnyttjande få-dimensionella feature representationer av koncept mer i tradition av natural language processing som man mycket föredömligt kombinerat med mätningar och tester vanligare inom avbildning av aktivitet i hjärna:



Generellt känner jag relativt andra författare tydligt över-läst frän New York University (får en att minnas mitt var tredje- till var fjärde år återkommande sökning efter en artikel rörande en algoritm jag aldrig - ej heller nu - riktigt minns namnet på men först läste hos Nyu.edu ungefär kallad multi-dimensionell-entropy eller liknande för att ta ut intressant korrelation).


Samtidigt nära liggande vad jag sökte - bättre än så samlat kraftfullt lokaliserat ännu någon annanstans - men ändå inte riktigt exakt ändå. Utmärkt exempel på vad som skulle vinna på tydlig finansiering där man i finansieringen också har ett praktiskt perspektiv på den cross-topic dimension som är svagast som normalt förväntad. Cross-topic i mening av att man föredömligt i flera studierna söker förstå området från psycholinguistic, avbildning aktivitet och lingvistik - resp. svagare än lingvistik natural language processing driven statistisk. D.v.s. boost funding med praktiskt perspektiv på det sista. En del kanske felaktigt tolkad rörande såväl som någon till var att det förvisso nog var finansierat utan större problem men ändå kändes lite intern-gemensam-budget finansierat vilket har som sido-effekt att smalare mål som kan utvecklas vidare inte alltid får samma tyngd.


Saknande gemensam tagg för vad jag gör just nu och av och till kommenterat tog jag några av de sista inläggen runt det:



Länkar bakåt i dem lär peka ut fler tror jag.