Tidsstabila adjektiv närmare NN-delarna av noun phrase: En förklaring motiverad från n-gram frekvenser för koncept

2015-04-01

Att vi har tidsstabila eller mer generellt stabilt specifierande adjektiv närmare noun delarna av en noun phrase är känt sedan länge. Ett exempel är färg (närmare NN-delarna) resp. en subjektiv bedömning av värde eller preferens kontextuellt beroende(Hans bought the more cool black horse).


Egentligen är jag inte helt road av sambanden för hur vi ser adjektiv här eftersom jag upplever det praktiskt mer funktionellt att hantera delar av de mer evaluativa tillsammans med vissa av adjektiven som en egen grupp men det bör inte påverka just här.


Varför vi föredrar - över många språk - temporalt mer stabila egenskaper närmare NN-delarna kan man föreslå åtminstone ett fåtal alla mer eller mindre troliga föreklaringar till utan koppling till någon metod att egentligen verifiera det men åtminstone med argument som tycks rimliga. Och här ger vi en till sådan jag ej sett tidigare.


En faktor predikterande ett antal faktorer relaterade intensitet som mätbar människa görande något med noun phrase är frekvenser. Och en grupp av frekvenser är frekvenserna för ord. Emellertid påverkar också fler-gram frekvenserna.


Betraktar vi en väldigt kort fras (och med därför inte mer otrolig):


[Something] VERB the black horse

Kan vi bilda relevanta 1-gram och fler-gram från högra frasen i den mån vi tidigare sett dem om vi ska bygga på ett värde känt d.v.s. potentiellt:


    the, black, horse, black horse, the black horse

Vidare är känt att vi inte otroligt också bildar the horse.


Komplettering: Antalet gram vi bildar ovan stämmer ej med hur jag tror att det sker. Jag vet inte riktigt varför jag missade ett fall som jag gör som ej förekommer - och ej är förväntat att märkas - för studier på människor rörande tre-gram (med eller utan att första ordet är determiner). Men ovan kom de som är känt predikterande samt de ofta använda 1-gram.

Saknad: the black.

Jag känner dock starkt för att the verkar lokalt. Kanske just mer relevant när det följs av property adjektiv enligt diskussion senare. Jämför gärna med följande ex. The Green Party vs The Green.

Sedan år gör jag ngram-detektion något annorlunda än vanligt. Tidigt mest därför att jag önskade en algoritm snabbt och saknade sannolikhet för koncept med många ord. Men kom senare representerande koncept mång-dimensionellt se flera poänger med detta. I den mån the green existerar som ett etablerat koncept åtminstone några stabila vikt-dimensioner finns för kommer jag ta ut det och räkna med det.

För människan inser vi självklart att vi arbetar upp koncept: Vi kan inte hålla hur mycket som helst i minnet. Men det är ett mindre problem för mig i alla fall än att testa the black och kasta eller behålla.

Förövrigt detekterar jag ej skip-gram: the horse. Men räknar dock med det rörande intensiteterna för frasen. Jag tror det är mindre rätt om vi utnyttjar the direkt för ex. horse eller green att ej detektera skip-gram åtminstone när avståndet i antal ord är så få som för 3-gram.



Bland dessa är black horse lite speciell därför att vid sidan om att black kan indikera en tidsstabil property (färg) kan det vara ett mer generellt concept. Svarta hästar kan givet ett kontext eller som vi ofta allmänt refererar ha en särskild mening.


Har vi aldrig sett black horse tidigare är frekvensen för antal gånger vi sett black horse 1. Om ej så blir det problematiskt (för mig i alla fall) hur inlärning av en ev. koncept-grupp enligt föregående stycke är möjlig.


Antar vi detta kan vi emellertid tänka oss diskriminering från relativ förekomst resp. skillnader i hur "betydelsen" av horse resp. black horse ser ut. Avses normalt bara att hästen är svart utan bredare mening bör vi få föga skillnad (och jag får här säga att även om jag längre bak tittat en hel del på detta från relationer definierande koncept är själva metoden för det jag använder annat än för för-beräknande värden alldeles för långsam för den typ av användning aktuell för enskilda meningar - trots nyligen en del försök att ta ner tiden kastande dimensioner utifrån 1-gram vikter - och jag har därför följt upp här men det tycks generellt rimligt med få undantag från direkt påverkan av corpus vi läser in alt. vad vi som person läser eller hör om jag inte helt tänker fel).


Problemet med att istället sätta våra "evaluativa" dimensioner närmare NN-delarna är dock att de alltid är ganska vanliga i den mån några individer känner sig engagerade. De är dock tämligen rörliga såväl som inte sällan vanliga för alla grova "få-antaliga" kategorier vi kan göra.


Sätter vi dessa direkt (och vi kan tänkbart ha fler alternativ här avtagande med avstånd även om jag inte upplever att det är helt trivialt att se från mätvärden eller vikter: Kanske håller preferensen helt enkelt från förväntad när fler man ev. kan vilja bilda fler-gram från finns?). Börjar vi bilda en mängd vanligt förekommande "koncept" likt: "good horse", "bad horse", "slow horse", "cool horse".


Sätter vi till dessa ett beskrivande koncept med ej försumbar intensitet donerande säg red (färger upplevde jag oroande tills jag verifierade det ligger gärna högt i flera typer av intensiteter) kan good horse kam kamrater börja kännas diskriminerande jämfört med horse. Just här givetvis men ändå bäst skrivet antar vi i egenskaper för hur detta sker varande en separat fråga: Utan detta har vi stora problem med resonemanget ovan för noun phraser när de ungefär består av endast bad + horse (men mindre så spekulerar vi utan närmare motivation för the bad horse: För vilken the bad horse och the horse är de viktigare intensitet byggande koncepten - och som jag gärna vill tvinga det till horse).


Bättre uttryckt: Stabila egenskaper kan indikera egna relaterade koncept. Oftare förekomst kan etablera dessa. Koncept vi ser som egna är just typiskt mer stabila. Sitta egenskaperna direkt före NN-delarna kan det upplevas som beteckning på det koncept som vi får värden för i resp. fall. Är detta nu evaluativt är oavsett hur föränderligt varierat månad för månad representationen återkommande ofta nog.


Man kan helt säkert göra lösningar för adjektivens påverkan på NN-delarna på flera sätt ungefär - eller väldigt nära varandra faktiskt - motsvarande varandra (även om en del kan vara långsammare, andra försökande utnyttja 1-gram eller fler-gram o.s.v.). Ett perspektiv på adjektiven rörande evaluativt (cool horse / cool car resp. property (tall people / heavy [lite både och varierat med kontext] people / yellow people) är att se de evaluerande reducerande till ett mindre antal intensity / polarity dimensioner vi också har etablerat i NN-delens koncept vi redan känner (ev. ganska generellt hårt-inlärt i en dominerande preferens ex. Nazigerman mer negativt / danger och Dalai Lama mer positiv / safe).


Vill vi kontextuellt "tillfälligt" förmå om ett koncept fungerar detta utmärkt. Vill vi kontextuellt uttrycka att någon egenskap hos Nazigerman var positivt räcker det bra att betrakta denna dimensionen och skatta effekten av det mot en målgrupp (enklast fungerande genomsnittet för approximativt allt språk: Medan hur positivt ökande Nazigerman egentligen blir för mindre grupper som redan mer ser det som positivt är svårare att göra bra eftersom vi har mindre data - relativ mängd data vi mätt tillsammans med själva själva distans-skillnaden är en ibland ej helt bra indikation: Relativt litet data indikerande stor distans pekar på problem utan att utesluta att ingen distans också kan vara problem medan om vi följer förändring dagligen varians rimligen borde fungera väl men praktiskt ofta inte adderar värde just här eftersom perioder normal förändring är att förvänta - vs. ingen aktivitet / spammande samma inlägg o.s.v. - fodrar att vi faktiskt har en acceptabelt god historisk bakåt vilket vi kan sakna för mindre sociala grupperingar och jämförbart).


Medan property stabilt indikerande diskriminerande egenskaper ev. pekande på ett eget koncept är vad vi kan se som påverka de relationer som definierar vad konceptet påverkar och påverkas av. Enkelt och mycket få-dimensionellt i påverkan ex. att horse har relation till color där vi ser påverkan av black. Populärt rörande sådant är hårt-dimensions-reducerande algoritmer där ett antal välkända finns. Diskriminerande ett troligt koncept black horse från horse tror jag säkert de alla klarar utmärkt med ett fåtal dimensioner (liksom för detta exempel förekomsten av black horse resp. black och horse klarar jämförbart bra) medan jag åtminstone ännu inte sett något publicerat som utnyttjar få-dimensionella reducerande dimensioner som klarar att uttrycka intensitet vi bygger upp jämförbart med kända samband för hur enkla kombinationer från ordet svart till häst och svart häst klarar. Gör man det mång-dimensionellt klaras detta av alldeles utmärkt men är alldeles för kostsamt för sådant här med relativt föga värde.


Ett alternativt perspektiv på ett nytt perspektiv bildas inkluderande möjligen att direkt utnyttja vikt-påverkan av ex. black till horse och det prospekterande konceptet black horse är initiering / förstärkning av just black utan att expandera ut black i dess inlärda och givna dimensioner.


Medan det mång-dimensionella gör detta samt expanderar ut black (för mig cirka 2000 dimensioner inkluderande sådana som alltid blir 0 och kastas direkt: Kandidater att avlägsnas permament - och säg 200 man får kvar filtrerande hårt för snabbare hantering) och för resp. sådan dimension (där color är en liksom noterade jag fire och human även om jag inte hann med att se vikterna innan de rann-förbi) och för resp. i den mån de är relevanta för horse påverkar dess representation ( p (dimension i | horse ) resp. similarity ( dimension i | horse )). D.v.s. för black kanske ett par hundra operationer (med resp. p (...) och sim(...)) istället för en mellan black och horse.


Söker vi positivt, negativt och liknande polarity är relationer ganska meningslösa. Givet mycket att mäta på nätet m.m. kan vi skatta detta direkt tidsberoende från uttrycka evaluativa komponenter. Emellertid vill vi skatta hur förändring i mer grundläggande egenskaper påverkar "storlek" (för NP som typiska mänskliga subjekt och objekt till verb om en egenskap gör endera starkare / mer kraftfull o.s.v. exempelvis samarbeten för länder), intensitet eller uttrycka ett besläktat koncept varande ett "underrum" (minns något matematiskt - fysisk- och matematisk PTSD är tungt - man en gång lärde sig jag emotionellt upplever kan passa här men där jag starkt betvivlar att jag kan riktigt förklara underrum på ett sätt som gör att vi kan avgöra om saker är det: Bättre uttryckt en mindre del som också finns i det större konceptet).


I någon mening är det också från detta troligt att för många property adjektiv saknande varje enkelt indikerad polarity ex. att blått ej ses som positivt eller negativt ej bra kan förenklas med detta rörande påverkan i intensitet till NN-delarna. Snarare att man behöver mäta upp deras uttryck av resp. brett förenklande över allt vi mäter på eller med kontext. Black kan vara upplevt positivt (och enligt diskussion tidigare också bilda fler-gram koncept Black Power) eller om än inte riktigt kännas negativt ändå väldigt oroande och intensitet-förstärkande om det i ett kontext är ovanligt som hudfärg samtidigt som det är mörkt: Åtminstone om man inte är färgad själv). Utan detta vet jag inte om jag vill se påverkan intensitet annat än att hantera komplexitet så att saker inte glider i väg åtminstone om vi inte har rätt typ av adverb eller adjektiv innan (men här har jag troligen lite fel men har dock lösningar för att samla intensitets-typerna över datum och tidsperioder så jag är inte helt över-motiverad när det så uppenbart fördummar ner andra värden till större mätosäkerhet).


Vill man ändå ta intensitet från property tycks kanske en vikt som funktion av P ( NN-delar bildande koncept | property-koncept ) vara mycket mer naturligt för dessa subjektivt (jag tittande på några värden prövande andra algoritmer) välfungerande jämfört med evaluativa adjektiv (med ev. förstärkande adverb sub-fras). Och därmed är vi tillbaka där vi börjande: Mer eller Mindre. ( P ( the black horse ) / P ( black horse ) m.fl. skattningar man kan pröva här).