Att skatta emotionell intensitet för adverb och/eller adjektiv från morfologiskt nära relaterat adjektiv och/eller adverb

2015-05-26

Det hade varit oerhört tilltalande om en enkel princip för hur vi givet känd emotionell intensitet för adjektiv eller adverb kan beräkna nära morfologiskt relaterat adverb eller adjektiv. Ex. från bad - badly.


En teori rörande de återkommande morfologiska konstruktionerna för resp. adjektiv och adverb är ju att givet att vi saknar erfarenhet av att ha mött konceptet (i vilket fall motsvarande funktioner av normaliserad frekvens och så tillhörande beroende på område är en väg vi kan tänka oss närmare kan förklara egenheter som tid det tar att lösa m.m.) att vi från vad inlärt rörande "principer" för dessa (i statistiskt mening i alla fall) och vetskap om själva koncept-basen. Ex. ly resp. bad för badly.


Tråkigt nog ser jag inget trivialt samband att utnyttja. För särskilt adverb som tenderar att höra till ganska emotionellt starka koncept (ex. just badly) eller väldigt tydlig förstärkande adverb oavsett mot verb och/eller adjektiv kan ett i tecken-längd längre adverb ligga högre än dess närmast besläktade kortare adjektiv. Emellertid kan också det omvända också gälla. Manuell kontroll av ett antal sådana relationer föranleder mig till att tro att de också hade tillförlitliga värden snarare än som ibland kan vara fallet beror av problematik relaterade processen när den emotionella intensitet jag normalt använder för alla situationer där ej något annat krävs baserad på ett stort sample av text från flera år (d.v.s. som ej behöver beräknas om ofta men ej heller kan säga något vettigt kring vad som är mer föränderligt i tid som särskilt varumärken och alla konstruktioner av noun som relaterar entiteter men för många algoritmer välfungerande för just adjektiv, adverb m.m. som tenderar att addera ett förstått värde som används för att beskriva ett kontext snarare än formas av kontext).


Jag kontrollerade inte motsvarande samband mellan varken adjektiv eller adverb mot kortare och vanligare noun. Men det tycks troligt att enkla samband ej heller finns här.


Det är känt för mig att det förekommer bl.a. i studier publicerade att reducera ner adverb och adjektiv (såväl som annat) till base vilket mer andra ord tycks problematiskt givet att skillnaden för mig inte alls när längre adverb översteg kortare adjektiv troligare var liten. Metoden är en av de sämsta för att skatta värden åtminstone för ej helt ovanliga koncept (helt ovanliga koncept saknas ju jämförande värden vilket vi återkommer till).


Jag kontrollerade några viktsystem något så när jämförbart här (bl.a. mer "Osgood-liknande" värden adjektiv: Evaluative, Potency och Activity - Finare teoretiska resonemang för vilka dimensioner mer indikerande för adverb mot adjektiv o.s.v. är antalet koncept-par värden alls finns för få för att vara meningsfulla runt). Sådana viktsystem är typiskt små vilket får effekt här genom att väldigt få koncept att kontrollera med fanns. De jag hittade visade emellertid samma sak (också om adverb generellt var mycket mer sällsynta).


En dum algoritm jag valde att införa i funktion där acceptans approximation gäller blev tillsvidare baserad några regler resp. ett exponent-samband. Approximationerna dessa ger blev när maximal information fanns tillgänglig ofta 0.10 eller lägre i fel. Där den emotionella intensitet jag använder som jag konstruerade den är en kombination av en exponentiellt avtagande och en linjärt avtagande komponent (medan de flesta - alla jag minns jag sett i övrigt är linjärt avtagande). Värde av den exponentiella komponenten är bland annat att bestraffa värden som skapas från sämre samplade koncept utan att när värdet används behöva hantera det: Och min erfarenhet allmänt rörande sådana straff vilka jag använder regelmässigt är att de ska ha en exponentiellt avtagande form. På så sätt kan man jämföra resp. grupper med höga värden (just jämförbara) samt också de som har mycket låga värden men koncept med låga värden kan ej störa ut effekt av tillförlitliga värden (men saknas de senare ges ändå en representation som kan följas ex. framåt i tiden).


Regler-komponenterna baserade jag på konstruktioner kända av vad jag brukar kalla More or Less. Vi kan förstå det som antonymer men med något bredare definition där mening eller rent av definition av koncepten också är acceptabelt. Vidare vetskap om någon av resp. i sådan konstruktion (när EMI värde saknas för ett) är antingen UP eller DOWN: D.v.s. tenderar att indikera aktivitet större / uppåt / ökande eller omvänt. När endast ett av värdena saknades skrev jag till fil och gick över konstruktionerna kompletterande via manuell insats den andra som det motsatta när det var korrekt.


Var känt EMI UP gäller när beräkning alls görs att okänt koncept är DOWN. Beräkningen görs här reducerande d.v.s. EMI för okänt koncept approximeras som funktion av känt EMI som mindre är detta. Och omvänt.


För att få skattning av hur mycket skattningen ska ökas eller minskas prövade jag diverse konstruktioner relaterade sannolikhet för resp. koncept och längden på dem. Jag upplevde aldrig att jag fick ut särskilt mycket konkret värde av det. Det var ganska tidigt också uppenbart att ska man göra en bra konstruktion utnyttjande sådant krävs en ganska tidsödande konstruktion där man vettigt får det jämförbart med de exponentiella sambanden som de ser ut för EMI. Jag hade ej lust att göra det idag i alla fall och tvivlade dessutom på att det särskilt troligt skulle ge en bättre approximation (det finns en ganska stor begränsning alls här på hur bra approximationen kan bli: Och när så föredrar jag - kanske enklare - att uttrycka det snarare än att tendera till att "överräkna" på exakthet som egentligen ändå inte gäller med risk att man tappar bort på signifikansen senare och överskattar värden).


Istället gjorde jag en förenklad konstruktion där vi låter resp. EMI-värde själv beskriva hur mycket de ökar eller minskar. Är det större kommer det önska öka eller minska mer. I princip bara ett exponentiellt steg upp eller ner och sedan normaliserande tillbaka via det ursprungliga värdet.


Hur lyckat blev det här egentligen?

För varje koncept ej ovanligt tycker jag ej att skattade värden någonsin ska accepteras. Även för relativt vanliga adverb resp. adjektiv kan dock deras morfologiska direkt relaterade vara väldigt ovanliga. Att människan och språket ej fungerar så att man trivialt kan härleda ut en mycket bra approximation är beklagligt. Emellertid åtminstone när koncepten man skattar ej är så pass ovanliga att de i princip ej fått samplade värden (d.v.s. att jag har riktiga värden som jag kan jämföra med) blir det ofta inte helt borta i resultatet. Typiskt 0.10 eller mindre i fel.


Detta gällde emellertid just när More or Less konstruktionen användes. Jag beräknade också ut några tusen värden där sådan vetskap saknades. Här gjorde jag samma sak men med sämre regler:


  • Är konceptet värde saknas på längre i antal tecken och adverb.
  • Konceptet vi skattar från är kortare i antal tecken och adjektiv.
  • Säger vi att vi reducerar värdet känt jämförbart med metoden tidigare beskriven.

Också detta kan för många koncept kontrollerade ge begränsade fel. Faktiskt för vissa grupper av morfologiska relationer blir felet rent av mindre. Problemet här är att felet också av och till blir riktigt ordentligt. More or less metoden gav ex. en skattning på assertive som avvek mindre än 0.05 från verkligt värde (minns jag rätt någonstans ovanför 0.75 men mindre än 0.8 alternativt kanske mindre troligt ovanför 0.85 men mindre än 0.9) medan denna metod gav en skattning på 0.10, 0.11 eller något liknande värde totalt borta från verkligheten.


Tumregeln är vidare att EMI värde större än 0.05 ej kan antas vara "ofarliga" att använda. De kommer för de algoritmer denna typ av EMI som antas förändras sällan ha effekt påverkande resultat konkurrerande för defekta värden likt assertive med riktiga värden samtidigt aktiva. För assertive blir effekten i många fall problematiskt jämfört med att ej använda något värde alls (andra metoder för att hantera saknade värden finns och som skulle bl.a. för assertive fungera bättre).


Tillsvidare lät jag det särskilda API för 1-gram (d.v.s. ord) ladda in alla värden beräknade med prioritet för More or Less (skrivande över dom andra om de också existerar) så man naturligt ett tag kan känna lite på det praktiskt eftersom nu någon bra test-metod för detta ej är upp-konfigurerad just nu.


Min känsla är dock att lösningen för saknade värden när More or Less samband saknas (och jag ej manuellt skapar sådana samband) snarare än beräkning är riktad sampling. D.v.s. söka innehåll som mer troligt innehåll det saknade konceptet och addera till det på corpus och sedan köra om EMI beräkning från start. Jag har löst liknande problem med saknade värden i andra dimensioner med just riktad sampling och haft god erfarenhet av det.


Riktad sampling här praktiskt bör skilja sig tydligt i innehållstyp. Jag tvivlar att jag komma åren kommer behöva göra riktad sampling igen för någon av de dimensioner jag tidigare gjort det för. Vilket rent "socialt" kan vara en bra sak. Jag kan tänka mig att lämpliga "behållare" av innehållstyp här av första-klass kvalitet tillräckligt stora kan identifieras jag ej tidigare gjort riktad sampling mot alls.


Jag är dock ej på det klara med mer exakt vad som är förstklassigt innehåll här. Många koncept är ju trots allt ganska ovanliga. Samtidigt vill man ju ha närmare "uttrycksfullt" sammanhang så att mängden samples per koncept ej behöver bli överdrivet tidsödande att samla innan man har ett tillförlitligt värde.


Tänkbart ser jag till att sampla riktat en 50 000 - 150 000 koncept under året för detta. Varav kanske om det fungerar bra säg 25 000 - 35 000 troligt ger samples nog att beräkna från (emellertid är det tänkbart att jag grovt överskattar vad riktad sampling kan tillföra). Med lite tur är det inte otänkbart att jag har corpus lokalt vettigt för detta, stort men ej redan utnyttjat (därför att ej en innehållstyp som artikel, nyhet o.s.v.).