Visar inlägg med etikett Språkanalys. Visa alla inlägg
Visar inlägg med etikett Språkanalys. Visa alla inlägg

Finns personlighet att hitta i mängden fonem?

2015-10-10

Jag upplever det bortom all rimlig tid att försöka kommentera det här:


"We study rank-frequency relations for phonemes in texts written by different authors. We show that they can be described by generating phonemes via random probabilities governed by the (one-parameter) Dirichlet density, the simplest density for random probabilities. This description allows us to demonstrate that the rank-frequency relations for phonemes of a text do depend on the author.

The author-dependency effect is not caused by common words used in different texts.

This suggests that it is directly related to phonemes or/and syllables. These features contrast to rank-frequency relations for words, which are both author and text independent and are governed by the Zipf’s law."

Från: Rank-frequency relations of phonemes uncover an author-dependency of their usage, Weibing Deng 1) and Armen E. Allahverdyan 2),∗1) Murray Gell-Mann Institute of Complexity Science, Central China Normal University, Wuhan 430079, China 2) Yerevan Physics Institute, Alikhanian Brothers Street 2, Yerevan 375036, Armenia, via Arxiv.

Men för att alls säga något hade man behöft börja med att betrakta vilka graf-liknande strukturer ej helt i form relevant annorlunda från språk som faktiskt uppvisar "Zipf:iska" egenskaper. Det är absolut inte undantaget att vi ser det i allt från språk till diverse sett i rymden och till kemiska egenskaper. Det är vanligt. Självklart är det emellertid också beroende av hur man väljer att representera - kanske "normalisera" - data (för en komplettering i domän av entropi: Calculating entropy at different scales among diverse communication systems men den som söker för att finna en mängd exempel mer direkt i Zipf's världens statistiska egenskaper bör lätt hitta dem i stort antal i det mesta utanför språk).


Vidare kan vi så klart se ett koncept representerat av ett ord som sista gemensamma representationen konvergens i förståelse kan gå till. Medan vägen dit kanske är mer naturligt varierad med den särskilda situationen inklusive olika enskilda personers beskrivning av den.


Slutligen vill jag säga att jag särskiljer författare via rankfrekvens (bättre kombinationer av alternativ finns). Frågan är naturligtvis där vad man exakt menar med rankfrekvens. Skriver man ej mer än rankfrekvens inkluderar man bra mycket avsett oavsett om nu ev. Zipf:iansk-natur avses eller inte. Framför allt kanske hur många dimensioner rankfrekvensen har... Och om den räknas alltid med 1 eller om viktsystem används.


Dock även om vi avser rankfrekvens som normalt skapad när Zipf diskuteras behöver det absolut inte vara svårt att se författar-specifika egenskaper via bara förekomsten på orden. Jag föreslår dock gärna att man kan binda vissa egenskaper hörande till väldigt stora människo-gemensamma egenskaper i personlighet går att få från likartat enkla samband och är en naturlig del av att klara att göra föregående: Bl.a. för två triviala egenskaper benägheten till att använda genomsnittlig ordlängd högre än genomsnitt resp. benägenhet att skriva meningar längre i antal ord och/eller antal tecken (och självklart är kanske ev. när så kanske är fallet skillnaden mellan antal ord och antal tecken vad jag inte kan utesluta har samband med resultaten man såg i länkad artikel även om jag inte vet säkert att så är fallet).


Hur som helst ett mycket passande ämne att studera för kinesiska vetenskapare. Med våra teckensystem känner jag ibland att vi är lite för nära ljuden för att inte bli hemma-blinda.

Artigt: Utstuderad konstform konkretiseras statistiskt i förståelsen

2014-01-13

Artighet är ett intressant område för mer automatiserad språkanalys. Det delar praktiskt något av komikens egenskaper i det övertydliga samtidigt ofta implicita utan nödvändigtvis något konkret uttalat (mer den "potentiella energin" än "rörelseenergin") och därmed något ibland enklare för en maskin att ta ut en kompletterande sida av människoflockens samspel.


Vid tillfälle intressant att läsa blir därför vad vi har citat av nedan jag precis uppmärksammade:


"Being indirect (line 9) is another way to minimize social threat. This strategy allows the speaker to avoid words and phrases conventionally associated with requests. First-person plural forms like we and our (line 15) are also ways of being indirect, as they create the sense that the burden of the request is shared between speaker and addressee (We really should...)."


Från: A computational approach to politeness with application to social factors | Standford
Cristian Danescu-Niculescu-Mizilz, Moritz Sudhofy, Dan Jurafskyy, Jure Leskovec, and Christopher Pottsy


Dan Jurafskyy referensbok Speech and language processing är dessutom mycket att rekommendera och mest så bland de sju huvudsakliga referensböcker över näraliggande AI till statistisk NLP över vetenskaplig psykologi. Och artikeln jag sökte enligt kompletteringen i hittar vi förövrigt där under rubrik Language model adaption and web use i kapitel N-Grams.


En i form inte olik applikation här är artighet (inte helt olikt ritualiserad dans) för att reducera problematik emotionellt tunga domäner annars kan riskera att utlösa när motivation eller upplevd fara blåser upp saker och ting. A åker med ett av sina flygplan till Q1 som hör till B så B flyger runt med en av sina flygplan eller båtar på Q2 som hör till Q2.


Givetvis om ritualiseringen börjar ses som givna regler där ett implicit förtroende finns för vad de betyder börjar det i en del domäner bli lätt farligt därför människans möjlighet att tolka fel är stor. Möjligheten för Sovjetunionens diktatur att mer prata med den fria världens dåvarande ledande nation (i väst vs öst frågor i alla fall - NATO vs Warzava-pakten) tycks vettigt för att undvika onödiga kostnader (resp. emotionella pinsamheter när resp. allianser inte alls fungerar praktiskt i närheten av vad man först försökte få den andra och tro och därefter övertygade sig själv om) i döda och förstörda material (likt ).


Vi har ytterligare en domän närmare den i citatet: när vi önskar förklara eller indikera något i information om passerat eller predikterande beteende mer avgränsat speciikt men finner det "oartigt" för den andra eller vad vi egentligen praktiskt inte känner för att konkret förklara i detaljer.


I språkmodeller torde därför någon sannolikhet för givet artighet Q att det indikerar mer potentiellt och varaktigt förhållande i flocken (ex. shop keeper - kund) eller om det egentligen inte indikerar sådant förhållande utan mer att mer ser det som korrekt, fördelaktigt, eller bara artigt att tydliggöra något icke konkret.


P ( artighetet Q vid tiden t | något inträffat vid tiden ( t - j ) vs P ( artighetet Q vid tiden t | kissing up to some big entity used to you being polite from time to time last 12 years) vs P ( artighetet Q vid tiden t | indikerande händelser som kommer)

Något svårare blir det hela när domänen inte är mycket tydlig ritualiserad dans ("Ok dom flyg lite nära vår gräns och över den under 20 s så då skickar jag min ubåt hit och dit innan jag går hem för dagen.") utan dessutom blandar in marknadsföring av nyhetshändelsen i sig resp. kanske rent av bär komiska dimensioner ("Varför flyga nära gränsen med något kostsamt när vi säkert kan motivera någon medborgare att ta en ballong dit eller varför inte en kanot. Sådant gillar media att skriva om.").


Exemplen bör hoppas jag peka på att direkt förekomst av A givet B så hårt repeterad att det uppfattas som givet är vad vi ibland blir en aning baffled av när nytt kommer. Risken är att domän och målsättning feltolkas när ytliga symboler av vad som avses eller vad som är målsättningen A givet B inte riktigt är vad vi är vana vid (ex. Mrs C och General B hade båda på sig en vågad huvudbonad vid dansen vilket väckte mycket av oroade samtal). Explicita såväl som implicita symbolgrupper och hur de förhåller sig är inte oviktigt när vi i dom här domänerna resonerar om P ( A | B ): Men åtminstone från mina praktiska analysdomäner understryker och höjer det snarast upp behovet av varierad statistik på samförekomst mellan koncept i olika sammanhang. Grovt över ex. samtliga webbsidor eller lokaliserat i title-headings för forskningsartiklar -och gärna samplat för att uttrycka varians mer än bias för att göra bias till vad som kan adderas implicit för situationen (2011 - 2012 gjorde jag viss default-grund sampling för en mindre komprimerad relationssamling - mycket arbetsamt vid tiden p.g.a. brist på plats på hårddiskarna så jag tvingades processa till PAB direkt men har heller inte sett något därefter indikerande att man hade haft värde av själva dump-historiken - och tar just nu det till en väsentligt större mängd koncept och relationer krävande mycket mer men också i allt när nu storlek ändå blir hög ytterst hög i riktade smala datakälla varierade).


P.s.s. oavsett refererad domän kan artigheten såväl vara en utstuderad konstform resp. ett mer allmängiltigt språk: liksom alla språk i ord, vapen, statyer, målningar, foto, ritualiseerad dans eller en artig nickning av kejsaren (kraftigt tolkad av alla oavsett av misstag eller inte om en "riktig" kejsare som håller all den poentiella energin).