Artigt: Utstuderad konstform konkretiseras statistiskt i förståelsen

2014-01-13

Artighet är ett intressant område för mer automatiserad språkanalys. Det delar praktiskt något av komikens egenskaper i det övertydliga samtidigt ofta implicita utan nödvändigtvis något konkret uttalat (mer den "potentiella energin" än "rörelseenergin") och därmed något ibland enklare för en maskin att ta ut en kompletterande sida av människoflockens samspel.


Vid tillfälle intressant att läsa blir därför vad vi har citat av nedan jag precis uppmärksammade:


"Being indirect (line 9) is another way to minimize social threat. This strategy allows the speaker to avoid words and phrases conventionally associated with requests. First-person plural forms like we and our (line 15) are also ways of being indirect, as they create the sense that the burden of the request is shared between speaker and addressee (We really should...)."


Från: A computational approach to politeness with application to social factors | Standford
Cristian Danescu-Niculescu-Mizilz, Moritz Sudhofy, Dan Jurafskyy, Jure Leskovec, and Christopher Pottsy


Dan Jurafskyy referensbok Speech and language processing är dessutom mycket att rekommendera och mest så bland de sju huvudsakliga referensböcker över näraliggande AI till statistisk NLP över vetenskaplig psykologi. Och artikeln jag sökte enligt kompletteringen i hittar vi förövrigt där under rubrik Language model adaption and web use i kapitel N-Grams.


En i form inte olik applikation här är artighet (inte helt olikt ritualiserad dans) för att reducera problematik emotionellt tunga domäner annars kan riskera att utlösa när motivation eller upplevd fara blåser upp saker och ting. A åker med ett av sina flygplan till Q1 som hör till B så B flyger runt med en av sina flygplan eller båtar på Q2 som hör till Q2.


Givetvis om ritualiseringen börjar ses som givna regler där ett implicit förtroende finns för vad de betyder börjar det i en del domäner bli lätt farligt därför människans möjlighet att tolka fel är stor. Möjligheten för Sovjetunionens diktatur att mer prata med den fria världens dåvarande ledande nation (i väst vs öst frågor i alla fall - NATO vs Warzava-pakten) tycks vettigt för att undvika onödiga kostnader (resp. emotionella pinsamheter när resp. allianser inte alls fungerar praktiskt i närheten av vad man först försökte få den andra och tro och därefter övertygade sig själv om) i döda och förstörda material (likt ).


Vi har ytterligare en domän närmare den i citatet: när vi önskar förklara eller indikera något i information om passerat eller predikterande beteende mer avgränsat speciikt men finner det "oartigt" för den andra eller vad vi egentligen praktiskt inte känner för att konkret förklara i detaljer.


I språkmodeller torde därför någon sannolikhet för givet artighet Q att det indikerar mer potentiellt och varaktigt förhållande i flocken (ex. shop keeper - kund) eller om det egentligen inte indikerar sådant förhållande utan mer att mer ser det som korrekt, fördelaktigt, eller bara artigt att tydliggöra något icke konkret.


P ( artighetet Q vid tiden t | något inträffat vid tiden ( t - j ) vs P ( artighetet Q vid tiden t | kissing up to some big entity used to you being polite from time to time last 12 years) vs P ( artighetet Q vid tiden t | indikerande händelser som kommer)

Något svårare blir det hela när domänen inte är mycket tydlig ritualiserad dans ("Ok dom flyg lite nära vår gräns och över den under 20 s så då skickar jag min ubåt hit och dit innan jag går hem för dagen.") utan dessutom blandar in marknadsföring av nyhetshändelsen i sig resp. kanske rent av bär komiska dimensioner ("Varför flyga nära gränsen med något kostsamt när vi säkert kan motivera någon medborgare att ta en ballong dit eller varför inte en kanot. Sådant gillar media att skriva om.").


Exemplen bör hoppas jag peka på att direkt förekomst av A givet B så hårt repeterad att det uppfattas som givet är vad vi ibland blir en aning baffled av när nytt kommer. Risken är att domän och målsättning feltolkas när ytliga symboler av vad som avses eller vad som är målsättningen A givet B inte riktigt är vad vi är vana vid (ex. Mrs C och General B hade båda på sig en vågad huvudbonad vid dansen vilket väckte mycket av oroade samtal). Explicita såväl som implicita symbolgrupper och hur de förhåller sig är inte oviktigt när vi i dom här domänerna resonerar om P ( A | B ): Men åtminstone från mina praktiska analysdomäner understryker och höjer det snarast upp behovet av varierad statistik på samförekomst mellan koncept i olika sammanhang. Grovt över ex. samtliga webbsidor eller lokaliserat i title-headings för forskningsartiklar -och gärna samplat för att uttrycka varians mer än bias för att göra bias till vad som kan adderas implicit för situationen (2011 - 2012 gjorde jag viss default-grund sampling för en mindre komprimerad relationssamling - mycket arbetsamt vid tiden p.g.a. brist på plats på hårddiskarna så jag tvingades processa till PAB direkt men har heller inte sett något därefter indikerande att man hade haft värde av själva dump-historiken - och tar just nu det till en väsentligt större mängd koncept och relationer krävande mycket mer men också i allt när nu storlek ändå blir hög ytterst hög i riktade smala datakälla varierade).


P.s.s. oavsett refererad domän kan artigheten såväl vara en utstuderad konstform resp. ett mer allmängiltigt språk: liksom alla språk i ord, vapen, statyer, målningar, foto, ritualiseerad dans eller en artig nickning av kejsaren (kraftigt tolkad av alla oavsett av misstag eller inte om en "riktig" kejsare som håller all den poentiella energin).

Kunnande gratis på www blir coolt för "the kids" och "the old folks"

För att göra min energieffektiva (i tid och kostnad) metod - Från ScienceDirect till CiteSeerx: Från defunct till ett löst problem - cool för the kids från gymnasister till yngre vuxna i det livslånga lärandet arbetande på karriären resp. the old folks nästan på hemmet som upptäcker att deras gamla föreställningar närmare 1800-talet dom sista tio åren av arbetslivet inte längre köps.


En cool byline kan göra det lättare att se möjligheterna oavsett hur självklart det i core-concept kan tyckas för min generation och något utåt runt 1972 - 1976. Tidseffektivt utan moms på 0 kr i pris är häftigt när det löser mina problem. Och moraliskt betryggande nog kan jag garantera att jag aldrig betalat för denna form av material när det ej funnits fritt läsbart.


Men jag känner personligen att det är viktigt att jag inte vill bli någon form av kultfigur för alla miljoner svenskar i det eviga lärandet (förutom ev. rent algoritmiska skärningar mellan mitt design pattern och intäkter av bokförsäljningen där jag lätt betvivlar långsiktighet nog att göra Bruce Sterling gamla koncept funktionellt lönsamt trots för andra - och omvänt för mig i domän av dataanalays - föredömliga tillgänglighet, pris och format: Hacker Crackdown Law and Disorder on the Electronic Frontier - gratis på nätet sedan 1992 föredömligt i 7-bitars ascii utan html, xml eller annat glegg).



Två perspektiv med verklighet som inte alls självklart alltid har en ideal- eller idealistisk-lösning där de möts. Praktiskt kommer emellertid saker ner till praktisk realitet där mitt problem just nu sökande efter fakta om detta eller refererat av denna är en sak viktig och ingenting i övrigt förutom tidskostnad att nå tid relativt värde spelar in. Det perspektivet tror jag både sammanfattar min upplevda förståelse av Elsevier's perspektiv såväl som varför (inte särskilt avgörande just av sökmotrn) det dör snabbt som möjligt.


"My publisher deserves to make money out of this book. Not only did the folks at Bantam Books commission me to write the book, and pay me a hefty sum to do so, but they bravely printed, in text, an electronic document the reproduction of which was once alleged to be a federal felony. Bantam Books and their numerous attorneys were very brave and forthright about this book. Furthermore, my former editor at Bantam Books, Betsy Mitchell, genuinely cared about this project, and worked hard on it, and had a lot of wise things to say about the manuscript. Betsy deserves genuine credit for this book, credit that editors too rarely get.
[...]
Well-meaning, public-spirited civil libertarians don't have much money, either. And it seems almost criminal to snatch cash out of the hands of America's direly underpaid electronic law enforcement community.
[...]
Information WANTS to be free. And the information inside this book longs for freedom with a peculiar intensity. I genuinely believe that the natural habitat of this book is inside an electronic network. That may not be the easiest direct method to generate revenue for the book's author, but that doesn't matter; this is where this book belongs by its nature. I've written other books—plenty of other books—and I'll write more and I am writing more, but this one is special. I am making The Hacker Crackdown available electronically as widely as I can conveniently manage, and if you like the book, and think it is useful, then I urge you to do the same with it."

Från: Hacker Crackdown Law and Disorder on the Electronic Frontier
Bruce Sterling,
ISBN 0-553-08058-X,
1992.

Från ScienceDirect till CiteSeerx: Från defunct till ett löst problem

Och bara med den försvarliga tidskostnaden att överhuvudtaget hamnat på ScienceDirect utan att ha betalat för något som är gratis.


Mitt design pattern för att komma ut ur tids- och penning-brunnen för att kunna gå vidare och lösa mitt problem:



Komplettering: För att inte utan att tänka på det uttrycka ett bias vad skrivet och ej skrivet som kanske förstås som verklighet ej fallet gäller här att jag hittade till artikeln via Microsofts Academic Search : bellegarda 2004.

Sök sökresultat är tycker jag helt acceptabla medan länkarna till artiklarna tråkigt nog ganska ofta går till ej fungerande sidor, sidor med bibliografiska sammanfattningar med stort bara titeln och i övrigt rent av mindre information än Microsoft Academic Research har.

En helt annan fråga är givetvis vem som egentligen är den viktigaste kunden under den här tjänstens tidiga år. Att bygga bas i användare till antalet tar ju tid medan jag spekulerar att en del journalhus är ganska stora kunder i övrigt. Jag kan spekulera att både möjlighet till spindlingsresurser för artiklar såväl som intresse att se till att sidorna för artiklarna har fungerande länkar till läsbar information korrigerar sig med tiden om nu inte projektet dör bort. Sedan kan man så klart resonera att vi i övriga som mer för att lösa verkliga problem också är Microsoft kunder kring annat.


Även om jag för att vara ärlig egentligen inte är fullt trygg i att det här inte är en återpublicering universitet betalade (säkert orimligt mycket för) och som sedan indexerats och tagits upp av Citeseerx's (The Pennsylvania State University: citeseerx.ist.psu.edu) databas av lokala kopior till vad man länkar från sidorna med meta-information om de publicerade artiklarna (vilket samtidigt är en god vana eftersom de så ofta försvinner från där de först publicerades).


Vad gillar med CiteSeerx är deras dumpar, api:er och vettigt access-bära i övrigt för titel och abstract. Möjlien finns det enkelt att nå maskinellt för ScienceDirect & Co men jag klarade inte av på min nivå av internets vanligare lite enklare nivå på vettig tid. Jag är ej överdrivet intresserad av att bli expert på diverse legacy-system med indikerad kostnad praktiskt strykande det mesta i övrigt av jämförbart utan önskar enkelt att ta ner meta-informationen för statistiskanalys.


Resp. (egentligen viktigare eftersom jag redan nu är tämligen rik i 2 - 3 T statistik för den här formen av information) när jag söker artiklar att ej att någon försöker utnyttja min okunnighet om tillgänglighet som funktion av kostnad (ofta gratis att läsa hos universitet eller propagerat till CiteSeerx eller liknande) som ett till hån efter att redan förslösat min tid när jag råkade klicka ScienceDirect istället för något för något bra medverkande till vad jag försöker lösa när söker med Google eller liknande (allt mer brukar jag börja med Arxiv.org (Cornell University) så slipper med ScienceDirect m.m. som skulle kosta mig lätt många $100 US per dag jag söker journalartiklar kring referenser eller fakta i ett område:


  • Arxiv: Löser problem - Sparar tid
  • ScienceDirect: Är defunct - Kostar tid adderande till problemlösning och försöker få mig att betala för saker som är gratis.

Enkelhet genom lägre komplexitet kommer ofta med minskad exakthet

"Jared Diamond’s Guns, Germs, and Steel" var okänd för mig:


"Jared Diamond’s Guns, Germs, and Steel [Diamond J, (1997) Guns, Germs, and Steel (WW Norton, NY)] has provided a scientific foundation for answering basic questions, such as why Eurasians colonized the global South and not the other way around, and why there is so much variance in economic development across the globe. Diamond’s explanatory variables are: (i) the susceptibility of local wild plants to be developed for self-sufficient agriculture; (ii) the domesticability of large wild animals for food, transport, and agricultural production; and (iii) the relative lengths of the axes of continents with implications for the spread of human populations and technologies."

Från: Geographic axes and the persistence of cultural diversity (PDF)
David D. Laitin, Joachim Moortgat och Amanda Lea Robinson
DOI: 10.1073/pnas.1205338109
PNAS | June 26, 2012 | vol. 109 | no. 26 | 10267

En kanske till sin natur något liknande förklaring jag emellertid inte försökt verifiera är oavsett meningsfull eller rent av direkt felaktig mot data ett intressant exempel på natur hos en hel del allmänna faktorer.


Vi vet att oavsett om vi är här i Sverige och far med fordon på vinterhalvåret eller vandrar längs kusten i Vietnam under tsunami tider att naturen kan variera mycket plötsligt ganska oväntat.


Komplexitet för att hantera sådana förändringar bestäms inte otroligt med vår förmåga att förutsäga dem. Detta är enklast sannas i kortsiktig tid motsvarande att vi vet att det mer troligt kan vara plötsligt halt.


Emellertid är detta kortsiktiga inte vad som uteslutande kan tänkas fylla upp det och en till större grupp förstår vi kanske enklast från samma exempel: förmågan att förutsäga om det troligt är halt denna dag bygger på att vi överhuvudtaget med rimlighet har kunskap att resonera om att det kan vara halt vintertid.


Komplexitet förändringar i naturen förändrar tillståndet vi rör oss bestäms därmed inte uteslutande med hur oväntade de är utan också med möjlighet att etablera och bygga upp kunskap om den. Mer inverkande här under ej mer ordentligt bak i historien är faktorer relaterade till att utveckla verktyg för att tlka och förstå faktorerna resp. hantera dem och hur kunskapen om dessa etableras och sprids, och för föregående resp. själva prediktionen kunskapssystem mer allmänt (böcker, kommunikation och skolundervisning för tre exempel bland oändliga).


Längre tillbaka och styrande innan ex. böcker fanns kan vi dock rimligt förstå att komplexitet för vår kognition och mindre grupp kan vara styrande. Att när vi vandrar x. Sverige långt tillbaka som jägare vintertid att det kan blåsa upp till storm må vara svårt att prediktera rörande en enskild dag men ej rörande risken som realitet. Och jag tänker mig (men har som sagt inte försökt verifiera det) att den samlade komplexiteten för att hantera ex. vinterstormar m.m. rörande det här samlar sig till mindre än vad det är att hantera motsvarande faktorer ex. i Afrika trots att de senare ytligt kan tyckas enklare att hantera "därför att det är varmt" och man inte riskerar att frysa. Bara ett av ett mycket stort antal ganska enkelt att lista är ju infektionssjukdomar oavsett virus och bakterier som stor grupp.


Om nu grundtillståndet mer troligt är ganska hanterbart (varmare utan vinterkyla) men ett större antal (högre antal större last både på individens resonerande såväl som flockens kunskapssystem explicita eller implicita: trivialt att jämföra med arbetsminne och antal faktorer vi enkelt kan växla mellan och hålla i minna) faktorer som möjligt kan inverka var och en mindre troliga såväl som kanske för en del rent teoretiskt också med dagens kunskap väsentligt svårare att förstå (virussjukdomar för ett extremt exempel) är ju ett mer sannolikt troligare tillstånd för flocken att uttrycka något mindre distans till i denna region ett större antal individer i flocken optimerande att ta värde från enklare grundtillstånd spelande på att det ej förändrar sig oväntat till farligt tillstånd (tsunami eller virussjukdom).


Medan det i ett kallare klimat (för att hålla oss till en domän av flera vi enkelt kan se i tempererade klimat) lönar sig mer att försöka optimera mot att utveckla hantering mot de färre men mer problematiska händelserna rörande prediktion och verktyg / åtgärder att aktivera när prediktion över något ungefärligt tröskelvärde indikerar det lönsamt att ta kostnaden relativt risken (ex. energikostnad att bära på torr ved springande efter en flock renar att kasta ett spjut på för att kunna tända eld för värme och fortsatt torka fuktig ved på relativt risken att frysa till döds direkt eller indirekt via då snabbt mycket troligare infektionssjukdomar i den skadade vävnaden).


Varför är detta ett bra exempel på dessa allmänna faktorer? Därför oavsett någon av dessa eller ex. pris på föda i Mellanöster vs möjlighet till att medborgarna söker förändring i statsskcik gäller att p.s.s. de växande i mer allmänt troligare tycks indikera något gäller att de tappar exakthet. På nivå när en faktor som ex. pris på livsmedel tycks leverera prediktion gäller att för samma tid möjligen aktuell gäller att vi för möjliga regioner eller städer för den delen redan har fått den risken utmärkt predikterat via ett antal andra faktorer att mäta.


Reduktionen i dimensioner gör dem enklare och mer effektiva att räkna med: deras komplexitet är lägre.


Men om faktorerna som inverkar på den tid vi är intresserade av bedöma uttrycker fler dimensioner med högre komplexitet är det inte längre fungerande. Du behöverbära med dig veden utan att egentligen veta om det mer troligt kommer bli plötsligt kallt just denna dag. Emellertid typiskt för ganska allmänna faktorer hör de till risk för kyla vintertid: när de börjar leverera hör till de till en grupp av allmän kunskap etablerad motsvarande mindre exakt men för en större tidsrymd mycket troligt korrekta (är det december och regnat på dagen är det nog klokt oavsett dag att vara beredd på halka även om det inte var halt så att vi märkte det igår).