HANS HUSMAN OM MEDIA

Googles problem är Talanalysens möjligheter

2012-10-26

System för att tolka tal har jag av och till varit road av testa. Längre tillbaka konsultade jag dessutom åt Phoneticom och området berörde om än inte exakt i tekniken också i konsultuppdrag på TeliaSonera, Ericsson och åt ett till svenskt teknikföretag inom området (inte samma inriktning som Phoneticom dock). Speech and Language Processing av Jurafsky, Martin, hör till vad jag läser nästan dagligen trots sliten den blivit och föredrar den oftast som referens inom en rad områden relaterat språkanalys även mer i language än speech processing förvisso och håller den för ett nödvändigt och ibland smidigre alternativ till Manning.

Ett av och till särskilt intresse är upptagning och tolkning av ljud under förhållanden med utmaningar. Ex. från en pratande och ropande folkgrupp i rörelse eller för dokumentation i samband med att utrustningen behöver vara täckt. I Sverige kan du lagligt spela in alla samtal du själv deltar tar i. Därmed inte sagt att det är vad man bör lättsamt. I andra länder behöver lagarna inte tillåta det men en del kan ändå ha intresse av det ex. för att dokumentera övergrepp de tror att de kommer utsättas för. Jag kan dock inte påstå att jag nådde någon särskilt djup kunskap och området beroende på hur situationen ser ut kan vara svårt om du just behöver acceptera åtminstone att det är en möjlighet att dataanalys behöver vara ett lager.

Givet Google's:

Intensiva teknikintresse för allt relaterat språk.
Representation av mening i kompakta uttryck givet historik via sökresultat och omvänt tolka sidor d.v.s. motsvarar troligt i min modell vad som i nyhetsanalysen sker genom describe till do-projektionen där värden över cirka 10 till 30 dimensioner relaterat intensitet, känslor och riktningar samlas till do-symboler över nyhetskällor där do-symboler för webbsökning skulle motsvara sökorden folk skriver in.
Deras andra satsningar runt språk vid sidan om text: bilder, film m.m.
Och deras fantastiska framgångar i att utveckla utmärkt fungerande statistiskt-baserad översättningsverktyg mellan en mängd språk. Mycket imponerande!
Och de har dessutom stora mängder utmärkt språkstatistik att bygga a priori modeller från som är ohörda för oss vanligt folk utan enorma datahallar utspridda i världen.
Och förutom mångt intressantare statistik relaterat bl.a. översättning och uttryckens trolighet relativt vad vi skrivit och sökt på tidigare under dagen och normalt liksom den statistik översättningsverktygen byggt upp finns ju Google Ngram där de verkligen satsat på corpus i big-data-storlek:

Med allt data och så mycket nära besläktat som fungerat bra var det med stor våning jag endast klarade att få deras röststyrning av sökresultat att fungera en gång. Jag blev dessutom illa berörd av att den på något sätt tycks uttrycka ett underligt bias mot termer relaterat kiss och bajs-humor. Man vill dock inte tro att Google för översiktigt suger en sökstatistik som bekräftelse givet kanske en hel del barn som roar sig med funktionen. information science klarade den bra.

Nu när jag skulle visa misslyckandena klarade den faktiskt direkt av entropy. Förklaringen är inte otroligt Googles allt mer märkbara quality assurance system som gissningsvis ganska automatiserat hanterar misslyckanden. distributed topological maps misslyckades dock och det verkar inte otroligt att vi i felet ser en statistisk bedömning byggd på sökstatistik: distributed buffalo chicken map.

Lämnar man teknik-nära välkända referensboken för speech processing är Neurolinguistics av Ingram acceptabel men en aning för tunn och vad jag kommer behöver komplettera för att slippa ifrån en massa utskrifter i bokhyllan. Den indikerar viktiga saker med annorlunda prioritet än de tekniska böckerna och vill inte utesluta att den kan vara bra indata till den som försöker få ordning på den där tjänsten.

Något mer värt att tänka på är roller. Vilken är min roll? Jo jag söker på ungefär samma sak dagligen i försvarlig mängd. Forskningsstudier om språk, kognition, algoritmer, informationsteori och grafer. Vidare fundera kring tema i mening med eller utan tidigare information som stöd.

För Google requires Yahoo blev första förslaget Google retire show och Google requires Yahoo som tredje förslag uppifrån och först andra gången jag prövade.

Gissningsvis har Google inlärningen här väldigt avgränsad till ljuden och definierar beslutsnäten och deras som ofta tror jag bayesianska logik kring vad det prdikterar och vilken reaktion användaren ger efteråt.

Det är inte nödvändigt någon dum strategi. Man ska ha respekt för att sannolikhetsfördelningar rörande ord inte särskilt lätt översätter till den här typen av lösningar som för när sökorden blir inskrivna. Även om användarna söker på exakt samma ord börjar problemet här långt innan man kan väga in sannolikheten för hela ordet eller orden, och låter man denna påverka för tidigt tycks för mig det som oerhört troligt att algoritmen oftare än vettigt kommer dra fel slutsatser. I detta fall tenderar problemet vara talanalysens möjligheter som blir för många där statistiken för de Markov-valen inte bra använder den information given i användarens ljudande.

Däremot med försiktighet när man redan fattat ett beslut om ett antal ord vad man kan jämföra med vad bayesiansk information, Kullberg-Lever-divergens, selectional association, mutual information, T-test eller vilket mått nu Google använder i övrigt runt sökorden förutom Markov-modellerna mellan sökordsförslag.

Jag blev som sagt lite förvånad över att det inte fungerade direkt. Första gången på säkert ett år det hänt med något liknande sådant här. Jag ska fråga Fredrik (deras teknikchef) på Phoneticom om han har någon idé eller bild av ungefär hur väl han tycker att den fungerar.

Det kan ju trots allt också tänkas vara någon tillfällig störning här runt tempest för skärmen eller vad som helst.

Eller att Googles PR-avdelning i analys kommit fram till att Google behöver några inte viktiga tjänster men väl synliga runt viktigt som inte ska fungera kalasbra från början så det märks att Google får slita med saker och ting dom också, och vi vanliga informationssökare får något att hånle åt. Den sista förklaringen vill jag inte alls uteslut därför att det är mycket tänkbart att just det vore bra för Google.

Föga värde av räntesänkningen

Inte direkt förvånande tycker jag har knappast någon positiv effekt av räntesänkningen visat sig. Det har ju inte tillfört nämnvärt värde för andra ekonomier i tydligare problem färskt relaterat de sista åren.

Däremot är det mycket möjligt att mängden kapital som investeras kommande utifrån minskar liksom valutans värde. Svag valuta gynnar skogsindustri och diverse konceptuellt liknande 1970-talets teco-industri och varvsindustri. Statliga stöd och lågt värderad valuta räddade inte varvsindustri vilket däremot mer troligt ett relativt andra länder intensivare teknikutveckling framtvingat och det i tid istället genom framförhållning i industri såväl som politiska verksamhetssystem.

Jag håller det inte otroligt att vi förutom de politiskt styrda (på båda sidor) riktade lånen från Kina till diverse ekonomier att flöde i investeringar från en mängd aktörer utanför landet kommer fortsätta. Jämför gärna med nyheten som nyligen uppmärksammade det i Sun Herald:

Study: Flood of money leaving China

En just nu lite högre ränta med en färsk historik av god valuta-värdering - rent av lite ökande - är ytterst tilltalande för aktörer som medierar ut större summor därför att det ger en viss default-grund även om kanske inte omedelbart har lust att detalj-engagera sig i särskilda investeringar (jfr för det senare köpet av Volvo där vi tidigare när aktuellt de risker ännu realiserade diskuterades här och ett par som återstår att visa sig men säkert kommer troligt innan året är slut, och för det första köp av företagsobligationer helt klart underutnyttjat bland svenska företag för finansiering just nu vilket också skulle ge bank-oligpolen välbehövlig konkurrens).

Betänk att en överåterkommande komponent hos länder som drabbats i denna upplevda "kris" är kapitalbrist och ingen väsentlig effekt av räntesänkning. Det första verkar därför inte dumt att försöka undvika.

Visuell uppmärksamhet kanske påverkas av religion

Med visuell uppmärksamhet avser vi här magnituden på omfattningen av vår uppmärksamhet vi vägar in. Grovt om hela Sverige-konceptet påverkar åtminstone lite eller om endast det lokala perspektivet styr.

Möjligheterna följande studie i Plosone, 2008, kan ha värde långt utanför de kalvinister som studerades:

Losing the Big Picture: How Religion May Control Visual Attention

Schweiz

Tolkar vi fenomenet bredare kanske vi snarare vill se det som att vi tenderar att tränas till vilket perspektiv på omvärlden vi för olika frågor tenderar att utgå från. Låt oss ta reaktionen nyligen i arabvärlden på en uppfattat arab-muslin-fientlig video publicerad på internet (antagligen var den just fientlig men eftersom jag inte tittat på den själv eller läst någon analys av innehållet väljer vi det neutralare begreppet uppfattat vilket uppenbart inte är felaktigt oavsett vad som är det troligare genomsnittliga uppfattade i kulturen Sverige) kan vi ta konceptet till att konstatera:

Hur man uppfattar global-förändring och globala händelser är oerhört påverkat av den information man får.
Den muslimska tron är tämligen fokuserad på ett globalt perspektiv.
I många regioner representerar information relaterat den muslimska trosföreställningen en stor del av den globala information man tar in.
Troligt delvis kan vi förklara den arabiska våren med mer varierad information om omvärlden vilken sätter den egna situationen i relation till andra delar av världen.

Arab-muslim-fientliga videor tvivlar jag inte på publiceras väldigt ofta på nätet och jag skulle bli lätt förvånad om någon egentlig kompetens i skapandet av denna gjorde den mer "effektiv". Snarare handlar det om att informationen nådde ut till breda massor vilket kanske var en effekt styrd med syfte just till protester.

Propaganda-effekten ger oss att människan för händelser som dessa tenderar att reagera mycket mer när stimulansen är ny. Ökad tillgång till information - eller rått uttryckt att folk nås av mycket mer liknande och därmed vänjer sig vid det och liksom alla vi med internet sedan många år lär sig att filtrera bort det. Här gäller att uttrycket av ett mycket begränsat antal personer kom att tolkas som symboliskt för närmare hela USA än en person. Det är vad propaganda-effekten med tiden kommer förändra.

Vi inser - eller väljer att anta det som sant från studien - att både skillnad och stor likhet föreligger mellan när vi besöker en bergsby i Schweiz resp. Afganistan.

I båda fallen är den lokala effekten viktig som relativt den normala nivån av händelser. Också finns likhet i den globala internationella kopplingen men där vi intressantare kan spekulera om en skillnad. I det senare fallet är det naturliga från inlärd tidigare möte av information om omvärlden att tolka globalt från trosföreställningen medan det för Schweiz är mindre troligt därför att deras kristna "anpassning" varken är speciellt vanlig internationellt, särskilt präglad av samarbete mellan kalvinister i olika delar av världen och vidare har som uttryckt i studien ett ganska tydligt lokalt fokus. Det är på så sätt ganska naturligt att Schweiz valt att prioritera internationellt-oberoende och trots bl.a. genom det en hel del internationellt engagemang genom den moderna historien själva i sådant är föga uttryckta på sätt där man spontant associerar eller tänker på den "inställningen Schweiz hade" eller deras förslag.