Googles problem är Talanalysens möjligheter

2012-10-26

System för att tolka tal har jag av och till varit road av testa. Längre tillbaka konsultade jag dessutom åt Phoneticom och området berörde om än inte exakt i tekniken också i konsultuppdrag på TeliaSonera, Ericsson och åt ett till svenskt teknikföretag inom området (inte samma inriktning som Phoneticom dock). Speech and Language Processing av Jurafsky, Martin, hör till vad jag läser nästan dagligen trots sliten den blivit och föredrar den oftast som referens inom en rad områden relaterat språkanalys även mer i language än speech processing förvisso och håller den för ett nödvändigt och ibland smidigre alternativ till Manning.


Ett av och till särskilt intresse är upptagning och tolkning av ljud under förhållanden med utmaningar. Ex. från en pratande och ropande folkgrupp i rörelse eller för dokumentation i samband med att utrustningen behöver vara täckt. I Sverige kan du lagligt spela in alla samtal du själv deltar tar i. Därmed inte sagt att det är vad man bör lättsamt. I andra länder behöver lagarna inte tillåta det men en del kan ändå ha intresse av det ex. för att dokumentera övergrepp de tror att de kommer utsättas för. Jag kan dock inte påstå att jag nådde någon särskilt djup kunskap och området beroende på hur situationen ser ut kan vara svårt om du just behöver acceptera åtminstone att det är en möjlighet att dataanalys behöver vara ett lager.


Givet Google's:


  • Intensiva teknikintresse för allt relaterat språk.
  • Representation av mening i kompakta uttryck givet historik via sökresultat och omvänt tolka sidor d.v.s. motsvarar troligt i min modell vad som i nyhetsanalysen sker genom describe till do-projektionen där värden över cirka 10 till 30 dimensioner relaterat intensitet, känslor och riktningar samlas till do-symboler över nyhetskällor där do-symboler för webbsökning skulle motsvara sökorden folk skriver in.
  • Deras andra satsningar runt språk vid sidan om text: bilder, film m.m.
  • Och deras fantastiska framgångar i att utveckla utmärkt fungerande statistiskt-baserad översättningsverktyg mellan en mängd språk. Mycket imponerande!
  • Och de har dessutom stora mängder utmärkt språkstatistik att bygga a priori modeller från som är ohörda för oss vanligt folk utan enorma datahallar utspridda i världen.
  • Och förutom mångt intressantare statistik relaterat bl.a. översättning och uttryckens trolighet relativt vad vi skrivit och sökt på tidigare under dagen och normalt liksom den statistik översättningsverktygen byggt upp finns ju Google Ngram där de verkligen satsat på corpus i big-data-storlek:

Med allt data och så mycket nära besläktat som fungerat bra var det med stor våning jag endast klarade att få deras röststyrning av sökresultat att fungera en gång. Jag blev dessutom illa berörd av att den på något sätt tycks uttrycka ett underligt bias mot termer relaterat kiss och bajs-humor. Man vill dock inte tro att Google för översiktigt suger en sökstatistik som bekräftelse givet kanske en hel del barn som roar sig med funktionen. information science klarade den bra.

Nu när jag skulle visa misslyckandena klarade den faktiskt direkt av entropy. Förklaringen är inte otroligt Googles allt mer märkbara quality assurance system som gissningsvis ganska automatiserat hanterar misslyckanden. distributed topological maps misslyckades dock och det verkar inte otroligt att vi i felet ser en statistisk bedömning byggd på sökstatistik: distributed buffalo chicken map.

Lämnar man teknik-nära välkända referensboken för speech processing är Neurolinguistics av Ingram acceptabel men en aning för tunn och vad jag kommer behöver komplettera för att slippa ifrån en massa utskrifter i bokhyllan. Den indikerar viktiga saker med annorlunda prioritet än de tekniska böckerna och vill inte utesluta att den kan vara bra indata till den som försöker få ordning på den där tjänsten.

Något mer värt att tänka på är roller. Vilken är min roll? Jo jag söker på ungefär samma sak dagligen i försvarlig mängd. Forskningsstudier om språk, kognition, algoritmer, informationsteori och grafer. Vidare fundera kring tema i mening med eller utan tidigare information som stöd.

För Google requires Yahoo blev första förslaget Google retire show och Google requires Yahoo som tredje förslag uppifrån och först andra gången jag prövade.

Gissningsvis har Google inlärningen här väldigt avgränsad till ljuden och definierar beslutsnäten och deras som ofta tror jag bayesianska logik kring vad det prdikterar och vilken reaktion användaren ger efteråt.

Det är inte nödvändigt någon dum strategi. Man ska ha respekt för att sannolikhetsfördelningar rörande ord inte särskilt lätt översätter till den här typen av lösningar som för när sökorden blir inskrivna. Även om användarna söker på exakt samma ord börjar problemet här långt innan man kan väga in sannolikheten för hela ordet eller orden, och låter man denna påverka för tidigt tycks för mig det som oerhört troligt att algoritmen oftare än vettigt kommer dra fel slutsatser. I detta fall tenderar problemet vara talanalysens möjligheter som blir för många där statistiken för de Markov-valen inte bra använder den information given i användarens ljudande.

Däremot med försiktighet när man redan fattat ett beslut om ett antal ord vad man kan jämföra med vad bayesiansk information, Kullberg-Lever-divergens, selectional association, mutual information, T-test eller vilket mått nu Google använder i övrigt runt sökorden förutom Markov-modellerna mellan sökordsförslag.

Jag blev som sagt lite förvånad över att det inte fungerade direkt. Första gången på säkert ett år det hänt med något liknande sådant här. Jag ska fråga Fredrik (deras teknikchef) på Phoneticom om han har någon idé eller bild av ungefär hur väl han tycker att den fungerar.

Det kan ju trots allt också tänkas vara någon tillfällig störning här runt tempest för skärmen eller vad som helst.

Eller att Googles PR-avdelning i analys kommit fram till att Google behöver några inte viktiga tjänster men väl synliga runt viktigt som inte ska fungera kalasbra från början så det märks att Google får slita med saker och ting dom också, och vi vanliga informationssökare får något att hånle åt. Den sista förklaringen vill jag inte alls uteslut därför att det är mycket tänkbart att just det vore bra för Google.