HANS HUSMAN OM MEDIA

Visar inlägg med etikett Google Translate. Visa alla inlägg

Söka bredare vetskap koncept-association: Wikipedia / Wiktionary på många språk

2014-04-15

Enligt principen enkel att förstå från:

Vi har definition på engelska (vi säger är vårt "mitt-språk" eftersom det är mitt) ex. integral i Wiktionary.
Där konstruktionen är sådan att motsvarande sida länkas i andra språkområden. Vi utgår där från länkning i vänstra marginalen motsvarande samma system i Wikipedia.
Vi utgår där från integral (svenska) som exempel.
Och gör översättning: integral (Google Translate).

En metod för att skapa system översättning bygger på alignment mellan text motsvarande samma definition eller jämförbart i olika språk. Vi inser att ex. Wiktionary är vad som tänkbart kan vara en del av data möjligt att använda för det. Jag kan föreställa mig att Google Translate är ett ex. på system som tydligt tidigt prioriterat denna typ av data för inlärning av statistiska relationer (nu antar jag att feedback från användare är den märkbara delen för förändring görande finare nyans korrektioner och inlärning).

Här är en av de två utgångspunkterna att denna inlärning är befintlig i systemet för översättning. Därmed görande översättningen från språk två (i exemplet svenska) får vi där indikerande koncept med sin troliga engelska motsvarighet. Det är vidare ytterst rimligt att anta att Wiktionary såväl som Wikipedia hör till datakälla ofta utnyttjade för väl-använda översättningssytem såväl i inlärning som feedback d.v.s. att ex. Google Translate utmärkt klarar översättning mellan definitioner eller uppslagssidor.

Därmed får vi kompletterad vetskap om associationer aktuella för aktuellt koncept och koncept i definitionen eller relationer mellan de koncept i definitionen.

Denna vetskap kan vara kontextuellt för språkområdet eller mer aktuellt för mig (där kontextuell inverkan hanteras via logiska beräkningar över generell vetskap association av ett antal typer) behandlade alla relationer detekterade p.s.s. för att bygga vetskap association.

I någon mening är det egentligen samma sak man gör när man tränar översättningssystem med tidigare indikerad algoritm. Och det var därifrån jag fick idéen till algoritmen.

Troligt ej aktuell för mig praktiskt förrän nästa omgång att söka kompletterande vetskap association från långsamt föränderliga datakällor i "uppslagsboks-tiden". Ett tänkbart problem praktiskt för mig är att jag ej har egen lösning översättning med den trovärdighet korrekt rörande olika sense på orden nödvändig här och ej heller underhålligt eller använt samtidigt som jag ej vet riktigt hur många request Google gillar per tyngd innan man stängs ner till nästa eller alternativt börjar betala för dem. Förr ett antal år sedan gällde ofta ungefär totalt 10 - 12 k requests medan stycke-prisen var sådana ovanför att jag ej ser praktisk meningsfullt för den här typen av användning när många miljoner requests behöver ske över en mängd datakällor (d.v.s. ev. krävande kanske rent av en budget på ett par miljoner).

Alternativa lösningar finns säkert men jag har ingen uppdaterad bild. Jag tror förövrigt att Google Translate är mycket ledande just i dom algoritm-system och deras maskin-inlärning viktigt för denna lösning. Mer regelbyggda lösningar och/eller statistiska med mindre eller ingen feedback från de som gör översättning (d.v.s. etablerande goda översättning mellan välbesökta sidor representerande motsvarighet - särskilt här där författare, redaktörer m.fl. kanske själva gör kvalitetskontroll) kan vara mycket sämre när kontext antingen lokalt mellan och i stycken resp. meningar eller aktuellt för något mer lokaliserat språkområdet är intressant. Men som sagt jag har väldigt dålig bild av hur väl alternativa lösningar fungerar här.

Komplettering: Jag vet ej (läste ej artikeln) om man gör samma sak i Polish and English wordnets - statistical analysis of interconnected networks men är jag ganska säker på utnyttjar en till uppenbar (men mycket mindre för språkområden såväl som data koncept-associationer) datakälla - Wordnet anpassningar för olika språk - jämförbart rörande metod ta ut statistiken för associationer. Ett problem med Wordnet-varianter utanför Princeton's välkända (wordnet.princeton.edu) är att åtminstone ett fåtal skapades med EU-finansiering föga genomtänkt rörande värdeskapande för medborgare och företag i unionen innebärande att de ej är tillgängliga för användning utan betalning licens resp. troligen inte normalt är tillgänglig för någon oavsett om betalning sker. Jag har fått intrycket att detta problem allmänt är vad EU nu ska ha börjat sett över med förändrade riktlinjer rörande finansiering av grundforskning med avgränsade leverabler. Ett annat problem jag ej vet om man hanterar ännu är att sidor med leverabler och redovisning av skapade saker (ex. resultat av intresse för alla som ska vara fritt) ofta efter en tid försvinner från nätet (ibland relaterat med att anpassningar av det sålts till kommersiella företag).

Google Translate duger inte: Försöker gömma sig på webben

2013-08-29

Vill jag söka en sajt jag besöker t.ex. därför att ett i Google indexerat dokument inte längre verkar finnas - ofta flyttat - kan jag direkt varande en gedigen expert-surfare klicka på webbläsarens adressfält och sätta dit site: så fungerar det och webbläsaren surfar fram en massa sökresultat.

Vill jag översätta en sida måste jag istället kopiera (!) adressen, och manuellt därefter surfa till translate.google.com ställa in diverse och inte sällan därefter få meddelande om att det inte går att översätta därför SSL.

Varför kan jag inte skriva translate: och låta det hela bli löst? Diverse plug-ins brukar ju finnas för ditt och datt. Men jag surfar webben på min minamala bärbara dator där webbläsarens skärm störs nog tycker jag av alla nedladda filer som tvångsmässigt dyker upp längst ner tills man stänger ner det.

Här använder jag ju varaktigt lösningen Google Chrome. Ett för mig långsiktig investering där jag vågat lita på att lösningen inte bara kommer avslutas eller divergera bort i saker ej intresserande mig. Därmed lär jag mig gärna ett också ganska komplext språk för att styra det hela inkluderande både site, translate och kanse något mer tillsammans med separatorn :. Det är en kostnad jag vågar trots en individ hårt slavande i annat vågar ta för att vara del av en bättre webbupplevelse för mig och kanske fler.

Men var finns visionne? Ledarskapet= Den gamla tiders gårdsbutik mentalitet där man sätter vad man skapar för i centrum? Vem vågar vi användare såväl tror jag Google's medarbetare våga sätta tro till när man klarar och orkar fram till värde för site för att sedan glömma bort eller strunta i det för translate eller missande att föra in det i motsvarande de tyskt-exakta riktlinjer jag själv koordinerar mitt dagliga arbete? Och vad ska aktiägare tro när utveckling tycks ha frysit helt sedan Madame Mayer lämnat?

Bristen på vision och förståelse av kärn-affären varande jag och andra av världens verkliga internet sökande saker och ting märker jag dessutom i Google's api-data. Varför sätts inte sökfunktionen on-going efter den view jag är i? Är jag i produkter borde jag väl rimligen få endast produkt resultat? Givet search in the core bör det väl fungera jämförbart eller egentligen mycket bättre än hierarkier på egna sajter? Särskilt som så få hierarkiska eller några länk-strukturer finns. Istället får man för samma sökord (relaterat att försöka reda ut hur mycket det kostar per transaktion att göra sökningar, om jag får förekomst uppgifter, regler för hur det får användas o.s.v. varande något om något jag inte ens fullt begrep mer än ej relaterat och ev. var något någon partner till Google gjort.

Google produkterna finns märkte jag nu förövrigt inte på products.google.com som har med shopping att göra. Rörande vad folk som söker shopping söker på vet säkert Google bättre än vad jag gör.

Sökande på google prediction api hittar jag dock fram till rätt domän nu. Den produkten kände jag ej beteckning på innan och hittade slutligen fram om jag minns rätt via sökträff på Stackoverflow där länken verkade komma på en sida där Google ville att jag skulle acceptera licensvillkor för två produkter (inkl. Translate API och Prediction API) jag inte använder eller innan hört talas om vad jag kommer ihåg.

Ganska seriöst "produkt-shoppande" för förekomst statistik för att slippa tröskla igenom tusentals Gig data för exakthet ej nödvändigt - med hopp om de för enklare människor som jag - Internets verkliga surfare - helt orimliga priser såväl som kontrakt rörande vad jag egentligen köper jag minns från 2011 ska ha lämnat världen av att man egentligen inte vll sälja och introducerat en köpbar produkt - söker jag dock modigt vidare lite:

Och klickar på en länk i Google's sökresultat från sin developers.google.com sajt.

Förvisso kan jag förstå att man kanske inte riktigt vill sälja den här formen av statistik även om jag betvivlar på att det är en riskfaktor (jämför gärna med Google Research dådkraftiga och föredömliga datdelning såväö som de gigantiska webb-corpus andra projekt försiktigt börjar göra tillgänglig där åtminstone förekomst statisik på den kvalitetsnivå Goolge väljer att visa vid användar-drivna sökningar knappast uttrycker fördelar konkurrenter om man säljer korrekt till ett seriöst pris: själv har jag cirka 44 000 000 nya entiteter expandera min core-grid från tidigare size-optimerade på cirka 100 000 jag vill ha en parallell källa till och just lite slöare mindre föränderligt ändrande dugligt för några månader minst webb-förekomst snarare än nyheter ger: kanske 1000 kr per 50 000 förfrågningar om man också för något mer bra på köpet - kanske lite historik på sista datat, varians över en ännu längre period, och co-occurence vektorer för topp 1000 resultat - ett trevligt personligt bemötande med lite kod-hjälp från alla kod-delningsprojekt Google bedriver. Kanske färdiga Perl-moduler för integration med API.

10 öre per transaktioner köper jag dock för om webbförekomst ges med kvalitet och möjligt att använda vidare i licens även om jag knappast lär köpa 44 000 000 transaktioner utan snarare 100 000 som jämföresle i quality assurance av annat eller adderande in där egna corpus tycks scarce.

Google-historik här säger mig dock att givet mot-lutet söka rätt på uppgifterna är det inte värt tiden att söka mer på det. Jag har en känsa av att priset är gigantiskt högre än vad jag betänker här.
Åtminstone förr kunde man ju göra 10 000 transaktioner ungefär mot det gamla web-search api:et. Antagligen går det fortfarande. Problemet där är ju att obetalt och oreglerat är frågan vad man egentligen får göra med det. Applikations-domänen för mig är sådan att jag vill ha ytterst exakthet på rättigheter för data och hålla möjligt problematiskt data separerat. Minns jag rätt är dessutom licensreglerna för dom transaktionerna sådana att jag ej kan använda data oc än mera ska göra förfrågningen åt en riktig användare.

I summering. Tips på följande uppskattas:

En webbläsare samma som Google Chrome så jag ej behöver lära nytt men med translate operator adderad och utan irriterande utrymmeskrävande statusinformation ständigt ockuperande delar av min skärm längst nere i fönstret.
Occurence statistik för hela engelska webben med god inklusion jämfört med Google. Och gärna på högre kvalitet (jag har en känsla sedan många år att Google inte ger sitt bästa värde utan mer något annat från en delmängd kanske relaterat datacenter eller bara filtrerat föra tt ej läcka kunskap till konkurrenterna).

Dessutom gärna tips på en hosting-hall där man hyr in sig med egna datorer. Det fanns en jag gillade besökande den för några år sedan i Vertahamnen i Stockholm. God säkerhet, trevlig IT-chef o.s.v. Men jag klarade inte att hitta den med Google's webbsökning eller Openstreetmap. Kanske såld till Tieto, WM-data eller liknande?

Initialt kan jag gärna tänka mig och föredra något tillfälligt sex månader i Uppsala för att kunna göra on-site konfguration enklare.

Också här menar jag att realism i prissättning är viktigt.

När nu Google örjar signalera att man tröttnat på webbsökning, översättning och webbläsare är det kanske dags att driftsätta lite och äta upp dem. Kanske en sökmotor riktad deras produkt-sidor m.m. de glömt bort förfallande till mode-affärer (solglasögon m.m. att döma av bilder av top-management).

Menade jag 朔州? Eller Suzhou?

2012-11-18

Blev lätt förvirrad när jag flyttade u och o felordning när jag ville hitta Shuozhou på Google.com för att få den indikerad på kartan där jag inte såg den. Först föreslog Google.com suzhou som alternativ men det var någon helt annan ort. Därefter när jag fick den "korrekt" enligt något av antagligen en bunt system för hur orten inte sällan stavas med våra bokstäver föreslog Google:

Jag blev lite förvånad faktiskt. Kanske har vi några - det är ju ett stort land - orter med troligare samma stavning men ev. lite troligare mer avgränsat med de kinesiska tecknen?

Lyfter vi blicken framåt för att sträcka ut en hjälpande hand till framtidens mer intensivt än tänkande snickrande idag på vår framtid med förhoppning om färre irriterande vardagsdefekter eller fel arkitektur i allt från politik till livsmedelsbutiker är ett i mycket påverkande område unicode.

Med all respekt för svenskan med dess å, ä och ö liksom alla kineser, iranier, greker m.m. - unicode-idiotin. Unicode kostar enorma enorma mängder cpu-tid, minne, utvecklingskostnad m.m. bör vi istället alla våga stå upp för ett rationellt alfabet: 7-bitars ASCII. En skapelse från en tid när USA och Europa var rikt och det var naturligt för medarbetarna på dom stora industriföretagen att bränna iväg miljarder på ett ständigt växande antal redundanta standarder till stora andelar berörande hur bokstäver och siffror ska representeras (någonstans efter ASN.1 respektive den förenklade grunkan för webben som blev vanlig kunde det ha räckt där oavsett hur komplext folk tyckte ASN.1 var då är det ingenting med flera - kan det vara hundra - unicode-standarder och unicode-mimicking "standarder" för mer än alla språk en bunt datorkulturer och generationer ( =~ s/[A-Za-z0-9 \t]// ).

Tar vi bort å, ö och ö från bokstäverna och siffrorna vi har i den här bloggpostningen (oräknat titel och bild) är det nära nog alla tecken jag tycker vi behöver. Krävs något extra för särskilda tecken kan folk gott och väl göra en liten bild för sådant. Det är verkligen att jag tvivlar på att de över-komplexa ordbehandlare som inte gör mycket mer än för 15 år sedan är mycket snabbare via gränssnittet att få dit rätt tecken (Google Docs är ju dock i det området mer nöjd med än mycket annat: få-funktioner och litet gränssnitt).

Praktiskt i representationer - om man nu skulle börja kasta bort alla onödiga otäcka nationalistiska språkliga forsar svenskar, ryssar, kineser m.m. spärrande en värld som söker ett enkelt språk med ett fåtal bokstäver från att mötas via enkelt data. För en kollision / tvetydighet när så uppstår får man ju också fråga sig hur troligt det är att den härrör till att du ex. reducerat bort å, ä och ö oavsett hur brutalt och hur troligt det är att det snarast härrör från ett mer svårtolkat kontext. I sådant gäller ju att själva indatat vi reducerar och jämför med en representation nu ju faktiskt bär informationen vilket räcker en bit till. Jämför trivialt egennamn om vi tänker oss att vi också skär bort stora bokstäver alt. små vilka jag nog tillsammans med punkt m.m. också känner är vad vi egentligen inte behöver. Visst att det blir svårläst och irriterande utan små och stora bokstäver men det är bara vanesak. Informationen det bär är försvinnande liten jämfört med hela ord-symbolen resp. lokalt och globalt kontext.

Den trosföreställningen är dock huvudsakligen formad från praktisk programmering och datorns begränsade minne och cpu:er. Rent personligt har jag mycket lättare för att lära mig språk som i den visuella representationer uttrycker högre redundans med större uttryck av absoluta tecken snarare än som ex. svenskan relativa övergångar och relativa skillnader mellan ljud, ord, meningsbyggnad o.s.v. Jag upptäckte det av en slump för några år sedan när jag surfade japanska webben via Google Translate och upptäckte att jag av mig själv lärde mig tecknen (av "kinesisk" typ). Glömmer dem tämligen snabbt igen om jag låter det gå men ingenting i språk är jämförbart med hur lätt dom väcks upp. Andra språk som engelskan, tyskan m.m. jag lärt har jag vänligen haft större problem med. Swahili upplevde jag dock i ljudformen som väldigt naturligt och på sätt jag inte riktigt förstår passande mig bättre och lite jämförbart med de japanska tecknen lättare att lära utan just något märkbart av dyslexin.

Jag tittade en del på hieroglyfer i vintras och under sommaren. Intressant på många sätt men jag upplevde inte samma egenskap med dom som för de japanska tecknen. Jag tror verkligen att det för japanskan är en fråga om visuell redundans i information relativt hur benägen man är att flacka med bilden.

Om vad som gör tecknen i japanskan speciellt har viss funktionell relation till andra språkliga skillnader som har att göra med mängden information relativt t.ex. visuell uppmärksamhet och koncentrationsförmåga som hur vi tolkar ansiktsuttryck - och var i ansiktet vårt fokus konvergerar - med ev. motsvarighet resp. skillnad med hur vi läser relativ resp. absolut information i ex. engelskan resp. de japanska tecknen vore nog att tolka in ganska mycket (jämför ex. Perception of emotion is culture-specific i brist på en intressantare som mer specifikt tittat just visuell uppmärksamhet och ansiktsuttryck jämförande en japansk försöksgrupp med andra).

Tänker man sig lite vågat ändå en förklaring närmare min spekulation här är det kanske mycket naturligt att låta den relativa representationen av språkets ljud behålla användningen av tecken för att ge förstärkt "visuellt-koncentrerad" redundans kanske lite jämförbart med bilder och illustrationer. Ungefär som de japanska skriftskråken har där vi huvudsakligt numera har två system: ett med tecken konceptuellt jämförliga med kinesiska tecken (men också väldigt olika) och sedan ett tecken-system som uttrycker relativa förändringar i ljud ungefär som vårt.

Möjligen är det konceptet inte helt olikt som mellan en i andra sammanhang uppfattad t.ex. mer "kollektivt" synsätt kanske egentligen ingen större skillnad mer relaterat om vi tenderar att vara lite mer visuell gestalt tolkande hellre eller är mer Markov ljudande tolkande från ljudet eller orden innan där ju Markov-kedjor helt säkert lär tendera att kräva en visuell och annan uppmärksamhet just optimerad mot en längre temporal utsträckning med färre synkroniseringar mot globalt kontext per tidsenhet - om det nu verkligen är så att det kommer med och innebär ökad behov av synkronisering globalt är det ju just inte helt olika vad vi i andra sammanhang kanske vill uttrycka som visuell gestalt eller kollektivt tänkande, eller koncentrationssvårigheter i vissa andra situationer.

Mycket i vår kultur och hur vi tolkar och talar märks och bor i språket. Och varför inte? Finns det inte där kan man svårligen mäta det energieffektivt och i dagens globala intensivt kommunicerande värld är tryggt att ofta försumma allt annat: finns det ej uttryckt i en kulturs kollektiva språk är det direkt otroligt att någon viktigt eller oviktigt finns att hitta någon annanstans (undantaget rena flow-processer ex. trafik detekterad via satellit bevakning utan just det kulturella, hur vi tänker och hur vi resonerar med likheter och skillnader mellan folk och språk).

Det är med visst nöje man av och till kan roa sig med att låta flera för många tråkiga ämnen kollidera och ändå känns viss tillfredsställelse av att det faktiskt ändå som konsekvens av några ämnen som råkade komma med lär bli läst av några stycken i alla fall.

hans husman