När det gäller alla data-typer, kanaler, populationer m.m. är det om vi vill dra slutsatser om världen ofta nödvändigt att göra ett tämligen gediget arbete för att korrekt begripa dem. Ibland finns vägledning i filtrerad referenslitteratur, andra gånger oftare för smalare eller mer specialiserade områden huvudsakligen i studier och inte sällan när vi är nära praktiska tillämpningar som försöker vara bättre än konkurrenter krävs att man gör arbetet själv.
När det nu gäller Google's sökordsförslag - under förutsättning att det skapas av query-statistik - finns föga möjlighet att från dom exempel Metro-gav och som någon representant för en under-del av FN upprörde sig dra någon slutsats om vilken kvinnosyn populationerna som genererat statistiken i genomsnitt har och ännu längre ifrån (understrykande att vi just tappat gigantiska mängder information: ex. givet att för normalfördelning om vi antar det får vi mängden information följande Shannon såväl som Fisher från ln ( variansen ) eller när så lämpligt normaliserat vi någon konstant-faktor).
D.v.s. vi vet inte om statistiken pekar på att dom som sökt på termerna vill ex. ha kvnnor i hemmet. Ett konkret exempel illustrerar svårigheten:
- En metod trivial att se är möjlig och därför mycket vanlig inom alla möjliga engagerade frågor är att söka runt på diverse som ger träffar på bloggar, forum m.m. man tänker sig oftast placerar en hos "fienden" (ganska ofta blir det komiskt fel vi några gånger genom åren här illustrerat och som jag första gången gjorde edukativt (hittande på en term) på svenska med gamla äta-marsvins-inlägget på en av min första bloggar liggande på Wordpress.com - ytliga text-cues, ids inte läsa allt, skriver några hat-rader och surfar vidare till nästa åsikts-divergerad fiende att försöka texta-sönder).
- Vidare för så pass åsikts-avgränsade och illustrativa ngram som i exemplen behöver vi givetvis inte ha något liknande föregående. Vi har naturligt en mängd helt icke-sociala informationssökande användningsområden. Ex. ta reda på hur ngrammen uttrycker sig i olika länder.
- Rörande exempel på föregående gäller att statistiken för queries knappast för resp. ngram Google ger förslag på motsvarar 1-1 hits på sökrod. Själva språkets kreativitet gör detta oerhört svårt att göra och också när vi faktiskt kan göra det typiskt för användning liknande (exakt samma faktiskt) och ytterst välstuderat sedan många år inom natural länge pocessing, statistisk parsning o.s.v. sökordsförslagen sämre resultat utan vi skapar en språkmodell över ngram med ett maximalt n satt någonstans (där en del från andra sammanhang pekar på att Google har sitt längsta n satt till fem vilket också en del studier pekar på ungefär är där det fortfarande ger utökat värde att öka på - och även om jag menar att det är fel när vi lämnar ord till ord i meningar ex. betrakta titel, under-titel, bildtext m.fl. flexibla komponenter - tycks det väl i alla fall rimligt att gränsen ligger ungefär vid fem och ännu mer expanderar kostnaden gigantiskt för varje utökning av n redan i och med och växande mer med tre gram som nog får anses mycket). Några lämpliga startpunkter kring det (och också om utan att i detalj läst just dessa sidor dessa ämnen regelmässigt i Wikipedia uttrycks i stora delar i det specialiserade språket matematik kan man söka vidare runt ämnen för andra beskrivningar gissar jag eftersom principerna är tämligen triviala):
- Good–Turing frequency estimation | Wikipedia
- Language model | Wikipedia
- Good-Turing Smoothing Without Tears (språk-modeller kommer alltid med gråt: allt i dom här domänerna om vi vill göra det bra med hög nivå just nu är tortyr).
- Additive smoothing | Wikipedia. Metod längre ifrån aktuellt sökordsförslagen och närmare vad aktuellt ex. sampling av kategori-tilldelning för motsvarande Wikipedia-sidor när konstant ej är funktion / skattad av språk-data i naturlanguage ex. Laplace smoothing.
- Därmed gäller att vi inte riktigt kan påstå att förslagen är direkt drivna ett till ett av just kombinationen vi ser. Av och till kommer resultaten utnyttjat (också om det generellt för språkmodeller är mindre aktuellt och snarast är vad vi söker skatta fram av kortare kombinationer av ord men för queries såväl som kategorier ex. i Wikipedia verkligt) sökords-kombinationer inkluderande aktuellt förslag men som är längre i totalt antal ord. Ex. Firefighters from X o.s.v. adderande till firefighters from m.m. indirekt tillsammans med associationen över mycket mer språk mellan firefighters och from. Också om jag ej tror det är fallet för något av exemplen jag såg i Metro.
Sökordsförslagen kan därför lika gärna (egentligen korrektare inte lika gärna därför vi kan inte säga något om åsikter eller värderingar från resultaten här som är meningsfullt) indikera intresse och engagemang för att kvinnan ej ska ha rösträtt som att de borde ha rösträtt (för länder där de nu saknar den eller annnan rättighet mannen har: det ska noteras att rättigheterna oftare när formaliserat går delvis hand-i-hand för män och kvinnor ex. relaterat flera länder i direkt geo-närhet i Persiska viken).
Om nu noggranhet i detaljer, datakälla o.s.v. är särskilt viktigt för FN's framgångar på det här området kan jag svårligen bedöma. Mycket möjligt adderar synlighet när möjlighet lika mycket oavsett korrekthet eller inte. Men mycket relevant över alla frågor är jag tämligen övertygad om att ett ganska betydande samband finns till vilka kostnader resultat har över en längre tid.
Vidare men där jag är ganska osäker på om det betyder något för sådant här tillämpningsnära i expert-områden ligger viss genrell fördumning i att som princip eller från förutsättning tolka verklighet från hur man ser på en övergripande fråga ej relaterat riktigt hur den motsvaras i aktuell situation. Man kan tänka sig att det leder till problematiska - ibland rent av dyra - fel-beslut. Mindre exakta politiska frågor kan det givetvis ha betydelse vilket understryker ex- betydelsen av evidensbaserad-medicin. Givetvis kan man argumentera att bland de få områden det är närmare givet att FN presterat konkret värde hittar vi just inom medicin där de evidens-baserade modellerna har tung tradition (bekämpning av Malaria inte minst).