Översätta sökord: Se och särskilja kultur, grupper av personer och upparbetat representera människor

Vill jag särskilja en amerikan från en britt är något ofta för många fall och många personer enkelt koncept att ta några egenskaper brutalt jämförande en amerikan med en amerikan och visa versa intet-sägande (motsvarande med bl.a. normalfördelning låg varians) ex. talande engelska, bor i Nordamerika, gillar bankaffärer i Mellanöstern med liberala tankar om affärernas frihet överbryggande andra avstånd och konflikter i världen, har en inhemsk teve-kanal som kallas för BBC, huvudstaden heter Washington o.s.v. sorterat mellan var och en.

Omvänt vill jag särskilja dem för var för sig är det självklart föga funktionellt med faktorer föga varierade. Dom är ju mer bättre använt filtrerande bort ex. fransmän, svenskar m.fl. boende ex. i ett geo-område vi försöker dra britter (förslags med återläggning så England inte börjar krympa i befolkning) från för att särskilja och sortera i olika grupper med preferenser som intresserar oss eller kanske för att optimera en tjänst de använder (rätt sökresultat, bäst kryddade hamburgare eller vad nu aktuellt).

Det gemensamma konceptet är ju inarbetat demonstrerat i stora affärskoncept på webben tämligen funktionellt som ett genomsnitt. Att analysera ex. ankartext på länkar, stora text-corpus so Google NGRAM och oerhört mycket mer (inte minst för att ge kontrast till bl.a. Google indikerat föregående stora delar av språkanalysens och informationsteorins ofta sedan länge använda och för sitt ganska välfungerande algoritmer jfr diskussion Bing!).

Centraliteten säger i sig ingenting mer än just det. Per definition har vi just valt bort andra nyanser. Förvisso kan de vara vad som andra lösningar adderar eller att "centralitets-distributionerna" / "common everday man or woman surface sense" är en utgångspunkt eller del av andra algoritmer.

Återvänder vi till min mer privata reflektion jag råkade addera i Vad har Google, Microsoft m.fl. egentligen för beräkningsutrymme per användare? För kontext-hantering och prediktion av sökningar (2013-09-02) rörande sökkoncept webb och nyheter gäller ju att vad som avgör om detta alls ger mer än ett tydligt genomsnitt eller ett vettigt mycket funktionellt sökresultat (jfr stor händelse just nu eller givet nära genomgående hos dom som söker att de vill få förklarat vad koncept X egentligen innebär) vad som endast förutom genosnittet kan skattas (vad jag inser) genom:

Direkt i aktuell sökning givna koncept (vad vi skriver närmare enkel ordförståelse eller flerord ex. Google men med associerad "bakgrund" ex. divergens mellan love and hate jfr större gamla konflikter) resp. direkta sökkoncept i ord och ngrams-koncept konvergerande i ordförståelsen till ex. ett namn eller motsvarande översättande via vettig transformation till sidor (trivialt men nog så föredömligt optimerande sökmotorernas arbete vara 1 - 1 till ex. en Wikipedia sida med ex. samma titel och hundra tusentals länkar med kontext av varierade sökord runt om kring det).
Vi har en temporal divergens avvikande från vår inarbetade centralitet men möjlig att skatta rimligt snabbt över hela populationen. D.v.s. samma utsmetade genomsnitt men nu mycket smalare i tids-dimensionen och troligt mer volativ.
Vi kan vi andra parameter associerade riktade eller skattade från vem som söker förstå vad dennes genomsnitt är som kulturell hemvist (ex. person A med flera goda vänner i bankvärlden och lätt intresserad av politik i alla möjliga områden såväl som ekonomi - kanske revisor, journalist eller politiker eller dokusåpa-stjärna i den mån vi kan se det och det troligare påverkar vår tolkning av vad personen skriver).

Eftersom jag nu spontant skrev mer än tänkt i Vad har Google, Microsoft m.fl. egentligen för beräkningsutrymme per användare? För kontext-hantering och prediktion av sökningar (2013-09-02) men fullföljande och publicerande för egen bearbetning enkelt ha det kvar utan blandande in min laptop jag ser som throw-away lokalt förklarar kanske resonemangen och exemplen ovan enklare vad jag avser med kontext.

Även om vi ovan egentligen gör och får resultat i färre områden än vad som var aktuellt i det diskuterade konceptet nästan direkt från början och jag insåg efter vad jag skrev tidigare (säkert som resultat av den bearbetningen) att söker man mer avsmalnad tolkning ut från sökorden närmare individuellt fångande egentligen individens centralitet kan man självklart dra ner antalet dimensioner ordentligt. Det är ju bara preferenser per individ.

Begränsningen är samma för exemplet med amerikaner och britter: det fångar mest likheten och när var avvikande har betydelse blir det lätt lite fel. Söker jag sedan evigheter med stor preferens för att få PDF-dokument i mina sökresultat är det givetvis en enkel lösning att dra upp det som faktor. Men av och till kanske jag inte söker artiklar från journaler åter-publicerade av universitet utan ex. corpus och datafiler. Är nu preferensen för PDF vad som ej orkar i en lösning att uttrycka variation från mitt kontext direkt med dom sökningarna och runt om så är det tämligen kört att få dom träffar man önskar med mindre än att man kan title (och motsvarande starka koncept enkelt översätta till sökord rada upp väldigt nära just vad man söker).

Det gjorde jag nyligen för att hitta tillbaka till corpus.byu.edu - Web Corpus / Statistics i motsvarande sökresultat som site:edu -intitle:pdf large web corpus. Men söker jag mer kreativt prospekterande utforskande efter bra data jag ej har i områden där jag gärna vill ha mer klart för att spara arbete just nu redan ansträngande datorresurserna med annan grundanalys är det svårare.

Faktiskt även kontext-switchande mer till mitt sluga sök-mindset utnyttjande erfarenheter av sökmotorer från alla möjliga perspektiv (även om jag nu aldrig tagit betalt för länkar eller någonsin förr när jag tog en del uppdrag i området utnyttjande egna sajter utan snarare kompletterande andra lösningar kunderna köpte eller hade med det mer eleganta ex. skapande värden riktade för att få universitets-länkar, eller länkar branschföreningar eller government - där Sverige är väldigt svårt men på engelska webben med konkret värde kan det gå även om det kan kräva att du hjälper till att få på plats några WLAN-hubbar hos svenska myndigheter om du ska få den tungt betrodda NSA-länken nära deras startsida &ld;- skämtande) var det svårt med mindre än att se till att min historik ej påverkade utnyttjande annan dator (men att logga ut från Google antar jag fungerar lika ba).

Exemplen illustrerar utmaningen. Därmed inte sagt att det behöver vara lätt. Skrivand här så här ges ju den abstrakta formen. I konkret implementationer och modeller kan det rent av antar jag varierat med resurser tämligen utmanande krävande ganska mycket av och till. Det är ganska ofta i domänen inte alltid ens triviala lösningar praktiskt ens när välkända enkla gamla algoritmer är vad man kanske kan nöja sig med som initialt filter därför att det är alltid så mycket data.

För mig precis som jag tidigare skrev kan jag heller inte riktigt skatta hur svårt därför att jag insåg att jag saknar referenssystem för vad som är normal basnivå på cpu-tid och lika mycket minne som är möjligt att lägga per användare. Vad orkar en invant kompetent hårdvaru- och mjukvaru-optimerande entitet egentligen i kostnad per användare i mängd minne och beräkning? Vektorer med tusen dimesnioner? Eller hellre minst tio tusen i magnitud? Eller för närmare magi i avbildning flera hundra tusen (där tar det verkligen kraft).

Av och till inte helt orelaterat kanske tänker jag på alla pay-load av ytlig men bred datakunskap stat m.fl. tryckte ut för ett antal år sedan när jag var barn. Före webb var ett koncept och långt innan hem-pc. Mycket om problemet samkörning, lagar om personregister m.m. I uppdateringarna av grunddata jag gjorde nu tror jag antalet personer med namn och enkla fakta som födelsedatum, kön, nationalitet, födelsehemvist m.m. hamnade på cirka 500 - 900 000 (efter att jag skar ned brutalt för att hålla nere tiden det tar att också föra in för presentation där MediaWiki utnyttjas).

Nu är ingenting där brytande mot aktuella lagstiftningar runt register - ej heller några andra - men vi ser en kontrast fortfarande kanske varierat tydlig mot förr (indikerande kanske flera emergence görande stora mängder inarbetade centralitets-vikter värdelösa ofta ganska snabbt) på var vi tar som naturligt att någonsin dator har och vad det innebär och upplevs. När Staten och Storföretagen hade Stordatorer med vi övriga kanske hade en Vic-64 med bandstation för kassetband var personregister av den här storleken väldigt ovanligt d.v.s. stor kontrast. Idag inte särskilt ovanligt för som här kända personer från historien eller nulevande (politiker, skådespelare m.m.) huvudsakligen genererade från Wikipedia text.

Gigantiskt personregister redo för samkörning öppet publicerat på webben

Obama

Wikipedia

Commons

Och ett antar jag uppenbart svar på tekniska grundförutsättningar som hjälper oss att ta en bredare bild av en kultur ner till mindre grupper, eller blandade kulturer, eller städer, eller en enskild person, för att riktat se vad någon egentligen söker efter eller vill veta eller söka prediktera andra ongitiva eller emotionella preferenser om vad nästa steg blir eller önskas bli ligger om något ännu närmare 1980-talets rädsla för personregistret och samkörningen (jag samkör hej-vilt över många tusen dimensioner och för riktade områden ett ganska betydande antal datakällor) men det är värt att komma ihåg att vi kan fortfarande moraliskt såväl som juridiskt gå över dom gamla lagarna.

Inte helt orelaterat mer än vad en individ skriver ser jag egentligen bara ett typiskt namn-exempel resp. postnummer som tillför värde i kontext och som sådana minst sagt obetydliga annat än väldigt tidigt. Valfrihet och förståelse av vad ex. en sökmotor lagrar är ju vettigt. Jag ser heller inget problem att kunna garantera att allt data förstörs utan propagerat data som ej försvinner globala tillstånd. Andra applikationer mindre vanliga mindre troliga för egendel men väl så intressanta och indikativa kanske för åren som kommer är dock uttryckande tillstånd för personer, företag m.m. Mining så bra data vi kan och skattande en förenklad liten kognitiv grunka som i något sammanhang förklarar lite hur dom tänker och resonerar eller tänker göra. Ser vi det som problematiskt - och det kan det vara och är tror jag ofta i sammanhang mer dolda rörande hur man får tag i data och vad man gör med det - är det ändå inte helt enkelt att se bra metoder för att begränsa riskerna. Så stora mängder data är redan i vår globala gemensamma kultur i vardagligt språk genom åren. Vanligen sägande ingenting för ingen bryr sig. Men av och till för intressanta personer värda besväret att följa vad de uttryckt genom åren kanske man lär sig saker problematiska för enskilda aktörer att förstå i bredd eller avsmalnat.

Egentligen tvivlar jag på något egentligt samhällsproblem annat än kanske övergående. Viss vaksamhet kanske mot mer problematiska men resursstarka entiteter som söker icke-definierat inflytande är väl dock kanske sunt. Jag vet dock med säkerhet att t.ex. Kina trots alla sina resurser helt saknar något i närheten av att approximera personer för påverkan o.s.v. Och rörande Iran m.m. betvivlar jag det starkt även om jag egentligen vet tämligen lite om något kring deras forskning och satsningar runt data- och kognitiva modeller.

Min bakgrund under så många år i risk management och infomationssäkerhet ger mig dock en i centralitetens märkbara påverkan för de flesta väldigt överdriven preferens för att se oftast ganska esoteriska risker. Mest troligt utan varje verklighet samhällspåverkande eller kanske ens mindre (utanför traditionella domäner i konkreta fakta hittade snarare än att likt sökorden aldrig skrivna men som vi ser från en personlighet vi skattar).