Vad har Google, Microsoft m.fl. egentligen för beräkningsutrymme per användare? För kontext-hantering och prediktion av sökningar

2013-09-02

Om vi ex. tänker bibehållande sökordskontext kan jag se en del intressanta värden för att ta ut kontextuella sökord från upparbetat sammanhang i olika tidsperspektiv mer än eller kompletterande ex. gamla sökord som dyker upp inverkande sökresultat (vilket i alla fall för mig bedömt en sökmotor på nätet - Google) ger en del intressanta saker hittande mötespunkterna man inte behöver ha sökt direkt efter.


Praktiskt inser jag att jag inte riktigt har referensramar vad en större budget ger för praktiskt uttrymme att uttrycka tillståndsinformation för annat än ett fåtal användare. Är det t.ex. praktiskt görligt att ha en tillståndsrymd säg på minst 10 000 (mindre bra egentligen) upp till optimalt gärna närmare 100 000 koncept med säg fem till tio instanser för pågående, tillstånd över tiden, predikterande gissande sökningar som kommer för att verifiera o.s.v.?


Jag kan lätt uppleva att det i nuvarande implementation lätt tynger min dator men det behöver kanske inte säga särskilt mycket vad vettig hårdvara och mer hårdvarunära implementation klarar att prestera (nuvarande kod är Perl men förutom split och Filehandle anrop skriven för 1-1 portning C utan konkurrerande-process problem ej abstraherat).


Det var ju inte riktigt utvecklat för det här utan mer med tankar applikationer rörande riktade sökning i ett mer riktat non-public sammanhang resp. uttrycka tillstånd för entiteter man önskar avbilda så att säga över tiden. Men det är ju egentligen sammansak. Uttrycka vad vi söker efter med språk motsvarande representationen och följa upp det från hur väl man kan prediktera sökningssammanhang som kommer från tillstånd för att indikera antingen vettig on-going eller emergence när intresse förändras.


Men oavsett hur elegant det kan tyckas: långsamt. I min dator. Hur det är med mer hårdvarunära praktiskt har jag som inget referenssystem för.


Något lite personligt i alla fall fascinerande är att jag kan se lite ytlig kanske likhet mellan domänen av sådana här tillstånd med hur man (jag alltså) skapar en mindre föränderlig utgångsmängd att använda för att ta in vad som händer och sker nytt i datamängden.


LSA och allt liknande är ju så mycket antingen ett område - eller över allt språk så intet-sägande med mycket av små-underliga missar. Oavsett algoritmerna där jag ligger en bit från LSA sökande ge möjlighet att kunna beräkna similarity friare från kontext utan att behöva räkna om eller korrekt utnyttjande grunddata - handlar en del i grunddatat så att säga innan ex. adderande in news stories on-going om det personliga engagemanget så att säga. För att få det bra oavsett hur non-exact and science det verkar att välja ut datakällor från behov för att få en god balans. Jag tog ex. nyligen görande en mycket större P ( A | B ) matris för kontext några gig av data framtagit för att bygga Wordnet-sense detektion (ex. associations-matriser med dimensions-reduktion o.sv.) för att täcka upp en del lite udda associationer men samtidigt introducerande en del tyckte jag (och med vetskap om att jag regelmässigt nära nog utan undantag ser sådant numera) skräp förskjutande saker till vad jag ser kommer ge problem när man lägger på news stories växande fel i värsta fall - vad jag såg troligen åtminstone balanserande skjutande på ev. hantering via kompletterande corpus påverkande konkurrerande: alla plos-artiklar publicerade resp. filer med ungefär kategori-relationer över ett större antal mycket smala specialistområden särskilt prioriterat ekonomisk vetenskap, lingvistik, cognitive science, äldre generationer från 1930-, 1960-tal och 1970-tal ungefär av icke-vetenskaplig psykologi (Freud o.s.v.), miitary intelligence, image analys och liknande områden.


Att ta ett stort stycke data och processa in är bra värde. Ger bredd i associationer adderande konkret värde också när av typ Google Ngram härrörande från lokalt-meningskontext för koncept associationer. Men det förutsätter verkligen att det kommer tillsammans med andra datakällor för vad vi faktiskt söker vilket kanske lättare illustrerar samma sak som ovan ev. lite otdyligt uttryckt. Pågående från vad som kommer nytt i nyheter är det vad som bäst sköter sig själv givetvis men för att klara områden utan att genomsnittets tjocka mitt gör intelligensen dum eller underlig divergerande när den ska fungera i sammanhang vi kanske inte vanligen motsvarande talar om till vardags behöver man känna på datat själv kanske lite som att se ytan på det även om sådan känsla verkligen är snabbt öveergående när man fått till det.


Ofta dimensionsreducerar man ju sådant här data. Men därmed kommer ju begränsningen. Ser vi det enkelt motsvarande vad vi ex. gör med varians-maximering eller olika varianter av t-test, entropi m.m. förutsätter det ju att vi klarar att säga vad variansen är för olika begrepp och or såväl hur de förekommer med varandra. Givetvis ganska stabilt funktionellt särskilt i data av skolbokstyp mindre ofta tydligt föränderligt. Men i nyhetsvärden är det tydligare hur mening och sammanhang för koncept ganska snabbt förändras.


En motrörelse finns förvisso: "meningsfulla titlar" på webbsidor istället för titlar som klarar att tala till oss i så många fler dimensioner än att uttrycka sökord närmare sträng-similarity.


P.s.s. när vi söker webben efter data vet vi knappast särskilt ofta om området är lite mer komplicerat (snarare än bara önska få upp lite Wikipedia-liknande sidor) vad som är det optimala sökorden. I tolkning konceptuellt liknande hur vi tolkar och förstår "talande" nyhetstitlar av sök-kontext eller enskilda ord finns en likhet inte på något sätt trivial men intressant.


Ganska nyligen lade jag ett inte helt trivialt i tid eller utmaning (om än inte teoretiskt varande ett välstuderat område) på att skapa ett undersystem för att tolka språk i grammatik och syntax o.s.v. i natural language processing. Sådan tolkning har jag aldrig sett associerat vad vi diskuterat här adderar särskilt mycket relativt kostnad (inte ens i närheten).


Däremot är det ytterst potent i tolkningsområden bredare intressant när vi processerar nyheter, händelser m.m. i data för att förstå och tolka sociala strukturer och interaktionen mellan människor. Vad X gör här, och var vi kommer då, och påverkande B o.s.v. Personligen tyckte jag följande studie nyligen publicerad Plos One var enormt komiskt illustrerande just det:



Kanske väl illustrerat redan i sammanfattningen:


"From the symbolic dynamics of these elements, the courtship-generating language was determined with extreme confidence (significance level > 0.95). The languages categorization in terms of position in Chomsky’s hierarchical language classification allows to compare Drosophila’s body language not only with computer’s compiler languages, but also with human-spoken languages. Drosophila’s body language emerges to be at least as powerful as the languages spoken by humans."

Men självklart tänker vi oss ett mindre flock-styrt djur ej talande till andra motsvarande vad nyheter till sin natur helt handlar om organiserande vad att göra, punkter, händelser o.s.v. är det ungefär samma sak. Uttryck och förståelse och känsla av sammanhanget för olika platser i sammanfattad rymd inte krävande att vi trösklar igenom alla händelser vi upplevt i en plats är däremot mindre grammatiskt - mer konstnärligt eller kanske fotokonst eller musik-drivet.


En scen eller bakgrund (eller musik) vi adderar händelser just nu eller som vi minns från förr (eller adderande lyrik ovanpå musiken: korrektare egentligen applicerande musik till pågående händelser eller ett sammanhang där vi gör något då lyrik ofta ligger ganska konceptuellt konvergerande närmare än alltid vara särskilt berättande).


Vad jag verkligen kunde önska vore dock något enklare färdigt rörande basdata och enklare sammanförda statistiska mått till en dokumentmängd för att slippa det ganska tunga i corpus bearbetning. Något Bing att köpa om man hade pengar (men snarare mer realistiskt i kraftigt ekonomiskt problematiska företag med upparbetad big index arbetet). Även om jag själv inte direkt sitter och bygger ICA liknande associationer är resultatet av hela den familjen såväl som faktoranalys och PCA väldigt lätt att sunt ta som indata för att skapa utgångspunkter. För mig ger Bing! kraftig känsla av ett ganska (rent av gott och) gediget arbete i grundteori och detaljer ungefär jämförbart med allt annat men saknande det jag tror har krävts och kommer krävas konkurrerande lösningar som har ett tänk ovanför (även om kanske skillnaden minskat en del ev. mindre relaterat just Microsoft). I mer Hans-ekonomi-sammanhang vad man skulle se som vad man kan önska sälja och inte överdriver pris för. Bra kvalitet: likt en god bruksbil lite rostig kanske och inte kommande med något från de övre-prisklasserna men inte något allvarligt fel i vad man gjort. Mer arbete att addera ovanpå. Praktiskt här behöver dock Microsoft bäst är jag övertygad om Bing! som koncept inte alls bara som webbsökmotor utan mer för stöd långsiktigt mot alla produkter även om de kanske inte självklart egentligen behöver göra indexering och logik runt det själva.


Möjligen störs man en del här av personligt intresse. "Mindre" eller "mer" än att tanka applikation sökning naturligt är jag egentligen mer road av vad det säger om oss kollektivt just för hur det inverkar lite framöver. Oavsett vad egentligen gäller att representerar vi vetande handlar det alltid om sökning. Konceptet att webbsökning är big business tror jag dock inte riktigt på i innovativa områden (varande dock ingen direkt praktisk affärsexpert där). Känns väldigt uppdelat med svåra områden runt om närmare revenue (annonsering o.s.v.). Riktade mer kompensdrivna segment är givetvis mer intressant och indikerande möjlighet kanske (såväl som svårighet) underligt under-utnyttjat i affärsområden jämfört med besläktade områden ex. inom applikationer närmare politisk-analys och strategiska-resonemangssystem (military intelligence o.s.v).


Vi kom ifrån min egentliga fråga men mycket matnyttigt att tänka igenom själv i alla fall. Och vi avslutar med följande tanke:


Medan stora andelar av webbsökning handlar om att få befintligt dokumenterat / vetskap eller få reda på var något finns. Handlar nyhetssökning dels om vad som sker just nu men också med det som utgångspunkt om vad som kommer inträffa. Optimalt vill vi egentligen söka framtiden även om det praktiskt inte går (vad jag vet i alla fall). Drivande brett kommer det ofta ner till intensiva kanske lite oroande nyheter. Men i seriösa sammanhang vill vi ju ha användbara hypoteser.