Visar inlägg med etikett Open Source Indicators. Visa alla inlägg
Visar inlägg med etikett Open Source Indicators. Visa alla inlägg

LSA's kulturhistoria i sociologi från mitten av 1900-talet ger hippies bättre sökresultat

2013-09-15

Lite onödigt kanske är att lingvistiker med besläktade subkulturer gärna när de som så vanligt diskuterar LSA alltid 100% glömmande algoritmens längre användningshistoria (jag har fått för mig att de tror att den alltid använts - kanske bara kan användas som normalt där) där tidigt tillämpat särskilt inom sociologin. Den egentligen ofta ganska dåliga delen av att minimera över saker vi räknat antal av för att minimera distanser i okända rum liksom användande kostsamma SVD är ju direkt arv därifrån medan man för språkområdet med dess tillgång till gigantiska corpus presenterande billiga möjligheter jämfört med att göra studier på grupper av personer ger möjlighet till en mängd antagligen när genomtänkt snabbare och/eller bättre alternativ beroende av vad man söker.


För sökområdet som ju dessutom ger möjlighet till nära interaktion med mänskliga sökenheter som kommer för att hitta något kan vi rent av samla på oss träningsdata genom att av och till ställa frågor till resp. människa. Genom att motivera värdet det ger för sökresultat såväl som att undeerstryka att de ej behöver svara på åtminstone samma fråga flera gånger eftersom det därefterlagras i intelligensens skattningen av vad personen är i kunskap, kulturell bakgrund, politiska åsikter, preferenser rörande varor o.s.v. interaktions-effektivt byggande steg för steg över tiden bör det oftast närmast vara en glädje för resp. sökare att känna delaktighet i att skapa bättre sökresultat.


Vi har ett exempel på fråga där vi noggrant indikerar exempel på uttryck hos personens personlighet i handlande som gör att de ska räknas till aktuellt koncept. Notera att värdet av detta tydligt understryks.



- Did you smoke cannabis or other less potent in reward learning but affecting your perception making the world look incorrect further from human concurrent driven innovation or business ("eaten or be eaten") such as LSD, fool tasting natural drugs (ibogain, peyote, mushrooms containing psilocybin)? Also if you feel alcohol is "wrong" because it makes you brag or express heighten motivation expressed to the pack through language creating pack-value by filtering out lesser men (or rare rural and/or man-women) not being able to take words of heighten motivation into reality. Perhaps feeling it "disturbs" something called "ego".


- Do you tend to dress in safe private environemnts with cloth you made yourself including some sort of figure painted or pressed onto it (normally with the belief it is as good or even more often soehow better compared to desent cloth). If man do you feel natural if previous during the day wearing proper cloth to dress-down during the evening?


- If on vacation outside civilized society in nature would you pick herbs by name and believe they want hur you - perhaps even eaten such herb (only regards herbs while killing an animal to eat or for fun no would be the right answer here even if picking a few herbs to spice it up with)?


- Do you play an instrument for fun with out pay or other rational rewards or rewards given in the street or paint while being an economical failure in the area?


- If a kid bleeds in the street not life threatning or with obvious long term damage without assistance would you be as motivated helping it even if it's mother do a wedding ring or do not seem like prime-genetics (if you are woman disregard the last example) or even more so no woman associated the kid are present at all at the scene engaging with the hurt kill or looking at the scene (providing possible value judging of you (seems like a good father handling off-spring gone damaged) though requiring an extra effort through social intraction outside the actions regarding pressure on the wounds, calling ambulans and so on).


- Do other people call you hippie or bloody hippie?


Your answer will help the inteligens to decide if an open-source journal results is better than other article reprinted by a university but formal costs money. Your answers will help numerious other searches you will do in the future since your answers goes into the cognitive network representing you and your personality.


To give you a nice experience with good performance as well honouring the open-data ideal SSL (a data- and or math-nerd concept outside both your knowledge and attention span to grasp though you might be able to get it's tool value - making computer text even harder to read - since you are on the lover 20 - 30% but not on the lower non-functional block on the brain scale) is not used.



Prediktera nyhetshändelser från WikiNews eller Twitter: Från Open Source Indicators till Libyen

2012-12-06

Via Researchers study new ways to forecast critical societal events, Indiana University uppmärksammade jag Open Source Indicators (Intelligence Advanced Research Projects Activity, DoD).


Relaterat hos Indiana University finns ett flertal projekt inom data mining inklusive samlande av länkdata, och tidigare det fungerande och i sitt segment välgjorda systemet för att följa "luriga" Twitter-trender: Spåra Twitter-bomber och förtal på Twitter.


Vid en ytlig snabbtitt verkar OSI konceptuellt likt en hel del något så när jämförbara projekt som försöker skapa värden från data som publiceras i snabbare (i relation mot ex. traditionella nyheter som görs ofta under längre tid och publiceras av färre aktörer) takt från väldigt många individer för att få vetskap om vad som händer i världen och vad folk menar eller implicit berättar om vad de tycker och känner inför saker och ting.


Utan tvekan finns mycket värde att hämta inte minst från sociala nätverk. Inom en del uppmärksammade data mining områden ser jag dock relativt beräkningskostnad mindre värde jämfört med andra långsammare datakällor och vad man innan tror jag i allmänhet inte förväntar sig särskilt attityder till specifika mer tydligt avgränsade koncept t.ex. en produkt.


För att ta upp indikationer händelser och också förändring i en bredare mening (ev. och vad jag tror inkl. vissa former av förändring rörande vad som i förra stycket togs som exempel på svårt att mäta men då när vi har grunddata att "normalisera" kulturspråket), och se vad som sker i dom många mindre detaljerna tror jag dock att denna typ av data är mycket intressant.


Flera av dom ofta indikerade svårigheterna och utmaningen är dessutom menar jag för dessa datakällor vad man kan komma ifrån ganska enkelt bara man vågar att ärligt beräkna datakvaliteten för större Twitter populationen och därmed inte onödigt översampla stora mängder data som inte tillför värde relaterat händelser och förändringar som berör många personer.


Samtidigt tycker jag att andra datakällor som i princip aldrig dom senaste åren diskuteras i dessa områden för prediktion är potentare. Ev. är det tänkbart att jag längre fram diskuterar det med exempel men inte just nu då den sista djupare fallstudie jag gjorde antagligen vara tidigt under sommaren förra året på en äldre sämre plattform. Algoritmen där använd är brutalt långsam (även om den på nya datorn bör gå smidigare) så just denna typ av operation är inget jag gör i onödan och dess praktiska värde var då huvudsakligen att förstå en del egenskaper i kunskap samlad om relationerna mellan koncept. Försöket i sig är dock tror jag talande för vem som helst med stort intresse av denna typ av prediktion. Snarare än som normalt senare i nyhetsanalys användes ej data från de flesta större engelsk-språkliga tidningar, stora journaler m.fl. entiteter utan endast ett corpus byggt på vid tidpunkten nästan alla nyheter publicerade på WikiNews. Ingen hänsyn ordning mellan koncept utan endast deras co-occurance med direkt och indirekta relationer till andra i tid och rum ex. via feature relation expansion där deras påverkan kan mötas via koncept kanske ej direkt förekommande i någon nyhet.


Värdet det som försök kan ha väljer jag att uttrycka som att många av de världen Twitter m.m. diskuteras som potentiell indikator av och endast i någon begränsad omfattning bekräftats för i "efterhands-prediktion" kan man ta upp via en annan struktur-väg via dessa lite långsammare datakällor. Nyhetshändelser tenderar att vara besläktade. Även när de ej är uppenbart besläktade i orsak kan ändå gemensamma faktorer finnas och sådana gemensamma faktorer kan både vara indikerande utan att vara direkt kausalt-utlösande eller vara en kulturell indikation om en gemensam aktörsfaktor o.s.v.


Mycket av det värde många inom forskningsvärlden ser i Twitter för det har jag en känsla kan bero av att mycket mer ordnings-koncentrerade personer än jag är annat än programmerande eller tar på mig min mentala tyska vita labb-rock för att med atom-bombs total exakthet mäta något (och då mer inlärt än naturligt) är för Twitter med liknande givet dess förutsättningar lättare prövar vägen att ej försöka ta ut exakta meningar ej ens intressanta att propagera uppåt över populationen publicerat utan lättare direkt hamnar i att fånga övergripande mening lite luddigare men därmed också vad som går att statistkst automatiserat lättare resonera i hur det kan inverka och påverka andra inte minst minskande problemet av att alla tolkar och använder begrepp lite olika. Den möjligheten finns dock också för nyheter och i noggrannare dokumenterad fallstudie bedömt från analys på WikiNews-corpus vilket med största säkerhet är en datakälla med väldigt lågt värde jämfört med att ex. samla hela Reuters, alla större engelska tidningar eller jämförbart på en normalare nivå.


Det känns ej korrekt att indikera vad man kan förvänta sig i nyhetsprediktion då det inte minst är beroende av stödjande datastruktur för relationerna, område, hur breda eller exakta koncepten man tittar på resp. dessas antal och hur de är besläktade med varandra. Ej heller vill jag indikera en möjlighet som kanske känns förbra. Men i "någon mening" är det inte orimligt att förvänta sig prediktion av nyhetshändelser i konceptuell ämnesmening (d.v.s. ej händelser i en stad rörande bankrån på en gata eller liknande men däremot att ett ämne växer och oväntat dyker upp tillsammans med ett annat o.s.v.) cirka fem dagar (upp till) i förväg.


En kraftig begränsning praktiskt jag haft är att lösningen jag sist gjorde för analysen tenderar att bli psykotiskt efter cirka fem dagar och drar slutsatser där samband "sprids" lätt maniskt överdrivet utåt på en ej hanterbar nivå med inbillningar i form av falska samband och förstärkningar som effekt, och därav att jag ej vill sia om hur sådant här fungerar längre än så. Dock utan det problemet är det rimligt att förvänta sig att möjligheten ska finnas kvar men reduceras i exakthet eller omvänt hur allmängiltiga och breda koncepten vi kan bedöma är växer enligt något samband (troligt exponentiellt väldigt snabbt växande med gissningsvis bara rena trivialiteter jämfört med kurvskattning för ämnes-trend efter kanske 10 dagar).


Den motsatta sidan Twitter m.m. kan användas till är också från vad vi nog vanligen associerar sociala media till även lite förvånande: snarast det mer exakta. Att vi ser konton på Twitter som sensorer (starkt på väg till tekniskt buzz-word inom data mining) och söker längre ifrån vad jag ovan föreslog att nyheter är bättre till avgränsade ganska konkreta händelser: A gick till läkaren fick en vaccination vid tiden Q1, A somnade 11 ggr / dag de senaste 90 dagarna o.s.v. för att ex. ta upp indikationer om överraskande väldigt nya biverkningar (jfr narkoepilepsi skandalen som säkert inte inträffat om ansvariga myndigheter prioriterade över hälften av den tid och resurser de lägger på att förklara hur verksamhetskritiska de är för svenskarna genom att noggrant värdera risker istället för att utan relevant värdering besluta att ingen sådan värdering i det aktuella fallet behövs trots att deras egen historiska statistik indikerar att man just här behöver det alt. formalisera hur kanske inverkande samhällsekonomiska värden rörande sjukskrivning påverkar vilket i sig ej är ett problem om uttalat och strukturerat).


Här gäller istället att varje enskild händelse mer exakt behöver kunna bedömas. Att vi konvergerar till en tydlig tolkning. Dock gäller när vi samlar många att så längre vi vet hur ofta vi tar fel och att det inte är orimligt ofta behöver det inte vara särskilt svårt eller kräva enorm sampling.


Specifikt för Twitter är ju ett praktiskt problem att det är svårt att ta ut Tweets publicerade för olika tidsperioder och indelningar. Enklast praktiskt upplevde jag själv att det var att gå numeriskt bakåt och titta på hastigheten antalet Tweet för en samplings-period publiceras men vilket vid tidpunkten jag skrev koden också hanterade en del andra Twitter-problem som kan störa datat.


Möjligen av intresse för en del läsare givet att vi också hade Libyen som en liten fallstudie vars frihetskrig vi följde och kommenterade här finns en hel del Twitter samplest tror jag från perioden innan revolten bröt ut. Kanske intressant för någon road av att försöka se sådana händelser då det ej är otroligt att det sample som söktes ut är lite intressant runt det och för Twitter ibland bökigt att återskapa i efterhand som nu längre bak i tiden och som sådant ev. också som ett enklare exempel för vad diskuterat runt nyhetsanalys och dessutom känns det lugnare att ge data från sådant här givet att det både mindre värde och väsentligt lägre komplexitet. Formatet på datat förklarar sig själv. Vid denna tid hade jag ännu ej standardiserat på tab-separerade CSV vilket gör datat enklare att läsa också som människa. Statistik m.m. samlat från fallstudier jag ej använder tenderar att vara "sorterat" i flera samlingar av underkataloger inte helt lätt alla gånger att hitta fram till vad man söker men jag tror att detta blev rätt Twitter-data (särskilt som jag tror att endast tre Twitter-Libya Corpus finns i "arkiven"): libya.tar.gz (via Google Docs).