HANS HUSMAN OM MEDIA

Visar inlägg med etikett LSA. Visa alla inlägg

LDA och LSA med Noise-Kohonen: Samt buffer-overflow-outing Ubuntu's CM för 32- vs 64-bitars kompilering

2017-03-25

Efter att det blev av att betrakta närmare PCA - Kohonen jämförelsen - att se Kohonen som en mot en stream men i övrigt kanske onödigt tidskrävande variant av PCA om man egentligen vill göra det - fick jag min anpassning av Kohonen (som jag alltid gör linjär - endimensionell, och numera med 300 double per tillstånd längs linjen - att göra intressantare något som otvetydigt kan konvergera och normalt gör så mot LDA resp. mindre intressant p.s.s. som jag tycker PSA kopplingen är det LSA).

Intressantare och antar jag trivialare för något som arbetar fel kring sådant här. Och med fel menar jag att tänka sig att man i metodik börjar med att sitta och härleda något runt matematiska relationer som när implementerade är triviala, snarare än att börja med att för enkla ekvationer testa igenom alla uppenbara varianter av dem som inte gör beräkningarna relevant mer komplexa. Så slipper man fundera över varför en av de mest effektiva composition operatorerna för semantiska vektorer ej mer beräknings-komplex än egentligen addition och multiplikation tillsammans ej berörs i publicerat om det nu inte är därför att p.s.s. sätt varför den blir blandningen av linjärt och icke-linjärt så lär den vara direkt smärtsamt svår att bevisa samband för eller rörande icke-bevisad konvergens referera till alla tusen artiklar refererande detta för Kohonen allmänt (för jämförelse snarare än just relevant composition oftast) är att jag ändrat default formen för min tidigare Kohonen-anpassning.

I princip för exempel betraktande min 300-WW variant d.v.s. ord vektorerna vilka är cirka 300 000 st (medan 300-CC och 300-FF över flergram är ett antal miljoner) för ord i indata och tänkande oss att vi tränar något där vi önskar antingen konvergens för tillstånd mot tematiska cluster eller POS. För de senare är min erfarenhet för mina 300-WW (minns ej hur det var i mina 400 stokastiska LSA vektorer de gjordes av) att få konvergens mot POS är en fråga om förhållandet mellan L1 och L2 (med 300-WW dim. reducerade via min Kohonen från 400 dim LSA i sista steget klara görande en kvadrat på varje sim värde mot resp. tillstånd och därefter L2-normerande dem, och ej betraktande normal skew för allt neuralt eller gradient som vad jag behöver hantera saknande annat än undantagsvis negativa värden med rymden efter kvadrat ungefär med medelvärde SIM på 0.5, konkret görande just kvadrat som jag senare fick gå tillbaka att verifiera eftersom det slog mig att kvadrat istället för X * abs (X) kanske inte är helt bra för värden fördelade möjligt [-1,1]) utnyttjar jag noise.

Se det så här. Clustrande eller dimensions-reducerande med Kohonen accepterar vi givet med problemet en ökad mängd smoothing / inexakthet eller hur vi vill se det. Vi får en centralitet utryckande ex. ett ämne allmänt potentiellt istället för en mängd enskilda vektorer. Lite som att se det som att vi skär en mängd decimaler. Med mina 300-vektorer gjorda Kohonen är varje dimension meningsfull att betrakta för människa. Och för något där som också var en vinnare (emedan jag för 300 dimensionerna färdiga ej hanterar vinnare annorlunda - bara likheten mellan 400 tillstånd concept och 400 tillstånd utnyttjas) inser vi att det samlade similarity värdet kan ta en försvarlig mängd slumpmässighet upp eller ner i relativ mening mot det absoluta värdet (så mycket som 10% gör relevant skillnad för vem som vinner bara för en mindre andel när vi är nära i tid - säg sista 20% av tiden d.v.s. för 300-WW cirka 2 veckor men absolut att det går att göra snabbare men jag hade 10 - 20 liknande processer som gick).

Men det är ej noise på sim jag arbetat med utan noise på hur tillståndsvektorn flyttas. Men jag vill gärna se detta jämförbart. Vi har ett utrymme runt resp. troligt korrekt tilldelad vektor som normalt oftast också är en korrekt tilldelning. Genom att addera in noise som slumpmässigt hamnar någonstans i detta utrymme täcker vi också in detta.

Säg att jag utnyttjat detta när jag gjorde mina 300-WW. Jag har cirka 300 - 400 000 400-dimensionella vektorer in och gör ungefär lika många 300-WW. Varje ord (samt en hel del URL:er också för den delen samt säg 50 - 100 000 flergram faktiskt skapat med bindestreck då jag tyckte det var lika bra praktiska skapande topics samt härledande konstanter för composition som jag trodde ev. behövdes) som finns i denna värd är en vektor så vad skulle värdet vara? Värdet är att blandningar av ord uttryckande ex. en nyhet eller ett ämne blir bättre. Det existerar en oerhörd mängd vektorer som ej är existerande ord som kommer förekomma praktiskt.

Två idéer förklarande värdet (lämnande att hindra överträning vilket ej varit en fråga för mig förrän nyligen) jag reflekterat men ej metod-defekt begått misstaget att sitta och matematisera är att:

1. För 300-WW kan vi tänka oss att ett cluster väsentligt kortare än 300 dimensioner - säg 30 - 60 eller mindre - utnyttjar i huvudsak 1 - 10 st. 300-dimensioner styrande ett tema. D.v.s. variationer på lågt värderade dimensioner kan existera. Kanske är dessa uttryckande en hel del likhet för ett ej helt litet antal i praktiken påverkande en del ej rörande mängden vinnare men när vi ställer den färdiga dimensionen relativt alla vektorer som i verkligheten kommer in inkluderande också kombinationer av många ord. Med noise kommer dessa i absolutvärde små dimensioner ej inverka om noise är ej helt litet jämfört med säg för varje vektor minsta värde.

2. Enligt som diskuterat tidigare att en stor yta / sträcka ut från de flesta sim-värden finns också samma dimension oavsett om just varje värde existerar för ett ord gäller att höga värden snarare är sällsynta exempel på vektorer som kan förekomma praktiskt vilka också är ord.

Om jag adderar noise för en position på vektorn i Perl med:

( rand ( 0 ) - rand ( 0 ) )

Inser man att Ubuntu's configuration management igen är helt defunct och rörande ett ämne (separera 32-bitar och 64-bitar kompilering) som till sin natur pratar buffer overflow nära nog var helst. Men praktiskt är ungefär för mig den yttersta gränsen om tränings-konstant är låg och vi är nära klara som kan accepteras (64-bitars Linux - Perl från Ubuntu apt-get utan tvivel då definition av rand är upp till argument som största värde kompilerat felaktigt: Kontrollerande Perl manual har de noterat risken här för rand men har troligt fattat det hela delvis felaktigt. Säkerhetsriskerna är dock primärt i mängd ej lokaliserat Perl då det demonstrerar att Ubuntu CM är defunct bortom all rimlighet om ansträngande sig ens litet och begripande något lite i grunderna i minne och vad det har att göra med kompilering: Jag menar varför inte kompilera allt 32-bitar och därefter kompilera om allt 64-bitar som ej gick att starta på en 64-bitars Linux? Jag hade ej gjort så normalt även om jag kanske ej ids kompilera om eller ladda ner rätt Perl på debug-datorn men är du dum i huvudet, okunnig gör du kanske så eller om mot all förmodan ej aktuellt Ubuntu är något Ubuntish annnat).

Men oavsett 0 som argument är formen för noise det jag använder. För att fånga tänkbart värde 2. i mitt resonemang förklarande värde från experiment utnyttjar jag varje position för indata-vektorn värde som övre-gräns. Vidare utnyttjar jag det minsta värdet över hela vektorn. Samt i flera varianter kvadraten av varje absolut-värde. Ett polynom antar jag att en matematiker skulle uppleva att det blir men praktiskt snarare tre olika lösningar som söker addera tre olika värden som tänkbart har betydelse.

Praktiskt resultat i särklass tydligast är:

Från träning cirka 30 - 50 000 ord fördelade 60 dimensioner.
Gäller nära klart att för höga similarity värden mot resp. tillstånd för alla 300 - 350 000 ord som har vektorer.
Att oavsett om resp. sådant ord är vinnare under träningen eller ens existerande bland träningsdatat är det vad man upplevt naturligt hör dit om tilldelad vinnare för tillståndet beräknande för alla ord. Samma fenomen märks när vi tilldelar värdet sim oavsett vinnare eller inte men cirka 0.05 - 0.10 i off-set similarity ovanför att vi ser några underliga (för mig typiskt off-set html-taggar, forum-talspråk, nummer och liknade vilka ej förekom alls i träningen).

Medan frågan om avvägning bias / förmåga att inkludera korrekt / antal felaktigt tilldelade först börjar bli något som existerar som fråga nedanför (säg riktigare alla dim. 0.35 +/- 0.05 - vid 0.40 finns inga för någon dimension jag sett) men tveklöst similarity av 0.35 - 0.40, med genomsnitt alla vinnare. Skillnaden är värde är enorm.

Men värdet är ej unikt för denna metod. Om jag tränat 50 000 st. lika mycket utan detta hade jag fått något jämförbart i ej felaktigt höga. Och också om överträning och andra ej helt olika problem relaterade ex. om ej Kohonen utan vanlig vektor-kvantifiering den negativa termen när felaktigt tilldelat under träningen är väsentligt svårare att hamna i för Kohonen hade vi dock (och jag har prövat just för detta exempel) haft brutala värde-reduktioner p.g.a. just sådant här d.v.s. en mängd (tiotusentals) ord-koncept som korrekt borde vara höga för en dimension som ligger lågt - och detta oavsett om körande Kohonen-anpassningen utan grannskap eller vektor-kvantifiering med cirka 20 - 30 000 av träningsdatat med cirka 10 000 tveklöst felaktiga.

Typ exempel på hur värdefulla metoder man praktiskt har nytta av ser ut: Snabba, ej adderande komplexitet kod och allt jämförbart. Men där värdet jag avser ej har med dom värdena att göra. Utan dessa värden är mer typiska kännetecken för vad som ger stora värden typiskt i övrigt.

I övrigt betraktande exempel variationer av Kohonen publicerande kännetecknas dessa av att författarna haft svårt för att Kohonen ej är vektor-kvantifering och försökt göra en variant av Kohonen som fungerar som vektor-kvantifiering. Delvis antagligen därför att de känner sig tvungna om publicerande något alls att behöva härleda diverse vilket de upplever svårt om ej klart från start som för vektor-kvantifiering.

Jag vill dock föreslå - oavsett att en del upplevt att de bevisat att det ej är så - att det går att bevisa att Kohonen kan konvergera. Nu är jag direkt värdelöst på hela området matematiska bevis och har egentligen ej varit i kulturen alls sedan teknisk fysik. Men jag fick för mig att jag gjorde det anpassande konceptet för något helt annat. I någon mening kan vi (kanske: vi använder troligen kanske och i någon mening fortsatt lite överallt) se Kohonen som Markov-processer. Vi vet ju också att ibland kan vi bevisa något om vi kan visa det för n resp. n + 1, eller något liknande. Vändande på tilldelnings-ordningen via Bayes sats (n kontra n+1), uttryckande det som Markov-process, och därefter visande konvergens för n och n + 1, och därefter räknande tillbaka visa Bayes-sats har vi förutom att ev. / något jag trodde att jag kanske gjorde då visat konvergensen har vi kod-logiken för vad jag gjorde anpassningen för. Svårt för mig givet tid att säga säkert eftersom jag vet att det som jag parametriserar för 300-WW/CC/FF att det alltid konvergerar. Jag lär ju ej sitta och göra samma sak för algoritmer där något praktiskt kan visa mig felaktig eftersom jag ej känner till några jag behöver där frågan är öppen teoretisk.

Hur som helst får vi samma utökade värde görande LDA med Kohonen-anpassningen med noise. Här gäller dock att man / jag tveklöst kommer få mycket större värde genom att generera noise följande statistiska distributioner från språket i nyheterna.

QED. Eller hur det ibland känns som något fint för läsarnas utveckling att visa vem som är the Big Dog (så kan andra med ibland framtränande osäker självbild se hur man korrigerar upp det). Och för att understryka det lite extra - och kanske för framtiden stimulera NSA eller liknande som tänkbara kunder systemet genom att peka på hur bonus-give-a-ways ser ut: Förutom att jag nu publicerat OpenSSL defekterna redan för år sedan - outing Ubuntu.

Noise, noise, noise. == Information, information, information. Även när perfekt slumpmässigt strikt lika med mer korrekt information samlad i resultatet. Här i alla fall.

PS. PSA får mig alltid att tänka på Nobelpriset (i Kemi tror jag). 1993 - 1994 kanske? Förkortningen är troligen lite fel dock. Vad vi ex. använder för att få fler exemplar av ett stycke DNA-information. Var och lyssnande på dem föreläsande om det i Uppsala minns jag.

Vektorer för n-gram, entiteter och fraser skapade ad-hoc från vektorer ord

2016-09-04

Tidigare publicerat:

kan upplevas skilja ut sig som lite högre värde att läsa än genomsnitt just för den aktuella frågan:

För översikt över området composition sista åren läser vi mest effektivt just Baroni. Frågan är emellertid om inte själva den tillämpningsdomän som ligger kanske närmast till uppenbar gör att man hamnar i fel utgångspunkt till problemet.

Istället för att fråga sig vilken till metod ej redan jämförbar som finns och hur man tränar eller i detalj annan väg skapar den praktisk kanske man kan se fler möjligheter genom att reflektera hur man kombinerar bäst för att optimera mängden information man arbetar upp från text samlat analyserat över tiden:

Propagerar och samlar upp värdet ex. frasen som sig bidrar med i form av information.
Propagerar värdet av vektor-representationen - kanske en av flera där man egentlig mening propagerar resp. av dessa också - och gärna när kombinerat föregående hjälper dem att uttrycka ut mer av sin information bättre. De tenderar för alla vanliga metoder ha mer värde än normalt praktiskt kommer ut. Om än kanske inte på nivå - eller ens i närheten med - själva bitlängden av av de 399 - 1299 32 eller tror jag säkert ofta 64-bitars flyttal har: 2^(1200 * 64) men för lite perspektiv på vad mer än själva positionen som ryms.

1. Utnyttjandet av endast ett ord ger oss om ingenting mer frekvensen som funktion av tiden och kontext. Praktiskt nog får jag säga att om vår vektor-representationen orden är skapad som typiskt LSA görs och vi i upparbetning skapar upp nya vektorer så att säga (jfr SOM) ger det indirekt högre prioritet på det språk som intresserar oss med mindre prioritet på udda ord vilka ofta tycks för mig både på egen och andras gjorda så här över-värderas. Ty själva tiden arbete på ordets representation oavsett att mer data tillförts ökar. Emedan vanliga men för oss intet-sägande ord tydliggörs allt mer som varande just detta.

2. För en noun-fras sig en entitet på ett eller flera ord även om vi ej antar hantering ordning (ex. som för ngram-modeller utifrån position eller kontext av föregående ord eller mer esoteriskt / nytt via någon av de metoder med utgångspunkt extrahering och komprimering / dim-red. till vektorer som finns) resp. ord givet omedelbart kontext av entitet som n-gram med övriga ord i denna.

3. För relationer mer i mer mening av ontologi / thesaurus eller i dokument från koncept ex. i titel undersida till upparbetat eller skapat kontext från huvudtitel + abstract + taggar (och / eller vanligare men upplever jag för välkända journaler adderande värde men ej lika bra som informationsbehandling titel och abstrakt - dock bättre numera för de flesta journaler avseende taggar) just relationen koncept-2 givet / inom / samtidigt koncept-1

4- Mer konkret relaterat Baroni's ett adjektiv verkande på ett noun kanske vi här frågar oss hur vi tar information effektivt från mest verkningsfulla adjektiv för att samla och bearbeta till vetskap om resp. adjektiv. Vilket kanske visar på andra möjligheter möjligen mer effektiva. Jag har här varit mindre engagerad givet att jag tidigt konstaterade att jag kan använda EMI som viktning av ord (där adjektiv tenderar att mindre ofta ha datakvalitet EMI sämre än en god bit ovanför genomsnittet alla ord, och får erkänna att jag i denna punkt snarare tar befintlig metod ej utnyttjande dessa vektor-representationer som exempel. Viktning emotionell intensitet eller jämförbart mått konceptuellt föga relaterat approximationen av position i det semantiskt illustrerande rummet är också relaterat diskussionen om olika typer av distanser i Ett alternativt förhållande relaterat distans mellan vektorer eller det multi-modala i bild tillsammans med ord (där jag nog tror att vi åren som kommer blir trygga i att vi alltid har en gemensam representation aktiverad där emellertid nivån av bidrag från kärna visuellt eller motsvarande som bara läsande ordet samtidigt kan variera från hur vi tar in konceptet: ex. bild eller ord, såväl som koncept - görande ex. inte bara en bild samtidigt relevant förstärkande utan även ett mer illustrativt visuellt text-språk förstärkande upplevelse såväl som att förståelse bild resp. ord kan störas av dålig information i resp.): Multimodal Distributional Semantics. För resp. ord gäller ju oavsett semantiska vektorer att arketypisk riktnings-mening denna verkar på styrande tolkning mening i övrigt finns: More indikerar mer av mer medan less ligger i motsatt riktning. Viss semantisk interferens är nu emellertid fallet för många adjektiv ej lika "rena" i hur de bidrar till mening som more och less: Kallande nu något känt rött eller något rött i en bild som green:ish kan inducera störande interferens eller alt. vara fullt naturligt om givet kontext över resp. är grön-politik: D.v.s. vi kan även här se en riktning som kan gå positivt eller negativt / Upp eller ner / Mer eller mindre.

Detta besvarar väl i och för sig inte hur man bäst kombinerar ord till ex. noun-fraser eller entiteter. Men jag upplevde att själva processen som sådan rangordnade flera metoder jag prövade.

En till kommentar allmänt för vad jag läst i domänen är att jag tror man ej fullt ser skillnaden i effektens utsträckning mellan de två enklaste operatorerna för kombination: Elementvis addition resp. multiplikation.

Resp. ensam (och oavsett vad som ofta sägs är de var för sig ensamma vad som kräver mer vid sidan om ex. kontext-beroende vikter, kombinationer av olika slag eller något, om ej prestera mycket sämre än vad som är möjligt med den information som konkret finns i vektorerna skapade med de vanligaste systemen: Många jämförelser är uppenbart defunct här) kan man först reflektera och pröva att generera sorterat de mest lika ordvektorerna till de kombinerande vektorerna.

Vilket ger mest relevant additionen möjlighet att grovt kvantifiera utan att behöva ge sig in i direkt ockult matematik varje hederlig kristen man ej ska behöva resp. som förstärks från uppenbar elementvis likhet ( två stora i genomsnitt / L2-normaliserat blir stort ) resp. "hastigheten" över kombinationer av att man smetar ut och medelvärdesbildar meningen till vad när det första ej bra räcker till gör det svårare att se skillnaden i mening.

Klustrar vi förövrigt resp. för entiteter flergram är jag inte främmande för att man tidigare och enklare upplever additionen mer naturlig. Men det tycks också som vi kan beroende på hur vi hanterar multiplikationens parametrar via ex. power kan få ut fler även om de gärna naturligt kommer tendera att bli de smalare eller något av det minsta gemensamma troligare (säg lite överdrivet för flera metoder att skapa vektorerna vi arbetar med: Men om vi säg har också feedback tillbaka från långt borta andra sidan via ex. folding där utsmetning redan sker kanske en bra sak???).

En fråga relaterat själva riktningen föreligger också betraktat elementvis. Egentligen borde jag kanske bäst avstå från resonemanget här. Mycket möjligt att jag tänker fel där flera andra saker inverkar när testar praktiskt. Men säg att vi nu har vektorerna ortogonala över resp. position vektorerna i mening av att man faktiskt effektivt där har en motsvarighet i reducerad korrelation mellan dem (konceptet att de är icke korrelerade stämmer emellertid inte i någon tillämpad mening på NLP: Tvärtom kvantiserbar redan flergram-s entiteter kanske ej orelaterat här). Men detta har nu skett givet antagande och operationer på indatat medan vad vi opererar på tenderar att skilja ut sig. PMI är ej en dålig operation skapande vektorer - eller för den delen andra definitioner av mutual information: Troligen är de alla ungefär det samma - eller för den delen mått som inverse document frequence som vikt skapande vektor-representationer av dokument-fragment (jfr discourse-förändring) upp till hela dokument eller större (jfr information retrieval). Enskilt element utan absolut-belopp mellan säg 0.2 och -0.1 en position får vi position riktning medan vi för multiplikationen hamnar negativt. Differensen till det 0 som när över alla jag ej tryggt ser om man borde praktiskt hantera som definierat konkret 0 eller se odefinierat är ej den samma:

1. Söker vi generera ut närmaste ord-vektorer snarare än vektorer av kombinationer jämförbara i typ (det senare är kritiskt just för multiplikation eftersom magnituden förändras radikalt för varje multiplikation redan elementvis medan det fungerar hyggligt för resp. jämförelser flergram till ord eller ord till flergram representationer: Skapar vi ex. upp representationer från flergram över något ämne får vi om t.ex. topologiskt sorterade SOM ett uttryck av ordets förekomst över de flergram som påverkat skapat av resp. dimensions typiskt närmaste koncept som godtyckliga entiteter och flergram: Jfr mutual i mutual information som påverkat en dimension uttryckande information science såväl som några runt ekonomi via sådant som mutual trust. Men som sagt ej riktigt bra) får vi ta ner magnituden till samma som för orden. Den metod uppenbar för mig för detta (osäker om best practise) är via kombination två ord kvadratroten eller egentligen en konstant a som är något mindre än 0.5 (försöks beräkning av default a för alla kombinationer utan hänsyn resp. ord gav 0.4: Från inlärning av hantering två-gram redan skapande vektorerna vs. skapade ord. Nivån torde motsvara förlusten information via operationerna i worst-case punkterna givet att jag ej vid träningen värderade orden från förekomst globalt corpus utan allt värderades lika). Sign lyfter vi ut så att säga: Sign * ( abs ( x(i) * y (i) )^a ).

2. P.s.s. sätt - eller lite jämförbart i koncept snarare - som att vi i en språkmodell kan skatta sannolikheten av ord A givet ord B med P(A) * P(B) (approximerar P ( A | B ) hanterande dem som oberoende d.v.s. lekande att allt verkligt i språket om sambanden mellan orden ej finns: Allt är en apa som pekar på banan och ev. samband mellan sådant är mätbart bara i så fall flera peka på banan efter varandra) gäller att representation A multiplicerat över vektorn med B vid generering närmast ord-vektorer (givet magnitud hanterat) approximerar de närmaste för två-grammet skapat direkt till vektor-representation (om också korrekt viktade via a eller något specifikt).

3. Medan additionen normaliserar approximerar den gemensamma mängden närmaste koncept genererade följande viktningen av resp. ord och resp. ords uttryck i varje dimension.

Är dimensionerna - positionerna resp. vektor för resp. ord - meningsfulla som för mig kan man också se en del skillnader genom att skära dimensioner / mening man ej är intresserad av. Är vi ej intresserade av mening relaterat länder vi opererar på som har att göra med personer, sociologi m.m. använder vi dem ej - och om vi är relativt mer intresserade av mening relaterat filmindustri resp. litteratur värderar vi upp dem. En ökad förlust i diskriminerbarhet för just särskilt fågram eller ord, och helst då mycket allmänna koncept så som ord med många meningar eller samband blir fallet växande snabbare tycks för mig (men ej noggrant kontrollerat) vid multiplikationen medan vi för additionen kan särskilt när båda är hyggligt breda starta lite grovare men ibland vinna utan särskilt utvalt för orden när vi smalnar av saker. Detta kan dock varierar ordentligt och är också svårt att se eftersom vi redan i ett fåtal dimensioner har ordentligt med information.

Accepterar vi konceptet av representation av koncept från koncept de är relaterade via - ofta i dessa sammanhang från orden i deras närhet corps - kan vi för resp. genererade närmaste förekommande till orden såväl begränsa värden genom att för topp N tro att de gemensamma eller snarare om ej N är litet värderade i kombinationen (rank eller likhet kanske) se dessa som beskrivande det gemensamma konceptet. Vilket absolut inte är dåligt på något sätt. Eller ta konsekvensen av att vi redan där är i en dyr metod vi normalt ej vill göra utan gör något särskilt viktigt och generera resp. ord från genereringen och utifrån lämplig värdering från resp. A och B först till resp. först genererade ord vidare till de från dessa genererade orden värdera de sista. P ( ord typ sist genererat | ord som genererade tillsammans med något kontext kanske bara alla ord eller något som kom med A och B).

Gör vi nu detta för en kombination likt A och B högst verklig och gärna mer än ett tre-gram (ty när orden är fyra eller fler i specialistområden är de väldigt talande med få "noise-problem"). Och är trygg i hur vi exakt gör en generering som ovan. Är det en till väg att resonera och jämföra kombinerande operationer för composition. Genererar de bättre eller sämre från kombinationen? Praktiskt är det kanske enklare när man fortfarande väljer operation om man kan utnyttja vektorerna för orden (men jag tror att det kanske begränsar lite men det är möjligt att sätt att kombinera jag ej fick över enkelt så kanske lätt hittas av någon annan: Jag hade mindre av vetskap algebra återupplivad här och såg därför kritiskt värde av att kunna göra praktiska kontroller verifierande att jag begrep koncepten tillräckligt rätt):

Jag har här ska sägas noterat att för konceptet första lagret jämförbara om än ej exakt det samma (snarare klassificering) sett att man sätter andra kombinerande metoder klassificering som övre gräns men verkligen att man där resonerar felaktigt i beviset för det (genom att tänka sig om jag minns rätt nu att vi ska ta de närmaste grannarna från en fixt-punkt d.v.s. accepterande hela problemet med centroider som gör dem så begränsade medan vi snarare här tar det antal punkter som beskriver flexibelt och när att välja mellan finns godtyckligt beskrivande vad som perfekt särskiljer ex. två ytor: Precisionen hårdvaran resp. antal koncept i rymden begränsar och inget i övrigt givet oändlig beräkningstid per fysisk tid).

Vidare rörande viktning ord i koncept kan sägas att vi givetvis kan göra något motsvarande IDF men användande koncepten om en stor mängd är kända istället för dokumenten. Emellertid räcker sambanden från NGRAM-modeller i språkmodeller parsning eller ljud till text m.m. utmärkt med eller utan sådana metoder (lite vilket som beroende på hur man vill göra det). Oavsett med eller utan gäller att samlar vi upp information från förekomsterna löpande eller för träning får vi för ev. representation som fritt får påverkas av ord, två-gram o.s.v. så länge meningsfulla koncept, entiteter, fraser eller motsvarande ett naturligt mått av hur semantiskt ordet eller flergrammet är i mening av resulterande "rymd": Denna tenderar att praktiskt ha stora likheter med IDF i magnituden / vektorlängden / amplituden på vågen eller hur vi gör / ser på det avseende likheten mellan vektorn vi börjar med och representationen vi slutar med eller har upparbetat vid punkten. Flergram tenderar under förutsättning någon addition sker med eller utan multiplikation (just nu men kan komma att ändra det kombinerar jag med båda men multiplicerar aldrig fler än två ord i resp. som istället efter övriga operationer mellan summeras). MI-liknande relationer av typen värdera förekomsten av konceptet (d.v.s. det enskilda ordet förekommande just i konceptet ex. mutual i mutual information och / eller mer påkostat läggande något mer till förutom orden som ett övergripande kontext eller för sense) d.v.w. någon variant typiskt av P (konceptet) / P(ordet) fungerar också väl särskilt för ord med operator-liknande funktion som in, of m.m. (medan konceptet av stopp-listning känns oerhört slösaktigt med den information som faktiskt finns i resp. ordvektor skapad med typiska metoder oavsett hur svår den är att få fram bra utan att tappa beräkningseffektiviteten dimensionsreduktionen gav) - för längre koncept kanske snarast först per resp. mest arketypiskt förekommande koncept d.v.s. för mig mest aktuellt för Wikipedia-kategorier (jfr People from Sweden working [...] in movie industry borned 1987 för att hitta på en illustrerande principen).

Att se IDF som en vikt indikerande hur semantiskt tydligt ett ord är i en värld motsvarande att vi för mängden koncept aktuella totalt tränar upp en representation där alla koncept är lika sannolika stämmer praktiskt väl med vad det senare ger i amplitud.

Slutligen rörande såväl upparbetning information som potentiella problem compositioner gäller att vektor-representationer skapade såväl via algoritmer i domän neuronnät som LSA m.fl. (alla vanliga) tenderar att ha säkerhetsdefekter skapade från defekter i hantering corpus:

Smoothing som del av algoritmerna tycks lura sig för samtliga när mindre information finns för något men där informationen som finns är mycket bearbetbar i effekt den omedelbart ger (eller hur man ska uttrycka det utan att behöva sitta med resp. algoritm här och följa exempel på effekt vilket jag ej gjort för mer än en av det oavsett konstaterat det för färdiga representationer som Word2Vec, Stanfords-algoritm, ett par ev. tre varianter bag-of-word, LSA m.fl.). Upparbetning från tar dock väldigt snabbt potentiellt bort problematiken: Jag kan fortfarande se problem-koncepten komma upp som liggande högst på vissa indikations-värden så som (om jag nu minns rätt på vilken mest så) summan av sitt resp. per dimension bidrag till variansen ( (x(i) - medelvärdet av x )**2 / ( summan av det samma för alla x ) ) före (ej kontrollerat efteråt än för någon men konstaterat ej visande jämförbart som vektor-indata vid generering närmaste grannar kommande för högt) innan medelvärde subtraherats följt av division av varians resp. dim (där resp. är redan innan mycket jämförbar med varandra magnitud) och slutligen softmax där softmax gjordes just relaterat detta som extra säkerhetsåtgärd mot udda svamp-arter knappt förekommande text förutom enstaka Wikipedia-listningar, samt vissa gambling-koncept (och jag kan tillräckligt från SEO-domänen ej bara från dataanalysen för att kunna känna lite men utan att klara sätta fingret riktigt på vad jag ser det från vem vi har i ett par av dem för en LSA-representation).

Utan detta eller något annat kan dessa koncept när man har vetskap om dem existerande och systematiskt sökt var de visar sig irrationellt starka defekt användas mycket praktiskt förstörande data. D.v.s. vid säg dataanalys ej med en existerande angripare eller om man är en sökmotor användande resp. LSA och Word2Vec samt ontologiska relationer mellan koncept (lite som Wordnet) ge defekta sökresultat kommande högt utan att ha ex. gambling-koncept (dock ej av mig konstaterat testande här då jag var mer intresserad av att hantera problemen med Wikipedia koncept då det är en så stark datakälla för all överskådlig framtid) utan att ha något sådant koncept alls. Det senare kanske kan utlösa kontroll i sig eller tas automatiskt men det omvända gäller självklart också. Mest typiskt för SEO-skapade satellit-länk-sajter relaterade hasardspel är att de innehåller just ord som casio, gambling eller liknande: Att betvivla någon manuellt oavsett effekt donerande vidare att de någonsin blir manuellt kontrollerade utan det.

Också konstaterat vektor-representation skapat för först länkad artikel (vilken jag tror för de flesta är ett något lite - alla är egentligen på det stora hela samma om seriöst gjorda - oavsett av vem eller metod: Skillnaden upplever jag i den praktiska användningen är mindre än ibland indikerat i studier - Det är som inte värde på den nivån som betyder så mycket jämfört med algoritmerna där det används om ej kanske något helt trivialt som en enkel information retrieval algoritm eller liknande med rena standardlösningar utan behov ambition över det: Och kanske ofta inte ens där så det ex. klarar som värde översätta skillnad sökresultat någon märker kvalitetsskillnad av). Word2vec tror jag också ej är den bästa spontant att välja. Stanfords Glove minns jag att jag prövade och upplevde bra default (även om jag ej använde den länge alls så hade jag kanske gjort det om ej hårddisk-systemet där jag hade den avmonterades av mig och ej var aktuellt bara för den att ta upp igen). Vilka ord inkluderade om behov i specialistområde eller språk finns är av betydelse. Gällande Stanford tycker jag att de kan rekommenderas också därför att jag över åren sett att de seriöst långsiktigt hanterat sina lite tyngre programvaror eller data-koncept delade:

nlp.stanford.edu/projects/glove/

Jag bedömer förövrigt att 300 dimensioner ger en ganska stabil resistens mot problematiken säkerhetsdefekterna jfr säg 400, 500 eller stör.

LSA's kulturhistoria i sociologi från mitten av 1900-talet ger hippies bättre sökresultat

2013-09-15

Lite onödigt kanske är att lingvistiker med besläktade subkulturer gärna när de som så vanligt diskuterar LSA alltid 100% glömmande algoritmens längre användningshistoria (jag har fått för mig att de tror att den alltid använts - kanske bara kan användas som normalt där) där tidigt tillämpat särskilt inom sociologin. Den egentligen ofta ganska dåliga delen av att minimera över saker vi räknat antal av för att minimera distanser i okända rum liksom användande kostsamma SVD är ju direkt arv därifrån medan man för språkområdet med dess tillgång till gigantiska corpus presenterande billiga möjligheter jämfört med att göra studier på grupper av personer ger möjlighet till en mängd antagligen när genomtänkt snabbare och/eller bättre alternativ beroende av vad man söker.

För sökområdet som ju dessutom ger möjlighet till nära interaktion med mänskliga sökenheter som kommer för att hitta något kan vi rent av samla på oss träningsdata genom att av och till ställa frågor till resp. människa. Genom att motivera värdet det ger för sökresultat såväl som att undeerstryka att de ej behöver svara på åtminstone samma fråga flera gånger eftersom det därefterlagras i intelligensens skattningen av vad personen är i kunskap, kulturell bakgrund, politiska åsikter, preferenser rörande varor o.s.v. interaktions-effektivt byggande steg för steg över tiden bör det oftast närmast vara en glädje för resp. sökare att känna delaktighet i att skapa bättre sökresultat.

Vi har ett exempel på fråga där vi noggrant indikerar exempel på uttryck hos personens personlighet i handlande som gör att de ska räknas till aktuellt koncept. Notera att värdet av detta tydligt understryks.

- Did you smoke cannabis or other less potent in reward learning but affecting your perception making the world look incorrect further from human concurrent driven innovation or business ("eaten or be eaten") such as LSD, fool tasting natural drugs (ibogain, peyote, mushrooms containing psilocybin)? Also if you feel alcohol is "wrong" because it makes you brag or express heighten motivation expressed to the pack through language creating pack-value by filtering out lesser men (or rare rural and/or man-women) not being able to take words of heighten motivation into reality. Perhaps feeling it "disturbs" something called "ego".

- Do you tend to dress in safe private environemnts with cloth you made yourself including some sort of figure painted or pressed onto it (normally with the belief it is as good or even more often soehow better compared to desent cloth). If man do you feel natural if previous during the day wearing proper cloth to dress-down during the evening?

- If on vacation outside civilized society in nature would you pick herbs by name and believe they want hur you - perhaps even eaten such herb (only regards herbs while killing an animal to eat or for fun no would be the right answer here even if picking a few herbs to spice it up with)?

- Do you play an instrument for fun with out pay or other rational rewards or rewards given in the street or paint while being an economical failure in the area?

- If a kid bleeds in the street not life threatning or with obvious long term damage without assistance would you be as motivated helping it even if it's mother do a wedding ring or do not seem like prime-genetics (if you are woman disregard the last example) or even more so no woman associated the kid are present at all at the scene engaging with the hurt kill or looking at the scene (providing possible value judging of you (seems like a good father handling off-spring gone damaged) though requiring an extra effort through social intraction outside the actions regarding pressure on the wounds, calling ambulans and so on).

- Do other people call you hippie or bloody hippie?

Your answer will help the inteligens to decide if an open-source journal results is better than other article reprinted by a university but formal costs money. Your answers will help numerious other searches you will do in the future since your answers goes into the cognitive network representing you and your personality.

To give you a nice experience with good performance as well honouring the open-data ideal SSL (a data- and or math-nerd concept outside both your knowledge and attention span to grasp though you might be able to get it's tool value - making computer text even harder to read - since you are on the lover 20 - 30% but not on the lower non-functional block on the brain scale) is not used.

Introduction to Information Retrievel

2013-09-13

Jag upplevde ett behov av en referensbok som sammanfattade dom vanliga mer grundläggande algoritmerna i segmentet och inhandlade Introduction to Information Retrievel. Just för det syftet var den utmärkt.

För andra syften finns ett par tre grupper av problem värda att peka på.

Precis som när jag diskuterade Microsoft i kontext av Bing! med dess stillstående serp-kvalitet gäller att man både i aktuell bok och där gör saker by the book men helt så vitt man kan konstatera saknar en samlad teori för vad som egentligen händer när folk skriver, när folk söker o.s.v.

Ett ex. är att man i förbegående konstaterar att första raden kanske är något som kan valideras högre relaterat "nyheter" med åtminstone en referens till det. Tradition gör att pressmeddelanden skrivs utan underrubriker och att pressmeddelandets första huvudrubrik när pressmeddelandet säljs vidare är inte självklart bibehållet. Det gör att underrubriker ej indikeras via html-taggar eller dyligt. De studier som konstaterat värden rörande sådant här alltid såvitt jag vet hamnat i dom underförstådda rubrikerna som läggs utan att indikeras rubriker inledande stycken. D.v.s. mest säkert med införstådd ingress inledande första och andra stycket.

Förståelse av sådant rör dock inte huvudfrågan vilket i indikerad förståelse ligger närmare hur vi optimerar processande utan full NLP med överföring till mening utnyttjande indikationer som i exemplet.

Att det går att göra någon av antagligen hundratals varianter av back-of-words med mer eller mindre ad-hoc viktning av rubriker, strong m.m. är givet. Inga av de grundläggande algoritmerna i eller utanför Introduction to Information Retrievel berör sådan validering.

Det var ett av de mer signifikanta värdena jag fick av att själv börja denna del av resan från den kognitivia psykologin i möjlighet att etablera modell för hur vi kan se på och hantera sådant som mest enkelt rubriker (d.v.s. mina koncept med do resp. describe och cues indikerande bredare pre-aktivering än vad konvergens därefter ger).

Större problem två (av totalt två) är mindre i sitt teoretiska omfång men är liksom i Mannings bok Foundations of Statistical Natural Language Processing väldigt över-uttryckt i Introduction to Information Retrievel: LSA.

Vi har en mängd andra möjligheter i eller utanför ICA-familjen där särskilt de utanför ICA är minst sagt viktigare givet det subkulturella överuttryck LSA tenderar att få genom att vara oftare uttryckt och gissar jag inte sällan hör till det mer algebraiskt avancerade datastudenten möter under sin utbildning före eller efter ev. doktorandutbildning. Det gör att viss bredd i lösningar utanför det är viktigt.

Den betydelsen ökar så klart av att så vitt jag vet finns inget sammanhang där LSA inte är sämre än alternativ. För några grupper av sådana situationer - och dom i särklass största - samtidigt som LSA är mycket mer långsamt med övriga inkl. hela ICA-familjen resp. Hotelling-familjen (PSA) är ungefär lika långsamma.

I sammanfattning: En acceptabel referensbok men delade upplever jag dom (väldigt nära) orsaker som ger en acceptabel Bing! lösning (m.m. liknande) men också i hela koncept-områden som boken ej berör varför Bing! år efter år efter år adderar föga eller inget värdebyggande mer än lite anti-spam förbättring. Men som i undervisning är mindre lämplig utan kompletterande översikt över många fler alternativ än den idag föråldrade och sämre LSA.

Sökresultat och Emergence exempel: "ICA / LSA" familjens grundläggande begränsning

2013-09-11

Ett tror jag enklare, tydligare och varande mer business och innovatin lite roligare förklara Att söka rätt på ett hemligt dokument med okänt innehåll (2013-09-09) koncepten.

Antag, att vi är en webbsökare intresserad av sökträffar i ett större ex. tekniskt science område men med bikravet att vad vi där söker är intressant ny teknik indikerande något nytt.

Skapar vi vår sökmotor från patent, press-releaser eller vilka andra relevanta publikationer vi kan nå med tidiga tecken användande koncepten runt att beräkna samförekomst, implicit associationer av olika slag (ex. LSA) m.m. för att med viss översättning få mått på hur närma dessa likheter olika kombinationer av sökkoncept gäller att vad vi får är möjlighet att få söktrffar i bästa fall nära-liggande vad vi redan kan beskriva i sökord (säkert ofta praktiskt lite prospekterande pröva lite olika). Men för nytt är det svårare då vi ej kan beskriva det. Vidare svårare därför vi i riktigt intressant tidsperiod har få träffar. Området är inte bleeding-edge i kunskaps-emergence när det publieras en massa och var och varnnan publikation pratar om något "nytt".

Givet tänkt befintlig lösning ovan är väl en väg att försöka komplettera att utnyttja att folk söker prospekterande över många träffar och där ev. hittande indikationer nytt. eller dra nytta av referenser, länkar m.m.

Problemet med alla lösningar för det jag spontant kan komma på är att vi egentligen är i samma problemområde direkt under. Antag att vi har något nytt föga intressant för allt relaterat uttryckt i det via ngram men däremot i ett helt annat område kanske kunna göra ett verktyg effektivare i en mindre detalj. Den formen av upptäckter kan gå outnyttjade ofta under många år. Jag har flera gånger träffat på upptäckter och förbättringar av algoritmer primärt inom lingvistik läsande referensböcker från sista åren refererande studier avseende hr ganska färska knappast i något fall äldre än 1995 (och minns jag rätt kanske egentligen 1998 eller 1999 för den äldsta) jag känner till i snarlika snarlika faktiskt men uttryckta med ett annat områdes språk, matematiska preferens för symboler m.m. (ex. vetenskaplig psykologi relaterat topologiska rum från om jag minns rätt först skissat del av en större modell före 11950 kanske rent av 1930) resp. nästan omvänt nya ideer inom kognitiv-psykologi och hanterande fmri-eeg data konceptuellt och ibland i konkreta former (om än tror jag regelmässigt ofta lätt utbytbaratill liknande) med ider från 1960-talets geneeration av informationsteoretiker vilka fortfarande var true believers på att de väldigt snart - inom några år skulle löst det mesta om inte allt runt mycket också i hjärnan (mest kända personerna därifrån är tror jag Wiener, Shannon, Lewin, Ashby, Osgood (nära gruppen vandrande ut ofta från den vetenskapliga psykologins subkultur ex. till information science), Mackay, och varför inte ta med en av protagonisterna till denna tids sannt troende: Richard Taylor (se här som agiterade bl.a. Wiener).

Att lösa indikerat föregående är fullt ut inte direkt trivialt men vi kan förenkla problemområdet i en mindre grupp av möjliga lösningsområden genom att säga att vi formar vad vi betraktar ej särskilt / "bara" ngram associations algoritmer av olika slag eller direkt för attt dessutom forma det efter behov, intresse friare så att vi givet kognitivvetenskap lättare kan söka andra områden. I en fortsatt grovare förenkling tänkande byggande LSA och liknande går det ju också så länge vi menar att det också uttrycks med ord: men det konstaterade vi ju först tappar vad vi kan vara tämligen kritiska indikationer d.v.s. man behöver ha en kontinuerlig värld med åtminstone vissa indikationer relaterat värdet (lämnande alla utmaningar sådant kan inkludera åtminstone så brett uttryckt som här: brutalt enklare i algoritmer praktiskt område än här men mycket illustrativt är risk management jfr ex. predikterande mycket stor risk men angrepp aldrig realiserat motsvarande mest välkänt 11 september).

Vidare också illustrativt närastående: Om inarbetad innovation i område a gör emergence genom att börja användas för att effektivisera refererat verktyg har det helt färskt association där under den fasen och problematiken visar sig igen.

Dagens citat: "South Park - Gnomes" förklarar rätt mind-set för att nå datakvalitet resp. människans farliga bias att lita på "100 % träffar" under längre tid trots enorm komplexitet i inverkande faktorer ej bedömda

2013-06-08

Detta citatet ger oss exempel på två ytligt "motsatta" risker i vad diskuterat innan i Det säkra angreppet säkrat? och Abstrakta dimensioner för övergripande större organisation att bedöma informationssäkerhet relativt offensiva och defensiva mål givet större uppgift.

"Mayor: You're telling me that students from Mr. Garrison's class actually did something that had some kind of relevance to the world?
Lady Member: That's right. [Garrison is shown]
Mayor: Mr. Garrison, the guy with the puppet?
Lady Member: Yes!
Mayor: Well, I must say, Garrison, perhaps you're not as stupid and crazy as I always tell people you are."

Och riktigt så fanns en okänd faktor påverkande kvalitet av barnens prestationer i skolarbetet: Tweeks far utnyttjade honom tillsammans med några till barn som kanal för riktad information där hans särintresse doldes bekom barnens falska engagemang.

Ett mycket vanligt feltänk i ekonomiska modeller såväl inom sociologi och runt om områden som t.ex. information warfare är att när vi har historik på data:

Presterande en elegant kurva.
Väldigt klart indikerande att kurvan är en funktion av förändring i ett fåtal dimensioner.

Tror man på det. Trots kanske 100 år av lyckad prediktion i historiskt data slår dessa modeller lika ofta fel som rätt i nästa år vi ej känner.

Förklaringen är att komplexiteten är enorm relativt antal förekommande händelse i historik och den historiska period vi här. Huruvida historiken vi har inte alls är relaterad faktorerna vi bedömt kan vi därför inte säga något om vi inte klarat att känna alla andra faktorer.

När samma modeller sedan implementeras i mjukvara blir problemet än mer övertygande. Där kan ju enorma mängder - gigantiskt mer än vad man från början i verkligt data utgick från - genereras. Och så kommer fascinerande slutsatser och ibland tidningsrubriker och kanske lite extra forskningsfinansiering ett å eller kanske lite mer.

Ett till problem tycks för mig varande fallet i modeller skapande i ungefär samma idé-sfär där vi ser problemet ovan är att också när viss predikterbarhet tycks fungerande saknar den allt praktiskt värde. Att t.ex. prediktera något på en sammanfattande årsbasis är helt ointressant för en mängd användningar om vi mest tydligt inte kan utnyttja värdet förrän säg oktober och det hela redan är självklart utan modell i juni (kanske med högre säkerhet). Oftare rörande användning som tittat en del på av och till genom åren är att dessa modeller något funktionella prediktion måste orka klara cirka 5 till 15 år på den nivå de levererar i exactness och resolution / zoom i abstract vs concrete ett år framåt i tiden.

En känsla jag ibland haft är att man kommer från en forskningskultur där man längre bakåt oftare kunde argumentera teser, modeller eller hela världsperspektiv utan mätbarhet eller ens testbarhet. När nu statistiska och mer avancerade modell-system potentiellt korrektare bedömande värde kommit till kanske man fortfarande tenderar att relaterat subkultur tänka lite fel och se dem som argument-levererande i mer akademiska diskussioner som ibland kan ha pågick 50 år i ett vetenskapsområde trots att det mer eller mindre är vedertaget i vetenskapsgrenar med mycket lång erfarenhet av seriösare metoder för att bedöma riktighet att båda perspektiven endast är en fråga om trosföreställning och ej har något ex. att göra med hur hjärnan fungerar eller ger kunskap som går att tillämpa för prediktion. Konflikter i mycket övertydliga - och på denna nivå har jag endast uppmärksammat en trolig träff (notera risk för total felbedömning därför att jag aldrig seriöst sökt dokumentera och bedöma faktorer jag utgår från relativt ens vilka dokumenterade och publicerade) - inkluderande så många tycks det som 30 - 70 personer lite varstans i USA, England och Frankrike.

Vi ska också ha klart för oss att det är vanligt att universitet eller motsvarande på en "management-nivå" mellan-liggande lokaliserat i olika inriktningar forskningen publicerar en hel del studier som är prospekterande mindre relaterat lärdom eller särskilt utbildning doktorander utan mer att skapa marknadsföring mot potentiella studenter och attrahera bidrag och investeringar. En metod jag upplever man ibland arbetar med är modell-system med dessa problem indikerande något spännande som verkar förklara något basalt med allmän intresse för en mängd människor. Kanske varför dom män eller kvinnor du alltid varit skeptisk mot egentligen aldrig får ut något av sina många romantiskt resulterande sociala kontakter eller att om matpriserna går upp leder det till revolution.

Är man resurs-stark kan man självklart illustrera eller försöka addera argument för eller emot en sådan tes. Ibland räcker det bra att hålla ögonen öppna efter fallet där extrema toppar visat sig nu och kontrollerande faktiskt bakåt i tiden men kanske ej korrekt eller ens detekterat i data. Och ex. för matpriser ser jag ingen skillnad i min bedömning nu än 2011. Troligt - tycks för mig - en av en väldigt stor mängd faktorer (när ej direkt nere i svält) inverkande på reward-dimensioner som påverkar men ensamt ej vad man sunt ska följa därför att risken att man missar saker är det mest sannolika. Och tror jag en väldigt vådlig dimension om man inte vid längre problem ser det som samverkan med andra faktorer inverkande på "biokemin" i mest konkret "hjärna" (riktigt den exaktheten torde vara opraktiskt regelmässigt men t.ex. hanterande samband jag tycker är något mer indikerade relaterat luftföroreningar och temperatur om vi vågar oss på att titta på latent och manifesterad rymd sökande association utåt för att kompensera den enorma mängden faktiska dimensioner relativt händelser vi kan använda ex. med mest välkänd men normalt aldrig mitt första val latent semantic analysis (inte alltid traditionellt eller nu alltid helt sund använd inom sociologi och psykologi även om historia praktiskt började just för att söka samband relaterat mänsklig personlighet och grupp-dynamik snarare än textanalys).

Ett nyhetsintensivt exempel är ju matpriserna för kött - viktig protein-källa - som tryckt upp sig högt i flera kinesiska kuststäder. Förvisso vad jag kan tänka mig ökar sannolikheten för politisk positiv förändring (även om tänkbara risker ex. relaterat över-uttryckt trigger happiness hos soldater ej är vad jag kan bedöma men sannolikt givet träningen för nyckelförband väldigt inriktad för organiserad styrning där av mindre betydelse än i svältande Nordkorea).