Ordvektorer - clusteringen / similarity: Några exempel exporterade

2016-01-05

Exemplen i filerna resp. texten nedna är från ett annat sammanhang och därför kanske lite annorlunda uttryckt (ev. ej användande "ord-vektor") där jag försökte roa någon med något kul (d.v.s. lärorikt i en domän användbar för att göra världen bättre: Vi har kul när vi gör något bra - Annars ska man sitta och ha tråkigt som jag redan lärde mig på hundpluton för snart 25 år sedan vilket jag kommit att inse fungerar lika bra på människa även om man inte konkret är munk vars topp i det roande är att sitta och kopiera böcker 14 timmar dagligen resp. be av och till under dag och natt).


Men jag tror det är ganska ok introduktion till de mer komiska detaljerna (och är det kul så är det [...]). Filerna finns på Google Docs (eller Drive det verkar heta numera - kanske någon paketering för den förarlösa bilen Google gjort som jag får rubrik för: Ingen aning - Första året vågade jag inte använda den längre då jag var rädd att andra kanske skulle börja krocka med sina bilar runt om i världen - Men de flesta - cirka 60% - dagar jag laddat upp har ingen stor topp i trafikdöda kommit så det ska nog gå bra):



Resp. fil som csv men egentligen inte Excell eller liknande som ibland brukar försöka vilja öppna dem utan tabb-separerat data lättast att öppna i en text-edit rller liknande. Förutom diskuterat nedan finns ett par egenheter jag såg i form av läckage fiktiva koncept ej önskade (ej vad som hör hemma här som det kommit in i associerade ordvektorer därför det ej kan clustras som sådant vettigt för ord) och ej dekterade och kastat tidigare. Vi har som jag såg i heliokopter misstänkt att (andra möjligheter finns också men med Wikipedia som en just för ordvektorerna ganska viktig text-källa är risken hög för fiktiv association) att Whirlwind är Whirlwind (novel) (som bias-benägen författare oavsett persier, engelsmän, kineser, japaner är roll-karaktärer d.v.s. ej defekt-läsning förett mer balanserat folk som därmed kan tänkas roas mer av andras underliga annorlunda kultur-egenheter). Martian tycks också dyka upp lite varstans och hela ordet kastas utan tvivel med begränsat värde om något ej redundant - särskilt som det varken clustrade pseudo-human och kanske ej har generaliserbarhet nog för att acceptera i denna grupp tillsammans med snögubbar, orcher, drakar o.s.v. (som jag förstått från ytlig kontroll en människo på Mars: Så lite problematiskt att inför framtiden sortera med zombierna och vampyrerna).


Demons är utan tvekan bland exporten ett svårslaget exempel på alla dessa fiktiva pseudo-männskliga-rollerna (orcher, troll o.s.v.).


Citerande mig själv rörande export-filerna från annat sammanhang


"Och dom skapas genom att jämföra orden med varandra. Så som representationerna skapas innehåller de besläktade egenskaper som har att göra med grammatik (ex. agentiva egenskaper hos roller mot verb m.m., adjektiv använda jämförbart för att beskriva men med sig ganska varierad mening o.s.v.), ämnesbesläktade egenskaper (verktyg använda i samma ämne m.m.). Vilket resp. är separerbart men ej separeras här. Några exporter av sådan relaterad information för några ämnen som jag trodde kan roa dig om du ej settliknande saker tidigare togs med. Några särskilda egenskaper - ibland lätt komiska - från likhets-"super-gruppen" - såväl som att texterna som används är bra är exempelvis:

1. Hur vissa "roller" vi kan se får hög likhet med bl.a. snarast emotionella koncept (minns jag rätt här bl.a. heartless) är mytologiska. Vi har något liknande för ett roll-liknande koncept eller aktuellt för roller tycker jag minnas där vi orch, vampire och något mer med hög likhet. Spel- och filmrecensioner eller Wikipedia-artiklar troligen (sådana roller clustrade till pseudo-humans tillsammans med diverse andra icke-människor som snögubbar, drakar m.m. som kan komma ex. agentativt i meningar, prata m.m. i text men som ej är riktiga människor såväl som fiktiva vilken jag dock ej skickade med). Saknar antar jag hjälrta kanske emotionellt såväl som fysiskt:

0 vampires 0.941259925529496
1 zombies 0.936041490772543
2 goblins 0.929000771520762

2. De emotionella konceptet kan av och till vara lite roliga och indikera även ganska insiktsfulla saker i mänsklignatur även om det ej är ett ansvar generellt att lägga på sådana här representationer men som för vissa egenskaper ibland är vad de klarar väl (jämförelser i "grupp-besläktade" koncept är de mer genomgående stabila för). Anger visar något sådant mycket troligt korrekt indikerat med "fear" hörande samman i varierade riktningar person-2-person relaterade händelse såväl som resonerande text och typ-besläktade.

Liksom jag hellre gör försökte jag för emotionella koncept lägga en större andel positiva koncept för en kanske trevlig upplevelse. Ord ganska tunga negativt kan verkligen ibland rada upp de flesta otrevligheter man kan tänka sig medan de trevligare åtminstone ofta gärna visar positiva. Några av fler där och allmänt (jag tror det hela kanske skär mängden uppvisade 0.7 av 0 till 1 eller liknande med ev. cirka 50 - 200 typiskt uppvisade i exporter) för wonderful.

0 wonderful 1
1 superb 0.96043162533829
2 perfect 0.93830568658096
3 wonderfully 0.935536032689092
4 romantic 0.933703638394916
5 sparkling 0.932184658404909
6 dreamy 0.930860293836374
7 tasteful 0.930057098856705
8 delights 0.929775135952134
9 sumptuous 0.928903815808715
10 authentic 0.926264134467106
11 finest 0.925634558833046
12 unforgettable 0.924956245002936
13 marvellous 0.922557761579556
14 relaxing 0.920860964353422
15 funky 0.919125336063279
16 wondrous 0.918064640011632
17 themed 0.916376656292314
18 seductive 0.916216076493556

Vad de visar för besläktade koncept är emellertid inte ett urval av alla tänkbara kombinationer utan möjligt intressanta relationer från andra löst definierade metoder för att identifiera vad att pröva beräkna likhet för därför att beräkningen tar minst sagt lång tid.

Dessutom därför att jag kompletterade dem tog jag med en del från conflict-cluster. De är ganska intressanta i allmänhet. Vi kan där liksom troligt för ev. inkluderade roller inom medicin se förutom ämnes-similarity grammatiska likheter i hur de används med verb när similarity beräknas med större fokus där. Vidare tog jag med en del medicin väljande ut några förekommande bland de cirka 20 000 oftast - eller som en dominerande användning - beskrivande biologiska celler eller cellfunktioner (som ju också ofta används för de vanligaste som cell, neuron o.s.v. för annat än biologiska koncept ex. artificiella eller helt andra saker vilket bör av och till framgå ganska tydligt).

Vi noterar för sexy att vi har skinny högt. Det understryker den ämnes-nära likheten snarare än en emotionell eller värdegrundad likhet. Det är också tämligen normalt allmänt för den här typen av viktsystem innan man separerar ut meningarna så att säga att vi för beskrivande koncept kan få hög likhet genom att de förekommer i och runt samma ämne, objekt, verb o.s.v. men med särskild riktning i mening (good - bad).

0 sassy 0.936896254351044
1 slick 0.936711000114483
2 skinny 0.934230366600261
3 wacky 0.931894489163539
4 naughty 0.931781049947397
5 seductive 0.928907011693878

Och även om jag är osäker på om det gäller ovan eller är aktuellt en del andra emotionella koncept är mitt intryck som jag också följt upp en del att en del - ganska stor andel - av emotionella koncept positiva i valence i vissa grupper representeras i stora andel av text av ganska tydliga kategorier av personer (kvinnor yngre som mitt intryck är: "Bill is a wholesome dreamy boy while Olfa might be couzy waiting for Bill to come out of his wholesomeness..." eller något liknande men beskrivande ungefär). D.v.s. några kategori-typer genomgående är egentligen inte att förvänta och av och till kan en del grupper närmast stereotypa i hur man kan tänka sig det faktiskt visa sig också stå för en del stor andel av texten mätning enskilda ord bygger på. Wacky ovan känns nytt för mig i dom här sammanhangen och kan ha att göra med att jag prövade en kompletterande datakälla ovanpå.

Att vi i text ej separerad kan ha såväl olika "sense" för orden som kontext de förekommer har vi ett exempel på för pirater där man givetvis allmänt tänker på hornet med de återkommande kidnappningarna och stulna skeppen med de problem för sjömän, nöjes-resenärer såväl som handel de orsakar. Men vi får också in det fiktiva via film och annat fiktivt kontext, även en trolig ämneslikhet via "scenens" bakground uppfångad d.v.s. arena havet kombinerat med att tagande en roll deltagande men ej vara agentativ (vi kan ha en bunt pirater som står och mer är miljö till hjälten resp. en bunt delfiner som gör något intressant för turisten m.m.).

0 outlaws 0.953587815799102
1 defenders 0.935908071889439
2 phantoms 0.930332765035616
3 invader 0.92819973025987
4 patriots 0.927236428780197
5 dolphins 0.92085347686242
6 panthers 0.920641073961054
7 eagles 0.920486802158291
8 exiles 0.920158959353198
9 orcs 0.915540150330539
10 gladiators 0.911751140679892
11 penguins 0.910724163595356
12 duel 0.907442598430368
13 aces 0.907318456427018
14 dockers 0.90514603109189

Samt en trolig eller åtminstone spekulerad problematisk likartad sammanblandning där rörliga sensorer intelligence från just Hornet kan ha kommit in på sätt ej helt bra för ett system som detta begränsat till 20 000 ord. De är lite för precisa och samal till sin natur för att passa bra. Men jag kan ta fel för phantoms såväl som den ev. i övriga. Att hålla rätt på såväl fiktiva koncept från film som diverse tekniska lösningar använda i något kontext spontant noterande det här går ej utan att gå bak till textern.

Koncept likt neurotransmitters är förutom ett begränsat antal koncept de jämförts med kraftigt begränsade av att vi har ca 20 000 ord endast där det är tämligen vanliga eller allmänt bra särskiljande ord ej uteslutande specialiserade eller om så ex. i medicin mer allmänna. Vi har typiskt (någon kanske) ej ord som gaba m.m. eller specifika transmitters. Men väl vanligare bland dem eller besläktat (ex. i och runt vanligaste hormonerna, rel. allergiska besvär m.m. förekommande oftare i bredare text).

0 neurotransmitter 0.970011687167979
1 histamine 0.947307809427387
2 neurones 0.939740665138129
3 toxin 0.935794434797471
4 hormones 0.927345308297292
5 nitric 0.921457161701041
6 glycoprotein 0.921124899731568
7 hemoglobin 0.917151937998126
8 substances 0.91662243141761
9 receptors 0.913113706449724
10 amyloid 0.909692893955464

Och likhet vi ser är därför i större omfattning än utnyttjande andra sim. system styrda av den kontextuella användning i ex. nyheter eller Wikipedia-sidor eller likartat.

3. Vikter angivna först:

Värden sådant som positivt-negativt beräknats från är anpassat särskilt för detta system. Är värdet positivt är det mer positivt i dom associerade orden sammantaget (utifrån mängd förekomst tillsammans i resp. kontext samt globala vikter för ordet d.v.s. EMI för varje ord i vektorn). HH-FIDF är global förekomst på gemensam förekomst resp. en IDF (https://en.wikipedia.org/wiki/Tf%E2%80%93idf) och IDF-bl från semantiska vetskap under- och ovanliggande detta enklare sätt att beskriva koncept. Att koncept som neurotransmitter blir negativt kan ej tolkas vettigt på något sätt. Utan kontextuellt sammanhang är sådant indikativt när dominerande sammanhang normala för orden just faktiskt är värdeladdade medan om vi väljer ett perspektiv från säg forskning betyder det föga, oavsett om sampling i association från nyheter m.m. via ord som depression o.s.v. kan vara emotionellt indikerande negativt.

"neurotransmitters

POS (value < NEG) -3.4108724927203e-07" Medan däremot up-down - indikerande intensitets beskrivningar - typiskt normalt alltid är talande men ej togs med i exporterna (ej frysta i denna anpassning då de är betydligt större än vad positive - negative kan vara)."