Visar inlägg med etikett THE_300_FF. Visa alla inlägg
Visar inlägg med etikett THE_300_FF. Visa alla inlägg

Emergence i Hans Google-sökruta: "lateral inhibition" + emergence of relation organization + distributed vectors + "kohonen network"

2017-02-21

Efter att prövat runt lite löst med självorganiserad träning av 18 st tillstånd i ett rakt 1-dim Kohonen-nät (utan koppling mellan första och sista elementen) reducerande ner antalet tillstånd till 12 och i samband med det prövade något nytt. Sökte jag idag Google på:


"lateral inhibition" + emergence of relation organization + distributed vectors + "kohonen network"

De i starkaste upptäckterna jag gjort i förändringar i eller nya algoritmer skiljer ut sig i toppen genom att ha god distans till nummer 4. Dessutom skiljer sig 1 - 3 genom att alla upptäckts genom att jag programmerat fel eller att som här prövat något för att få bekräftat att något går fel (och här att jag vill se det gå fel).


Säg här utan att våga mig på detaljerna då jag ej sitter med koden för att reflektera principen värdet själv en gång till.

1. Vi lämnar övriga tillstånd och reflekterar endast två stycken.

2. De är när vi möter dem redan tränande på indata.

3. Indata ligger i ett tämligen nära besläktat område: Organisationer där de har viss specialisering.

4. Fortfarande uttrycks i för alla koncept relevant något gemensamt genom att indata vektorer är tränande från ovanpå LSA-reduktion till 400 dimensioner av stort språkcorpus relationerna i Bluelight. Därmed tillsammans med från 50 upp till 50 000 cirka relationer per koncept kommer vissa gärna vara gemensamma så som organization, company m.m.

5. Ett av tillstånden kommer nu fortsatt aktiveras mer sannolikt relativt sina intränade tillstånd (snarare än ev. idé om hur vi vill ha dem aktiverande klara) därför att sannolikheterna för koncepten i indata manipuleras: Innehåller ett flergram symboliserande koncept indata något av ett antal ord (ex. county, f.c., trainstation m.m.) hoppar vi ibland över dem med viss sannolikhet (hög kvalitet bluelight relationer så lätta att träna bra snabbt samtidigt är de enormt många och tar därför om de får komma fritt enorm bredd i ockupation Kohonen-nätet).

6. Mellan resp. av dessa tillstånd finns en rymd som kan innehålla vad som aktiveras via som normal spridning från vinnande nod görs i Kohonen. Emellertid ger vi också noden möjlighet att göra något vi väljer att påstå är (men egentligen ej är bara detta men det fungerar antagligen en bit här som förklaring jämförbart även om det ej orkar till emergence av organisation och självavstannande träning av noder när de är klara) att vinnande nod subtraherar bort en bit av indatat från noder som är längre ifrån den än ett tröskelvärde.

Alternativt jämförbart kan vi betrakta ett dendrit-träd där vi kan förstå viss logik såväl som möjlighet att se vilka motsvarande "vinklar" i ett 3D-rum som är den troliga centraliteten för varifrån aktiviteten kommer bakifrån från sändande neuroner. D.v.s. vi kan se att typbestämning i sig är möjligt ensidigt för resp. medan om vi antar att båda behöver förstå att de gjort GABA i en vinkel resp. aktiveras GABA krävs dessutom just en särskild signalsubstans (d.v.s. GABA). Och tänkbart är det så även om jag ej försökt göra magi med det här än och lär behöva smälta det några månader (ibland år) om jag känner mig själv rätt.

7. Nod som aktiveras mer sannolikt kommer troligare (men ej självklart tror jag för alla tillstånd relativt ordning indata när vi ej antar några andra noder givna som kan påverka resp. positivt att alltid den som från börjar var i genomsnitt mest trolig "vinner" striden om att få möjligheten att arbeta övertid) kunna reducera bort relevansen av motsvarande (och byggs nu stegvis från indatat i Gradient descent):

7.1. Gradient descent element-vis innebär att där vektorn uttrycker större skillnad (differens snarare än absolutbeloppet) förändrar vi mer. För gemensamma egenskaper hos resp. tillstånd givet att vi börjar förändring vi diskuterar när de är tämligen tränade kommer därför påverkas föga om alls.

7.2. Vad som kan påverkas är istället:

7.2.1. Vad som finns i tillstånd vinnande men ej i den andra. Förlorande tillstånd aktiveras fortsatt mindre sannolikt för vad som är specifikt för vinnare.

7.2.2. Vad som är gemensamt etablerat som besläktade egenskaper kommer reduceras. D.v.s. här där de tränades med cirka 16 - 18 tillstånd emellan som gjort positiv spridning grannskap finns en del kanske gemensamt speciellt från kortare grannskap i och med dessa egentligen de två var konkret rand-tillstånden d.v.s. flow emellan områdena närmare dem är ganska låg och redundant konvergering är därför tänkbar.

7.3. I den mån inget relevant i tillståndet kvarstår som gör att det kan aktiveras som vinnare kommer dess aktivitet med säkerhet när endast två neuroner existerar avstanna permanent (så länge indata ej ändras). D.v.s. vi vet att ej något indata finns som kan aktivera det därför att vi gjort några epoker över det.

7.4. Vad vi nu har är:

7.4.1. Ett tillstånd "vinnare" som tränat sig för allt indata aktuellt för dessa två.

7.4.2. Ett första tillstånd motsvarande långtidsminne för när den andra neuronen började denna process.

7.4.3. Vetskapen att dessa långtidsminne är ett underrum / mindre yta i ytan (jag tror men vågar ej säga det ena korrektare än det andra att man bättre här nöjer sig hellre
med det senare eftersom vi för det första behöver resonera om vad relationerna inlärda mellan dem motsvarar i dimensioner - även om jag gärna mer abstrakt-tänkande upplever det mycket korrekt att vid emergence av nya egenskaper resonera rörande eventuell strukturell förändring av hur vi förstår eller hur världen är) eller om vi så vill att det när data och vektorer är semantiskt meningsfulla att förloraren är ett mer exakt uttryck av den större "kategori" som vinnaren uttrycker.

8. Jag läste en tyckte jag mycket läsvärd artikel av några israeliska forskare som experimenterat med sambandet som noterades först eller tidigt post 1960-talet (annars tror jag kanske Small groups - Writings in social interactions, ev. 1958 - om jag ej missminner mig eller tar fel på antologi - och om det senare är denna den som har page-ranking algoritmen publicerad - ibland för algoritmer som stort data eller för PR stora nätverk krävt sent i modern data-era att bli effektiva behövdes för samma problem 60-talet vara effektiva för väldigt veka datorer alternativt papper-och-penna så ibland hittar man algorittmer som kommit nya nu i gamla antologier vilka jag bl.a. därför de tänkte effektivt lättare än vad vi ställt om till än gärna köper regelmässigt när jag hittar dem i boklådor), av Mikolov i Linguistic Regularities in Continuous Space Word Representations (Tomas Mikolov∗, Wen-tau Yih, Geoffrey Zweig, och tiden 2003 vid Microsoft Research) . Goldberg är med största sannolik rätt person (känner igen namnet även om jag gissade på Gold nu när jag försökte hitta artikeln: Mitt artikelarkiv ligger ej på nät jag når från internet-datorn) och artikeln tycks just vara rätt (ev. gjorde de några stycken liknande så sök gärna runt själva om den ej känns bra just i introducerande optimerat "align" i tänkande av konceptet vektor-offset besparande en eget tänkande):



Sedan får man som en modern-svensk med för min generation svenskar typiskt antingen skeptiska eller varumärkes-slava perspektiv på monarki, att vi i båda så generellt typiskt för såävl amerikaner och ryssar (där nu israel tagit in mycket kultur från båda) tycker att det känns som ett naturligt praktiskt meningsfullt exempel att räkna på överklassens rolltitlar de under diktatur lade sig till med snarare än något värdebyggande som att hitta oupptäckta samband mellan innovationer som kanske hade kunnat stoppa den globala uppvärmningen eller hjälpa över en miljard förtryckta själar i Kina bli fria. Verkligen om nu regering får ändan ur vagnen och säkerställer att också kronprinsessa gör ett ordentligt ärligt dagsverke att de ej kan användas nog i vilken som helst av dessa länder. En serie under ett år besökande säg USA flera gånger kompetent gjort (d.v.s. stort i hur det märks) och upplevt naturligt att det blir flera gånger (d.v.s. etablerar något varaktigt) så att det inte bara känns genererande med svenskan som igen kommer och försöker sälja dem vapen, AGA-spisar, och pappersmassa (eller vad vi nu säljer utrikes idag).


Låt A vara ett tillämpningsområde där man idag löser ett problem dyrare, långsammare och miljöfarligt med lösning X1.

Låt B vara ett tillämpningsområde konkret avgränsat och distansierat från A men likväl i dess strukturella samband och processor är fullt jämförbart (på det sätt som ex. infrastruktur kan vara det i delar, eller ett land är till sina strukturella samband med myndigheter, riksbank, huvudstad o.s.v.) där man idag med lösning X2 tjänar grova pengar samtidigt som X2 är mer varaktig därför att X2 innebär att man kyler med en ny molekyl som kommer ta EU minst tre år att förbjuda medan den vi har i X1 redan kommer vara förbjuden om några månader. Så både ekonomiskt starkare och långsiktigt rörande miljön.

A, B, X1, X2 är vektorer som representerar vetande över allt relevant i processerna industriellt, ekonomisk-verklighet, såväl del av ett gemensamt rum som innehåller andra koncept p.s.s. D.v.s. ej olikt mina 300-FF (särskilt när kombinerande 300-CC) även om den första för bra många år sedan algoritmen för att hitta ej upptäckta innovationer i ett område som kan tas till ett annat område där det också fungerar men man ej upptäckt det bör vara ordentligt bättre (om än lite långsammare) än denna.

( A - X1 + B ) -> C'

Där C' uttrycker den information som ligger i L1-distans p.s.s. att den direkt är transformerad till tillstånd i vektor på sådant sätt att vi enkelt och omedelbart kan få ut en begriplig tolkning genom att söka de närmaste grannarna till C' bland kända vektorer. Jämför gärna med mitt resonemang i Similarity beräknad av similarity cos och L1-distans rörande den information L1-distans i mina 300-vektorer kan argumenteras ha. Diskuterar vi bredare vektor offset för algoritmer likt LSA eller skipgram vågar jag dock ej påstå att man lika självklart direkt kan se varifrån denna aktuell effekten kommer i och med dessa har informationen i vektorerna utspridd med samband mellan dimensionerna (så åtminstone för LSA och förutsätter jag som självklart för Skipgram men minns ej att tittat på något officiellt här eller någonsin implementerat den från förlaga och när gjort har det ej varit aktuellt att bygga representationer utan bara göra detaljer i helt andra sorters algoritmer som metod ad-hoc propagera vetande från kontext pågående till vektorer associerade till symboler som sedan jämförs). Vi inser att det ej är orimligt att exempelvis se att:

1. En dimension som har att göra med amerikanska romantiska föreställningar eller kanske politiska system kan ha ungefär (medan avståndet som differens till säg kärnkraftverk - annat ämne, annat språk, samt innehåller "ä" vilket alla tre påverkar i mina 300 vilka bottnar ut antalet ord vid cirka 350 000 tusen men där viss prioritet för att få med ord från ganska många ej ovanliga språk togs framför att täcka upp annat även om givetvis all engelska ej annat än otrolig finns med: Dock 80000 vanligaste orden d.v.s. engelska ord troligen alla fick mer träning... Att något fullständigt ovanligt namn från något litet språk - kanske fyra träffar på Google totalt - finns med har viss elegans såväl som värde men det är desto mervärde att garantera att vanlig engelska fått ta allt utrymme det behöver) samma L1-distans King och man som Queen och kvinna. Och där skillnaden i avstånd ej orimligt ges via differenserna mellan King och Queen, Man och Kvinna.

En sociologisk tolkning kan tyckas presentera sig men tror jag är feltänkt. Samband har snarare att göra med "shaping" av distribution samtidighet grammatiska relationer har. Det kan existera i vektor-informationen ett ej litet antal fler liknande "områden" som kan realiseras ut (helt givet finns det enormt mycket information i vektorerna givet metoderna de normalt skapas via och mängden träningsdata som normalt används där metoder för att effektivt använda färdiga vektorer ej nått alls långt och står på att beräkna L1-distans, L2-distans och cosinuse-similarity). Dock kan det vara så att sådana metoder ej är lika lätta att bara hitta genom att man ser något praktiskt intressant när man räknar runt med dem: Det kan vara mer icke-linjära samband så som ev. polynom motsvarande grammatiska relationer som ej är just lika linjära som den mellan typiska verb-argument till andra verb-argument. Ta säg intensiteten hos vad inducerat i träningsdata från adjektiv och verb föregående verb-1 görande när generaliserat av all träning att vissa följd verb i säg enklast (och mer givet att informationen finns där även om jag ej ännu givit upp på att se om jag kan hitta någon som gjort det - d.v.s. jag har ej alls satt mig och experimenterat igenom en punkt ej helt otroliga funktioner här eller i övrigt - en svårslagen metodik på många sätt - alla så vitt jag vet - mycket bättre - ordentligt snabbare - än matematisk-förståelse: Gör funktioner i tur och ordning på vad man hittar bläddrande runt i Beta väljande ut funktioner man tycker man känner igen och sett ospecifikt i något relaterat språk, och låt datan pröva runt med dem).


Notera att vi i resonemang ovan förutsatt att vi gjort operationen som Mikolov gjorde den d.v.s. istället för:

( A - X1 + B ) -> C'

Gör vi:

( A - X1 + X2 ) -> C'

Det kan tyckas mer självklart rätt här. Men innovation är nu inte lika trivialt i sin information som förhållandet till mycket vanliga roller som tas som argument till verb. Vad vi istället behöver som indata för att gå vidare är vår befintliga värld när vi approximerar bort metoden vi har d.v.s. reducerande information som har att göra med att den existerar (därför att dess existens är ej mervärde i sig). Vi litar på att A i övrigt fångar själva behoven som X1 fanns för. Vi skapar därefter den gemensamma världen där såväl A och B, existerar för men där B skiljer sig från A i och med att den ej flyttats relativt den lösning den använder. Så vi kan som första steg (efter några till mer konkreta men ej komplexa delsteg) söka den tekniska eller teoretiska relevansen som existerar mellan A och B. Och därefter om den bedöms rimlig - eventuellt efter manipulationer på A och/eller B (för ett värdefullt område kanske manuellt för att säkerställa att A verkligen har med vad som är viktigt när vi söker en lösning i vad som när det går igång på allvar är brutalt tidsödande bruteforce av en värld med gigantiska mängder information producerad från forskning- och industri där vi för det senare gärna ska inse att värde också existerar i såväl pressreleaser som lokalnyheter och allt emellan genom att där ges ej sällan tämligen exakt information om val av metod och lösning ett konkret företag valt oftast för nyheter relaterade till att man köpt något eller gått in i ett samband, eller att man i relation utan information vad det innebär tekniskt skapat n arbeten hos företag Q men där vi med expert-kunskap om affären i vårt system per automatik förstår från vad Q gör vad det handlar om. D.v.s. det finns bra information som sätter forskning och patenter närmare verkligheten att titta också på sådant.).


Goldbergs artikel kombinerad vårt koncept för att skapa en lösning som gör att de hårt arbetande medarbetande på aktör X kan fortsätta förtunna ozonskiktet några år till (de lägger sitt "trumf(/p)" i det hårda kortspel affärsvärlden är) kan vi se lite av det potentiella värde man kan spekulera eller ej ska utesluta kan existera när ett tillstånd systematiskt meningsfullt från träningsdata subtraherar (relativt additioner från andra tillstånd) information till ett annat tillstånd.


Trivialt vilket jag insåg reflekterande så här långt första gången (och där ett tag trodde att jag sett fel på möjligheten från det) kommer denna relation ej vara något annat än ett förhållande mellan de grannar den har som manipulerar den. D.v.s. egentligen samma sak som uttrycker självorganisationen. Emellertid inser vi att vi med relativt få (om än delvis komplexa men ej kostsamma prestanda alls) tillägg kan se processen som del av något mimicking lateral inhibition (länkar nedan) resp. den organisation vi uppleva oss läsa in och mena att pyramid-neuronerna har får vi vägar att få ut mer från vad som skapats. Men jag behöver troligen reflektera det här latent pågående ej aktivt ett tag till innan jag försöker skriva det (och därefter troligen om det nu faktiskt har värdet vila ett antal månader).


Ev. är detta förövrigt kanske något tänkte jag precis som man kan se en motsvarighet i "struktur" för en algoritm som utnyttjar information i flera tidssteg för att prediktera framåt från en jag har i en antologi från tror jag 2001 rörande smarta-kort där algoritm för ett angrepp presenteras (som det blev några år som det slumpades vad jag alltid utgick från om jag försökte göra något liknande). Jag får ta och slå upp den tror jag. Operationer där motsvarar ju kanske vad vi här kan se tillstånden som.


Neural inhibition | Scholarpedia
Lateral inhibition | Wikipedia (konceptet förstås bäst genom att göra det med papper och penna för ett fåtal neuroner).
Kohonen network | Scholarpedia (skriven av Kohonen själv: Det kan ha sina poänger också om min erfarenhet i allmänhet är att standard-algoritmer man ej mött innan bäst lärs först från exempelvis presentationer från föreläsningar universitet snarare än någon ambitiös artikel eller uppslagssida skaparen själv skriver).



"Operationally, up and down states refer to the observation that neurons have two preferred subthreshold membrane potentials, both subthreshold for action potential generation."
[...]
"Inhibition is everywhere apparent in the cortex. Any strong stimulus applied to the cortex evokes a clear IPSP component as a part of the response. Both feedforward and feedback inhibition in the cortex are mediated by the wide variety of GABAergic interneurons, and any activation of pyramidal neurons invariably leads to a graded inhibitory response that could act to balance any mutual excitatory effects among pyramidal cells (Haidner et al., 2006; Rigas and Castro-Alamancos, 2007; Destexhe et al. 2003; Rudolph et al., 2007). This offers a simple network mechanism that could create Up and Down states in pyramidal cells and not require any particular cellular mechanisms like those in striatal cells, and that mechanism has been studied in a number of variants (Bazhenov et al., 2002; Compte et al., 2003;Holcman and Tsodyks, 2006; Yuste et al., 2005). In all, the Down state of the network is a state of mutually-enforced quiet. Any input to any subset of cells will trigger some mutual excitation and some associated inhibition. If enough excitation is present, the network will re-excite itself explosively, and the cells will depolarize toward the Up states. The inhibition generated by pyramidal cell activity will also be recruited,, and the combined excitatory and inhibitory conductance will impose a more negative reversal potential for the net conductance change. If the balance of excitation remains high enough to maintain self-sustained activity, the effect of the network on any one cell will appear as a synaptic conductance with the reversal potential set by the balance of excitation and inhibition. "

Up and down states (Charles Wilson) | Scholarpedia

Antar vi att avsaknad aktivitet för tillstånd förlorande gör att den ej påverkas fortsatt (vilket givet gradient descent tänkbart ej behöver hanteras: skillnaden mellan tillstånd och träningsdata den får negativt av andra lär ha konvergerat till något de rör sig i och omkring). Arbete för vår vinnande neuron fortsätter. D.v.s. tillståndet kan tolkas som ej ännu stabilt där vinnande är i ett icke-equilibrium-upp. Oavsett om ännu i stabilt eller ej stabilt tillstånd: Förändras indata tillräckligt får vi effekt motsvarande vad man beskriver i citatet ovan.

Similarity beräknad av similarity cos och L1-distans

2017-02-19

Börjande från för ett tag sedan nu 400 dimensioner för resp. cirka 450 000 ord skapade via dimensions-reduktion med en variant av LSA vilka sedan dimensions-reducerades till 300-dimensioner för resp. varje ord, ett antal miljoner flergram via två algoritmer för att skapa resp. 400 dimension (en utnyttjande relationer till ordet kända via annan datatyp medan den andra beräknande dem för resp. ord till ord kombination summerande xy ( x + y ) element-vis) tränar jag över min common-sense med FF-varianten (baserad relationer) där antalet dimensioner (var och en 300-dimension via ett 300-tillstånd) varierar något med antalet koncept kända hörande till kategorin men vilka försöks hållas väldigt få (3 - 12 st). Reduktion dimensioner från 400 till 300 gjorde jag med en variant av Kohonens självorganiserande kartor vilket har den för mig avgörande fördelen att:


  • Varje dimension blir också en meningsfull kategori av ord och resp. nära besläktade med de till vänster och höger om dem.
  • Kategorisering vid reduktion dimensioner är den algoritm som bäst klarar av att efterlikna hur människor presterar vid ett flertal tester (emedan LSA i grundtyp alltid tenderar att varje den som presterar sämst medan PLSA presterar emellan resp.).
  • Meningsfulla kategorier gör att det starkaste inom natural language processing över längre tid kan introduceras: Människan.
    • Ser jag för resp. dimension sorterade efter värdena där något koncept som har ett underligt värde. Kan jag gå in och manuellt förändra det.
    • Och av och till skapa om NOSQL databaserna från de manuella sorteringarna.
    • Effekten kortsiktigt av detta är föga men arbetar upp sig över tiden och gör det enkelt att korrigera omedelbara problem som irriterar.

    Känt för mig är att färdigtränade 300 resp. är för varje normalanvändning bättre än de 400. Jag tror vidare att i allmänhet när man börjar med ord som representationer och använder normalt väldigt stort corpus (snarare än tänkbart extremt stort avvikande från publikt tillgängliga vilket jag avstod från att pröva själv då jag inte såg någon trolig poäng med det men möjligen avvikande) ligger man nära optimum för normal användning någonstans runt 300 st flyttals-dimensioner. En bit ovanför 400 tror jag man väldigt snart generellt med vanliga algoritmer hamnar där dimensionerna ej bra nog generaliserar utan uttrycker diskriminering som ej väl fungerar i alla användningar eller lika väl går att ta från enskilda ord vidare till kompositioner av flera ord till fraser och named-entities, hela dokument, kategorier av ord hörande till ett ämne o.s.v. Även om det kanske upp till 600 dimensioner ej nödvändigt utan större testning märks. Jag har några gånger sett att andra noterat samma sak också (åtminstone något publicerat runt nlp.stanford.edu/projects/glove/ men jag har också sett andra som sätter upp många fler dimensioner). Förövrigt ska man ej underskatta den prestandaförbättring man får bara från att gå ner från 400 dimensioner till 300.

    Känt för mig är att färdiga 300-dimensioner ska kvadreras innan de lagras och börjar användas. Jag har i sista typen av träning experimenterat med att kvadrera efter varje förändring vilket dock ej var meningsfullt. Om de ej kvadreras fungerar de ej lika bra men mycket bättre men L1-distans istället för L2-distans emedan L2-distansen åtminstone för kvadrerad FF (relationer) tycks vara något bättre åtminstone för personer.

    Tränande tillstånd för klassificering av personer (cirka 500 000 namn samt ett mindre antal roller inkluderande även sådana som ambassadör från land-x till land-y år XX) till 12 dimensioner vardera ett 300-tillstånd igen med Kohonen-nät (självorganisering namn tenderar att följa de stora kulturgrupperna i mening arabiska namn, europeiska namn (inkl. anglosaxiska namn Nordamerika), spanska namn, asiatiska namn, och med rollerna tagande position varierat över dessa och ej mutande in någon egen dimension (förväntat därför att de är väsentligt färre i antal men tycks ej störa klassificeringen). 300-FF när skapat bestämde resp. vinnande tillstånd under träningen med cosinus similarity men här gjorde jag det istället med ej kombination av cosinus-similarity och L1-distansen som jag av och till (men mycket mer sällsynt än cosinus-similarity) använt för 300-vektorerna.

    Denna similarity experimenterade jag med ett tag som tänkbart alternativ till att kvadrera 300-vektorerna och bygga om BDB-databaserna (jag hade vid tillfället mer än 90% av allt minne ockuperat kontinuerligt och jag föredrar när jag bygger NOSQL databaserna att försöka få in resp. datatyp i en stor fil istället för uppdelat efter ex. första bokstaven vilket gör med den BDB-provider till perl jag använder att för god prestanda ska man bäst ha mycket ledigt minne - dessutom bryter BDB mycket effektivt bussen även för OS-processor när den sparar vilket alltid gör mig nervös rörande swap även om den tycks hantera det åt OS också rent av inloggad i Ubuntu bättre - ej svårt kanske givet hur sämre prestanda Ubuntu blivit sedan de också inkluderade sin server anpassning görande det ex. omöjligt att utnyttja mer än säg 70 - 80% av allt fysiskt ram-minne man har eller utnyttja alla cpu-kernels samtidigt utan att få processen dödad : Ett litet mysterium - så jag vill ogärna ha processer igång mot samma partitioner igång som behöver skriva ofta även om jag aldrig sett att det genererat exceptions i nivå med mina perl-processer som istället stannar och tyst väntar via något nedanför min kod). Operationen som varianten jag nu gjorde (samma princip men sökande att garantera riktning p.s.s. som cosinus - d.v.s. samma anledning som jag föredrar cosinus i Kohonen-näten framför L2 även om de ofta uppges ekvivalenta):

    • Sim: Vi beräknat similarity cosinus p.s.s. som normalt: Summan över L2-normaliserade vektorer element-vis: x(i) * y(i).
    • L1: Vi beräknat absolutbeloppet av differensen element-vis: (1/2) * abs ( x(i) - y(i) ).
    • Vi dividerar L1 med 300 vilket ger oss ett värde som i storlek ligger mer jämförbart med sim. Jag känner ej till hur man i princip kan tänka för att göra dem jämförbara enligt något systematiskt. Eftersom alla vektorer vi utnyttjar i sig har samma antal element och varje element följer samma fördelning och varje vektor normaliserar p.s.s. behöver vi egentligen ej oroa oss här eller för den delen egentligen göra divisionen (dock ev. behöver vi tänka till rörande (1 + L1) i nästa steg).
    • Vi dividerar sim med (1 + L1). Jag adderar ett därför att L1 ligger ]0,1] och jag vill att likheten ska minska med växande L1.

    Cosinus similarity blir gränsen för den största likheten vi kan få. Med reduceras med växande L1-distans. Och när distansen är maximal får vi halva cosinus-similarity.

    Vid träningen av klassificering personer tycks sim-hh bättre utnyttja 300-vektorerna än cosinus även om skillnaden ej är särskilt stor (för kvadrerade nu normala default 300-FF) för resp. operation gör det i tid mycket märkbar skillnad vid träningen. Hade det nu handlat om LSA 400-vektorerna tror jag ej (men har aldrig prövat) att skillnaden hade varit särskilt stor alls. Utan jag anar att det har att göra med att:

    • Resp. dimension är en meningsfull kategori där ett flertal redan har stor preferens mot personer.
    • Personerna har dock värden satta för samtliga dimensioner där dessa resp. värden beräknades av cosinus-similarity mellan deras 400-vektor och resp. 400-dim tillstånd för kohonen-nätet.
  • Personer som ex. har mycket att göra med flera ämnen (ex. litteratur, en karriär inom ett ämne, länder, språkområden m.m.) har också detta uttryckt men ej nödvändigtvis uteslutande eller alls via de dimensioner som har stor preferens för personer (d.v.s. visa dimensioner 300 sorterar efter grovt stora länder och/eller språkområden ex. tror jag två till tre samlar arabiska namn, några romerska, en eller två japanska namn o.s.v. medan för japanska namn har självorganiserat dimensionerna till preferens både japanska personer och japanska ortnamn för 300-CC d.v.s. ej utnyttjande relationerna medan detta förekommer knappt alls 300-FF), andra orter, ämnen o.s.v. En person kommer ha större värden för tillhörande språkområde men också ligga relativt högt i dimensioner relaterade kulturområden, geografiska orter, ämnen m.m. vilket också gäller som default även när personen i indatat 300-FF skapades ifrån saknar samtliga relationer så länge indata till 400 representationerna d.v.s. (bl.a. Wikipedia-dump och common-crawl uttrycker relativa preferenser som för flergram person klaras att uttryckas diskriminerbart vilket för namn som har kultur- och geo-association är mycket tydligt via särskilt tror jag Wikipedia)

Komponenten L1 trots kvadreringen FF tycks göra jämförelserna något effektivare i mening att resp. dimension-personer vid träningen konvergerar tidigt i träningen oerhört snabbt redan under första epoken första 1000 - 5000 slumpvis valda personer (medan bara cosinus förvisso klarar att grovt ha alla dimensionerna sorterade rätt också första epoken d.v.s. första varvet men först senare i den och med ett större antal som hamnat kontinuerligt under hela epoken på andra dimensioner än de slutligen hamnar).


Jag tenderar att gärna se matematik vilket tycks fungera väl för mig även om jag ofta utnyttjar detta sämre än nödvändigt därför att jag upplever en osäkerhet där jag föredrar att läsa någon som rekommenderar lösning jag hamnat i om jag ej klarar att uttrycka eller förstå den mer i matematiska-metodiken. Väsentligt här försökande det senare (antagligen ej perfekt alls) gäller tror jag att formen för distributionen av värden vi har att göra med väsentligt är annorlunda än L2 resp. L1 (men jag har ej beräknat ut värdena allt och jämfört: Utan lär även fortsatt utnyttja L2 när jag behöver distribution alla värden). Jag tror vi snarare får något hyperboliskt skapat av förhållandet. Jag tycker rörande en egenskap jag menar (men minns ej att jag bra kontrollerade då: Istället jämförde jag vid tillfället ett antal operationer komposition kända samt skapade några andra själv varav denna som jag tyckte var svagt bättre på vissa kombinationer av ord i koncept som hade något jag upplevde problematiskt i topp cirka 100 av närmaste grannar - och såg ej anledning att jämföra mer än så därför att bra mycket när så lika varandra försvinner bort under reduktionen från 400 till 300 dimensioner emedan användning nu skulle kräva mer testande) att operationen för komposition tidigare refererad använd av mig för att skapa 300-CC (görs då för varje kombination av två ord möjliga oavsett position för orden i konceptet från 400 vektorerna) resp. ej helt olikt när koncept kombineras med resp. relation det har när 300-FF skapades: x(i)y(i) (x(i) + y(i)):


  • Resp. addition och multiplikation är de mest använda operationerna för komposition.
  • Vill vi kan vi se det som likheten för resp. element får vikta summan.
  • Men vi kan också välja att se min komposition som att uttrycka följande (jag planerat - men ej kommit mig för än - att generera och rita upp värdena för så jag är säker på att jag ej visualiserar förhållandet felaktigt vilket ej helt sällan är fallet):
    • När x(i) och y(i) är resp. stora kommer element i i den nya vektorn öka med större delen av vad den linjära additionen klarar att ge.
    • Men när något av x(i) och y(i) är litet kommer den linjära additionen att mycket "snabbt" / mer reduceras.
  • Vi kan jämföra med algoritmer (ex. lastdelning, routing: "Hans upp till hänsynslösa men håll det fungerande" mining ner stor datakälla på nätet perl-script resp. mänsklig preferens (men där oftare givet en mer övergripande nivå mycket mer genomgripande och magnitud-större) där vi när saker fungerar ökar upp vår villighet / storleksordningen vi ockuperar ex. kanal med ett enhetssteg medan om det blir problem blir vi rädda och springer bort en längre sträcka eller motsvarande för algoritmer reducerar ner den kanal vi ockuperar kraftigt. Tar vi min algoritm för mining gäller att vi hänsynslöst vill hålla maximalt av den och kanal ockuperat för min användning (denna använde jag under en period när jag tog ner ett väldigt stort antal stora datakällor och att ta maximalt var mycket meningsfullt i totala mängden tid reducerad över allt insparad även om det per fall inte behöver bli mer än någon eller några dagar sparade) så vi trådar upp (eller som det slutligen blev med en tråd per server och körande cirka 15 - 30 st parallellt - skickar requests fritt till den maximalt vad kanalen klarar: Numera körande alltid från små enheter - i varje fall hårddisk-enheter resp. Sygate eller WN jag gjort om till små servrar - med www.archlinux.org ligger de ej tidsstressat och har som default aldrig ändrat att alltid ta in en mycket hög tidsfördröjning eftersom datat ej är planerat att användas på väldigt länge) får vi nu ett fel eller att server börjar svara långsamt eller går tyst och vi är under de första timmarna under två till tre (jag minns ej vilket det var) tidsperioder första dygnet kända för mig att oftare ge problem också från annat än servern själv i vissa regioner vanliga (även om ej alls längre jämförbart med hur det var 1995 till kanske så sent som 2000 när man märkte när vissa regioner USA vaknade och delar av internet blev oanvändbart) kortare perioder på någon halvtimme in i testning för att försöka höja nedladdning. Nedladdning kan vara nivå 1 till 10 med tio som högst. Nivå vi börjar på är antingen nuvarande nivå eller en tidigare lägsta nivå högre än den vi börjat på (enligt enkel regellogik prövande detta för att ev. problem tidigare ej vanligt ej ska göra ny testning ineffektiv). Vi höjer nu nivån stegvis (ex. 2, 3, 4, 5, ..., 10) efter några tusen nedladdningar så länge ej problem uppstår. Får vi ett problem går vi hela vägen tillbaka tillbaka till nivån vi började på och börjar höga igen. Denna gång höjer vi emellertid ej upp till den nivå där vi fick problem (vilket istället jag gör åt programmet senare samma dag manuellt och ser betraktande det hela om det går att gå något steg ovanför). Poängen är att få hög prestanda men ej riskera att ligga och få en massa data som bara består av timeouts slösande såväl hårddisk som tid nedladdning på ingenting. Något problem med att riskera att ej komma åt servrar alls via accessregler gäller dock i princip aldrig. Endast två av många tusen (säg 9000 större datakällor i form av nyhetstidningar, bibliotek m.m.) gav sådana problem varav en (ett arkiv över militärforskning: Jag misstänker också att det hela ej inträffade så mycket på deras initiativ som relaterat den den externa tjänst - Google som är känt helt unikt känslig rörande allt som kan tänkas spara ned deras sökresultat: D.v.s. givet deras marknadsandel väldigt fin möjlighet för andra sökmotorer att etablera en potentiellt väldigt stor marknad mot företag som söker uppgifter andra tjänster som Google i princip helt givet nivån på deras särskilda tjänster för sådant ej agerar i och rätt där för sådana aktörer är att tillåta allt här fritt under överskådlig tid för att etablera sig skälv som inbyggd kanal ej trivial att ersätta - för indexering av deras forskning som de använde: Men har ej försökt kontrollera det.) korrigerade detta och den andra (arkiv över medicinsk forskning) tydligt anger att man ej ska gå över ett högt antal requests per dygn emedan mitt program via en defekt låg kontinuerligt över tror jag en månad tio - 20 ggr över denna nivå.


D.v.s. jämförelsen är relevant genom att additionen går kraftigt ner i effekt av resp. värde om ett värde är lågt. Storleken av additionen begränsas av det lägsta värdet hos resp. Om vi vet att en av vektorerna definierar ett ämne (och har dimensioner som klarar sådant på detta sätt vilket jag ej menar att LSA-dimensioner klarar likaväl därför att det där tror jag också ligger påverkande information i kombinationer av uttryck av dimensionerna men som vi åtminstone är mycket närmare för mina 300-vektorerna) hade vi jämförbart istället kunnat låta endast den sätta den yttre gränsen modifierande den andra vektorn så att endast vad i den som är innanför den antingen får komma med (ex. kastande värden om avvikande väsentligt) eller alternativt behållande värde ej modifierat om mindre eller lika med värdet för första i dimensionen och om större sättande ned det till första dimensionens värde. Nu sker similarity operationen via resp. L1 och sim vi får adderande över alla dimensioner innan kombinerat. Men om det hade gjorts (vilket jag ej tror är i allmänhet lämpligare: tvärtom kanske) kan vi se att vi gör något liknande: x(i) * y(i) / ( 1 + abs ( x(i) - y(i) ) ).

Men med skillnaden att det nu är reduktionen för ett avvikande värde som ej får möjlighet att reducera samlad distans lika mycket. Ser vi nu att vi för resp. dimension har relevanta koncept som man direkt och enkelt ser är i något ämne av samma sak för i princip alla liggande ovanför ett cosinus similarity värde av för 300-FF (kvadrerade) cirka 0.40 - 0.45 (för 300-FF kvadrerade valde jag ej att göra något av "align" på resultatet vilket jag hade gjort innan genom att bl.a. subtrahera medelvärde vilket gör att de ligger cirka 0.10 förskjutna åt höger mot förväntat i övriga - i allmänhet alltid alla andra är samma gränsnivå 0.30 - 0.35 med eller utan align gjord och förutom att FF oftare är korrektare vid klassificering gäller att den av orsaker ej helt klara för mig ligger något förskjuten uppåt allmänt hela vägen under träningen) gäller att vi ej endast har meningsfull information i att två koncept båda ligger ovanför detta värde. Dessutom gäller att koncept som har högre värden kommer tendera att (för 300-FF där i princip resp. koncept fick påverka med samma sannolikhet under träningen emedan det för ex. 300-WORD finns ett samband till sannolikhet för att garantera att ord ej ovanliga d.v.s. de cirka 80 000 i värden vanligaste orden på den närmare eller konkret den engelska världen har bra utrymme i dimensioner - Dock 300-FF gäller att över alla dimensioner kommer similarity uttrycka sannolikhet koncept genom att dess representation 400 skapats via dess relationer till andra koncept d.v.s. koncept med hög samtidig förekomst andra koncept kommer få höga värden likhet över fler av de 300-dimensionerna) vara mer typiska eller mer genuint tydliga för vad dimensionen uttrycker. xy ger därför en indikation på hur genuina båda är med den lägsta som övre gräns.

Dock jämför vi två koncept på en dimension gäller ju också att om skillnaden i värden mellan dem är liten är de mer lika varandra även om värdena i sig är olika. Samtidigt gäller att informationen sådan likhet bär ej självklart är jämförbar för alla nivåer eller för den delen dimensioner vi beräknar på. Att båda har liten distans betyder troligen något bra att använda oavsett nivå men det är antagligen information med mer värde när värdena är högre än om de är låga. Troligen (jag tror så) men ej vad jag kontrollerat kommer värdet av denna information krympa väldigt snabbt ner till något minsta uttryck ju mindre nivå de resp. ligger i. Därför att vid för båda låga värden finns något minsta en dimension specialiserad mot ett ämne här klarar av att säga om koncept som har nästan inget i sig relevant för det ämnet.

Jag tror vi ej får denna information lika bra med när vi bara gör xy-operationen.

Vidare kan vi acceptera att L2-distans och cosinus-similarity är samma sak i mening att vi kan få ut samma värde via omräkning (sedan vill jag egentligen ej riktigt hålla med om att principen är generell: Vi kan ju få en riktning som representerar meningsfull information man bör garantera att algoritm utnyttjar så om utan korrigering omräkningen gäller så är algoritmerna man använder ej optimalt gjorda. Men jag förstår hur man kan uppleva dem som samma sak eftersom värdena ser lika ut). Säg att en av vektorerna är medelvärdet av alla existerande koncept (vilka också deltog i träningen som resulterade i vad 300-FF skapades i från). Jag ville mena i jämförelse att vi får L2 och cosinus-sim får något vi kan se som motsvarande variansen emedan L1 ger något vi se som differensen mellan medelvärde i Fishers linjära-diskriminant eller som signal-to-noise-ratio motsvarande förhållandet delta-värde dividerat med bredden för hur spritt det är (se Värdet av kaos (2017-02-07)). Men jag tappade precis förståelsen av detta (rörande hur man se på summeringen över vektor-dimensionerna).

Rörande jämförelsen dator-nätverk med mänskligt beteende är min referens beteende mer hur vi agerar i ex. sådant tydligast barn när vi utforskar något okänt (jämför barn osm under lek smyger sig fram men vid plötsligt ljud flyr ordentlig sträcka snabbt). Men vi har också ett resonemang jag ej ännu läst i detalj som rör något djupare i detalj rörande hur nätverk av noder beter sig när de transporterar och processar information där man menar att hjärnan kanske utnyttjar något likartat: The Internet and your brain are more alike than you think (2017-02-09), Salk Institute via EurekAlert.org.