Emergence i Hans Google-sökruta: "lateral inhibition" + emergence of relation organization + distributed vectors + "kohonen network"

2017-02-21

Efter att prövat runt lite löst med självorganiserad träning av 18 st tillstånd i ett rakt 1-dim Kohonen-nät (utan koppling mellan första och sista elementen) reducerande ner antalet tillstånd till 12 och i samband med det prövade något nytt. Sökte jag idag Google på:


"lateral inhibition" + emergence of relation organization + distributed vectors + "kohonen network"

De i starkaste upptäckterna jag gjort i förändringar i eller nya algoritmer skiljer ut sig i toppen genom att ha god distans till nummer 4. Dessutom skiljer sig 1 - 3 genom att alla upptäckts genom att jag programmerat fel eller att som här prövat något för att få bekräftat att något går fel (och här att jag vill se det gå fel).


Säg här utan att våga mig på detaljerna då jag ej sitter med koden för att reflektera principen värdet själv en gång till.

1. Vi lämnar övriga tillstånd och reflekterar endast två stycken.

2. De är när vi möter dem redan tränande på indata.

3. Indata ligger i ett tämligen nära besläktat område: Organisationer där de har viss specialisering.

4. Fortfarande uttrycks i för alla koncept relevant något gemensamt genom att indata vektorer är tränande från ovanpå LSA-reduktion till 400 dimensioner av stort språkcorpus relationerna i Bluelight. Därmed tillsammans med från 50 upp till 50 000 cirka relationer per koncept kommer vissa gärna vara gemensamma så som organization, company m.m.

5. Ett av tillstånden kommer nu fortsatt aktiveras mer sannolikt relativt sina intränade tillstånd (snarare än ev. idé om hur vi vill ha dem aktiverande klara) därför att sannolikheterna för koncepten i indata manipuleras: Innehåller ett flergram symboliserande koncept indata något av ett antal ord (ex. county, f.c., trainstation m.m.) hoppar vi ibland över dem med viss sannolikhet (hög kvalitet bluelight relationer så lätta att träna bra snabbt samtidigt är de enormt många och tar därför om de får komma fritt enorm bredd i ockupation Kohonen-nätet).

6. Mellan resp. av dessa tillstånd finns en rymd som kan innehålla vad som aktiveras via som normal spridning från vinnande nod görs i Kohonen. Emellertid ger vi också noden möjlighet att göra något vi väljer att påstå är (men egentligen ej är bara detta men det fungerar antagligen en bit här som förklaring jämförbart även om det ej orkar till emergence av organisation och självavstannande träning av noder när de är klara) att vinnande nod subtraherar bort en bit av indatat från noder som är längre ifrån den än ett tröskelvärde.

Alternativt jämförbart kan vi betrakta ett dendrit-träd där vi kan förstå viss logik såväl som möjlighet att se vilka motsvarande "vinklar" i ett 3D-rum som är den troliga centraliteten för varifrån aktiviteten kommer bakifrån från sändande neuroner. D.v.s. vi kan se att typbestämning i sig är möjligt ensidigt för resp. medan om vi antar att båda behöver förstå att de gjort GABA i en vinkel resp. aktiveras GABA krävs dessutom just en särskild signalsubstans (d.v.s. GABA). Och tänkbart är det så även om jag ej försökt göra magi med det här än och lär behöva smälta det några månader (ibland år) om jag känner mig själv rätt.

7. Nod som aktiveras mer sannolikt kommer troligare (men ej självklart tror jag för alla tillstånd relativt ordning indata när vi ej antar några andra noder givna som kan påverka resp. positivt att alltid den som från börjar var i genomsnitt mest trolig "vinner" striden om att få möjligheten att arbeta övertid) kunna reducera bort relevansen av motsvarande (och byggs nu stegvis från indatat i Gradient descent):

7.1. Gradient descent element-vis innebär att där vektorn uttrycker större skillnad (differens snarare än absolutbeloppet) förändrar vi mer. För gemensamma egenskaper hos resp. tillstånd givet att vi börjar förändring vi diskuterar när de är tämligen tränade kommer därför påverkas föga om alls.

7.2. Vad som kan påverkas är istället:

7.2.1. Vad som finns i tillstånd vinnande men ej i den andra. Förlorande tillstånd aktiveras fortsatt mindre sannolikt för vad som är specifikt för vinnare.

7.2.2. Vad som är gemensamt etablerat som besläktade egenskaper kommer reduceras. D.v.s. här där de tränades med cirka 16 - 18 tillstånd emellan som gjort positiv spridning grannskap finns en del kanske gemensamt speciellt från kortare grannskap i och med dessa egentligen de två var konkret rand-tillstånden d.v.s. flow emellan områdena närmare dem är ganska låg och redundant konvergering är därför tänkbar.

7.3. I den mån inget relevant i tillståndet kvarstår som gör att det kan aktiveras som vinnare kommer dess aktivitet med säkerhet när endast två neuroner existerar avstanna permanent (så länge indata ej ändras). D.v.s. vi vet att ej något indata finns som kan aktivera det därför att vi gjort några epoker över det.

7.4. Vad vi nu har är:

7.4.1. Ett tillstånd "vinnare" som tränat sig för allt indata aktuellt för dessa två.

7.4.2. Ett första tillstånd motsvarande långtidsminne för när den andra neuronen började denna process.

7.4.3. Vetskapen att dessa långtidsminne är ett underrum / mindre yta i ytan (jag tror men vågar ej säga det ena korrektare än det andra att man bättre här nöjer sig hellre
med det senare eftersom vi för det första behöver resonera om vad relationerna inlärda mellan dem motsvarar i dimensioner - även om jag gärna mer abstrakt-tänkande upplever det mycket korrekt att vid emergence av nya egenskaper resonera rörande eventuell strukturell förändring av hur vi förstår eller hur världen är) eller om vi så vill att det när data och vektorer är semantiskt meningsfulla att förloraren är ett mer exakt uttryck av den större "kategori" som vinnaren uttrycker.

8. Jag läste en tyckte jag mycket läsvärd artikel av några israeliska forskare som experimenterat med sambandet som noterades först eller tidigt post 1960-talet (annars tror jag kanske Small groups - Writings in social interactions, ev. 1958 - om jag ej missminner mig eller tar fel på antologi - och om det senare är denna den som har page-ranking algoritmen publicerad - ibland för algoritmer som stort data eller för PR stora nätverk krävt sent i modern data-era att bli effektiva behövdes för samma problem 60-talet vara effektiva för väldigt veka datorer alternativt papper-och-penna så ibland hittar man algorittmer som kommit nya nu i gamla antologier vilka jag bl.a. därför de tänkte effektivt lättare än vad vi ställt om till än gärna köper regelmässigt när jag hittar dem i boklådor), av Mikolov i Linguistic Regularities in Continuous Space Word Representations (Tomas Mikolov∗, Wen-tau Yih, Geoffrey Zweig, och tiden 2003 vid Microsoft Research) . Goldberg är med största sannolik rätt person (känner igen namnet även om jag gissade på Gold nu när jag försökte hitta artikeln: Mitt artikelarkiv ligger ej på nät jag når från internet-datorn) och artikeln tycks just vara rätt (ev. gjorde de några stycken liknande så sök gärna runt själva om den ej känns bra just i introducerande optimerat "align" i tänkande av konceptet vektor-offset besparande en eget tänkande):



Sedan får man som en modern-svensk med för min generation svenskar typiskt antingen skeptiska eller varumärkes-slava perspektiv på monarki, att vi i båda så generellt typiskt för såävl amerikaner och ryssar (där nu israel tagit in mycket kultur från båda) tycker att det känns som ett naturligt praktiskt meningsfullt exempel att räkna på överklassens rolltitlar de under diktatur lade sig till med snarare än något värdebyggande som att hitta oupptäckta samband mellan innovationer som kanske hade kunnat stoppa den globala uppvärmningen eller hjälpa över en miljard förtryckta själar i Kina bli fria. Verkligen om nu regering får ändan ur vagnen och säkerställer att också kronprinsessa gör ett ordentligt ärligt dagsverke att de ej kan användas nog i vilken som helst av dessa länder. En serie under ett år besökande säg USA flera gånger kompetent gjort (d.v.s. stort i hur det märks) och upplevt naturligt att det blir flera gånger (d.v.s. etablerar något varaktigt) så att det inte bara känns genererande med svenskan som igen kommer och försöker sälja dem vapen, AGA-spisar, och pappersmassa (eller vad vi nu säljer utrikes idag).


Låt A vara ett tillämpningsområde där man idag löser ett problem dyrare, långsammare och miljöfarligt med lösning X1.

Låt B vara ett tillämpningsområde konkret avgränsat och distansierat från A men likväl i dess strukturella samband och processor är fullt jämförbart (på det sätt som ex. infrastruktur kan vara det i delar, eller ett land är till sina strukturella samband med myndigheter, riksbank, huvudstad o.s.v.) där man idag med lösning X2 tjänar grova pengar samtidigt som X2 är mer varaktig därför att X2 innebär att man kyler med en ny molekyl som kommer ta EU minst tre år att förbjuda medan den vi har i X1 redan kommer vara förbjuden om några månader. Så både ekonomiskt starkare och långsiktigt rörande miljön.

A, B, X1, X2 är vektorer som representerar vetande över allt relevant i processerna industriellt, ekonomisk-verklighet, såväl del av ett gemensamt rum som innehåller andra koncept p.s.s. D.v.s. ej olikt mina 300-FF (särskilt när kombinerande 300-CC) även om den första för bra många år sedan algoritmen för att hitta ej upptäckta innovationer i ett område som kan tas till ett annat område där det också fungerar men man ej upptäckt det bör vara ordentligt bättre (om än lite långsammare) än denna.

( A - X1 + B ) -> C'

Där C' uttrycker den information som ligger i L1-distans p.s.s. att den direkt är transformerad till tillstånd i vektor på sådant sätt att vi enkelt och omedelbart kan få ut en begriplig tolkning genom att söka de närmaste grannarna till C' bland kända vektorer. Jämför gärna med mitt resonemang i Similarity beräknad av similarity cos och L1-distans rörande den information L1-distans i mina 300-vektorer kan argumenteras ha. Diskuterar vi bredare vektor offset för algoritmer likt LSA eller skipgram vågar jag dock ej påstå att man lika självklart direkt kan se varifrån denna aktuell effekten kommer i och med dessa har informationen i vektorerna utspridd med samband mellan dimensionerna (så åtminstone för LSA och förutsätter jag som självklart för Skipgram men minns ej att tittat på något officiellt här eller någonsin implementerat den från förlaga och när gjort har det ej varit aktuellt att bygga representationer utan bara göra detaljer i helt andra sorters algoritmer som metod ad-hoc propagera vetande från kontext pågående till vektorer associerade till symboler som sedan jämförs). Vi inser att det ej är orimligt att exempelvis se att:

1. En dimension som har att göra med amerikanska romantiska föreställningar eller kanske politiska system kan ha ungefär (medan avståndet som differens till säg kärnkraftverk - annat ämne, annat språk, samt innehåller "ä" vilket alla tre påverkar i mina 300 vilka bottnar ut antalet ord vid cirka 350 000 tusen men där viss prioritet för att få med ord från ganska många ej ovanliga språk togs framför att täcka upp annat även om givetvis all engelska ej annat än otrolig finns med: Dock 80000 vanligaste orden d.v.s. engelska ord troligen alla fick mer träning... Att något fullständigt ovanligt namn från något litet språk - kanske fyra träffar på Google totalt - finns med har viss elegans såväl som värde men det är desto mervärde att garantera att vanlig engelska fått ta allt utrymme det behöver) samma L1-distans King och man som Queen och kvinna. Och där skillnaden i avstånd ej orimligt ges via differenserna mellan King och Queen, Man och Kvinna.

En sociologisk tolkning kan tyckas presentera sig men tror jag är feltänkt. Samband har snarare att göra med "shaping" av distribution samtidighet grammatiska relationer har. Det kan existera i vektor-informationen ett ej litet antal fler liknande "områden" som kan realiseras ut (helt givet finns det enormt mycket information i vektorerna givet metoderna de normalt skapas via och mängden träningsdata som normalt används där metoder för att effektivt använda färdiga vektorer ej nått alls långt och står på att beräkna L1-distans, L2-distans och cosinuse-similarity). Dock kan det vara så att sådana metoder ej är lika lätta att bara hitta genom att man ser något praktiskt intressant när man räknar runt med dem: Det kan vara mer icke-linjära samband så som ev. polynom motsvarande grammatiska relationer som ej är just lika linjära som den mellan typiska verb-argument till andra verb-argument. Ta säg intensiteten hos vad inducerat i träningsdata från adjektiv och verb föregående verb-1 görande när generaliserat av all träning att vissa följd verb i säg enklast (och mer givet att informationen finns där även om jag ej ännu givit upp på att se om jag kan hitta någon som gjort det - d.v.s. jag har ej alls satt mig och experimenterat igenom en punkt ej helt otroliga funktioner här eller i övrigt - en svårslagen metodik på många sätt - alla så vitt jag vet - mycket bättre - ordentligt snabbare - än matematisk-förståelse: Gör funktioner i tur och ordning på vad man hittar bläddrande runt i Beta väljande ut funktioner man tycker man känner igen och sett ospecifikt i något relaterat språk, och låt datan pröva runt med dem).


Notera att vi i resonemang ovan förutsatt att vi gjort operationen som Mikolov gjorde den d.v.s. istället för:

( A - X1 + B ) -> C'

Gör vi:

( A - X1 + X2 ) -> C'

Det kan tyckas mer självklart rätt här. Men innovation är nu inte lika trivialt i sin information som förhållandet till mycket vanliga roller som tas som argument till verb. Vad vi istället behöver som indata för att gå vidare är vår befintliga värld när vi approximerar bort metoden vi har d.v.s. reducerande information som har att göra med att den existerar (därför att dess existens är ej mervärde i sig). Vi litar på att A i övrigt fångar själva behoven som X1 fanns för. Vi skapar därefter den gemensamma världen där såväl A och B, existerar för men där B skiljer sig från A i och med att den ej flyttats relativt den lösning den använder. Så vi kan som första steg (efter några till mer konkreta men ej komplexa delsteg) söka den tekniska eller teoretiska relevansen som existerar mellan A och B. Och därefter om den bedöms rimlig - eventuellt efter manipulationer på A och/eller B (för ett värdefullt område kanske manuellt för att säkerställa att A verkligen har med vad som är viktigt när vi söker en lösning i vad som när det går igång på allvar är brutalt tidsödande bruteforce av en värld med gigantiska mängder information producerad från forskning- och industri där vi för det senare gärna ska inse att värde också existerar i såväl pressreleaser som lokalnyheter och allt emellan genom att där ges ej sällan tämligen exakt information om val av metod och lösning ett konkret företag valt oftast för nyheter relaterade till att man köpt något eller gått in i ett samband, eller att man i relation utan information vad det innebär tekniskt skapat n arbeten hos företag Q men där vi med expert-kunskap om affären i vårt system per automatik förstår från vad Q gör vad det handlar om. D.v.s. det finns bra information som sätter forskning och patenter närmare verkligheten att titta också på sådant.).


Goldbergs artikel kombinerad vårt koncept för att skapa en lösning som gör att de hårt arbetande medarbetande på aktör X kan fortsätta förtunna ozonskiktet några år till (de lägger sitt "trumf(/p)" i det hårda kortspel affärsvärlden är) kan vi se lite av det potentiella värde man kan spekulera eller ej ska utesluta kan existera när ett tillstånd systematiskt meningsfullt från träningsdata subtraherar (relativt additioner från andra tillstånd) information till ett annat tillstånd.


Trivialt vilket jag insåg reflekterande så här långt första gången (och där ett tag trodde att jag sett fel på möjligheten från det) kommer denna relation ej vara något annat än ett förhållande mellan de grannar den har som manipulerar den. D.v.s. egentligen samma sak som uttrycker självorganisationen. Emellertid inser vi att vi med relativt få (om än delvis komplexa men ej kostsamma prestanda alls) tillägg kan se processen som del av något mimicking lateral inhibition (länkar nedan) resp. den organisation vi uppleva oss läsa in och mena att pyramid-neuronerna har får vi vägar att få ut mer från vad som skapats. Men jag behöver troligen reflektera det här latent pågående ej aktivt ett tag till innan jag försöker skriva det (och därefter troligen om det nu faktiskt har värdet vila ett antal månader).


Ev. är detta förövrigt kanske något tänkte jag precis som man kan se en motsvarighet i "struktur" för en algoritm som utnyttjar information i flera tidssteg för att prediktera framåt från en jag har i en antologi från tror jag 2001 rörande smarta-kort där algoritm för ett angrepp presenteras (som det blev några år som det slumpades vad jag alltid utgick från om jag försökte göra något liknande). Jag får ta och slå upp den tror jag. Operationer där motsvarar ju kanske vad vi här kan se tillstånden som.


Neural inhibition | Scholarpedia
Lateral inhibition | Wikipedia (konceptet förstås bäst genom att göra det med papper och penna för ett fåtal neuroner).
Kohonen network | Scholarpedia (skriven av Kohonen själv: Det kan ha sina poänger också om min erfarenhet i allmänhet är att standard-algoritmer man ej mött innan bäst lärs först från exempelvis presentationer från föreläsningar universitet snarare än någon ambitiös artikel eller uppslagssida skaparen själv skriver).



"Operationally, up and down states refer to the observation that neurons have two preferred subthreshold membrane potentials, both subthreshold for action potential generation."
[...]
"Inhibition is everywhere apparent in the cortex. Any strong stimulus applied to the cortex evokes a clear IPSP component as a part of the response. Both feedforward and feedback inhibition in the cortex are mediated by the wide variety of GABAergic interneurons, and any activation of pyramidal neurons invariably leads to a graded inhibitory response that could act to balance any mutual excitatory effects among pyramidal cells (Haidner et al., 2006; Rigas and Castro-Alamancos, 2007; Destexhe et al. 2003; Rudolph et al., 2007). This offers a simple network mechanism that could create Up and Down states in pyramidal cells and not require any particular cellular mechanisms like those in striatal cells, and that mechanism has been studied in a number of variants (Bazhenov et al., 2002; Compte et al., 2003;Holcman and Tsodyks, 2006; Yuste et al., 2005). In all, the Down state of the network is a state of mutually-enforced quiet. Any input to any subset of cells will trigger some mutual excitation and some associated inhibition. If enough excitation is present, the network will re-excite itself explosively, and the cells will depolarize toward the Up states. The inhibition generated by pyramidal cell activity will also be recruited,, and the combined excitatory and inhibitory conductance will impose a more negative reversal potential for the net conductance change. If the balance of excitation remains high enough to maintain self-sustained activity, the effect of the network on any one cell will appear as a synaptic conductance with the reversal potential set by the balance of excitation and inhibition. "

Up and down states (Charles Wilson) | Scholarpedia

Antar vi att avsaknad aktivitet för tillstånd förlorande gör att den ej påverkas fortsatt (vilket givet gradient descent tänkbart ej behöver hanteras: skillnaden mellan tillstånd och träningsdata den får negativt av andra lär ha konvergerat till något de rör sig i och omkring). Arbete för vår vinnande neuron fortsätter. D.v.s. tillståndet kan tolkas som ej ännu stabilt där vinnande är i ett icke-equilibrium-upp. Oavsett om ännu i stabilt eller ej stabilt tillstånd: Förändras indata tillräckligt får vi effekt motsvarande vad man beskriver i citatet ovan.