Anteckningar: Entropi belöning motsvarar

2010-10-10

För att vara säker på att jag inte tappar bort dessa anteckningar sparar jag undan dem här också givet att sambandet är väldigt viktigt därför att det reflekterar den rekursiva naturen i hur agenter motsvarande neuroner, myror, människor eller organisationer fungerar.

Vad som gör anteckningen oerhört viktig här är dessa två slutsatser där resonemanget där man ser det klart är viktigt - även om de i sig är vad jag på sätt och vis vetat länge - givet hur exakt hela resonemanget klarade att beskriva den information d.v.s. reduktion i osäkerhet som en belöning i sig indikerar:

"It is saying the knowledge we collected is more important. So power for the patterns they reflect increases. "
[...]
And now it go complex. Cause now we also come into the things you want and how that reflects entropy from ads. "

Vi kan se det som att vi reducerat osäkerhet i ett "spel" (vilken situation som helst) vilket medieras via dopamin i orbifrontal cortex därför att det är inlärning. När det resulterar i att du vinner något aktiveras belöningscentrum vilket huvudsakligen speglas i ökad aktivering av prrefrontal cortex därför att det är den del som har högst densitet av D2-receptorer och är kopplad till belöningscentrum (därmed inte sagt att denna del nödvändigtvis har särskilt mycket med upplevelsen av belöningen men det saknar betydelse här).

Belöningen i sig gör att det inlärda mönstret d.v.s. reducerad osäkerhet som ledde fram till den förstärks. Det gör att vi lättare kan komma ihåg och vår motivation för att upprepa mönstret ökar. På samma sätt som dopamin i orbifrontal cortex motsvarar reducerad entropi kommer dopamin som belöning förstärka den information i hjärnan som inlärningen representerar. Och precis efter att ha sett ännu klarare fick jag belöningen själv. Ha. Utmärkt. Egentligen är det här en för bra slutsats att publicera men varför inte.

Därmed inser vi också varför som KI pekade på att divergent men inte lateralt (de undersökte endast för divergent) tänkande blir lättare med färre D2-receptorer: det representerar mindre säkerhet om befintlig inlärning och därmed ökad flexibilitet att pröva lösningar. Och där fick jag en till belöning när jag insåg det också. Fantastiskt. Motsvarar kraftigt reducerad osäkerhet.

Från storleken på belöningen - de två jag fick nu - inser vi också att denna speglar mängden information som krävt för att nå fram. Mer information indikerar en kraftigare intellektuell motivation d.v.s. högt överlevnadsvärde och sambandet är därför sunt. Här cirka säg 2000 publicerade studier och cirka 50 egna fallstudier (räknade endast större) men givetvis speglande mycket mer än detta.

Det känns bra att ha haft rätt hela vägen. Det kommer verkligen ner till entropin.

Den motiverade läsaren kan fundera över hur det speglar upp för större organisationer t.ex. företag. Där är det svårare att se men det finns situationer där det är betydligt tydligare och ett sådant exempel är Andra världskriget där Japan snabbt blev oerhört aggressivt efter många hundra år av nästan total isolering. Deras osäkerhet som organisation, avseende enskilda personer o.s.v. om omvärlden var hög.

Implementation av miljö för modellen och samband påbörjad

Det är också som jag skrev på Pryltrend i John Lennon doodle i hög kontrast, rött, musik och rörelse så att jag nu började implementera modellen i mjukvara där det i början till stor del kommer handla om att sätta grunden d.v.s. en miljö för agenter som kan spegla (via datastrukturer med rekursiva naturen) en neuron, flera neuroner, en myra, flera myror, ett företag, flera företag m.m. Jag kan citera vad jag skrev på Pryltrend först:

"Modellen av vårt språk och kreativitet - där givetvis perceptio inklusive det visuella är en viktig del - passerade igår fint över till att implementation av ramverket påbörjades (mycket arbete kvarstår dock men det ska säkert ha nått en ganska utvecklad version under 2011 första halvåret och en mindre lär komma redan under nästa vecka för några enkla modelleringar med agenter över grundläggande mekanismer i enskilda entiteters kognition (myror, hjärnceller, människor) och organisationer (flera människor eller myrstackar).

Kontextuell hantering av agenter är påbörjat liksom några av de grundläggande funktionerna för statistiska samband, översättning mellan olika steg i "entropi-omsättning" mellan metabolism, aktivitet i kognition, språk, beslutsfattande, belöning o.s.v. (det mesta där kvarstår dock att göra men det är utmärkt att det påbörjats)

Den första lilla koden till en "värld" är också gjord där en dimension är en två dimensionell yta och andra sådana ytor kan användas för att uttrycka varumärken, text, energisamband i omvärlden o.s.v. där principen för idéen uttrycks med även många av de grundläggande funktionerna kvar att göra.

Vidare har ett antal grundläggande ramverks gemensamma funktioner gjorts inkluderade t.ex. ösningen för generering av slumptal med högkvalitet (den första jag gjorde när jag började implementationen):: tigerAnt - randomEngine v0.8: GNU Octave pseudo-random number generator using MD5.

Den kommer säkert utvecklas mer både rörande funktioner och om nödvändigt fler lager för att ge mycket låg redundans. Givet att det här kommer vara intressant att även göra långa simuleringar med ett stort antal rörelser är det bra att se till att man inte har vad som kan börja ge korta cykler, uttrycka ytor av dåliga statistiska egenskaper o.s.v.

Vidare önskade jag möjlighet till att kunna reproducera sekvenser för individuella agenter medan det är varierat frö annat. Det är vad jag ser kan vara värdefullt vid komplexa simuleringar motsvarande svåra problemställningar speglande t.ex. politik, företag, evolution eller vad som helst där man kan önska upprepa en agent på samma sätt medan övriga får bete sig som de vill förutom just den faktorer man önskar styra."

Minnesanteckningar

Dessa är snabba minnesanteckningar och speglar inte ett välgjort språk eller ens korrekt engelska.

"So I better read up on it now instead.

I have the general factors at least.

I think.

So one will have to measure uncertainity as they see it. But I am a bit sceptical to a lot I see here. I check two books and either I get me thinking wrong here which is unlikely cause I check for a few things rather and well sitting through the formulas

Let's summarice here:

1. Uncertainity is measured - of course incorrectly often but it depends on the game - their it is optimized for go hunting and such.

2. Decreasing uncertainity is learning and given it is sequenced and such it is done through dopamin. Orbifrontal seems very much into which according to one study I read which I find attractive. Cause it fits my understanding of it regarding error correcting which might just be this.

3. We get a bayesian formula their I take one I understand, is simple and reflects the properties I have a strong beliave in.

4. It will not start at 0 though. How could it? Always knew factors even if they are irrelevant. Might though here practical.

5. Now comes the tricky part. We have a total reward possible short term:

5.1 Reduction in uncertainity will activate a part reflecting: Orbifrontal cortex. We get the proportion for it but have a few numbers we perhaps can do some thing out of it with.

5.2. This should with healthy only happend if it is learning.

5.3. This will build up.

5.4. In a no win no loose game it get a slow buzz very fun for some persons who likes that as alternative for say drugs or alcohol or some else less well sound.

5.5. On a reward prefrontal activate which probably reflects really other things but it is so receptor dense it anyway reflects as pointed out in that study. I do find that elegant but given it's size I guess it goes to that. And this would also be an energy thing: we built it and it is cheaper to let it flow on that rather than making the basic thing done for this bigger. So we need proportion for this.

5.6. Given win prefrontal and orbi adds up I think.

5.7. A relationship with the reward size would exist but it is not as obvious one can think of course. I doubt a good thing exist here their I think it perhaps is pattern recognizion. U like trained to win small sums with skraplotter it gives a good buzz and perhaps better than getting 100 kr in a game u never played before. Hard.

5.8 U can also reduce uncertainity and get a bad feeling. Hence u do not wanna game any more if it goes up to much. A dependant fruit outside the game could of course change that still being relevant. Like u wanna ,eet some girl or like well same of course: u might not like a restaurang being bad food (negative reward) but u wanna meet this waitress.

5.9 On that metabolism and what ever else I added. It seems elegant not to use metabolism but it makes modelling very limited really if u think about it. When fueling agents go adhoc while it really isn't. This basic shit one really want really splitted up but on the same level. One fuel will be enough though but of course so u can add several changing a parameter. I mean the curves looked similar for all three just like some parameter u change. Baffled me I didn't find any formulas for them. ATP would have been elegant and so but looked complex.

En efterföljande del som indikerar den viktiga rekursiva egenskapen:

"Lets reason some more here.

The reward given we say published studies saying and seeing different things we assume.

When we gotta ask us the thing - same which make me say this - that is which information does the reward represent.

And now it go complex. Cause now we also come into which things u want and how that reflects entropy for ads and so on.

This is np though. We just give reward an object and make it a parameter. Parameters is safe here cause Octave supports function pointers and given that only the function using it will have to be changed. And definition. "

Vidare utifrån det:

"So lets rethink given this.

We really need to first make a game of increasing certainty cause that is the basic game always.

So what is the reward when? We said it reflects information.

It is saying the knowledge we collected and known is more important. So patterns for it increase.

Compare to the path to a tree with red apples. Or the reason people go fat the food stores is to easy to get candy from so certainty, size of sugar and cost to get it do not reflect. Orbifrontal cortex doing error correction on risk though is the thing that can balance it but given the size of the sugar reward it can be problematic."