Beslutsteori och kreativitet: Fano inequality och diskriminerbarhet

2012-10-30

Betraktar vi problemet vi löste i Möjlig lösning: Aktivering av tillstånd relativt likhet i kontext precis omvänt har kanske en motsvarighet i vad som indikerades här:


"In a new study, published March 27 in the online, open-access journal PLoS Biology, Anne Collins and Etienne Koechlin of Ecole Normale Supérieure and Institut National de la Santé et de la Recherche Médicale, France, examine frontal lobe function using behavioral experiments and computational models of human decision-making. They find that human frontal function concurrently monitors no more than three/four strategies but favors creativity, i.e. the exploration and creation of new strategies whenever no monitored strategies appear to be reliable enough."


Från: Creativity and human reasoning during decision-making | EurekAlert!, AAAS.


Här är ju släktskapet med Fano inequality ger oss en skattning av tydligare. Det handlar ju just om ett mått på hur "fel-tolkningen" påverkar gränsvärdet för meddelandets information:


"Then, for each incorrect output message the correct input message must be identified. The number of possible input messages is N−1 because the output message is known to be incorrect. Thus the amount of information necessary to identify the input message cannot exceed log(N−1) , and the corresponding average amount of information to be provided cannot exceed P(e)log(N−1) , the second term on the right hand side of (2)."


Från: Robert Mario Fano (2008), Scholarpedia, 3(10):6648.


Så vi kan kanske se det som att när strategier falerar här blir vi kreativa och söker något nytt och spekulera att kostnaden för att hantera det ökar med ökande n (och oavsett om en möjlig kostnad hade existerat innan är det kanske inte vad vi i klassiskt evolutionär-verklighet någonsin riktigt har rutiner för givet kända samband från mänskliga beteende relaterat hasardspel. för snabb-inlärning kring irrationella ej väsentliga faktorer på 1 till 2 träffar ej påverkat av många fall därefter o.s.v). Innan tre (för andra logaritmen) är ju tänkbar information vi behöver tillföra inte definierat alternativt 0 (vad vi saknar uttryck för). Stämmer det behöver kanske inte antalet strategier vara så hårt bundna till tre och fyra utan kan kanske variera också en bit uppåt beroende av hur sannolikheterna upplevs.


Åtminstone om vi ser det från Fano inequality världen. Vi kan ju också tänka oss att det åtminstone handlar om diskriminerbarhet d.v.s. det måste gå att särskilja vad som hör till strategier eller varför inte n stycken objekt vi håller i arbetsminne. Är ex. objekten features till visuella bilder har vi en enorm-mängd träningsdata vi plöjt igenom under vårt liv och skattningar av osäkerhet ex. enkelt relaterat gränsvärden via normalfördelningen för variansen blir därefter, och vi kan hantera många fler detaljer. Handlar det istället bara om vanliga ord räcker det inte lika långt därför för dom har vi mycket större varians. Det här resonemanget har en del praktiska värden också ex. blir det möjligt att resonera praktiskt görligt jämförbart mellan en individ i beslut och kollektiva beslut för populationer under antagande av funktioner för att uttrycka motsvarande pooled variance (bättre uttryckt som volativitet).


Tveklöst ett fascinerande intressant ämne också för många läsare. Eller kanske hade varit det om mer applikationsnära-tillämpningar diskuterats (det hade nog varit lika tråkigt ändå om problemet och dess lösning diskuterats men det är bara nyttigt för mina läsare att få lära sig lite självbehärskning eller i brist på det avstå från något utvecklande: här kan jag se ett moraliskt ansvar att bygga upp läsaren till en kanske mindre glad men nyttigt produktiv samhällsmedlem som skapar tillväxt inom långsiktiga nyckelområden viktiga för Nationen och Världen).

Möjlig lösning: Aktivering av tillstånd relativt likhet i kontext

Här har vi en tänkbar lösning på Aktivering av tillstånd relativt likhet i kontext jag lutar åt att de praktiska testerna mot data (dröjer något dygn tills nytt cache-data för similarity beräknats klart) kommer visa sig är korrekt fungerande.


Jag började med att titta igenom de sidor Wikipedia hade för information criterion och experimenterande en del praktiskt med miniräknaren i första lagret. Ingen uttryckte direkt vad som var funktionellt gav en idéer som ledde fram till ett uttryck.


På det sätt similarity beräknas står det i nära relation till förhållandet mellan feature relations (andra symboler inlärda relationer existerar till: vanligen cirka 40 - 10000 st) som är lika respektive olika, och den relativa associationen (i princip P ( symbol | relations | "prototypiskt" kontext)).


Vi kan därför också tolka similarity måttet (alltid [0,1]) som sannolikheten eller vår tro att när det i ett givet kontext är relevant för symbolen från dess perspektiv (för vilket man ev. kan reducera från prototypiskt kontext - vilket dock för de flesta situationer inte tillför värde relativt beräkningskostnad att avvika från cache-bart-data - genom att aktuellt kontext ger att vissa relationer där inte är meningsfulla att bedöma rörande likhet).


Tolkning / tron / beslutet att symbolen / gruppen av symboler vi beräknar similarity med är relevanta för aktuell symbol från dess perspektiv vi undersöker hur lika det är motsvarar hur troligt (där vi här förenklat ej inkluderar andra faktorer) det är riktigt att symbolens neuron / neuron-grupp ska aktiveras. Approximationen som görs just här från det är att styra aktiveringen av resp. sådan symbol-neruon från similarity vilket är funktionellt här därför att det totalt handlar om för ett också begränsat kontext oftast för vanliga "nyhets-starka" symboler t.ex. två länder och något kraftfullt mellan dem som "handelsavtal", "krig" o.s.v. flera tusen neuroner som kommer aktiveras.



Oavsett antalet symboler i kontext vi beräknar similarity mot gäller att de enda symboler vi behöver ta hänsyn till är vilka likhet är större än noll därför att om likhet är 0 för en symbol kan ingen kunskap om denna ha nått oss just därför att similarity approximerar aktivering utlöst av kontext.


Antalet symboler vår trosföreställning om att det är "riktigt" för "oss" (menande neuronen som beräknar similarity mot kontext) styrs därför uteslutande (när vi här uttrycker det förenklat utan andra faktorer begränsat till denna problemställning) av:


  • N uttryckande antalet symboler som similarity är större än 0 för.
  • Total similarity för dessa N symboler (andra sätt att värdera samman similarity är givetvis också tänkbara men detta tycktes för mig en god utgångspunkt man kan argumentera för och om praktiskt funktionell mycket beräkningseffektiv givet endast addition).

Vår tro på att aktivering är korrekt är inte orimlig att anta växer med ökat N oavsett similarity. Det är ju också vad som var indikerat i utgångspunkten för själva problemet där det i väldigt mycket finns en fascinerande viktig undre gräns vid som jag ej förstått men som denna lösning inte otroligt förklarar.


Skattningen av vår tro på att vår aktivering är rimlig som uttryckt i hur mycket vi aktiverar oss från N st. värden för givet kontext är om ingen historik vi också kan skapa legitima skattningar från existerar kan vi skatta gränsvärdesriktigt med:


    WP = Total similarity * 1/N = W / N

Betraktar vi de N symboler vi uttryckt likhet större än noll med som varsin symbol i ett meddelande hade gällt att vi utan annan information kan uttrycka informationen de för en given sådan sekvens när deras ordning saknar betydelse som:


    ln (N) / ln (2)

Där om vi hade kunnat betrakta en historiskt d.v.s. hanterande att förutsättningarna för similarity kan vara olika vid olika kontext utanför själva symbolerna som anses vara identiska vad vi bättre hade uttryckt som (om det nu hade alls varit rimligt att anta "slumpmässighet" snarare de meningsfulla kunskapsdrivna förutsättningarna här mycket given kunskap finns för intelligensen att tillgå)


    (1/n) * ln (N^n) / ln (2) -> gränsvärde när n -> oändligheten

Det tillsammans skulle (uttrycket liksom ovan är ej vad jag gjorde och menar jag bygger på felaktiga antaganden men en god start för att försöka förklara mitt uttryck från traditionella relationer inom informationsteori) ge oss ett kombinerat uttryck enligt:


    WP * ln (N) / ln (2) = (W/N) * ln (N) / ln(2) = W * ln (N^(1/N)) / ln ( 2 )

Det uttryck jag fick indikerat motsvarar dock inte detta där skillnaden är att vi har (N - 1) istället för N. Jag noterade precis av en slump att det motsvarar (om vi antar att övriga antaganden är rimligt motsvarar varandra) uttrycket för gränsvärdet i Fano inequality.


Efter en del funderande tycks det inte orimligt för mig men jag vågar mig inte på att söka förklara det åtminstone nu. Och det var ju heller inte vad jag utgick från att acceptera att sätta N - 1 i logaritmen var rimligt.


Vad som fick mig att acceptera N - 1 (acceptera i meningen givet att nu detta praktiskt gav ett mer beräkningseffektivt uttryck utan större fel - tvärtom utan andra åtgärder något bättre från och med tre) är att vi inte kan ha samförekomst rörande similarity som är N.


Om vi akiverar neuronen på första likheten exiserar ingen samförekomst. Aktiverar vi på första och därefter andra vet vi (lämnande elektriska potential-förändringar o.s.v. i neuronen och hållande oss till vad vi kan se som numeriskt uttryckande nivåer givet neuron-gruppen statistiskt) att vi uttryckt likhet innan och får ett nivå uttryckt givet motsvarande den biologiska neuronens återupptagning.


Det ger oss nu N - 1.


Relevant i detta sammanhang är Weber's lag med flera liknande relationer konstaterat rörande så mycket relaterat perceptionen. För att kunna resonera om samtidighet krävs i dessa sammanhang denna typ av uttryck snarare än en absolut-nivå. Låt oss uttrycka Weber's lag på den form jag personligen föredrar:


    (Aktivitet ( t = 2 ) - Aktivitet ( t = 1 ) ) / Aktivitet ( t = 1 )

Samtidighet uttryckande meningsfulla samband kan antingen i en situation röra samband inlärda eller vad efter att de konstaterats meningsfulla ska uttrycka inlärning.


Är händelse A känd i inlärning som meningsfull i situationen kommer detta uttryckas via för det anpassad aktivitet. Vi väljer här att se det som motsvarande ökad aktivitet (för att få en rimligt enkel förklaring här).


Händelse B har vi ej inlärda samband för rörande situationen. Den uttrycker därför ej anpassad aktivitet genom förstärkning utan endast aktivitet relaterat att den förekommer.


Söker vi meningsfulla relationer i samtidighet utan att normalisera för magnituden kan i endast identifiera samband mellan händelserna vi som A redan delvis lärt oss och med andra sådana vi lärt oss med en nivå av meningsfullhet jämförbar.


Jämför gärna med ett kollektivt exempel. Antag att organisation A agerar enligt "verktygs-domän" Q positivt verkande för ett kontext. Mycket mindre organisation B med för oss dolda relationer till A agerar också på motsvarande sätt men i mycket mindre magnitud.


Normaliserar vi för magnituderna och utgår från att söka samband med händelser känt meningsfulla blir det mycket mer beräkningseffektivt att identifiera dessa. Det tycks heller inte för mig självklart att det är särskilt enkelt att för hjärnan att söka dem på annat sätt. Rörande organisation av kunskap, geo-rum m.m. tycks ju grid-celler vara vad som uttrycker detta. För händelse-kedjor ex. motsvarande att vi vandrar i dessa kan vi göra Markov antaganden, och vi kan också se hur kedjan kan representeras motsvarande en länkad-lista (jämför med hur vi uttrycker samband i närminne där det sker genom att uttrycka beräkningseffektivt ökad närhet mellan en neuron och en annan neuron i statistisk-centralitet). Emellertid gäller för samtidighet vi ej känner och som vi ej motsvarande sökt vandrande en väg att dessa ligger utspridda i motsvarande denna grid och därför inte på detta sätt självklart kan identifieras.


Däremot är det ett enkelt problem att helt enkelt söka mängden neuroner som aktiveras av en viss typ. Men när vi tar dem ut ur kontext för att söka meningsfull samtidighet gäller att om vi inte normaliserat rörande magnituden innan det lokaliserat att vi behöver (så vitt jag kunnat se) mer information för att klara att bedöma den d.v.s. att vi måste dyka ner för varje sådan symbol i vilket fall vi inte alls har någon beräkningseffektiv lösning.


Vidare gäller att vi här i princip har enorma hyperkuber med hundra tusentals praktiskt implementerat men helt säkert mer i hjärnan antal dimensioner. Antar vi att dimensionerna när likställda varandra inte uttrycker andra enheter än vilka dimensioner de för kontext är anslutna till gäller ju att vi kan få bort dessa genom att titta på den relativa skillnaden. D.v.s. vi behöver inte förstå varför neuronen uttrycker en viss aktivitet när vi söker samtidighet med en annan neuron.


Om denna förklaring är närmare hjärnans verklighet än andra för Weber's lag vet jag inte men den är närmare den praktiska verkligheten av att söka beräkningseffektiva implementationer i dator.


Slutligen: Är gränsvärdet vi får med WP * ln ( N - 1 ) / ln ( 2 ) den övre eller undre gränsen? Egentligen tror jag att det är det undre-gränsvärdet men praktiskt har jag lärt mig att jag alltid först kommer till den slutsatsen när det är det övre-gränsvärdet. Också erfarenhetsmässigt vet jag att det praktiskt bara varit positivt-värde i beräkningseffektivitet inte mätbara reduktion i korrekthet att utnyttja övre-gränsvärden relaterat informationsteori. D.v.s. jag är inte helt säker på vilket ännu och bryr mig inte att härleda det innan jag gjort testningen mot data.