Jag tror mig minnas att jag förra året skrev något om aktiveringsfunktionen jag antog kunde gälla inlärning utifrån likhet. Nyligen upptäckte jag den för första gången beskriven någon annanstans vilket gav den viss trygghet (samt praktiskt gjort den mer tidseffektiv därför att en del konsekvenser var färdigt uttryckta där utan att kräva att jag härleder dem) i The Statistical Approach to Learning Theory, W.K. Estes i Psychology: A Study of Science bok General Systematic Formulations, Learning and Special processes.
Frågan just nu är inte helt oviktig därför att jag har en praktisk utmaning i hanterandet av hur fortlöpande kontextuellt tillstånd (se Drifting thoughts i kartan: Common sense - Arkitektur) ska påverkas av similarity med aktuellt kontext.
För den effekt detta korrekt har jag konstaterat tre saker (bl.a. via avstämning mot "reaction time forskning" i psykologin):
1. Similarity är från perspektiv av noden snarare än resp. koncept i kontext. Det är ju också högst rimligt i att informationen påverkande aktiveringen biologiskt måste överföras från resp. konvergens i kontext via signalsubstanser (eller om man vilket jag sällan gör betraktar det från elektriska vågformationer) till noden.
2. Aktiveringen styrs av nivå av similarity med respektive koncept i kontext alternativt styrs samlat av kontext.
3. Aktiveringen styrs av antal koncept noden uttrycker likhet skild från noll mot.
Att föra samman två och tre till ett uttryck har jag dock inte klarat av på ett bra sätt.
Filtrerar jag bort via en enkel threshold antal (tre är den fungerande här) gäller att man kan uttrycka RT-värden transformerat till salience-aktivering [0 - 1] rimligt.
Beräknar jag istället bara similarity med resp. koncept och summerar kan det ge "korrekta" värden. Men det går också att hitta fall där det ej översätter korrekt. I princip gäller att en hög likhet med ex. ett koncept och noll likhet med övriga koncept ger ett för högt värde.
För att lösa det här problemet elegantare än att direkt filtrera på antal har jag sökt lösningar i forskning inom psykologi, neuronnät m.m. resp. tittat över välkänt fungerande algoritmer. Jag upplever bl.a, att ganska stor konceptuell likhet med inverse document frequency gick att se. Men min första definition för information utifrån det falerade.
Det tycks väl för mig heller inte otroligt att man mer insiktsfullt hanterande detta i beslutsträd med värdena transformerat till sannolikheter kanske klarar att fånga detta. Ev. något beslutskriterium från bayesianska strukturer eller från diverse liknande. Just i detta ligger vi dock väldigt nära medvetande som koncept och där är det mycket rimligt att undvika Markov-inspirerande lösningar (därför att dessa har demonstrerat relaterat bl.a. semantik vara fungerande hos människa också utan eller med nedsatt medvetande: inte minst intressant för vissa modeller som söker uttrycka medvetande den vägen ).
Just den här utmaningen har hängt kvar ganska länge nu. Mest elegant vore givetvis att hantera det via inlärningsfunktionen för similarity. Elegansen i det är dock mer irrationell personlig därför att jag är lite missnöjd över att jag inte praktiskt sett någon naturlig plats för uttrycket i övrigt där det adderar värde.
Frågan är ju också hur man ska förklara detta teoretiskt? Grundförutsättningen måste ju vara att aktiviteten uttrycker en "konvergens" till resp, WP-nod. Vidare gäller antagandet från modell att neuronen har vissa möjligheter givet dess inlärning att i neuron-gruppen och dess dendrit-träd detektera grad-skillnader utifrån vinkeln trafiken når den (d.v.s. om aktiveringen innan har preferens mer i en riktning på större avstånd blir vissa delar av dendrit-trädet mer sannolikt relativt trädets centrality). Kanske är därför förklaringen förstärkning från samaktivering av större delar av neuron-gruppen och/eller dendrit-trädet.
I så fall skulle i princip gälla att om vi i kontext har ex. tre nära nog identiska koncept blir aktiveringen per total similarity lägre än om similarity varit skild.
Vidare gäller att om similarity mellan ex. tre koncept är sådant att vi för ett ligger kraftigt i en riktning ("vänster" sida av trädet), för ett nära centraliteten och för det tredje tydligt till höger, bör aktiveringen bli större.
Samtidigt är som vi inser särskilt från sista exemplet frågan vad större aktivering är.
Här i den tänkta formen för dendrit-träden för de neuroner mer troligt motsvarande tycks för mig att det inte är orimligt att se dessa uttrycka approximativt en sfär resp. approximativt en platt cirkel, vilket gör att normalfördelningen är rimligt fungerande. Det blir en värd av vinkel och aktiveringsnivå där vad vi önskar normalisera olika uttryck med är mitten (centraliteten).
Praktiskt känns det mindre intressant att testa denna idé även om den kanske teoretiskt är troligare därför att det är ganska omfattande programmerings-logik samtidigt som att faktiskt värde är åtminstone för mig oerhört svårt att kontrollera innan. I princip behöver man skatta hur sannolik en vinkel är i aktuellt i kontext och ev. givet tidigare kontext och ev. också inkluderande aktiveringsnivå.
Istället vad jag känner troligt finns men att jag inte ser p.g.a. design fixering eller något annat är ett enkelt och bra ganska välkänt uttryck som klarar att fånga sådant här. Kanske något beslutat inverse document frequency eller divergenser (jfr Kullback). Jag hade väl hoppats att formulera problemet här skulle lösa det åt mig men inte: så tips uppskattas.