Asymmetriskt värde: Att förstå Kullbacks Divergens

2012-06-28
I dagens vanliga referenslitteratur och forskningsartiklar ses Kullbacks divergens vanligen som problematisk betraktad som ett distansmått genom att den ej är symmetrisk och av samma anledning svår att förklara. D.v.s. den är för två fördelningar definierad enligt:


Och även om det är möjligt att de båda "perspektiven" nedan är lika kan vi ej anta det (därmed ej symmetrisk):


För den som vill ha "motsvarande" symmetriska divergens uttryck har ett flertal genom åren definierats och är troligen för de viktigaste var för sig praktiskt oftare använda. Ett antal hittas här: Divergence Measures Based on the Shannon Entropy (Lin).

Vad som är intressant att fundera på är emellertid hur vi för vanliga applikationer kan förstå den icke-symmetriska egenskapen. En sådan förklaring för vissa användningsområden relevant presenterade sig när jag sammanfattade algoritmerna för Blue Light Feature Similarity.

Feature Similarity har likheter med många av de klassiska principerna för prototypisk feature similarity enligt Eleanor Rosch idéer där features för cirka 800 000 koncept skapas från dessas ca 8 000 000 relationer mellan sig.

Similarity beräknas oftast (numera regelmässigt för att hålla nere åtgång av minne) med perspektiv. Similarity mellan konceptet A och B blir i detta fall just asymmetriskt:

  • Likhet mellan A och B beror av perspektivet.
  • Är perspektivet från A till B söker konceptet A likhet mellan A och B.
  • Detta sker genom A's kunskap om världen.
  • Features A har vilka B saknar medverkar till olikhet.
  • Features A har vilka B har medverkar till likhet.
  • Features B har vilka A saknar medverkar ej till likhet eller olikhet.

Det sista vilket just gör relationen asymmetrisk kan vi förstå genom att när vi jämför något "främmande" med oss själva kan vi inte enkelt låta features hos den främmande entiteten påverka vår bedömning om de befinner sig utanför vårt referenssystem: vi känner ej till dem, förstår ej att tolka dem eller bedömer dem ej som viktiga nog att ha verkande i vårt aktiva schemata.

Men varför inte göra similarity-måttet symmetriskt? Därför att när en entitet oavsett om företag, land, enskild person, approximativt för en subkultur o.s.v. söker likhet med något annat utgår de från sig själva som referenssystem. Gör vi måttet symmetriskt får vi en sämre approximation av hur båda skulle betrakta varandra.

Det optimala måttet att söka distans mellan två entiteter blir inte genom att introducera symmetrisk similarity men utesluter ändå inte symmetrisk distans. Vi kan få symmetrisk distans man bibehållen asymmetrisk similarity där perspektivets värde verkar genom att:

  • Vi söker symmetrisk distans mellan A och B där similarity är asymmetrisk.
  • För alla koncept != A och B beräknar vi:
    • X1(n) = Similarity med perspektiv från A.
    • X2(n) = Similarity med perspektiv från B.
    • | X1(n) - X2(n) |
  • Och får distansen som skillnaden i similarity med respektives perspektiv över alla koncept.



Om vi översätter det till divergens är det skillnaden i divergens mellan två fördelningar avseende deras similarity med världens alla andra fördelningar.

Praktiskt för mig är inget område lika krävande i antingen beräkningstid eller minnesåtgång via cache. Similarity kostar. Vi ska därför inte förvånas att stereotypernas optimeringar just ger oss väldigt förenklade jämförelser.

Innan jag just skrev sammanfattningen relaterat till similarity för respektive bok hade heller inte jag närmare funderat på värdet av Kullbacks asymmetriska egenskap och kanske förvånande har jag inte i någon artikel eller referensbok hittat någon som sökt det meningsfulla i det. I den mån det diskuteras är det för att ersättas med symmetriska mått.