P(A) P(B) är en oanvändbart vek skattning av P(A,B)

2013-10-04

För att fortsätta Tre tidsperspektiv: Sociala media, Nyhetstid och Uppslagsböcker (2013-10-03) och där refererade inlägg gäller när vi utgår från de i den mest långsamt förändrade tiden - "uppslagsböcker" - för upparbetade inlägg att för att addera viss "smoothing" för de relationer där kända adderar P(A) P(B) (där A resp. B är koncept bestående av en eller flera ord i språkmening medan varje koncept i sig är en typ vi igenkänner, förstår och kan resonera kring) inget värde och kan oavsett det ej heller adderas in som smoothing utan att skada övergripande data.


Utnyttjar vi emellertid likhet mot det kontext vi befinner oss i - också när det sker med enklaste tänkbara metod jag använt för liknande vilket är den jag valde för detta - blir det funktonellt för smoothing och adderar rent av tror jag för en del koncept värde jämfört med vad samplat.


Skillnaden - vilket Tre tidsperspektiv: Sociala media, Nyhetstid och Uppslagsböcker (2013-10-03) diskuterade ett annat uttryck för - är den globala sannolikheten för ett koncept ej längre används direkt utan anpassas till det kontext den befinner sig i.


När likheten resp. den sannolikheten vidare formas mot lokalt kontext genom att skatta dess vad ajg kallar Blue light intensity får vi en approximation av att göra similarity operationerna ett mycket stort antal gånger efter varandra för att ta upp formande till kontext sekundärt från dess relationer och vidare utåt. Att göra det specifikt för varje kontext är emellertid praktiskt ogörligt prestanda-mässigt också när viktfiler genereras specifikt för användning under flera år som här men fortfarande när det görs för varje koncept mot det kontext det själv direkt förvaltar medan dess för inverka på varandra globalt under kanske 10 till 50 epoker adderar det värde för den användning vi diskuterar här adderar större värde-höjd jämfört med P(A) * P(B) som skattning.


Givetvis hade vi låtit A och B endast varit ord (i språk mening d.v.s. koncept vi skriver utan att de innehåller mellanslag) hade vi sluppit mycket av problemet med P(A) * P(B) som skattning men all den huvudsakliga användningen som söks med P(A,B) skattningen hade emellertid heller inte varit möjlig.


I övrigt tycks det som att alla datakällor jag använt undantaget de fyra största (där Wikipedia är en avseende fyra upp till sex mått varav den största som gått klart ligger efter stops på cirka 67 GB koncept-relationer beroende av om jag väljer att ta in alla: generering av några fortgår så jag har inte bedömt dem) resp. utan föregående P(A,B) vikt-grid - klarar att täcka upp cirka 45 - 50% av relationerna existerade i Blue light (en positiv upplevelse: jag hade snarare räknat med 10 - 15% maximum). Jag spekulerar ej helt utan tro på korrekheten av det att adderande Wikipedia datat orkar det upp till kanske 70% - 75% (dessa procent-värden skattande från Blue light Red 2.0 som ligger på cirka 800 000 symboler och för bedömda relationer cirka 30 000 000 - 55 000 000 d.v.s. ej senaste Blue light Abstract Concrete 1.0 som ligger på 11 miljoner symboler men där för den senare en mycket stor del av de extra består av relationer relaterat geografi och personer). Smoothing från Blue light relationerna när det är formad sannolikhet varande en ej dålig skattning kan därför addera värde genom att spara gigantisk beräkningskostnad fortgående under hela användnings-perioden för datat (säkert flera år).


Jag hade innan räknat med att ha P(A) P(B) som en parallell smoothing till similarity men som sagt adderar det inget värde alls och skadar ofta.