Sunt förnuft i common sense: Problem 2

2012-11-09

I Att förstå mening: Mitt sunda förnuft dominerar helt övrigas känslor indikerades en mycket vanlig praktiskt begränsande egenskap relaterat både data och algoritmer i alla vanliga publicerade common sense system. Den lika vanliga begränsningen vi diskuterar här är mer fascinerande och är inte vad jag själv fullt klarat att lösa på den tid jag varit beredd att investera i det.


Ett exempel på common sense är förståelse av att en hund är ett djur. Att en hund är ett djur hör dock till praktiskt trivial common sense för människor. Det hör till en faktor så enkelt grundläggande så mycket i vår vardag att det knappast inverkar på något beslut tidskostnad investeras i.


Denna egenskap hos människa motsvarar i algoritmer kanske tydligast gruppen inverse document frequence där principen är att vanliga egenskaper är mindre betydelsefulla för att diskriminera mellan två subjekt med aktuella mängd egenskaper. Eftersom djur är en egenskap hos båda subjekten nästan 100% alla fall när den ena är ett djur (ej inkluderande bildanalys ex. relaterat nyhetsanalys m.fl. system där dock indikerade IDS-algoritmer och ej heller common sense i denna mening är aktuellt) saknar det värde.


Ingenting hittills är ett problem med common sense eller i sig en teoretisk eller praktisk utmaning. Tvärtom är båda att förstå att hundar är djur och att reducera det som diskriminerande egenskap exempel på två grupper av för de flesta mycket välfungerande lösningar i common sense.


Emellertid betrakta nu hur vi arbetar med enheter och särskilt SI-enheter inom fysik och annan naturvetenskap. Är meter, sekunder m.fl. grundläggande enheter vi bygger upp mer komplexa enheter av mindre diskriminerande? Nej de är bättre diskriminerande därför att de möjliggör förståelse av hur olika "mättyper" och "mått" förhåller sig till varandra.


Varför har vi inte riktigt samma situation för common sense exemplen innan? En orsak är att vad vi indikerar med symboler som hund och djur bär mening och betydelse som påverkas av andra symboler i deras närhet. Vidare bär de information som ej bara påverkar deras egen betydelse utan också både påverkar tolkningen av föregående och efterföljande symboler.


Vidare är de varken helt enheten och heller inte helt mätvärdet. D.v.s. varken hund eller djur är en enhet motsvarande meter och sekunder, och det är heller inte ett mätvärde där en gemensam enhet har etablerats.


Även om en hel del numeriska värden med enheter (eller enhetslösa med gemensam magnitud och jämförbarhet) finns etablerade och är vanligt använda (inkl. t.ex. information, entropi m.m.) är de varken vad som ersätter common sense i betydelsen att vi förstår att en relation mellan hund och djur finns, eller direkt ersätter IDF (därmed inte sagt att man inte kan förklara och demonstrera varför IDF är en fungerande egenskap från informationsteorin).


Riktigt vad det gemensamma mätvärdet är mellan djur och växter är heller inte självklart. En biolog skulle kanske peka på cell-typen vilken skiljer sig mellan djur och växter. Dels skiljer den sig i övergripande struktur visuellt enkelt att se i ett också mycket billigt mikroskåp. Dessutom övergripande cellen och allt annat finns en enorm skillnad i information som är flera billioner gånger större än mellan två växter resp. mellan två djur.


Från vår fiktiva biologs svar inser vi en möjlig förklaring av det hela. Från tolkningen av vad vi ser och hör i praktiska egenskaper från upplevelsen i vår omvärld och dess förändring lär vi oss identifiera olika enheter diskriminerande, och via reinforced learning från kollektivt språk sätter vi sedan beteckningar på dess.


Den gemensamma enheten motsvarande meter finns därför inte relaterat diskriminerbarhet. Istället ligger den gemensamma enhet motsvarande och som vi kan vara intresserade att hitta indikerande det praktiska värdet av att kunna diskriminera d.v.s. hur objekten påverkar förutsättningar för händelser och inverkar på varandra.


Det bäst dokumenterande och använda systemet för det har ingenting med informationsteori, common sense, textanalys eller bildanalys utan är just fysikens lagar och enheter. Dessa i common sense är ungefär motsvarande människor enklare grundläggande förståelse av sådant. Vad är större? Vad är längre? Vad är bredare? Vad är tyngre att lyfta? Vad sitter hårdare fast?


Vidare i inlärning relaterat till mest grundläggande den investering i fysisk energi vi är beredda eller kan göra vad ansträngningen att ex. bygga skydd mot väder eller vind eller skapa en enorm staty som stärker en evåldshärskare resp. ett helt folks värdering av dom själva motsvarar i upplevd belöning d.v.s. den faktor som påverkar och styr reinforced learning.


Hur vi betecknar i kollektivt språk för vad vi kan diskriminera är också just vad vi lär via reinforced learning. Kompabilitet i resonerande system handlar dels om värderingen i reinforced learning för symbolen relativt individen och flocken och avviker någon för mycket från normala avvägningar upplever vi direkt underligt och ofta blir konsekvensen av att gemensamma resoneringssystem ej är fungerande för dessa personer att de i bästa fall skapar visst kaos och i värsta fall orsakar våldsbrott eller mord när vi tänker oss mest tydligast för sociopatiska personlighetsdrag. I den fysiska sidan samspelande med reward handlar det om mätetal existerar och kan jämföras med varandra. Vi är dock alla beredda att acceptera reinforced som vägandes tyngre än de senare där egentligen mest just fysiker och liknande där flockstatus är kraftigt relaterat till att försvara det senare mer objektivt värde i upplevd moral eller konkreta pengar värderas. Gynnar det vår överlevnad att offra till Apollon istället för att hylla det moderna vetenskapliga paradigmet mår vi inte sämre av det även om det kanske långsiktigt missgynnar våra förutsättningar för tillgång läkemedel, en energi, tillgång föda och rent vatten. Att se och förstå det rationella och objektivt korrektare värdet av det vetenskapliga paradigmet fodras praktiskt styrande just att man som samhälle etablerar viss tro och kollektivt språk där det uttrycks och upprepas.


Grundskolans huvudsakliga värde, och den viktiga poängen med att separera religiösa trosföreställningar från skolan ligger just i att etablera detta. Att för mig ärligast säga att detta just handlar om motsvarande den indoktrinering kyrkan förr gjorde upplever jag inte problematiskt, även om jag kanske skulle undvika att göra det i sammanhang där fler läser mig.


Värdet i skolan av naturvetenskapen och matematik är dock inte för de flesta lever huvudsakligen relaterat att lära sig arbeta med grundläggande fysik utan att etablera det rationella paradigmet (och på ungefär motsvarande nivå och också före kunskapens värde i sig att stärka hjärnans förmåga att tänka och dra slutsatser genom att träna den vilket stärker prestationen i arbeta oavsett om endast begränsande delar av kunskapen används: träning av intelligens).


Den andra gruppen av värden grundskolan etablerar är just möjlighet att använda vårt kollektiva språk: läsa, skriva och förstå fler ord. D.v.s. mest centralt i språkundervisningen men också en del av matematik och naturvetenskap. I matematik kanske mest lika att lära sig ett andra språk medan komponenten i naturvetenskap har likhet med common sense - sunt förnuft - att begripa vad vanliga ord inom fysik ungefär betyder och etablera en reward association till dem (ex. fysik är tråkigt och ingenting jag vill jobba med eller jag gillar att känna mig torterad så jag tror jag ska bygga en stor matematisk modell att tortera mig med flera år för att bevisa något imaginärt för mig själv).


Men praktiskt hur löste jag denna common sense? Approximativt på tre nivåer av dimensioner. Den närmast hur vi tänker i fysisk mening söker ge en approximation av om dimensioner för två saker vi kan avse med en beteckning är jämförbara med varandra genom att ha deras enheter etablerade. Med enheter etablerade avser här vilka enheter som bygger upp enheten för ett möjligt mätvärde om de inkluderar en given begränsad mängd av de grundläggande i SI-systemet samt "antal" resp. att de ej betraktas rörande deras förhållande med varandra d.v.s. både längd och area representeras med meter och både hastighet och acceleration betecknas med meter per sekund. Motivationen för representationen är att vi i common sense dels modell-teoretiskt önskar hålla oss till de dimensioner modell indikerar att människan först tenderar (eller kanske alltid av biologiska orsaker) lär sig först samt relaterat statistiskt analys att vi önskar vad som för en normal människa inkluderar 99% av vad de situationer, händelser och objekt de möter i vardagen. De enheter inkluderade i HH-SI-units är därför endast åtta stycken.


System två inkluderar fler enheter och i princip alla vanligt använda inom fysiken. Det är därmed också mindre exakt i vad vi kan klara att resonera runt dem, och typiskt givet dataextraktionen från bl.a. Wikipedia kommer inkludera något fler fel. För hantering av fel har det enhetssystem för detta tagit från DBPedia kompletterats med en direkt extraktion jag gjorde själv från Wikipedias infoboxar för redundans.


På nivå tre arbetar vi också med sekundära enheter relaterat hur vi arbetar med nivå ett och nivå tre enheter i information. D.v.s. att ett subjekt är naturligt relativt subjektets reward och subjektets natur att illustrera visuellt ger oss en enhet. Att något har städer betraktas också som en enhet. Detta system ligger parallellt och är i ursprungligt data separerat system för att etablera vad något är, uttrycka kategorier o.s.v. och bygger på samma data som nivå ett och nivå två för enheter d.v.s. till 70% Wikipedias infoboxar (inkl. DBPedia, Concept net m.m. som är byggt för allt data relaterat dimensioner på just Wikipedias infoboxarna och oavsett andra åtgärder i resp. projekt nära nog helt i värde resp. datafel ungefär motsvarande varandra - Yago relaterat har dock DBPedia väsentligt fler fel - men inte helt redundanta varande avseende i typer av fel man fått in i sitt data) och 30% ett antal andra datakällor.


Praktisk målsättning är att för en nyhetshändelse, en scen (ex. bild eller händelser på en tidslinje men om så ändå begränsat i tidsintervall motsvarande en situation fryst i en bild) eller jämförbart ska vi kunna från delarnas dimensioner förstå vad som kan ha inträffat och vad som kan tänkas inträffa. D.v.s. väsentligt utan orimliga eller övernaturliga slutsatser.


Att som vanligare i common sense nöja sig med named entities och typ-indikerande relationer är vad jag ser som mindre lämpligt som långsiktig målsättning. Ännu just nu gäller dock att systemet med enheter mindre oftare adderar värde som innebär en väsentlig skillnad från vad som hade uppnåtts utan det. Orsaken till det är dock att systemet bäst etableras stegvis från stora grupperingar och bredare regler med motsvarande "låg inverse document frequency" men med få fel över tiden till det mer exakta som värderas högre och där fel och problem med algoritmer resp. data upptäckts på vägen motsvarande uppskattar jag cirka tre månaders arbete totalt kanske planerat till med nuvarande prioritetshastighet på detta ändå mindre viktiga delsystem tre till fyra år.