Var människans kognition kostar mest i lagring för snabb-beräkning

2012-06-12
När jag inför Reward version tittar över cache-filer hamnar ett område i särklass när det gäller storlek på cache-filer och beräkningskostnad för att generera varje kombination. Området är similarity d.v.s. bedömning av likhet mellan symbol-koncept.

Det ska givetvis inte helt förvåna oss eftersom det är oerhört viktigt i mycket av vad vi gör och bedömer. Rörande själva storleken vidare genom att antalet kombinationer där det behöver bedömas utan särskild filtrering tenderar att bli snabbt enormt.

I beräkningskostnad kan vi förstå det från att varje perspektiv utanför entiteterna och/eller verkande symboler vi jämför kan vara stort och söker vi en enklare mer stereotypisk representation som default approximation av dessa när verkande i sig inte är vad som beslutar sammanhanget för vad vi jämför är det väldigt mycket vi behöver jämföra.

Även om det inte rationellt förvånar mig är storleksskillnaden vad som leder en till att tydligare inse vad väldigt mycket av vår inlärning handlar om att optimera i en avvägning mellan storlek och hastighet. I den sista cache-genereringen för detta beräknades likhet endast från perspektivet av de cirka 30 000 tyngsta ngram avseende Bluelight Entropy men till varje av alla i Bluelight existerande ngram d.v.s. här cirka 800 000 (den större används normalt inte förnärvarande då mitt minne ej riktigt räcker för att man också ska klara att ta ut utökat värde av den) ger det storlek enligt (klicka på bilden för att se den tydligare):



Jag har egentligen inte så mycket mer att säga om det nu annat än att det verkligen är en magnitud-skillnad relativt annat som är oerhört talande och åtminstone för mig väldigt lätt att missa innan man konstaterat det praktiskt den fulla betydelsen av i förståelse av mycket relaterat till emulering, avbildning och prediktion i mjukvara av vad från individens kognition för populationer av människan spelar in.

Entydigt där jag tvivlar på undantag jag ej noterat tycks det att det allmänt i all forskning från området att det är vad man allmänt missar att riktigt förstå storleken på och hur det kan inverka.

Det kräver också en god förståelse av hur man med acceptabelt resultat kan optimera storleken på genereringen för att det ska framgå. Liksom mycket relaterat till vår inlärning är ju förekomsten av typen av P(A|B) inte ensamt avgörande där indirekta vikter av betydelser, eller via reinforced learning långt tillbaka (ex. vad man kanske lärde sig kvällen före en tenta och föga därefter repeterat men som man ändå ger hög vikt fortsatt) m.m. Givet det och hur det närmare en "spreading activity" mening (eller jämförbart) inverkar åker den nedre gränsen för storleken på cache-filerna upp tämligen ordentligt.

I särklass den största gruppen av cache-filer där vi förutom vad som framgår i bilden har cirka 400 MB till. Trots rationell förståelse av det är det verkligen vad man först ser tydligt när man måste betrakta problemområdet magnituden i sig skapar. Det förändrar praktiskt perspektiv och förståelse.