Från ljud, över ord och ngram, till gömda lager och slutligen i kartor

2013-06-09

I Handbook of Graph Drawing and Visualization jag tipsade om kommer detta citat inkl. efterföljande visuellt citat:


"Recently, a completely di erent style for drawing metro maps has attracted considerable attention: the curvilinear style. Roberts et al. [RNL+11] did user studies to compare (hand-drawn) schematized maps to (hand-drawn) maps where the Metro lines are represented by Bezi er curves. Surprisingly, users were up to 50 % faster in completing certain planning tasks with the new and unfamiliar Bezi er maps rather than with schematized maps. Still, being used to schematized maps, they liked them better."

Handbook of Graph Drawing and Visualization,
Kapitel 23, Graph drawing & cartography, Wolf


En anledning till varför de ibland kommer fungera kan vi härleda till samma mekanism som gör markov-modellerna av samband över ord och fler-gram i statistiska språk-parsers effektiva såväl som i tolkning av ljud från tal till ord vidare till meningar (eller tror jag oftare när-grupp av ord).


Eller bättre uttryckt samma orsak som gör att dessa modeller är funktionella genom deras stora möjlighet att styra vilken komplexitet vi vill acceptera och något så när enkelt och funktionellt kunna beräkna hur stor "förlust" i feltolkningar vi gör.


Grundprincipen förstår vi från enklaste fallet när sannolikheten för att ord (i) verkligen betyder exakt det ord som står och när flera tolkningar menignsfulla för oss av vad det betyder den vanligaste skattas endast av sannolikheterna direkt relaterade det ordet och föregående ord-sannolikhet (eller levererad tillståndsvikt): P(ord(i) * P(ord(i-1).


Vi har nu begränsat vårt perspektiv till att anta att endast det föregående ordet ger relevant information om kontext inverkande för hur tolkningen av ord(i) ska göras.


För aktuell sorts karta gäller att transport typiskt sker från en punkt till en annan med en logisk enhet i taget utan att vi däremellan behöver göra något. Bedömande om vi med en linje kan nå rätt punkt eller en punkt kommande in på en annan linje som går vidare till rätt handlar ju just bara om tillståndet vi står på (ex. tunnelbanestation Norrmalmstorg) resp. tillståndet vi ska till (ex. T-centralen eftersom vi har en stukad fot vi inte kan gå på ens sådana små-sträckor).


Allt mellan kan vi strunta i. Och ev. möten på sådana mellan-liggande stationer anknytande andra t-banor eller samma "färg" i annan riktning behöver vi heller inte bry oss i.


För all normal tillämpning av t-bane-kartor och liknande tillför därför ingen information i övrigt normalt värde. Och kartan i exempet tror jag är ett av de mer uppenbara effektiva sätten att klara av att göra detta på utan att behöva förfalla till skriven-text eller tabellernas mindre tidseffektiva språk.


Biologiskt vet vi att aktuella neuroner relaterat rum - spatiella, kartor såväl som kunskapssamband organiserat i nätverk som ju normalt - uttrycks faktiskt spatiellt lite motsvarande lokalisering i aktuellt rum (d.v.s. rum både kopplat i mening spatiell rum och kartor såväl som mycket av den matematiska meningen tillämpat på kunskapsdomäner).


Enklaste snabbaste sättet för dessa neuroner att klara av denna konvergens är när maximal aktivitet går samlat mest "avsmalnat" - och helst med färre neuroner mellan start och slutpunkt även om jag tror att för åtminstone alla visualiseringar av aktuell typ där vi inte behöver vrida på huvudet gör det föga skillnad märkbart - d.v.s. från ett givet tillstånd solklart direkt till nästa utan att behöva bibehålla flera möjliga vägar aktiverade antingen som möjliga färdvägar eller för att ta bort en på kartan störande linje spatiellt nära-liggande vars aktivitet "spiller" över på vad vi följer vägen över.


Givetvis är konceptet också det samma som mer praktiskt konceptuellt underliggande flera av dimensionrna i Abstrakta dimensioner för övergripande större organisation att bedöma informationssäkerhet relativt offensiva och defensiva mål givet större uppgift och såväl varför KSA och liknande algoritmer behöver, konkret vettigt kan ge goda approximationer men också ibland kan hamna ordentligt fel.


också om det nog kan verka lite underligt har för mig heller aldrig någon konceptuell underliggande skillnad varit vad jag upplevt från informationssäkerheten och risk management till som här närmare modeller av människan och vårt språk relaterat agerande och förstå samband över inträffat, här och nu och kommande in i framtiden med vissa sannolikheter. Det är människan och vad vi ser likheter i allmänt handlar mycket om vår kunskapsbakgrund befintlig som ett stort enkelt lite långsammare föränderligt tillstånd och vårt behov. Är vi däremot stämplade i ett segment ex. forskare på lingvistiska enheten vid ett universitet tenderar ju självklart också det tillståndet att uttrycka en gemensam kultur vilket kanske tänkbart är en orsak till varför universiteten relativt deras stora värde för att ge kunskap levererande medarbetare levererar väldigt lite mer direkt nya applikationer,, verktyg m.m. problemlösande på nya sätt. Likhet är ju väldigt styrt den givna subkulturen för ämnesområdet snarare än att man ex. som jag ofta gjort senaste åren sökande flera områden som troligt vid universiteten upplever varandra väldigt olika för att lösa ett problem (och uttrycka ett modell-område mer vertikalt äldre mer inarbetade forskningssegment där similarity initialt handlar mycket om att försöka se hur det kan optimera eller ibland förklara hur något kan mätas, beräknas eller förstås. Tidigt för ett helt nytt sådant område behöver likheten ofta vara ganska konkret därför att man är ej helt optimerad rörande termer, hur man visualiserar, och grundkoncept som antas givna hos läsaren. När sådant är etablerat kan man lättare söka likhet i mer abstrakta funktioner. D.v.s. för att se ny användning av subkulturell kunskap är det viktigt att titta på den från ett praktiskt annorlunda område där kunskapen både troligare saknas och ej från subkulturen upptäckts.


Sådan analys motsvarande den kreativa processen rörande identifikation av likhet och en indikation om möjligt är förövrigt möjligt att implementera analys av maskinellt ex. tidigast för mig i logik-analys relaterat min större representativ av kunskaps-koncept och deras relationer (ca 100 000 till 10 000 000 koncept beroende på hur db-filen kompilerats ut relativt prestanda med från för minsta cirka om jag minns rätt 7 miljoner relationer med dem med för optimering färdigberäknade likheter för alla där givna relationer såväl som för en försvarlig andel av alla relationer mellan koncept också sannolikheten P ( koncept a givet koncept b) direkt för resp. fler-gram utan förenklade skattningar via sannolikheterna för endast orden - och jag tror starkt att en sådan samling sannolikheter är vi kanske 10 - 30 aktörer i världen som har).


Den sorts gedigna värde man kan realisera ut för väldigt mycket och utan att det annat än väldigt långsamt försämras över tiden givet riktade uppdateringar av och till (vilket praktiskt på alla sätt är enormt enklare och dessbättre krävande föga om något av de åtminstone i artighet av och till mindre korrekta operationer som krävdes av och till). Också en praktiskt predikterande kortare tid oerhört lugnande stabil bakgrund att relatera relativa förändringar i intensitet ex. mellan dagar till utan att tvingas försöka dubbel-använda sådant data från förvisso längre periodeer som en månad eller ett par år ex. för nyheter (som jag gjorde innan) men ändå både är mindre beräkningseffektivt och är vad som rekursivt i sig vinner på det datat bakom sig med en inte alls trivial skillnad i kvalitet. Dessutom utan att man behöver ödsla tid, bandbredd, och cpu på att extrahera ut relationer och koncept egentligen i sig ej indikerade som viktiga eller intressanta därför man inte gärna önskar läcka kunskaps-koncepten och deras relationer utan en så försvarlig mängd komplexitet att det praktiskt är ogörligt att härleda den ex. genom att tappa kommunikationen ut från informations-extraherande-dator när den pratar ut med annat på nätet. Totalt vad som tog ungefär 2 år att skapa även om det inte var görligt att ha det gående förtlöpande utan typiskt fyra veckor i taget.


Ett arbete som dessutom mycket konkret tycks ha förändrat hur stora delar av internet hanterar tolkning av sub-domäner i kontext av en del informations-presenterande och indexerande konsumenttjänster (vilka i bred mening stod för ungefär 10% av skarpa relationer för annars mer svårskattade genom ex. news-sampling, böcker o.s.v.). Och jag kan lugna alla läsare med att jag med min sunda cyniska personlighet utgick långt innan i tid med att en viss funktion skulle behövas redan väldigt tidigt men som ej krävdes innan i tredje varvet från slutet faktiskt nödvändig och den funktionen för att hantera att entiteter mitt system små-pratar lite med för att förstå världen börjar ljuga för den om vad de egentligen vet eller tror. Och de få det realiserades ljug dessutom anmärkningsvärt dåligt mot vad jag med min pessimistiska risk management personlighet hade räknat med (min tidiga nivå låg ungefär på att det kanske inte alls skulle vara möjligt att ta till mer än kanske 5% - antagligen redan där bland de 1000 största i världen men berörande givetvis kompletterande alla publikt tillgängliga eller vad som kan tas från enkla att nå corpus - men väldigt få problem.


Jag ska dock inte helt utesluta också om jag inte försökt bedöma det att saker kanske passerade lite mer dedikerat förbi relaterat en del aktörer därför att man kanske såg visst gemensamt värde i en annan grupp jag av och till sista åren levererat smalare anpassningar till för att möjliggöra en del mer modern text-mining-analysis för demokrati-arbete. Lugnare dock egentligen om ej så därför att dom relationerna hör till sådant jag mycket ogärna vill acceptera förtroende för att andra inte läcker. I kontext av bredare analyser nättrafik, samarbeten mellan flera större aktörer med varandra och med kompetens-stöd från regerings-relaterat och liknande.


Nå sammanförandet av de nya moduler jag utvecklat sista halvåret som ligger mycket närmare enklare att produktifiera inkluderande parsning av mening från enskild mening upp till nyhet, och en visualiserings-plattform, förutom de mer grundläggande koncepten rörande attityder, relationer, likhet m.m. mellan 10 miljoners koncept-hjärnans alla dimensioner över och mellan dessa. Att toppa min nöjdhet med att indikera ett kraftfullt värde men ändå utanför något egentligen core-värde relaterat egna koncept och modell-anpassningar i implementation (sannolikheter är ju tämligen allmänt tillämpat sedan närmare koncepten här diskuterat redan med kanske första steget under 1600-talet av Bayes9.