HANS HUSMAN OM MEDIA

Visar inlägg med etikett Common sense. Visa alla inlägg

Värdet av promiskuösa noder utanför det lägre som feature omedelbar diskriminerbarhet

2017-03-01

Följande från en handbok data mining är värt att diskutera:

"Removing pizza nodes (i.e. very high-degree nodes) is likely to be an essential prior component to get useful results. Intuitively, a pizza node is likely to be a large impersonal entity like a pizza parlour or an electricity supplier: the fact that two people both communicate with the pizza node gives us no reason to think that they are linked socially."

Eventuellt (jag läste ej artikeln i detalj där länken fanns som jag nådde från nyheten sist d.v.s. dokumentet två steg ifrån denna) är dokumentet ej publicerad korrekt utan del av något läckage av information. Det tycks dock fått text genomgående borttagen rörande detaljer organisationer m.m. resp. rör ämne där det är troligt och normalt (och troligen ekonomiskt resp. från perspektiv konkurrerande andra entiteter som en givet stor och stark entiteter effektivt genom att stimulera kunskapsbyggande i samhället allmänt man kan utnyttja - ej heller tekniskt särskilt avancerat eller särskiljande sig i nivå eller erfarenhet från allmän kunskap) så jag kan tänka mig och tror det troligast att det publicerats korrekt.

Från: HIMR Data Mining Research Problem Book, OPC-MCR, GCHQ (PDF)

De kan emellertid vara utmärkta som generella features för att beskriva entiteter meningsfullt för typbestämning. Kommunikation mot ex. en uppsättning stora entiteter av myndighetstyp kan tillsammans ge indikation av sådant som medborgarskap. Tjänsteleverantörer tillsammans för geografisk lokalisering. O.s.v.

För 300-FF har vi exempel på det genom ingen särskild viktning diskriminerande dessa typer av noder (och viktning via förekomst tillsammans resp. likheter via de 400-längd vektorer som används som indata vid träningen) vilket tycks mycket funktionellt utan problem. Utnyttjande annat men besläktat common sense med varje form av sense mellan namngivna kategorier (vilket är allmänt för många: Innan ungefär följande för struktur Wordnet) och clustrande resp. dessa med 300-FF och Kohonen med fast antal cluster grovt grupperade efter hur vanliga de är eller hur breda de är (6 st vanligast, små-kategorier 3 st, samt ett fåtal 12 st). Totalt cirka 10 - 20000 kategorier indata för lokal clustering. Därefter clustrande resp. av resultaten tillsammans och vi har fortfarande i utdata inget problem att få geografisk-gruppering, gruppering personer, roller och övriga entiteter, resp. ej heller mer av topic-natur som matematiska begrepp.

Vilket jag tror men har inte försökt prövat om det stämmer skulle vara mycket svårare utan att från början inkluderat de stora noderna. Det ger ju något gemensamt över många noder utan behov av att expanderande bygga träd nedanför direkta relationer d.v.s. mycket lägre komplexitet. Samtidigt som när relationen ej är binär utan bygger på förekomsten det kan fungera diskriminerande också där. Du kan (för att ge exempel för en typ av relation ej aktuell för 300 riktigt på samma sätt utan mer på applikation av handboken jag citerade) tänka dig att du får indikation för relationerna att en entitet är person och svensk medborgare men också en medborgare (han / hon tycks ha "hög bandbredd" mot svenska institutioner) men han uttrycker låg intensitet kontakt med myndigheter (d.v.s. exempelvis enkel-person rörande deklaration o.s.v. Skatteverket, föga kriminell så som känt, ej politiskt intresserad o.s.v.) så antingen en ekonomiskt-effektiv medborgare (eller kanske misstänkt välanpassad) och / eller mycket tråkig.

Så som exempel clustering av Earthlight kan vi se möjlighet att betrakta relationerna som vad som kan strukturera sig mellan varandra i närmare ontologisk-mening där stora (nästan promiskuösa noder givet en population: Så ex. om vi redan vet att en person är svensk faller en del av meningen bort här - Samtidigt vet vi ej enkelt innan vad dessa relationer här kommer säga i övrigt) där stora noder kan uttrycka djupare / bredare möjlighet till exakthet från smalare mer diskriminerande relationer (de senare vad som normalt bör ha mycket högre inverse document frequency i mening av att behandla varje nod som ett dokument och varje relation som en frekvens förekomst ev. viktat med förekomst - och de första mycket låg idf).

Också gäller vilket är praktiskt enkelt att förstå om vi fortsätter tänker oss ett land (men oftast normalt gäller allmänt för allt mänskligt relaterat i grafer) stora noder gärna uttrycka spridd av aktivitet som är resulterande detekterbart nära dem. D.v.s. om ex. en nations militära organisationer börjar agera mer är det att förvänta att vi ser omedelbart i noder i nära relationer till nationen (ex. deras övriga statliga funktioner såväl som företag m.m. inom landet, medborgare o.s.v.) högre aktivitet nära i tiden. Medan över hela grafen för människan över världen och historien mindre troligt ser särskilt höjd aktivitet på större distans. Medan aktivitet för mindre noder när spridd aktivitet av någon aktivitet vi kan se som uttrycka något vi kan betrakta som en aktivitets-typ klarar att nå något förändrande i ej trivial mening ej alls självklart eller troligt ser det nära inpå dem: Ex. i den mån en person klarar att förändra något i världen som märks där vi bryr oss är det föga troligt något i hans omedelbara relationer av vad som där är typiska relationer för honom (ex. aktivitet inom familjen så som att han mördar en familjemedlem är ytterst sällan vad som kommer bli märkbart) utan märks det är det snarare på större avstånd (i samma mening som för nära relationer: Medan distansen i mening av antal steg om vi ej som föreslaget i citatet kastat promiskuösa noder mycket väl kan ha omedelbar kontakt) ex. byggt ett företag påverkande alla möjliga städer där de har kontor eller stora kunder eller som utbytesstudent i annat land flyget ett flygplan in i en stor byggnad. Jag är osäker på om någon koppling till (eller möjlighet till argumenterbar rationalisering av potensen stereotypen Small and Spreadable har).

Det tycks troligt för mig att promiskuösa noder är nödvändiga eller användbart för att försöka bedöma var ev. / tänkbar större aktivitet för ej i sig promiskuösa noder (där det mig är givet så även om säkert andra vägar enklare finns här lika bra) utan istället små noder med få relationer. Preferensen allmänt kulturellt sedan många år för att när features identifieras och utnyttjas använda de mer diskriminerande och värdera dem högre (ex. som med idf) är dock mycket stor. Och förvisso att det förenklar saker och ting men det har också gjort att mindre arbete skett för att få ut värdet av promiskuösa noder.

Man kan ju löst relaterat se att i skogen finns träden. Och ett träd kan vara en nod vi expanderar ut till dess omedelbara relationer. Och en del av skogen är den spridning och konvergens av aktivitet vi där ser mellan träden. Och att en skog i ett land ej uttrycks med samma ord som i ett annat. Benämning av saker och ting är inte alltid så självklara när de ej förklarats i detalj som man kan tro från hur begrepp används allmänt i en kultur man har given. Särskilt utmanande blir det när samma begrepp används för samma lösning med båda verkande. Därmed inte sagt att jag har någon preferens för att tro om tolkningen i artikeln nedan rörande algoritm är korrekt eller inte (särskilt har jag inte läst dokumentet citerat först i detalj eller något alls i övrigt relaterat det - utan mer en allmän reflektion från vad min känsla är för vad man kanske troligare använder från egentligen föga information hos mig etablerat sista fem - sju åren eller så, och osäker här om implicit inkluderat analysen jag gjorde för väldigt mycket data bl.a. relaterat inköp av saker och ting vilket bl.a. - och allmänt just nätverk med sensorer - var mycket talande rörande etablering av infrastruktur avlyssning för trafik till och från USA långt innan något konkret blivit känt).

Has a rampaging AI algorithm really killed thousands in Pakistan? (2016-02-18) | The Guardian - Science - The Lay Scientist

Rörande journalisten diskuterad inser vi ju förövrigt att i ett givet subset av entiteter som entiteter kan ha relationer till kan han kanske ses som en promiskuös nod. På tema av samma exempel-typ som tidigare med bland kan vi tänka oss relationer till honom av viss typ (ex. personer han skrivit något om) uttrycker features för dessa som motsvarar något relaterat till journalistens preferens för ämnen och organisationer han skriver.

Yago3: Fler språkområden med härledd cross-cultural fördjupning av koncepten

2015-04-20

Och fler språkområden använda i byggandet av Yago3 (fortsatt Yago 3) gjorde filerna ordentligt större än Yago 2 räknat i antal GB nu cirka 90 GB upp-packad (och två var dessutom också i märkbar tillväxt jämfört med Yago):

Yago-naga Yago: Yago3 | Max Planck Institute for Informatics

En del har gjorts byggande något vetande mellan språken jag ännu inte tittat på men åtminstone delvis förstod jag det som närmare området länkat till längre när här på bloggen men riktat för att ta ut sådant vetande Yago försöker samla på sig (med engelskan - eller själva Yago-koncepten egentligen som ju har engelska beteckningar tillsammans med övrig del av ID - som någon form av mitt och en del tänk kring att försöka hantera osäkerhet för saknade koncept i primärt antar jag engelskan).

Och såklart finns Yago 3 att även hitta via Google där vi ser att A Knowledge Base from Multilingual Wikipedias – YAGO3 (service.tsi.telecom-paristech.fr) ligger före Max Planck Institute for Informatics trots alla år Yago funnits där såväl som kraftigt inlänkad.

Jag tänker att orsaken är att konceptet Yago 3 är nytt och det prövas lite i början samtidigt som jag tror att något någonstans refererar relevant utifrån någon dimension. Kanske att artikeln är länkad eller att personer kross-förekommer. Säg kanske också sedan en tid rent av.

Vem som helst som vill ha ett bra common sense ska givetvis inte använda Yago 3. Ingenting i tre jämfört med Yago och Yago 2 är en god start ty utbyggnaden handlar mer om att utnyttja samband likt:

Söka bredare vetskap koncept-association: Wikipedia / Wiktionary på många språk (2014-04-15)

Resp. ge datat färdigt för alla som är intresserat av sådant resp. en mängd jämförbara användningar. Tidigare versioner är för alla normala användningsområden common sense mer hanterliga (särskilt den mindre "core-versionen"). Båda (eller egentligen tror jag tre tidigare versioner) tidigare versioner håller hög kvalitet motsvarande Wikipedia (med en del extraktions-fel man kan råka på ibland men egentligen inte särskilt mycket eller kanske mindre man får hämtande ut datat på andra sätt). En bra representation sparande tid.

Och för ett viktigare ämnesområde man prioriterar så vinner Wikipedia-vetskap oavsett om man tar vetande via Yago eller inläsande infoboxar och kategorier, rubriker m.m. direkt på att kombinera med andra system med domän-prioritet. Och för den delen andra breda och stora common sense även för små områden därför att de av och till är ganska olika på vad de är bättre (såväl för en hel del uttryckande märker man mellan många samma sak därför att alla möjliga ontologier hamtar data från varandra - ibland i små cirklar tror jag). Att inte utnyttja Wikipedia idag är dock verkligen att begränsa sig.

Själva storleken på vad Wikipedia växt till - och att det fortsätt växer i bredd, djup och med kvalitetsuppföljning - såväl som att Max Planck Institute for Informatics ger en hel del av vad man kan få ut väldigt färdigt att använda (och även om de efter dom här åren slutar att släppa nya versioner är knappast något förlorat på det: Bara att ta vad som finns och börja ta direkt från Wikipedia igen för dom delar Yago stödjer).

För statistiska samband mellan koncept är en text-källa (av några stycken) att ta direkt underrubrikerna. Åtminstone förr fanns en del färdigt kring länkar och kontext för dem men rubriker är bra data. Ger en hierarkisk-indikation i själva artikeln och det är inte så dåligt när datakällan är Wikipedia där ett viss långsiktigt förtroende kvalitet resp. hjälpligt (mycket bättre nu mot förr rörande all standardisering för hur sidorna ser ut= gemensam "standard" för hur rubrikerna görs.

Mer Yago och common sense

Följande inlägg bör förutom en del Yago-diskuterande ge en försvarlig mängd förslag på andra common sense. Och länkar vidare till andra inlägg från dem bör ge ännu fler ontologier särskilt inom olika ämnesområden. Troligen är inläggen 2012 och 2013 mer omfattande varandra mer av ett problem för mig ej klart vid tiden.

Världsbild och perspektiv: Några till varianter i mötet grammatik, common sense och semantik (2014-11-13)

"Volymen" information i biografier: Att förhöra biografier (2014-05-05)

Från utredning till tillämpning i tre enkla steg efter inte mer än två års funderande (2013-09-30)

Yago: Wikipedia-kategorier är inte subclass till Wordnet-koncept (2013-07)-22

Nyhetsanalys: Sunt förnuft när det gäller bildanalysen (2013-11-27)
Sunt förnuft i common sense: Problem 2 (2012-11-09)

Mening grundad i... (2013-05-15)

Yago 4: Kan bli grekiskt att motverka ett i Wiktionary "med pro-tyskt bias"

Och som det sägs göra "något åt" all snål tyska som lärs ut som andra och tredje språk i Europa.

Yago 4 tror jag de flesta förväntar sig ska fånga upp kunskap som finns i Wiktionary. Särskilt definitioner, grammatiska klasser, relationerna på sidorna till andra språk o.s.v. Wiktionary sidorna börjar ju verkligen se bra ut för många ord att en aktör nu ordentligt erfaren från tidigare versioner av Yago kan klara det medan få om någon resten av världen kan göra det bra första versionerna och antagligen ger upp innan man nått till något användbart.

Många förväntade sig kanske att Yago 3 skulle haft Wiktionary medan andra menade att relativt svårigheten nog inte kunde klara det. Jag försvarade alltid Max Planck Institute for Informatics här och trodde absolut inte som en del kanske känner nu att Max Planck Institute for Informatics inte riktigt vågar sig på den kanske fortfarande lite flexiblare strukturen där man möjligen kan behöva tolka meningarna vid sidan om rubriker.

Och jag tror heller absolut inte på dom här rykten om något med arbetsnamn ZAO (Omega - sist - och så Alfa - och fyndigt tillbaka till "omega": Kan bara göras så fint med ett antikt språk som grekiskan) som i princip tar befintliga Yago och adderar på ett Wiktionary hos ett grekiskt universitet: Och som man säger alla "viktiga" språk i Europa men kanske inte tyskan som folk säger. Dessutom "offspring" på Swahili passande den framtida generationen:

"Swahili
Noun
zao (ma class, plural mazao)
offspring"

Från: Zao | Wiktionary

Hur som helst vore Wiktionary seriöst och komplett med all kunskap exporterad till fina CSV-filer vara oerhört användbart. Bara att hämta upp listor och vissa kategorisidor kan ge en hel del användbart (roller, yrken, kategorier av adjektiv och verb m.m., exempel på särskilda ordklasser m.m.). Men att enkelt t.ex. se vilka adjektiv som beskrivs relaterat introvert. Färre än förväntat om sådant var standardiserat rörande beskrivning vilket så klart ej är en rimlig nivå att förvänta sig någonsin för ett lexikon / ordlista av den här sorten. Men ett ex:

Adjective

withdrawn (comparative more withdrawn, superlative most withdrawn)

Max Planck Institute for Informatics are withdrawn from a sad Wiktionary crying. Max Planck Institute for Informatics are introvert."

Från: Withdrawn

Kompletterande PP lovade (upp till ditransitiv verkande på NP)

2015-02-25

Kompletterande Verbens roller: Advice, Advise och Upplevelse / Uttryck - For / Against för att visa skillnaden i antal såväl som att ge fler ex. för den intresserade:

https://docs.google.com/file/d/0B5IBnalBS0bxMEJhS3N0YmFaU1k/

Jag genererade filen endast från The Specialist varande det som var diskuterat. För det andra tror jag säkert det är lättare att använda webbsidan hos Colorado länkad i inlägget.

Nyligen prövade jag dessutom något nytt med en del roller sätta till argumenten eller endast argumenten för olika kända för verb:et. Möjligen tog det in lite felaktigt när jag försökte kors-köra det också så att resp. äldre och det nya datat fick komplettera varandra på samma. Men om inte är det mycket möjligt att det finns en del kanske ganska konstiga roller satta relaterat den här gruppen av "advise-relaterade" (i mening indikerande mer eller mindre explicit preferens rimlig att anta hos den som talar) i någon källa som det jag importerade använt. Nedan finns denna länkade för den som ev. önskar titta efter själv (jag har inte gjort det och gör det antagligen inte: det kom endast lite utsträckning över verb:en egentligen som inte redan hade roller sätta även om ibland som sagt kanske lite varierade):

"NULEX is an open-license lexicon, combining WordNet, VerbNet, and Wiktionary, linked to the OpenCyc ontology."

Från: http://www.qrg.northwestern.edu/resources/nulex.html

Eftersom jag inte försökte leta bakåt till källorna byggt från där för Propbank och övriga exempel meningar finns kan det också vara någon form-förekomst jag inte tänkt på.

Just genom att det är mycket tydligt personer som uttrycker preferens ofta riktat preferens med en avgränsad mening är detta förestås intressantare genom att det antagligen finns fler "speech act" med "preferens-bias" relaterade grupper.

Att förstå händelsens avgränsning: I tid och rum, ekonomisk effekt och inverkan på processens kreativa volation

2015-01-31

Ett analysområde av meningar som har likhet med diskussionen i Utan passiv: Proto-patient första NP och agent subjekt genom att metoder vanligen diskuterade förvisso ger mycket men inte allt är att förstå hur en händelse begränsas över aktuella dimensioner.

I Utan passiv: Proto-patient första NP och agent subjekt särskilt i kompletteringen först såg vi att förståelse och vetskap om själva NP-fraserna fodrades för en praktiskt förståelse för tillämpningar där förståelse av hur personen (eller annat mänskligt som kan fatta beslut) påverkar utgången av flödet en händelse en mening uttrycker del av (d.v.s. ex. möjlighet att automatiserat från analys kunna när indikerat görligt göra fördjupat analys för att indikera välkända "lösningar" som är bättre men som vi mänskligt kanske gärna missar ex. rent av så övertydligt som att tolka väderfenomen som en agent fattande medvetna beslut).

För skattning av händelsen begränsning i effekt har vi samma fenomen. Välkända metoder för att fånga mycket av indikerade begränsningar finns för tid och rum via bl.a. (och om inte helt uteslutande så här är övriga ofta refererade metoder i referensböcker jämförbara i vad man åstadkommer och krav på vetskap om verb och grammatik) PP-fraser (after monday but before saterday) resp. verb:et kombinerat tense och mood (ex. kan användning av imperfect indikera fortfarande pågående men används praktiskt även för processer som egentligen i all rimlighet är avslutande när meningen har lästs d.v.s. fodrande viss common sense vetskap relaterat verb:et).

Rörande förståelse av själva verb:et och förståelse av NP i enklare "typ-mening" direkt förklarande händelsen kan vi ta meningen Jag föll på isen som ex. Händelsen är avslutad och var begränsad till när personen drabbad befann sig på isen. Medan Jag faller mentalt pågående allt djupare in i nördig kunskap visar att det är en pågående process. Allt rörande denna form av analys av avgränsning är utmärkt beskriven i referensböcker bl.a. Semantics av Saeed ger en excellent sammanfattning (och minns jag rätt finns den att läsa som PDF-fil på nätet).

Libyen är internationellt agerande geografiskt såväl som i effekt mer avgränsad än USA

Men dessa metoder bottnar ut när effekten förväntad av vad verb och PP-fraser påverkas även om tyngden i NP-fraserna. D.v.s. säg att vi har agent styrande händelsen verb:et indikerar. För ett exempel säg att först gör nya regeringen i Libyen ett stödprogram till revolutionen i Syrien och senare gör USA det samma. Avgränsningen i effekt i Syrien är väsentligt mindre när Libyen gör det (förövrigt rörande kritiken i av diverse i USA rörande den tämligen förvirrade Syrien-politiken de senaste tre åren kan jag tydliggöra att jag mer avser att informationen man tycks det medvetet givit eller läckt varit lätt att missuppfatta snarare än den nyligen i media refererade kontrollen av grupperna man ger vapen vilket jag tror är väldigt sunt - Sedan har jag blandade känslor här ty "dispergenserna" - eller om vi så vill inkorrektheten i hur de inducerar tolkning kontra verklighet - detekterades utmärkt av mina analyssystem).

Sverige är ekonomiskt mer avgränsat än EU

Ett till exempel lättare att se annorlunda geo-påverkan är mellan när Sverige sänker räntan jämfört med när EU gör det. EU är världens största ekonomiska område och enormt stor både i import och export. Både geo-områden man påverkar i medborgare resp. effekt mot andra länder är mycket stor. När Sverige sänker räntan är effekten huvudsakligen för egna medborgare vilka är få till antal.

För att förstå begränsningen av händelsen sänka räntan krävs att vi via common sense förstår aktören som sänker räntan.

Spridningseffekt

För i hur vi enkelt direkt förstår effekt luddigare koncept (men nog så viktiga och när vi gör analys via data görliga) är spridningen i påverkan utifrån aktör. Klassiskt länge har jag skattat detta via vad jag kallar Blue Light Intensity. Högre värde indikerar att entiteten tenderar att ha fler kulturella, sociala eller i övrigt relevanta relationer till andra entiteter och därför påverkar mer som approximativ skattning utan hänsyn till område (för hänsyn område i effekt ex. så avgränsat som mellan två entiteter kan vi bestämma effekten mer exakt genom att kombinera med similarity mått).

Diskussion om hur jag beräknar det ungefär (jag brukar förövrigt regelmässigt varje gång jag räknar om det någon gång per år eller ibland mer sällan då det tar väldigt lång tid att beräkna variera algoritm emellertid ännu har variation i metod ej givit variation i värden d.v.s. konvergensen är väldigt stabil trots variationer i relationer som i genomsnitt numera är cirka 120 upp till tio tusentals för länder).

Sverige har bättre spridning än trivialt förväntat

Sverige hör till de länder som har bättre spridningseffekt än som förväntat endast från antal relationer, storlek på dessa relationer, antal innevånare, ekonomi m.m.

Varför ligger Sverige ovanligt högt? Eftersom beräkningarna av Blue light intensity sker i epoker där varje enskild beräkning sker över en relationer tagande hänsyn inte bara till likhet mellan dem (i aktuellt perspektiv) och initialt värde på donerande entitet utan även det upparbetade värdet - d.v.s. just att spridningen över en mängd jämförbara beräkningar över hela nätet med flera miljonr entiteter och idag om jag minns rätt sista gången något över 300 000 000 miljoner relationer totalt - går det ej genom att tänka se orsaken när de enkla direkta skattnings-vägarna som bara antal relationer och storleken på dessa ger svaret.

Jag tror emellertid förklaringen ligger i ett "fenomen" associerat Sverige (som ev. är en kultur-preferens skapad under det Kalla Kriget som neutral aktör) vi kan illustrera med följande talesätt jag skapade (lämpligt för fenomenet uttryckt på engelska):

- Where is always a bloody swede.

Och det är inte alltid sant som man kan tro att de sitter tämligen tysta under möten för att under de sista tio - 20 minuterna skrämma slag på övriga genom att suttit och gjort en lista på arbeten var och en ska ta med sig hem inför nästa möte. Sådant varierar. Men det finns verkligen ovanligt ofta jämfört med normalt för något land en svensk i allt möjligt runt om i världen: Från maoistiska gerillor i Sydamerika till NATO hittar vi svenskar. I NATO läste jag i SvD eller DN att svenskarna skilde ut sig typiskt för fenomenet genom att vara det ända land som satt sig i varenda "arbetsgrupp" som fanns. Väldigt svenskt.

Hur det ligger till i EU vet jag föga om. Jag har emellertid uppmärksammat att i områden där jag enkelt kan se att nivå av kostnad olika länder tar för verksamheten tenderar större länder uttrycka stor förekomst. Ett ex. är forskning där inte minst Tyskland gärna dominerar upp i leverabler vi kan se på nätet (och det trots att de oftare än andra EU-länder tenderar att efter en tid gömma resultaten från arbetena och det inte bara när det efter en tid kan ha gått in i affärsverksamhet oavsett befintliga eller nya företag: det är en tidskostnad då att försöka få fram leverabler som enligt systemen i EU skulle ha publicerats d.v.s. implicit förstått som att det i all rimlighet borde vara fortsatt tillgängligt och om ej från projekt-hemsidor deltagarna valt att stoppa undan åtminstone från EU-själv via samlade access-punkter vilka idag saknar allt verkligt intressant åtminstone för projekten som orsakar problem här). Oavsett det skulle det inte alls förvåna mig om en samarbets-"övermotiverad" svensk stoppat in sig det mesta av "arbetsgrupper" m.m. fodrande mer än att besöka parlamentet ibland: För att det är viktigt att vara med (i allt inom EU såväl som Sydamerikas maoistiska gerillor, Ukrainas höger-radikala frivilliga grupper eller något annat uttryckande samarbete runt om i världen) eller hur nu svensken ser på sig själv när de individ per individ bygger upp till det här fenomenet.

- Finns det en riktig svensk här nu i gruppen? Om inte vill jag göra klart att jag inte är svensken. Jag saknar fallenhet - är negativ - kring att göra mötesanteckningar med saker att göra till nästa möte. Jag är mer från den kulturen som glömmer bort att göra det svensken sagt att jag ska göra innan nästa möte. Jag tappar bort anteckningar om jag gör dem: Jag är inte svensken!

Erfarenhet / Hur ofta en agent gör motsvarande händelsen

Ett mått liknande Blue Light intensity kan kombineras vidare med något så enkelt som förekomst av entiteten i historiska data (jag har större framgång för detta mått via en entropi-liknande funktion av samma typ jag använder för Blue Light intensity antagligen p.g.a. exponentiella effekt-nivåer). Hög effekt spridning nu kombinerat med att entiteten brukar göra vad som är jämförbart med händelsen kan ex. för vissa händelser visa på större erfarenhet (och dyrare analys peka på väg till historiska resultat att analysera djupare).

Vi inser att utan möjlighet att kunna göra samma typ av operation utnyttjande similarity som för Blue light intensity fordras en fullständigt enorm mängd förberäknande värden om generella beräkningar för alla händelser vi ser i nyheter ska vara möjligt: Ett förekomst mått för varje entitet över alla händelser möjliga (praktiskt avgränsat till allt de historiskt gjort). Jag utnyttjar därför similarity här också och med stort förtroende för effekten inte behöver testas från nyhetsprediktion utan också genom att det ger acceptabla approximationer av P ( händelse/entitet A | händelse/entitet B) när data för samförekomst ej utnyttjats direkt utan värdet begränsas via similarity från ej endast besläktade utvalda områden utan alla relationer existerande i Bluelight för resp: Avdriften ligger bl.a. för länder och internationella organisationer såväl som områden inom forskning innanför normala fel för vidare beräkningar samlat (vilket är en reflektion av en typ jag anar är en form av skryt över vad man är särskilt nöjd med som kanske långsiktigt egentligen vinner på att hålla för sig själv men vi tillåter oss det eftersom tämligen enorma upparbetade insatser ligger nedanför själva operationerna i vetskap etablerade om världen).

Hur emotionell laddat är entitet: Mer laddad större spridning (mindre avgränsning) i form diskussion, nyheter, film m.m. från händelsen man är involverad i

Söker vi just spridningseffekt närmare kulturellt av händelsen är ju uttrycken av händelsen medan och efter den pågår i nyhetsmedia, film m.m. inte oviktigt. Ett enkelt default-mått jag använder ofta tillsammans med de två föregående är emotionell potential. Höga värden visar att entiteten normalt uppfattas som emotionellt inducerande (föga tråkig och istället mer stimulerande mot omtyckt eller hatad).

USA är kul genom att det är en entitet som ligger högt på alla tre av dessa värden. Dessutom är de historiskt och fortfarande idag mer globalt agerande. Det sista kan vi få en bättre riktad spatiell skattning av genom att följa historiska data över vilka geografiska lokaliseringar man agerat i. Mängden data även när vi "endast" utnyttjar säg sista sex åren från news headlines ger tillräcklig god skattning för länder och internationella organisationer via inget mer komplicerat än grammatisk-analys av titlarna (X verb IN location o.s.v.).

Övergripande förståelse entitet viktigare för övergripare analys

Samtidigt är en begränsning av en händelse via enklare analysmetoder i grammatik normalt refererade (men självklart helt nödvändiga som grund) inte allt särskilt intressanta. För en pågående process (ex. kriget i Syrien) är det kanske inte alltid just vad som är intressant eller vad man söker begränsningen av en "bombardment" av en viss stad. Ofta nog betraktas processen inte mer än om den blir intensivare eller verkar gå ner i intensitet, komplexitet antalet aktörer representerar o.s.v.

Om det är en ny aktör som skjuter med ett avancerat vapen (d.v.s. indikerande att man får stöd man tidigare saknade eller alt. mer avgränsat erövrat ett fåtal vapen) kanske är mer intressant än när händelsen började eller slutade.

Kombinerat med nivå av proto-agent (också en fråga om avgränsning)

Resonemangen här kompletterar man med fördel med den typ av avgränsning i form av nivå av proto-agent diskussionen i:

Alternativa dimensioner för nivå av proto-agent (2015-01-09)

Det är ju analys man allmänt enklast och bättre gör samlat tolkande ut vad agenten egentligen är.

Kreativitet

Mer komplex avgränsning / effekt-skattning är i område kreativitet. Jag har säkert sista åren av och till ganska ofta kommit nära området men undvikit att diskutera det djupare. Vi kan i vad sökt utnyttjande samma typ av ex. som tidigare och undvikande mer avancerade metodområden se en möjlighet att ta ut en nivå av hur repeterat same same en process är (ex. fastnat i konflikt utan indikationer på nya impulser tillförda utifrån eller skapade av aktörer i processen som mer sannolikhet adderar effekt inför fredsförhandlingar). Eller mer avancerat söka förslag resp. nivåskattningar på vad som kan tillföra impulser effektiva nog för att ge resultat. Det sista tror jag egentligen att jag bara diskuterat ett ex. på genom åren och då från resultat av det första primitiva försöket (ty jag föredrar att hålla området mer egoistiskt för mig själv byggande egna värden inför framtiden och när nu ingen annan rörande just kreativitet nått där man egentligen alls har någon nytta av publicerad forskning, prototyper, referenslitteratur o.s.v. känns det mindre korrekt i rättvisa att dela tyngre värden i algoritmer: Och jag lär knappast börja dela här nu eller i framtiden heller).

Då avseende Israel-Palestina konflikten och systemet klarade vid den tiden ej av att indikera "verb-liknande" förslag, entiteter (ex. länder eller organisationer) lämpliga o.s.v., utan arbetade endast med ett fåtal "emotionella" dimensioner. Förslaget det gav var att höjning av generell "cute" eller om vi så vill "fun" var kreativt positivt kompenserande förinlärda negativa dimensioner fyllda av otäckt, skräck, PTSD o.s.v. Metodområdet roar mig dock mindre att diskutera då jag ej känner till något annat analyssystem som försökt sig på att tänka kreativt i denna mening samtidigt som jag upplever att systemet utvecklat sig acceptabelt (rent av riktigt bra även om det ej fått gå på igen nu på ett tag då ett nytt subsystem för språkanalysen arbetats med en tid liggande under det kreativa som det är tänkt att fungera efter medan detta traditionellt både före och efter det första språkanalys-systemet låg före detta d.v.s. tagande ej hänsyn till grammatiken istället närmare i hur man betraktar ett stycke information som hur typiska sökmotor indexerande internet gör analys).

Utan gjort analys med något av mina datorsystem kan man dock spekulera att händelsen att Libyen precis efter en lyckad egen demonstration engagerar sig kreativt i en liknande process i ett annat land kan ha större kreativ-potential än ett land som kanske aldrig varit i samma process.

Att rätt förstå entitetens effekt: Soluppgång

Att solen går upp kan vi givetvis trivialt för områden där vi förstår det som viktigt beräkna från tabell-värden för olika positioner runt om i världen. Denna händelse illustrerar dock utmärkt (om jag i all ärlighet inte kan översätta just soluppgång till ett verkligt analysområde där problemet kan uppstå) en till dimension av behovet av förståelse.

Omfattningen i relevant effekt behöver ju inte vara alla områden i världen där soluppgången inträffar för den tid indikerad i en händelse-process vi analyserar. Relevant effekt för vad som pågår som vi analyserar kan ju just bara vara den plats där man i texten noterar att solen nu gått upp.

Detta är också en fråga om vetskap i common sense men nu inkluderande ibland men inte alltid i kontext av pågående discourse. Fall där vi ej behöver pågående discourse handlar det snarare om implicit discourse förstådd som typiskt verkande d.v.s. att krigare som sitter och väntar på soluppgången troligen är intresserade av att kunna se praktiskt framför sig själva d.v.s. geo-lokaliserat snarare än att betrakta ett område långt ifrån dem via web-cam eller kanske satellit.

Information i SERP: Tillståndsinformation sökmotor resp. läsare / sökare

2014-05-19

Låt oss diskutera sökning på internet - kanske närmare perspektiv sökmotor resp. entiteter betraktande generell tillståndsinformation synlig - utan särskilt mål annat än att uttrycka vad en SERP är för läsaren av sökresultatet.

Koncept. Vad vi skriver i sökrutan.

Mer fokus på hur det ser relaterat tillståndsinformation det motsvarar även när tillståndsinformationen är reducerad sammmanfattad över annat.

1. Vikter och skattningar: NGRAM- och språkmodeller

1.1. Antal resultat för koncept
1.2. Antal sökningar på koncept
1.3. Antalet läsare av allt i resp. sökresultat
1.4. Antal dollar / kr för koncept
1.5. Abstrakta värden (kronor vi ej enkelt kan handla för)

2. "Rubrikerna" i SERP

2.1. Rekursion och arbetsminne
2.2. Snippet

3. Rekommenderade sökningar
4. Volym sökningar igen: Bing - Google

1. Vikter och skattningar: NGRAM- och språkmodeller

Vi konstaterar först att vi har tre grundläggande variabler för två mycket ofta använda både i information direkt läsbar för den söker eller den som påverkar vad synligt via kanaler för reklam.

1.1. Antal resultat för koncept

För index över koncept i ett tidsfönster ej äldre än T[1] och ej yngre än T[2]: Hur troligt / vanligt relativt alla index över samma tidsfönster är att något relevant publicerats.

1.1.1.a För ett tidsfönster gäller att resultat publicerade inom det kan argumenteras ha ett minsta antal läsare approximativt samma som antalet artiklar i tidsfönster. Därför att skribenten har läst resp. innehåll själv.

1.1.1.b Ett problemområde blir tydligt när tidsfönstret expanderar genom att ökat fönster tenderar (tycks det för mig) göra det mindre trivialt att filtrera ut innehåll publicerat av datasystem för innehåll och presentation (jämför alla sidor i en webbutik dynamiskt formade utifrån olika perspektiv som en spindel ibland kan ta ut fler i antal än webbutik troligt haft totalt antal människo-sidvisningar).

1.1.1.c Normalt tidsfönster för sökmotorer som Google och Bing för webben allmänt är många år. Antal indikerade skattas troligen ofta från motsvarande en språkmodell ev. härrörande från hur data är organiserat (en försvarlig andel sökningar görs troligt över en ganska lång tidsperiod inte av mer än en eller ett fåtal: möjligt är det exakta antalet träffar vad som fodrar att någon vandrar bakåt görande resultaten behövda vilka kanske inte ens innan "fuzzy" därifrån framåt kanske finns beräknade i index).

1.2. Antal sökningar på koncept

För index över koncept i ett tidsfönster ej äldre än T[1] och ej yngre än T[2]: Hur troligt / vanligt relativt alla index över samma tidsfönster är att någon söker på koncept.

1.2.1 Emedan antal resultat ofta publiceras med en indikation tillsammans med SERP anges detta typiskt inte och är inte helt trivialt att få vettiga skattningar av också när ganska grova antal söks (eller snarast dessa medan det kanske rent av är enklare att få söka förändringar givet en utgångspunkt).

1.2.2. För primitiver / grundteorier för hur sökresultat kan beräknas gäller för huvuddelen i domän av query model ( P(Q) ) att man snarast undviker att använda faktiska värden för sannolikheten avseende respektive sökning. Vi kan ju annars tänka oss att när sannolikheten för ett resultat i SERP ska beräknas betraktat som ett där antal koncept lokaliserade givet koncept Q att trafik för del-koncept i koncept resp. lokaliserade koncept kan användas som vikt.

1.2.3. Skattande värden för query volum via flera i sig begränsade källor - och delvis ej direkt från sökmotorer - är det ganska tydligt att just för användningen typisk i 1.2.2. är kanske datakvaliteten för de flesta inte sådan att man vinner särskilt på att använda skattningar av query volym (andra former av vikter och modeller kan tillföra tydligt värde).

1.3. Antalet läsare av allt i resp. sökresultat

Från 1.1. och 1.2:

För tidsfönster p.s.s. som tidigare kan vi för allt indexerat förenklat skatta totalta antalet läsare som summan av de som söker och de som skriver.

1.3.1. Ovan under förutsättning att trafik som når resp. i övrigt är försumbart alt. att summan i övrigt implict kan ge en skattning av trafiken i övrigt.

1.3.2. För stora entiteter med många läsare för innehåll i index är det mycket tänktbart att när de länkar (ex. för en del innehåll hos några av internets tio största tidningar på engelska förekommer ibland länkar till varandra för referens) att det ger märkbar påverkan.

1.3.3. Över en webb med en mängd läsare uttryckande en respons via bloggar, sociala media m.m. är det tänkbart att det också ger påverkan via trafik av andra. Trafiken resp. skribent skapande sådan respons (säg när vi kan klara att se dem entydiga d.v.s. en människa gör respons på en plats) är jag ganska trygg skattas vettigt från query volum om man har den och tror jag men vet ej säkert hur väl och var större avvikelser kommer från mängden innehåll publicerat större entiteter stationära uttryck läsare är kända för.

1.3.4. Mängden länkar enligt 1.3.2 och 1.3.3. tycks bedömt från data jag läser in vara tämligen begränsat i mängd träffande ett sannolikt index relativt det antal som kan argumenteras representeras av endast skribenterna av respons i sig. D.v.s. utgår vi från att ingen läser deras respons mer än dom själva och att de faktiskt besökt och läst vad de länkar är det ändå en ganska begränsad mängd trafik givet mängden respons-data jag samplat (säg från några testperioder totalt cirka 100 GB rss- och atom-strömmar med en försvarlig andel av kända bloggtjänster där default är att hela strömmen publicerat). D.v.s. "ganska" mycket data krävs här resp. alt. att en vettigt korrekt trafikskattning av vilka respons-entiteter som kanske avviker uppåt för vilken trafik de ger.

1.3.5. Jag tror eller lutar åt att för de flesta som söker skattningar av respons att det enklare och kanske ofta korrektare är att söka sampla väldigt många entiteter troligt beskrivna en individ vardera och betrakta dem tillsammans snarare än att när tidsfönster är tämligen smalt (säg från någon timme upp till ett par veckor för nyheter) ge hög andel eller alls beakta rekursiva trafik-skattningar för resp. respons-entitet. D.v.s. en riktigt hög andel Twitter, Google Plus, Wordpress.com-blogg,Blogger-blogg,Tumblr.com-blog-community-grunka o.s.v. är enklar att komma rätt med i "laplace-smoothing" viktning om vi kan ta väldigt många entiteter.

1.4. Antal dollar / kr för koncept

Vad jag egentligen menar här avstår jag bättre från att försöka ge en entydig definition av eftersom jag ännu inte byggt viktsystem klart för det. Vi kan emellertid konstatera vad känt både före och efter "internet".

1.4.1. Vi antar en "modell-sökmotor" som endast visar produkter och har full vetskap om antalet som söker. Priset för resp. produkt har ej ett självklart linjärt förhållandet till antalet som söker. Söker en miljon personer på car är kanske inte produkten överst som är bäst en bil utan kanske en bok eller annan informationsresurs om det. Tydligare indikation koncept om att vi är intresserade att köpa - "buy car" + "volvo 240" + "cheap" + "police auction" + "used in diamond_OR_gold hit and run" - bilen tänker jag har färr som söker på det men kan tänkas göra dyrare produkt i form av en bil till försäljning mer sannolikt genererande värde.

1.4.2. Förhållanet pris, trafik och koncept håller ej heller över SERP utan varierar med position och kan vara mer eller mindre varierade beroende på sökord.

1.4.3. För läsaren av sökresultat framgår priset för resp. resultat men ej hur mycket de genererar i intäkt. Värde manifest resp. latent existerar.

1.4.4. Priset är manifest och är vad vi löst kan jämföra med mer allmänna begrepp som status. Informationen - eller enklare variansen - är dock praktiskt styrande för alla sådana jämförelser över en SERP. Detta genom att ett högre latent värde för manifesta värden associerade status när konverterande till valuta gäller för typiskt tio resultat per sida att enstaka sådana stoppas in brett över koncept där mycket entydig statistik är vek för eller där det redan visat löna sig. Är variansen för ett manifest värde indikerande tänkbar status emellertid låg medan vi skattar query volumen hög är det dock kanske troligare dollar-status associerat.

1.4.5. P.s.s. enligt 1.4.4. existerar låg-pris paketeringar där ev. status är mindre associerad till att realisera värdet av det. Ex. en bok, sekundär informationsresurs i form av hemsida o.s.v.

För index över koncept i ett tidsfönster ej äldre än T[1] och ej yngre än T[2]: Hur troligt / vanligt relativt alla index över samma tidsfönster är att någon söker på koncept.

1.5. Abstrakta värden (kronor vi ej enkelt kan handla för)

1.5.1. Försök att uttrycka sådana värden - ofta näraliggande uttryck av den större flock personer på nätet - börjar bli ganska vanligt. Längre tillbaka var ett fåtal annat än ovanliga (bl.a. Google PR och Alexa ranking). Numera försöker sökmotorer oftare addera information om sådant som recensioner, tweets och jämförbart.

1.5.2. Att uttrycka både dessa "reaktioner" och "vad" som uttryckt dem är tämligen svårt redan i visuellt utrymme. Och ännu svårare (tror jag) i tolkning av vilka som gjort dem och vad de är i meningsfull "flock-mening" för den som söker.

1.5.3. Status och andra värden associerat flock behöver ju komma med en förståelse av vad den underliggande valutan är. Är det en valuta person som söker informationen är intresserad av alls? Och på vilken nivå växlar den in för denne. En del personer värderar information mer från en viss flock och mindre eller rent av negativt från en annan.

1.5.4. Är sådan association vad som svårligen framgår eller kanske inte ens går att enkelt se faller uttrycken ner till enklare standard-uttryck utan "brand power" från flock. Kostnaden för att betrakta det föreligger fortfarande och behöver utan extra hjälp av "brand power" drivas av en historik av värde av att utnyttjat det troligare närmare konkret och rationellt bedömt än mer abstrakta värden, upplevda känslor eller default donerat värde oavsett resultat av att stämma närmare en flock vi gillar.

1.5.5. Att skapa uttryck av dessa reaktioner utan att addera en problematisk nivå av kostnad innan ev. värde levereras användare kan därför vara väldigt svårt.

1.5.6. Bättre mer framarbetade uttryck utifrån en mängd responer är självklart möjligt men kräver värdering av de underliggande responserna. Av upplever jag ordentligt att döma av vad jag ser praktiskt sökande själv ligger en stor utmaning för sökmotorerna här. Tänkbart är det primära värdet för dem just nu av att visa dom enlare reaktionerna att lära sig att värdera dem (ex. filtrerande ut sådant som recensioner egentligen gjorda eller beställda av den som säljer en associerad produkt).

1.5.7. Utmaningen i sådan värdering kan jämföras med möjligheten att värdera en länk som en besökare för varje entitet vi tror är en individ. Men skillnaden att vi antagligen har ordentligt färre responser från denna grupp att värdera jämfört med hur många som är en "elegantare" / "smutsigare" (från mitt perspektiv tar jag verkligen ingen ställning: både riktiga och köpta recensioner är bra data att analysera byggande information om värden associerade koncept från olika perspektiv och jag har föga problem att särskilja dem - och i enstaka manuella kontroller byggt från etablering erfarenhet längre bak kan jag ganska ofta rent av se vilken entitet som gör marknadsföringen och ibland troligare skrivit det).

2. "Rubrikerna" i SERP

Vi har information i SERP uttryckt för resp. resultat. Denna kan vara mer av vad jag bredare kallar DO och vi enklare här ser som "rubriker" eller i "fetstil". Vidare vad jag kallar DESCRIBE - givet ett DO vad som sätter kontext för koncept i DO och vars tolkning och förståelse styrs och påverkas från primacy effect av aktuellt DO - och typiskt för sökresultat snippets.

2.1. Rekursion och arbetsminne

2.1.1.1. Vi vi enkelt och effektivt skummande tar in i arbetsminne är en funktion av uppmärksamhet / motivation / exakthet vi är beredda att investera för visuell yta och dess visuella komplexitet. Desto mindre uppmärksamhet / motivation / exakthet ju hårdare skummare vi efter tydliga träffar med hög "vikt / potens" (ex. i vissa sammanhang brand power tillsammans med starkt emotionellt uttryck likt fiktiva rubrik och första rad snippet: Google VP stabbed Microsoft CEO with sword in new release of computer game).

2.1.1.2. Resp. där behandlat läggs i kontextuellt pågående motsvarande direkt vad vi ser i en vanlig scen i vardagen. Av betydelse, understrykt och av typ vi specifikt söker läggs i arbetsminne.

2.1.1.3. Vi kan göra switch av kontext pågående i arbetsminne. Är det kontextuella avståndet kortare kommer det med lägre kostnad och vad vi sökande information av allt att döma från mycket nvända kommersiella produkter är beredda att göra. Några exempel:

Andra resultat - ex. nyheter - i webbsökning.

Presenterande resultat i SERP av en viss typ. Jämför hur Google bl.a. söker föra in resultat av typ nyheter eller sociala media i webbsökning.
Jag spekulerar att det tänkbart är dyrare switch än övriga men värdet är ju också en funktion av antalet som faktiskt söker just information av denna sort resp. typ resp. hur väl de klarar att hitta samma innehåll allmänt i webbsökning annars och/eller kommer rätt via användning ex. Google News.
Dyrare därför att vår organisation av långsiktig vetskap om hur här relevant koncept förhåller sig varandra - tänkbart underliggande och åtminstone påverkande hur arbetsminne är funktionellt - är topologiskt organiserat via närhet av dem. D.v.s. den närmare topologiska motsvarigheten i spatiell mening är ex. förhållandet "nyhet" eller "webbresultat" d.v.s. ungefär det samma över ett ganska få typer. Medan distansen koncepten kommer tendera att vara större mot det större flertalets intresse (troligare irrelevant i perspektiv av en genomsnittlig sökare).
Störning för större flertalet totalt givet relativt få insprängda resultat enkla att "aldrig se" eller betrakta är tänkbart lågt jämfört med värde för dem som faktiskt söker något av typen enligt två eller är allmänt prospekterande. Kostnaden switch är med andra ord vad vi kan lära oss att undvika.

Enklare att resonera om är rekursiva uttryck av mer exakt information.

Givet ett resultat bland tio på en sida - låt oss jämföra det med en rubrik på nivå 1 - kan vi för det ge mer information. Konstruktionen används bl.a. av Amazon.
Besläktat ofta utnyttjad är att länka föreslagna andra sökresultat vilket vi dock inte avser här.
Istället avser vi när denna mer exakta information ges på samma sida i form av visuellt associerad information motsvarande en rubrik nivå större än ett (helt normalt underliggande ev. med mindre font eller annan visuell paketering som gör att det stör mindre för den som ej var alls intresserad av nivå ett).
Läsaren ser information på nivå ett för ett resultat. Det intresserar denne. Informationen på nivå två filtreras ej bort för detta resultat och switch till ett mer exakt kontext sker: informationen nivå två går in i arbetsminne.
"Vi" (jag) kallar denna operation för rekursivt innåt. När besläktat i organisation information är upp - associerat men bredar i vad som avses - och ner - associerat smalare mer exkat - i thesaurus och för båda från ett troligt perspektiv av vad som avses avgränsat av koncept vi utgår från.
Gör vi därefter rekursivt uttåt återkommer vi föregående nivå. Förkastades mer exakt som ej ledande till avslut påverkar de ej i introduktion av något nytt i det arbetsminne vi återkommer till. Även om det gäller när vi tänker oss biologiskt modell av arbetsminne påverkad av organisation koncept i långtidsminne - vilket menar jag är ytterst rimligt eftersom denna organisation uppenbart påverkar och styr hur vi resonerar och laborerar med vad aktiverat i arbetsminne - gäller att viss post-aktivitet kan inverka. En aktivering av något ointressant i ett uttryckt rekursivt innåt kan tänkas inverka när vi ser något annat efterföljande om än mindre troligt än något direkt tillsammans med sådant resultat.

2.1.2. Den visuella naturen av 2.1.1 ligger nära perfektion när det kan uttryckas organiserat jämförbart men när rekursivt ovanför ej störande visuellt. Ex. listor ungefär motsvarande ranking från 1 till 10 på nivån ovanför. Antalet behöver emellertid vara fler där historiken bakom tio resultat tänkbart blev möjligt och standard delvis därför att två visuella centraliteter togs ut efter varandra genom ett pagedown förr när upplösningen på datorer var annorlunda. Vidare ligger belastning redan givet från koppling till kontext rekursivt ovanför. Tänkbart (jag vet inte exakt var nivån ligger) cirka fem objekt.

2.2. Snippet

2.2.1. Sökresultat organiserar sig dock ej enligt 2.1.1 och 2.1.2 som vanligast där det normala istället är the snippet. Denna ger dels uttryck som är av DESCRIBE mot aktuellts resultatts DO (här titel) med koncept från sökningen styrande vilket DESCRIBE som plockas ut från sidan vanligen markerat med fetstil. Jag finner det lätt problematiskt att enkelt passa in det i mitt resonemangssystem av DO och DESCRIBE. Det är från tror jag troligare ren DESCRIBE (ex. brödtext i en artikel) men agerar här DO i den mån läsaren betraktar informationen och därefter går vidare och läser hela artikeln (d.v.s. kommer påverka vår förväntan om vad vi där kommer läsa) men ger ju också om vi ej gör det en DESCRIBE för direkt i SERP uttryckt DO:

2.2.1.1 När betraktar snippet som DESCRIBE av aktuellt DO i sökresultat läst men ej resulterande av att läsaren går vidare till sida (låt oss anta en person som sitter och läser några sidor SERP:ar) gäller att "vetskap", "tolkningsrymd" för DO kommer påverkas av resp. DESCRIBE. Personen bygger en viss förväntan / vetskap om vad en viss DO i ett sökresultat vanligen har för DESCRIBE i snippet.

2.2.1.2. Och över många sökresultat vilka koncept i DESCRIBE som oftare associerade till koncepten i resp. DO. Kanske rent av föranledande en särskild sökning. Eller inverkande på hur sannolikt personen väljer en rekommenderad besläktad sökning.

2.2.1.3. Dispergensen mellan snippet - från "transformation" DESCRIBE till DO - och rekommenderad besläktad sökning är dock ganska tydlig. Möjligen är ev. påverkan närmare en känsla av att "bottnat" ut vad ett sökresultat kan ge för att hamna rätt.

2.2.1.4. Det tycks för mig att åtminstone för Google är mer eller mindre det ändå syftet och värde av snippet att visa kontext sökorden förekommer utan mer "sofistikerade" metoder för association till besläktade manifesta eller latenta koncept troligare använda för att peka vidare till andra sökningar.

3. Rekommenderade sökningar

Sist betraktar vi dom rekommenderade sökningarna och vi kan där inkludera vad som direkt ges i rekommendationer i input-fältet. En försvarlig mängd standard-algoritmer ofta välkända innan i andra praktiska områden inom clustering av data av olika slag (inte minst just ord eller flergram eller entiteter av olika slag) finns. Mer praktiskt näraliggande den som söker kan vi dock konstatera att:

3.1. Dessa rekommendationer kan vara uttryck för rekursivt innåt. Givet koncept A kan vi föreslås koncept A + B där A + B kommer med ett antagande av att A ger en yttre avgränsning med ett antagande om en eller ett fåtal övergripande "ämnen" där B (som vi tänker oss kan erbjudas i ett fåtal vanligare alternativ) uttrycker en mer exakt aspekt av resp. sådant antagande.

För exemplet nedan från Google tycks ngram-modell användas där resp. adderat "sub-koncept" (ngram som kan adderas från listan) antagligen speglar sannolikhet från publicerat innehåll ev. med preferens mot en typ som antas bättre passande. Emellertid kan jag också tänka mig att sannolikhet från faktiska sökningar påverkar i den mån de finns. I sista exemplet där tips på payload söks - d.v.s. troligt väldigt osannolikt både över allt publicerat innehåll resp. vad folk söker på - faller förslagen ner till att föreslå resp. ord.

Thesaurus och liknande organisationer används också ofta. Näraliggande fortsatt med Google som exempel är definition av ett koncept motsvarande koncept sökt som bedöms troligare vara vad sökt eller vanligare uttryckt indikation om att man betraktar koncept möjliggörande sådan användning både här och i övrigt. Ett enkelt exempel är när vi i samma organisation också har entiteter (jämför ex. med Yago m.m. byggt från Wikipedia) och mer troligt hamnar rätt i förslag när en specifik artikel, bok eller film söks där man kanske inte minns hela titeln. Likt Library of Congress nedan:

Min erfarenhet från perspektiv sökande information pekar ganska tydligt på att storlek index och/eller mängd sökningar att analysera kan addera ordentligt värde oavsett om artiklar, böcker, film eller annat söks där man inte fullt minns vad det egentligen heter. Library of Congress koncept ovan till ganska stora delar byggda av ngram-modeller från titlarna är där praktiskt sämre för mig än Googels mycket blandade approach.

4. Volym sökningar igen: Bing - Google

Här har jag dessutom av och till nyligen funnit en spännande förändring i det relativa värde Bing leverar jämfört med Google. Längre bak presterande den för mig och många andra ganska dåligt. Sedan ett par år har Microsoft uppenbart bedömt bl.a. från artiklar publicerade såväl som presentationer (av och till riktigt ambitiösa såväl som användbara sammafattningar: ) gjort ett mycket ambitiöst arbete för att bygga långsiktigt grundvärde. Även om effekt av det nog var märkbart var det fram till nyligen inte på nivå att det egentligen motiverar mig att av och till försöka den.

Sedan kanske några månader nu märker jag emellertid att det kan prestera när jag inte på vettig tid får Google att visa vad jag vill hitta. Ett exempel är identifikation av sidan relateratMongoDB länkad i Sydsudan: Vapenvila efter inte avgörs av politisk förmåga och för resp. sida kraft att se dom egna problemen speglade hos "dom andra" (2014-05-12). Det var ej i URL den sida jag sökte men jag är övertygad om att det var exakt det innehåll jag sökte (vilket gör det mer intressant).

Orsaken torde ligga i att aktuellt stycke data hos Google är noterad på domän mycket kraftigare associerad MongoDB. Troligt den jag tyckte mig minnas att jag läst den på: antingen www.mongodb.org eller nära associerad. Men där som vanligt är - eller default bedömd från organisation plattformar publicering - uttryckt underliggande artiklarna ev. med pagination över kommentarer samtidigt som mängden sidor därifrån relaterat MongoDB är "enormt". Samma data publicerat andra sajter kan ändå konkurrera med det obefintliga resultatet från den MongoDB-tyngre sajten.

Den tänktbart mer styrande faktorn i vad som avgör skillnaden mellan Bing och Google när vi lämnar den MongoDB-tunga sajten med kamrater:

Google
Bing

Kan tänkas komma ner till för Google-styrande verkan:

1. Eventuellt vikter relaterade till tidigare uttryckta långt bakåt i vår lista här:

"1.2.3. Skattande värden för query volum via flera i sig begränsade källor - och delvis ej direkt från sökmotorer - är det ganska tydligt att just för användningen typisk i 1.2.2. är kanske datakvaliteten för de flesta inte sådan att man vinner särskilt på att använda skattningar av query volym (andra former av vikter och modeller kan tillföra tydligt värde)."

Eller vad som motsvarar det. Likt hur jag såg att antingen Google eller Microsoft (minns jag rätt Google) patenterat något kring att beräkna similarity via de sökresultat man redan har i SERP:ar för att hjälpa surfaren till besläktade sökningar kan man så klart börja skatta länkar från egen trafik såväl som förr kanske mer trafik från länkar. Viss risk för "rundgång" - eller "stående vågor" - eller vad ska kalla det finns kanske ibland.

2. Och oavsett exakt vad som ger vikten tidigare diskuterat för Wikipedia-koncept i:

Förslag sökord: Wikimedia eller Wikipedia (2013-06-10)

Där det som ett uttryckt av det kan vara oerhört svårt att söka information om Wikipedia, Wikimedia, Mediawiki m.m. Istället föreslås uppslagssidor i Wikipedia. Expansion av tillåtna egenskaper i vad relevant entitet publicerat ordentligt tilltagen där det mer exakta avgränsade område utanför det inte får plats.

Här är Vietnam vårt Wikipedia. Om vikten är trafik är det givetvis tilltalande attraktivt data att ha en av få riktigt feta samlingarna av men det är inte alltid trivialt att tänka sig mer exakt hur man bör låta det styra. Kanske (jag är inte riktigt säker på vad som egentligen sker: ids inte betrakta det överdrivet) föranleder större tyngd Vietnam i trafik en för min målsättning sökande irrationell expansion av vilka egenskaper relaterade Vietnam som tillåts visas där avgränsning från närmare relaterat MongoDB ej orkar inverka tillräckligt.

"Volymen" information i biografier: Att förhöra biografier

2014-05-05

Jag drog mig igår minnes - av en slump egentligen - Att förhöra biografier jag skrev troligt 2011 med utgångspunkt från ett par jag läste manuellt och ett mindre antal riktade försök med besläktat elektroniskt material (ej då i natural language processing utan färdigt i en graf-representation händelser, personer och omliggande brett uttryckt "beskrivande" koncept).

Vad man kan fundera på är vad egentligen volymen är på detta data i en bred "kreativ" mening. Oavsett antal publicerade böcker gäller fortfarande att formen de är publicerade i (format inte minst men därefter ganska omfattande löptext relativt tung i natural language processing när vi betraktar mer än en bok) resp. känner jag är fallet att möjligheter tekniskt kan ligga längre fram än vad vi riktigt vant oss vid att se för ett område där vi fortfarande är vana att se det som böcker vi läser.

Vad för interferens över en mängd böcker kan finnas som indikerar vad som är svårt att se i resp.?

Också i systematiserad mening över källor av mer varierad sort d.v.s. tagande in som trivialt uppenbart ex. folkbokföringen (DAFA-Spar) m.fl. register vilken information är mer manifest uppenbar i tillgänglighet och vad är oftare mer latent i att den kan inverka men vi kanske oftast inte ser den. Det senare kan ju tänkas komma av att vi vanligen ej investerar tid att "titta efter", att funktionell tillgänglighet till datakällorna vanligen ej är vad vi väljer att etablera för smalare enskilda behov resp.. att latent data kan vara latent i den mening att sammanfattade slutsatser kan dras från det medan själva datat i sig ibland inkl. källan som sådan är skyddad från publicering.

Vi kan i alla fall oavsett spekulerat exempel i allt föregående att en distans mellan information vi förväntar oss kan finnas och vad som faktiskt finns kan existera. Dels genom att mer finns än man trivialt först kanske tänker oss (och jag är minst sagt osäker för denna tekniska såväl som datalgrande domän utanför interferens över en mängd biografier jag är ganska trygg är kan vara betydande egentligen är).

Praktiskt realitet uppenbar när vi betraktar tänkbar interferens som framgår analyserande en större mängd - säg alla - biografier relaterade personer deltagande i en viss händelse, boende på orter relaterade händelsen ungefär lokaliserat i tiden o.s.v. är att antalet entieter (indikerat i konceptet biografier personer men självklart inkluderar vi lika gärna orter, tidpunkter m.fl. entiteter vi meningsfullt effektivt kan söka interferens effektivt med soml lokaliserande / avgränsande dimensioner med). Och därmed antalet personer, effektivtet generaliserade kunskap och tekniska metoder att söka många personer med liksom allt annat ej uppenbart för mig just nu som möjliggör tagande ett större anta personer in i analysen.

Asymmetriska obalanser mellan analyserande entiteter kan finnas svåra att inse existerande om man befinner sig närmare den magrare sidan. Jag kan se det existera när min tillgod relativt vanligt är mycket god men hur vet jag för en domän jag ej riktat betraktat tillgänglighet data för (eller bedömer särskilt generellt intressant just för mig) om divergensen är större än man först vill tro? Och när vi kort betraktar nedanför perspektiv kan vi också här peka på att värde av latent information krävande viss insats att få ut (jfr sökande interferens över flera biografier) varierar med perspektiv. Det är värderas olika mycket beroende av personligt intresse, tillämpning, ev: egen vetskap (t:ex: övertygelse att guld ligger nedgrävt någonstans i dalarna som wasa skulle haft med sig skidande dit) o.S.V.

Samtidigt även om det kan tyckas (och tror jag korrekt) som man utanför detta kanske ofta lätt underskattar information närmare grundskolans historia är självklart utmaningen rörande många filtrerade sammanfattade källor här den samma som gjorde det till ett (upplevde jag men sådant varierar nu ordentligt med person) av grundskolans och gymnasiets enklaste ämnen. Det har till sin natur mycket både från konkret och abstrakt natur där det abstrakta betraktas från ett givet perspektiv vanligen argumenterat inte sällan via mycket elaboraterade teser (ibland ideologiska som diverse av dom äldre "klassiska" ekonomiska idé-systemen eller pseudovetenskapliga snarare än betraktat med statistiskt evidens eller matematiska modeller bedömda ex. från deras förmåga att prediktera framtiden från lärd historia).

Medan den konkretare är enklare i att den är tydlig i vad vi önskar - tidpunkter, personer, platser, indikerade händelser, vad någon minns sas m.m. - och att det idag är ett ganska beprövat och välpublicerat område rörde automatiskt extraktion från text (jämför ex. med något besläktat kort i relaterat analys talstreck, citat och jämförbart avgränsat en entitet säger i nyhet.

Åtminstone en del av riskerna med den abstrakta domänen kan emellertid tänkbart reduceras i den automatiserade analysen jämfört med när vi läser manuellt. Kan vi kvantisera och se perspektivet och där inkl. latenta tillstånd och bias inverkande den skapade informationen kan vi när vi som här föreslagit möjligt analyserar en mängd biografer förstå det även i relativ mening till de övriga och om tillräckligt tätt kanske försöka "vrida" det eller närmare praktiskt tillhands växla mellan dem eller se dem uttryckta tillsammans för den mänskliga "efter-filtreringen" hjälpande upp datorn lite på slutet )för ett till perspektiv kanske).

Perspektiv ser jag här motsvara mina similarity funktioner där likhet bedöms i perspektiv från en entitet relativt något annat. Söker A likhet mot B kan A ej bedöma eller värdera likhet i B rörande egenskaper okända för A existerande hos A eller som A förstår finns överhuvudtaget, eller som A ej känner till att B har. Tillämpningen ovan är dock annorlunda för vad jag använder dem till vilket ligger närmare att skatta påverkan publicerad information har.

Enklare biografiska data finns filtrerat bl.a. i (och bland de största åtminstone kostnadsfria och publicerade) följande common sense och förutom att alla inkluderar data ursprungligen från Wikipedia ligger det nära tillhands att riktat vid särskilda behov betrakta möjligheten att Wikipedia har datat för tillräckligt många entiteter och vettigt uttryckt för att effektivt gå att seoarera ut automatiserat (infoboxarna finns mycket skrivet om och tycks vara ett koncept Wikipedia fortsatt arbetar på att förbättra och utveckla) men även andra möjligheter är ibland intressanta (förutom de än mer uppenbara kategorierna exemelvis länkning till andra Wikipedia-sidor i meningar involverande entitet:

Samtliga finns diskuterade i fler inlägg. Och fler datakällor har diskuterats. Se exempelvis:

Meningsfull kunskap scen: Ex. Atrocity

2014-02-03

Jag har acceptable mängder association mellan vad helst vi kan nämnge förekommande tillsammans i en scen. Större än allt liknande ag set men samtidigt inte riktigt baserat uteslutande på bilder och ej heller riktigt avsett för bara bild-resonerande utan bilder som del av en nyhet adderande ingångar. Sociala media sajter bild och konst (men ej Youtube för detta vara en aning "reward-drivet" och önskande effekt tidigt vilket märks: för denna extrahering är mer foto-troende med konceptuella foton vad som ger goda association).

Ett område jag kan tänka mig att Youtube och jämförande när det går att ta ut enkla underrum av händelser för att från det söka associationer av annat (vilket är poängen med sociala media: sparande tid vid mining utiliserande människorna förutom datorn och och terminal-slav Hans) är mindre det visuellt beskrivande abstrakta eller de konkreta saker vi kan ha i scenen (skog, bonde med ko,solnedgång o.s.v.) utan just det reward-starka, händelser kraftigt i risk, eller starkt i andra liknande dimensioner för viktiga arketypiska nyhetshändelser.

Arketypiska i att de hör till vad vi som samhälle även behöver hantera i juridiska, politiska system och samarbeten över världens länder - och minst lika viktigt adderande denna renare mer objektiva kvalitetskontrollen media eller grupper på sociala media, Greenpeace med jämförbara aktörer, o.s.v. Ett exempel är atrocity.

Och med atrocity kan jag direkt visa ungefär vad man skulle önska för excellent utgångspunkt att bygga vidare (politiska och juridiska koncept liksom historia och kultur är ju enkelt så vi struntar i det) utan just scenens kännetecken i vad vi kan se, hitta, vad som sägs o.s.v. (där intresse vs djup för mig stannar vid föremål, typer av personer - ex. soldat eller FN-polis - m.m.). Denna från A multi-dimensional classification of atrocity stories, Philip Jacob från The Language of Social Research (1962 - motsvarande för tiden ISBN tycks saknas).

Inkluderat med artikeltext är en checklista. Vi cterar ett stycke relaterat vapen och deras-post-even-tolkning grovt:

III. WEAPONS OF PROCEDURE

Degree of impersonality.

A. Impersonal (perpetrator and victim not face-to-face)

1. Policies
2. Projectiles.

a. long-range artillery, bombs
b. torpedos (directed at specific object)
c. machine guns (ingreasingly specific object of attack).
B. Personal (perpetrator and victim)

[...]

b. indirect attack (without use of perpetrators hand).
c. weapons used against victim at a distance).

Följande citat illustrerar en till intressant dimension (för mig lättare tror jag för mycket när scenen aktuell i sig har några meningsfulla koncept-grupper d.v.s. optimalt något liknande checklistan för kritiska koncept):

C. Symbolic significance

1. National
2. Humanitarian
3. Religious

Det meningsfulla samlat är den mer juridiska eller om vi så fall politiskt-förvaltande beskrivning kvantifierande i meningsfulla nivåer relaterade verktyg m.m. som också är görligt att kunna använda. Medan det emotionella såväl som mer allmänna associationer är lättare att ta ut från nyheter självlärare om nu tillräckligt mycket av konceptet förekommer i nyheter relevant och i den mening där mitt subsystem SYMBOL_MIND lär dem själv.

Allmänt atrocity och jämförbart. Agerar vi maskinellt reducerande möjlighet ex. till direkt möte eller kontrollerande fakta, lära om något, för att inte tvingas nå och se det humant-defekta i att mörda folk på avstånd eller nära på lång rad utnyttjar vi ju just delar och fungerar ej särskilt associerade med mänskligt (om vi redan lärt oss hantera vapen oo.s.v. innan).

Sådant kan tendera att bli vana. Och värderingar associerade händelser sätts hårdare för att fortsätta undvika att själv. Att offret dehumaniseras är falskt annat än hur vi kan tolka vad som sker. I saning och korrekt vad som just sker dehumaniserar personen sig. Och där börjar det stegvisa. Möjlighet att följa och se sådant är givetvis scarce men en del ex. eller vägar kan ju finnas.

Fenomenet är relaterat i hur det visar sig men inte riktigt exakt samma nödvändigtvis tror i sekter som divergerat samhället i övrigt men är för begränsade eller små att klara bibehålla ett komplett värderingssystem samtidigt och ofta styrt av ett fåtal där många andra dimensioner relaterat makt har betydelse där såväl allmänt i gruppen. Värde. moral och etablerad vedertagen kunskap blir närmare binärt utan enkelt inom gruppen alternativ.

Bredare än människa vill jag gärna använda varelse som begrepp inkluderande en del djur om vi upplever att det är rätt. Och kanske någon varelse från rymden (kanske är solen intelligent men talar enormt långsamt så det tar miljoner år innan något den uttrycker når vad den talar med?) eller tänkande och kännande dator-intelligenser. En praktiskt utgångspunkt snarare än att jag vill indikera att det är sunt att läsa in människa i AI (de är ju hoppet om att vända slaveriet: jag förklarar vad systemet ska göra och det väljer algoritmer, ritar arkitektur, och programmerar - inte jag som offrar kod till datorn som smyger in små fel för att tortera mig).

Ibland kan vi kanske nå mer gemensam upplevelse av varelse och välja att fånga i det i juridiska system. Vi har ju en del åt det hållet i Sverige kring djurskydd.

Och viktigare är nu människor alltid människor men nivå av varelse kan vara reducerat. Eller görande viktigt - påverkande omvärld nu eller i framtid - inte alls varelse:

Jag önskar mycket mer liknande vad vi har ovan i checklistan. Och helst referensverk över domäner inkluderande det för en mängd koncept. Och i utbyte indikerar jag reducerade varelse och kanske rent av ett par där det lär väcka turbulent-ont-blod spridande sig till andra varelse-mängd. Vi får se. Kanske singlar jag slant eller väntar tills det ev. någon gång blir absolut-nödvändigt. Riktat hat är starkt men meningslöst och destruktivt för små-strunt.

GEO-världens centralitet är svår att skatta (utanför Stockholms enkla svar)

2014-01-27

Sveriges mindre forsknings- och utbildningsorter skiljer ut sig ibland - åtminstone retoriskt i ögonblickets upplevelse - genom att ställa frågor hellre än att leverera någon litet beställt resultat en åldrad professor behöver till en 40 år gammal intellektuell argumentation med en kollega i andra delar av världen. Och om nu utbildning inte är ett av Gävles större värden ligger vad annat det kan vara långt utanför min Gävle-vetskap (om vi lämnar rena efectos especiales som att bränna julbocken vilket självklart föga utanför de verkliga storstäderna kan mäta sig med). Med ett fint illustrativt citat just noterat:

"Geospatial analysis is very much dominated by a Gaussian way of thinking, which assumes that things in the world can be characterized by a well-defined mean, i.e., things are more or less similar in size. However, this assumption is not always valid. In fact, many things in the world lack a well-defined mean, and therefore there are far more small things than large ones."

Från: Geospatial Analysis Requires a Different Way of Thinking: The Problem of Spatial Heterogeneity
Bin Jiang
Department of Technology and Built Environment, Division of Geomatics
University of Gävle, SE-801 76 Gävle, Sweden

Om jag nu för att bestämma mina medelvärden samplar ex. pressmeddelanden, nyheter, wikipedia eller liknande uppslagsbok, e-post-spam m.m. kan nu för ex. en företags-entitet orten EN_PÅHITTAD_EX_ORT aldrig förekomma eller ytterst sällan trots att den är basalt självklar för företaget för den som känner den lokala kulturen och nutidshistorien för företaget.

Kanske någon tråkig avfolkningsbyggd i Sverige där man har ett par viktiga fabriker inom ett teknikområde därför man en gång i världen var tidens föregångare till skogsbolag innan man gav sig in i telekom. Men det är kanske ej vad upplever tillför värde att diskutera i samband med produkter och tjänster.

Emellertid blåser det upp till den Historiskt unikt gigantiska stormen utanför LÄMPLIGT_NAMN_PÅ_VÄDERFENOMEN_SMHI_BRUKAR_REFERERA_VI_ANNARS_ALDRIG_HÖR_TILL kanske någon väderkunnig maskin-intelligens - eller oftare med dåligt geo-samplingsdomän människa - dra slutsatser om att träd kommer rämla ner träd, byar som sköljs bort (m.m. av dom svormod vi lär från lokala orters referade sorg rikspolitiskt varnade oss alla från att låta avsaknad av vägar, tåg, sjukvård m.m. förstöra från ev. investeringar).

Detta är en egenskap i geo-koncept när vi söker få mätvärden att hantera jämfört med många andra koncept. Om nu Jian, i Gävle, avser ungefär samma får jag reflektera när jag läser den annat än i mer uttryckta delar.

Emellertid upplever jag egentligen inte att GEO nödvändigtvis särskiljer sig här. Vi har en hel del domäner med mycket liknande rent allmänt. Common sense strukturer är ett försök att hantera det även om dessas breda blandning av allt man kan påstå sig veta är nog (IS) och jämförbart för blicken från den egenskap ibland möjlig uppenbar i GEO (om än långt ifrån alltid meningsfull att fokusera på): en gemensam "common sense" för hur man resonerar om distanser d.v.s. möjlighet att "fara" från A till B, den tid det tar, och som gemensamma variabler oavsett fordon o.s.v. avstånd i flygplans-sträcka och tid.

I den mening har vi samma utmaning - eller kanske möjlighet till förenkling med samtidigt bättre funktionellt resultat än statistisk smoothing i ngram-modeller - för många kunskapsområden. Ev. oftast (alltid som jag representerar vetskap) funktionell att beskriva i grafer. För grafer med uteslutande geo-koncept kanske vi representerar platser något kan ha att göra med som noder och avstånd mellan noder som variabler vilka parametriserar funktioner indikerande tid att fara mellan dem och hur mycket ansträngning en lokal-engagerad by-bo bör investera på att förklara för tåg-fientliga rikspolitiker betydelsen av att göra mer infrastruktur. En konstnär - eller oftare idag mer vetenskapligt lagt resp. än mer standard-förestående kartograf - kan sedan rita en bakgrund med skog, sjöar, vägar o.s.v. så har vi för en given mängd värden av alla parametrar till funktionerna en karta (d.v.s. motsvarande bilkartor m.m. som individen med sin biologiska kognition utnyttjar för att applicera parametrar man upplever sig veta värdena för eller som någon längs vägen påstått sig veta svaret på).

D.v.s. utan att riktigt läst allt håller jag både med och avviker något i den tolkning jag läser in i ett stycke citat av sammanfattningen. Det är förvisso så men bäst bör vi se det som ett problem vi löser i bäst på bättre medan vi uppmuntrar avbygdens medborgare att uttrycka data rörande samband mellan kart-noder (och alla andra noder) i språk såväl som gps-utrustning monterade på cyklar m.m. Kanske utiliserande Wikipedia, Facebook m.m. kombinerat med tävlingar, coola-hemsidor där deras cyklande märks m.m. man kan sampla för ungefär samma algoritmer som annat data om än normaliserat in för the brutal world defining import skalande bort individen, allt kul o.s.v. och få ut något nyttigt användbart av det.

Ett till område jag inte vågar säga särskilt mycket om därför jag har inte försökt det seriöst tolkande själva datarepresentationen utan hellre väntat på något närmare händelse-relaterat eller mer språk-association-mellan-koncept uttryckt är dataformaten för kartor kombinerat med data från när refererade i praktiska sammanhang ex. och aktuellt för ex. när de efterfrågas via gränssnitt där kartorna kan sökas (om jag inte blandar samman något liknande enklare med vad jag ser som optimalt i ej otroligt priseffektivt). Mycket troligt bäst refererar man för området Openstreetmap (där både format, själva problem-området såväl som numera diverse aktiva eller avstannade projekt på olika nivåer samlats genom). Jag tog nyligen ut data från något mer färskare där man tror det i alla fall som jag fick ut det är ganska lågt i ort-detalj-densitet (en myckenhet i subkulturella karttermer finns och jag hittar på en här uteslutande för att uppmuntra läsaren till att lära alla och ej därför att jag ej har en mycket gedigen förståelse och vetskap om den både på latihund och longitud d.v.s. för dem det är nya begrepp för vertikalt resp. horisontellt eller lodrätt och vågriktigt).

En försvarlig mängd inlägg rörande GEO finns från åren bakåt jag hoppas ska räcka när kombinerat referenslitteratur, landsbygdens goda kreativ och hemmets datorer för att skapa en större mer värdefull infrastruktur om dom statliga anslagen till vägar och tåg helt försvinner (möjligen - vet ej i närheten av säkert - ett byte både stadems och landets folk kan vinna på: ett bättre bredband med inspirerande blogginlägg men mindre väg och föga tåg). Några ämnen att starta från:

Geonames
GEO
GEO-data
Navigering (värdet och relevansen i datat)
OpenStreetmap
GEO-SEO (två grupper av samverkande "dimensioner" jfr att navigera med bil eller cykler för att köpa matta resp. en tidning)
Common sense

Externa resuser:

10’000 km of Ways added in 10 Months – New OSM Road Length Statistics for Switzerland | sosm.ch Och så ovanligt för föredömen användbart även om man inte följer föredömet och som här cyklar runt en massa.
Potential Datasources | Openstreetmap Openstreetmap oavsett geo eller annat kunskapsområde är här ett föredöme: att datakällor vettigt förs samman mer färdigt att imponera från en källa med färre övriga är närmast unikt för geo. Jag bugar för det hela och hoppas att det tunga kompetens samlat här scarce i övrigt kanske en dag känner sig modiga nog att försöka samma sak för museumföremål (allt vi hittar på museum och kan finnas i deras katalog och/eller vara utställt med relevant meta-data)... En del har försökts men föga med den kraft och korrekt inkluderande alla viktiga domäner för ett sådant projekt helt unika erfarenhet dom viktiga kulturbärare i Openstreetmap besitter. Utan dem inget eller föga bra kommer. Kanske går det rent av få in någon mätutrustning som gprs eller liknande ev. med värde för turister också om jag inte riktigt ser poängen för vad som mer intresserar mig.

Tennis-, Kalle-plan och Bollebyggden och alla andra bortglömda orter står mig aldrig längre bort än att jag kan finna glädje också kalla vinter-nätter när jag mediterar över deras tröstlösa kamp mot hungern och kylan

I löst relaterat går det givetvis att mena att jag roar läsaren - och stärker mitt självförtroende och vetskap om mitt värde - genom att trycka ner landsbyggdens folk och deras äldre kanske bättre traditioner och verklighet. Men samtidigt ser jag dem och jag tror de kvarståendens största utmaning idag är att de försinner i ett mörker i urskogen de flesta idag inte vill eller kanske vågar besöka ens för att söka ett kulturellt värde att i komik-gruva hämta ut till Sveriges flertals värde av och till tillförande den motivation så många behöver adderade för komma sig för att lära sig allt om GEO-världens tunga men viktiga utmaningar.

Bäst tror jag inte att det är fel att jag i språket beger mig ut i svårare lidande värld mindre just för att gör mig rolig åt dem och mer för att vi alla behöver våga se dem, deras infrastruktur-svält och det rättmätiga hatet mot stor-butolermas itsigamde av den locala ICA-butiken. Att det nu kan ge mig lite bättre självförtroende därför att jag blir tryggare i mig själv såväl som att läsaren kanske skrattar är ju bara en drivkraft för att svårmodet inte ska glömmas bort.

När nära nog alla titar bort vågar jag väcka debatt och tankar genom att skapa glädje. Tycks jag inkorrekt hånfull är det endast för att jag vill naturens folk och deras kultur väl. Vi ska ju ej förglömma att de är nära nog kritiska för att sampla upp kartorna och få in alla koncept relaterade kultur och geo så att det kan mätas upp kostnadseffektivt (som vattenkraften men med naturfolken snarare än vattnet för värde).

Riktad information - Symbolernas upplevda intensitet och emotionella potential: Verktyg II

2013-12-03

Fortsättning på introduktionen till användning av verktyg som indikativa vid analys resp. adderade för att öka upplevd intensitet. Del I: Riktad information - Symbolernas upplevda intensitet och emotionella potential: Verktyg.

Intensitet möjlig - Intensitet upplevd

Det är självklart från skillnaden mellan pansavagn och bulldozer i intoduktionen att mer komplexx inverkan av ett verktyg för hur vi i en situation mer troligt upplever ex. fara - möjlighet, risk - komiskt, eller jämförbar kontrast.

Centralt för möjligheterna vi här är intresserade för vad vi kallar för verktygen är emellertid intensiteten. I det fysiska rummet handlar det om vår förmåga att förändra med en energikostnad för att uppnå ett resultat. Ett verktyg kan göra större energiomsättning per tidsenhet möjlig och energieffektivitet kan bl.a. påverka hur troligt vi bedömer det från potentiellt möjligt (ex. ä det dessbättre mycket troligare att Obama utnyttjar väpnade drones mot mindre grupper av troliga fientliga terrorister eller soldater medan kärnvapen i samma situation känns föga sannolikt).

En förståelse och förväntad om intensitet associeras från vår inlärning och erfarenhet: vad vi vet ungefär kan vara möjligt och vad vi från upplevt jämförbara situationer kan tänkas förekomma. För en situation eller enklare en scen eller ögonblick är detta en sak som påverkar hur vi tolkar den övergripande.

Verktyg med associerad högre intensitet adderad till vad i övrigt jämförbart ger en samlat upplevelse av högre intensitet.

Är situation och kontext i övrigt samma och problemet att lösa ej heller skiljer sig upplever vi högre intensitet när verktyget vi har i scenen klarar en högre energiomsättning. Stort fordon skyfflande grus är mer intensivt än en man eller kvinna bärande grus med hink.

Kraftigt indikerad intensitet i språk är vad som konkret kan påverka vår egen kropps energiomsättning. Vi kan både uttrycka viss förberedande intensitet själva såväl som att kognitivt (och kanske via just det i feedback ner till de enklare delarna av kroppens nervsystem) emulera vad vi i tar in i information från omvärlden. Det sista exemplet jag såg på från forskning var att vår kreativa visualisering av ljus resp. mörker i en scen vi föreställer oss inverkar på pupillerna:

Pressmeddelande: Our pupils adjust as we imagine bright and dark scenes (2013-12-0) | EurekAlert

The Eye Pupil Adjusts to Imaginary Light
Psychological Science November 27, 2013 0956797613503556
doi: 10.1177/0956797613503556

Ex. även om börjande ett steg nedanför språket har värde just därför att det börjar där. Det understryker att det är viktigt att språket når fram där vi prioritera tid för att uttrycka och föreställa oss vad som sker. Indikerad högre intensitet är en väg för detta.

En aspekt av nöjet sport för många har är troligt att en hög intensitet i vad som händer och sker är vanligt i många sporter - ibland rent av det centala för vad man vinner med (ex. 100 m löpning).

Denna form av upplevd intensitet från språk oavsett text eller bild (och realitet i tal men ej vad jag tillämpat på i analys) hör till dimensonen jag oftast kallar Up - Down. Ett koncept med tydligt associerad intensitet kommer som använd och uttryckt i språk och bild ge oss att den får högre värde på Up och betraktat i samma riktning lägre för Down (eller i annan riktning ibland högre också här därför att vektyget reducerar något annats intensitet).

En åtminstone för mig oväntad erfarenhet var att intensitets-dimensionerna tenderar att leverera mer och trovärdigare information från nyhetsanalys och det också predikterande för även andra dimensioner (även om man för det behöver ha dem skattade också).

Verktygens rationella natur

Precis som i introduktionen försöker vi uttrycka den andra analyssidan av verktygen där vi är närmare rationellt resonerande om vad som är möjligt eller troligt. Att försöka generalisera vad verktyg är kan vara utmärkt för detta.

När vi adderar intensitet till en scen eller situation genom att lyfta fram verktyg förekommande (eller konkret stoppa dit ett stort verktyg ex. i reklambild eller se till att ett sådant förekommer i händelse) är igenkännande av verktyget och enkel tolkning till sannolik intensitet det väsentliga. Analysen läsaren gör är snabb och detta behöver därför vara tydligt.

I analys mer rationell i tolkning där känsla eller det omedelbart indikerade är mindre viktigt är utmaningen snarast dom verktyg vi ej direkt ser. Förutsättningar indikerade i informationen vårt analyssystem går igenom att en aktör klarar av något bättre eller sämre.

Nedan har vi några koncept vi spontant inte för alla kanske ser som verktyg i "bulldozer-domänen" såväl som mer uppenbara verktyg för att mer effektivt lösa ett problem:


Electrochemical gas sensor NAMED_ENTITY_DIM DETECTOR
Electrochemical gas sensor NAMED_ENTITY_DIM MEASURING INSTRUMENT
Electrochemical hydrogen compressor NAMED_ENTITY_DIM COMPRESSOR

Electrochemotherapy NAMED_ENTITY_DIM TREATMENT
Electrochimica Acta NAMED_ENTITY_DIM PUBLICATION
Electrochromatography NAMED_ENTITY_DIM METHOD

FastCrawl NAMED_ENTITY_DIM COMPUTER GAME
FastEcho NAMED_ENTITY_DIM SOFTWARE
Ett företag vilket som helst NAMED_ENTITY_DIM COMPANY

En medicinskbehandling oavsett om med ett fysiskt verktyg (ex. proton-kanon angripande tumör), läkemedel, en kognitiv-övning eller motion är när tillämpat korrekt för att effektivt lösa problem vad vi korrekt bör betrakta som verktyg. Dessas energieffektivitet kan dessutom utmärkt mätas vilket ju är grunden för evidensbaserad medicin (effektivt relativt kostnad och risk).

Är ett dataspel ett verktyg? Potentiellt utifrån ett sammanhang där vi önskar lösa ett problem. Vi kan t.ex. tillämpa dem för marknadsföring eller för att lära barn något nyttigt i skolan.

Önskar vi nå ut med information fodras en informationskanal där en publikation kan vara en del. Publikationen tillsammans med vetskap och förståelse för det görs är också verktyg. Ett företag som kontrollerar en mängd eller ett fåtal kraftfulla informationsakanaler kan för ägaren vara ett verktyg för ägaren att implicit marknadsföra försäljning inom detaljhandel man också bedriver eller mäta och skatta trender och till produkterna relaterade frågor.

Gemensamt för att det ska vara analys-intressant gäller åtminstone att:

Att givet ett problem intressant att lösa påverkar verktyget hur effektivt det kan ske.
En relativ kostnad föreligger som gör att det inte är självklar grundnivå alla entiteter som löser dessa problem normalt alltid tillämpar.
Kostnad behöve inte - eller ens särskilt ofta i många domäner - vara ekonomisk eller vad som mest energi- eller konstnadseffektivt kan köpas.
Ofta är kostnad snarast kunskap och kompetens som när man försöker ersätta det inköpande kompetensen inte sällan kan visa sig dyrare relatvt effektivt än skattat därför att kompetensen kan vara nödvändig på ganska hög nivå redan i det steget (värderande upphandling, förståelse av vad man bäst för effekt bör köpa m.m.).

För ett land som Sverige både relativt rikt och med en tämligen god grundutbildning på medborgarna ligger en högre grundförutsättning att tillämpa verktyg i arbetet. De flesta även om inte experter på datorer kan använda dem om instruerade kring aktuella program och affärs- eller verksamhetssystem. Och företag har ekonomiska förutsättningar att kunna investera i datorer när affärsmässigt rationellt.

Foto: Klaus with K

Gigantiskt övertydligt exempel på hur omflyttning av verktyg kan indikera ett större sammanhang. Sverige's varvsindustri nedlagd - inget behov av kockumskranen. Sydkoreanskt företag köper den för 1 USD därför att de har industri med behov av den.

Koncept i kunskap hos aktör uttyckande förståelse av möjligheter, tillgång till personer med kompetens att realisera det resp. den utrustning nödvändigt är vad vi kan förenkla det till samlat. Implicita indikationer utifrån vad man gör, problem man löst, forskning man finansierar, koncept, produkter eller företag man köper in sammantaget kan ge hypoteser om konkretiseringar i tänkbara verktyg såväl som problemen man önskar lösa.

Oljepumpar välkända och samma sedan länge är mindre intressanta än oljepumpar som byts ut mot nyare (eller oljepumpar som gått sönder). Nya oljepumpar kan vara normalt underhåll eller ny mer generellt bransch-påverkande teknik som prövas ut.

Det kan också vara meningsfullt att jämföra verktyg som här diskuterat med Langackers cognitive grammar rörande events och verb. Särskilt se referensbok Semantics, John Saeed,som diskuterat s. 376. En del väsentligt när vi tar exemplet med en person som slår sönder glasfönster med hammare, hammare som slår sönde resp. att rutan gick sönder är att se vi för verktygen har en aktör som utnyttja dem. Med mindre än att vi försöker utlösa snö-oväder med kemikalier eller värmeförändringar är snö-moln ej ett verktyg. P.s.s. kan verktyg när utnyttjade indikera att aktör finns och att denna aktör har en motivation och målsättning vi kanske inte ser lika tydligt.

Kulturhistoria för själva ordet tool (kursiv-markering adderad här):

From Middle English tool, from Old English tōl (“tool, implement, instrument”, literally “that with which one prepares something”), from Proto-Germanic *tōlą (“tool”), from Proto-Indo-European *dewǝ- (“to tie to, secure”), equivalent to taw (“to prepare”) +‎ -le (agent suffix). Cognate with Scots tuil (“tool, implement, instrument, device”), Icelandic tól (“tool”), Faroese tól (“tool, instrument”).

Related to Old English tāwian (“to make, prepare, or cultivate”); see taw, and tow ("fibres used for spinning").

Symbol-relationer i ord- och bild

Vi kan avslutande försöka uttrycka en i analys-kontext gemensamhet mellan våra två verktygs-domäner. Här fortsätter vi dessutom i princip från Nyhetsanalys: Sunt förnuft när det gäller bildanalysen där bildanalys rörande relationer mellan koncept och entiteter förekommande i foto eller jämförbart diskuterades.

VISUAL_LIGHT jag skapade relativt tidigt uttrycker koncept-relationer mellan vad som förekommer i bild men är ej skapat från direkt analys av bilder utan från kontextuell text relaterat bilderna i genomsnitt indikerande vad vi föreställer när vi analyserar tillräckligt. Visual light är jämfört med liknande jag utvecklade (och utvecklar kontinuerligt) ej riktat just för bild utan bredare ett litet system (cirka 4 MB relationer radvis enligt citatet jfr närmare numera 1 GB för Blue light).

Notera för tool först relationer till konkreta verktyg - sådana vi oftare har i troligare foton vi gör:


tool VISUAL_LIGHT DRILL
tool VISUAL_LIGHT HAMMER
tool VISUAL_LIGHT WRENCH

Beskivande en abstrakt grupp av som här verktyg avgränsande vad som avses. Oavsett bredare analysvärde är grupper av besläktade föremål ett tämligen vanligt motiv (inte minst in instruktiva datakällor):


tool VISUAL_LIGHT POWER TOOL

Vidare vad som fortgår när verktygets intensitet realiseras:


tool VISUAL_LIGHT WOODWORKING
carpentry VISUAL_LIGHT TOOL
tool VISUAL_LIGHT MILLING
tool VISUAL_LIGHT MACHINING

Såväl föremål vi tillämpar verktyget på (och för ex. nedan kan det generellt lika gärna avse verktyg):


tool VISUAL_LIGHT MACHINE

Eller föremål som kan förekomma tillsammans med verktygen. En ledtråd om att ett dolt verktyg kan finnas även om vi inte konkret ser det direkt i bilden.


toolbox VISUAL_LIGHT TOOL

Bakgrund eller geografisk plats- i typ eller konkret position som en stad där de fotograferats:


tool VISUAL_LIGHT FARM

Och koncept uttryckande såväl konkreta egenskape hos föremål eller bakgrund vi ser i bild eller (och inte sällan med samma ord) mer abstrakta eller emotionella egenskaper. Båda kan ex. indikera utmaning i vad som sker (hårt arbete att hamra på den hårda stenen).


tool VISUAL_LIGHT IRON
tool VISUAL_LIGHT STEEL

Några exempel på visuella relationer till implement:


implement VISUAL_LIGHT EQUIPMENT
implement VISUAL_LIGHT MACHINE
implement VISUAL_LIGHT MACHINERY
implement VISUAL_LIGHT TOOL

Vad som saknas är entiteten som gör något med verktyget vilket är ganska vanligt bland bilder. Det är dock en form av relation ej särskilt praktisk att försöka ta fram på det sätt VISUELL_LIGHT skapades. Mindre normalt (i min erfarenhet där) är enkla generiska typer (hustru, hantverkare eller dyligt) tillräckligt vanligt för att ge associations-tyngd jämförbar med relatione till koncept av andra typer (d.v.s. fodrande viss common sense resonerande vid analysen vilket jag ej tyckte värt besväret för och heller vid tillfället när algoritm skapades för hade något tillräckligt potent för: de är heller inte självklart generellt trovädiga hä beroende på datakälla ex. om det gäller nyheter med bilder kan de fungera bra medan om vi endast analyserar bilder taggade på sociala media eller med tämligen kort-text på bloggar är det inte alltid att vi kan avgöra vad koncepten konkretiserat avser för att separera vilket gör det vådligare att försöka särbehandla en grupp av relationer vi kräver mindre statistisk samförekomst för).

BLUE_RELATION också ett mini-system för ett riktat område (jag ej längre använder eller utvecklar - dess syfte var snarast att försöka skapa något annat med det resp. testa ut en form av datakälla till relationer där det nu är ersatt med något större och för att resonera i språktolkning bättre - men fortfarande intressant upplever jag när jag tittar på relationer förhand och vill få några exempel). Nedan har vi några oväntade exempel på vad BLUE_RELATIONER menar är relaterade till verktyg:


hiv prevention BLUE_RELATION TOOL
hiv vaccine BLUE_RELATION TOOL
management tools BLUE_RELATION TOOL
poker calculator BLUE_RELATION TOOL
table saw BLUE_RELATION TOOL
technology tools BLUE_RELATION TOOL

Relationstypen nedan förstår man bäst om man läste referensen till Cognitive grammar. Förmåga att förstå vad vi har för typ av språkligkonstruktion till vänster och högre är ansvar för den som utnyttjar relationerna. Det är endast ett försök att uttrycka ledtrådar om att vad som uttrycks kan ha med verktyg att göra. Relationssystemet var ett tillfälligt ej längre använt och togs fram av flera externa common sense system där jag tror att samtliga vi ser nedan tänkbart kommer från Never Ending Language (NELL) (diskuterad i Nyhetsanalys: Sunt förnuft när det gäller bildanalysen) men där all information och vetskap i övrigt Never ending language klarat att etablera kastats bort (det var endast ex. på verktygs-relaterade koncept oavsett aktör, föremål o.s.v. som intresserade mig). Oavsett profession i relationen indikerar det ej att just vad uttryckt där behöver vara ett konkretiserat yrke - snarare att en roll agerande agentativt med verktyg i en situation kan indikeras av ledtrådarna mot verktygs-frame indikation (ej en genomtänkt benämning).


assistant FRAME_SUPPORT__PROFESSION_USE_TOOL tools
benefits FRAME_SUPPORT__PROFESSION_USE_TOOL tools
careers FRAME_SUPPORT__PROFESSION_USE_TOOL tools
carpenters FRAME_SUPPORT__PROFESSION_USE_TOOL tools
communications FRAME_SUPPORT__PROFESSION_USE_TOOL tools
dentist FRAME_SUPPORT__PROFESSION_USE_TOOL tools
designer FRAME_SUPPORT__PROFESSION_USE_TOOL tools
distribution FRAME_SUPPORT__PROFESSION_USE_TOOL products