HANS HUSMAN OM MEDIA

NoSQL med Rebel-AS: Berkeley DB prestanda optimerat i två kraftfullt enkla steg

2014-04-30

Sammanfattat: 1. För-sortera (design pattern sort) stora chunk och 2. Stoppa in. Men glöm inte att stoppa in det sista datat.

Tidigare har jag haft stora problem Berkeley DB i att skapande av databaserna vid resp. 80 MB mängd databas gjord kom en stor tidskostnad. Längre ut kunde det i princip gå hur länge som helst. Av den orsaken hade jag tänkt ersätta det med något färdigt mer paketerat inkluderande mer av färdiga funktioner för dimensioner m.m. Men standardprodukter kommer ju med viss kostnad inlärning, legacy och för ex. MongoDB jag lutade åt att jag ogärna just nu vill installera om utvecklings-server från 32-bitar Ubuntu till 64-bitar (med 32-bitar är MongoDB ej meningsfull relativt vanliga hash-tabeller inlästa från fil därför att datat är väldigt litet).

Varför brytpunkt ligger där vet jag inte. Ev. är det just relaterat 32-bitars adressering i OS (jag har fått för mig att både den Berkeley DB jag använder, MongoDB m.m. alla normalt ej gör något mer underliggande eller långt ner i OS nära disk eller adressering utan använder ett färdigt anrop för stora filer att adressera likt minne i Linux). Det stämmer i alla fall ungefär i magnitud:

2³² (82 * 1024 * 1024) ~ 49.951

Men har alltid prövat det på samma filsystem (ej prövat det på mitt Ext3 - eller om det är Ext4 - jag prövar eller formaterat för att pröva i alla fall som tänkbart just för disk där NoSQL databaserna ska ligga längre fram: givet bl.a. ingen checksum m.m. passande för databaser där ej tänkt att ändras kontinuerligt och i behov av god prestanda relativt begränsad hårdvara - osäker om det gör praktiskt kommer göra märkbar skillnad eftersom jag egentligen aldrig varit i närheten av storleks-magnitud totalt data som kommer behöva hämtas kontinuerligt men anar att det kanske gör skillnad).

I Rebel-AS jag döpte en fortsatt egen legacy NoSQL jag byggt ovanpå just Berkeley DB har jag samma fördröjning som funktion av cirka 80 MB nedsläppt. Men nu mycket snabbt skapande av databasen. Ett natal GB med inlägg från bloggar och sociala media för fortsatt analys handlar om ett fåtal timmar eller kortare tid (satt ej och tog tid på det framför datorn).

Berkeley DB snabbt: Sätt dig ner och sortera nycklarna åt datan (likt programmera: människa gör det kostsamma - datan gör egentligen föga)

Och hela skillnaden i prestanda ligger i vad jag trots av och till utdragna - säg fyra timmar totalt - försök att hitta en förklaring och lösning ej hittade alls. Förutom mer av slump slutligen i en kort kommentar till en fråga svår-hittad både nu och tidigare (möjlig utgångspunkt: Berkeley DB Slow via sajt-sökning med Google).

I övrigt läsande på Stack overflow fick jag ut föga värde. De flesta verkar heller inte göra särskilt stora databaser. Exakt vad orsaken är eller varför det ev. är god vana vet jag inte. Databaser har aldrig särskilt intresserat mig och ingenting jag direkt önskar att lära något mer än nödvändigt om. Jag hade snarare föreställt mig att det logiska vore att om distans eller skillnad mellan nycklar som går in pre-expanderar man motsvarande fil mycket mer för att slippa flytta om datat senare alt. slippa hantera kollisioner via redundant för träffar nycklar eller pekare vidare till annan position.

Hans reflekterar vad han redan lärt och slutade lära cirka 2003 rörande databaser och tyckte sig inse att det räckte bra nog ändå: Datan gör ungefär samma fel varje år även om skärmen blivit skarpare och hårddisken större

Det är när jag spekulerar kreativt utåt bra att komma ihåg att min vetskap databaser snarare än hash-funktioner, kataloger (typ Open LDAP) eller för evigheter sedan fil-databaser via radnummer respektive:

LIST RANDNUMMER

på Commodore 64 någon gång i årskurs fyra när datorernas sanna små-defekta natur inte doldes lika smygande riskfyllt som idag: Ex. databas genom att lista "programkod" - lika gärna text eller annat data så länge man inte kör koden som BASIC II. Istället listade man programmet - eller en del av programmet där datat fanns men som ej kördes just för dom raderna. Ex. LIST 3210 - 40000. LIST liknar hemvant trevliga goto men var sundare strukturerat genom att utnyttja entydiga nummer istället för dom kvalitetsprobglematiska labels vi säkert alla gärna förfaller till likt abc, donxt, do_next en bit nedanför med svårbegriplig beräkning mellan förändrande värde, odd_erorr, debug_but_do_not_remove_it m.m.) syntax för att ta ut en datapost från dess början på rad enligt första numret till dess slut på den andra siffran - plus så klart för stora databaser behov av att ladda in grupper av poster från olika delar på kassetband utiliserande s.k. "spolning" / "att spola fram eller bak bandet§" - eller rent av krävande många kassetband) är så begränsad men dessa tre tillsammans gav mig en känsla av att jag sådant som Berkeley DB borde vara begripligt för mig. LIST är heller inte olikt hur många idag gör lookup från indikation vi vill fråga med (ex. URL eller sökord) till radnummer i enorm fil där själva datat för sökord eller URL ligger lagrat (och så klart snabbare i absolut-mening idag jämfört med C64 men inte mycket högre relativ prestanda).

Stora nycklar en aning mer kostnad ibland för-sortera men ev. högre prestanda skapande databas

Något besläktat - kanske relaterat implementation på vad - ges här också StackOverflow: BerkeleyDB - implications of incorrect sorting order? (via cache-Google: ibland når jag ej StackOverflow vilket jag trodde berodde på att jag råkat spindla deras kategorier hårdare än korrekt programmerat för statitistiskt analys av inlägg men ganska ofta fungerar den så ev. relaterat någon defekt på Stackoverflow kanske relaterat last så jag länkar indirekt istället och tror ej det tolkas av spindlande entiteter som problem prestanda eller tillförlitlighet med sajt länkad). Om det egentligen stämmer som skrivet ofta eller alls vet jag inte.

Vad jag märkt är emellertid att ingen kostnad för mig existerar av att använda större nycklear (undantaget ev. ökad risk för kollisioner och hantering av det: men jag vågar gissa att vettig hash-funktion används och om så troligt föga problem). Och längre nycklar om en mappning mellan nyckel och position (snarare än jag hade föreställt mig motsvarande MD5 - jag vill gissa att föregripande lookup-up till värden från nyckel finns och att hasching kanske ej görs till en redundans-reducerad form som för MD5) finns motsvarande "komplexiteten summerad" nyckel innebär det ju mer exakt vetskap om relativ positionering. D.v.s. kommer fler entiteter gå in och vi tar in dem i chunk vettigt urtagna innan sorterade föreställer jag mig att det kanske tvingar upp lite vettigare initial hantering föreberedande för att mycket kommer in. Jämför att sortera:

Eller motsvarande mina nycklar datum och tid publicering, länk indikerad övergripande RSS eller ATOM "sajt", domän uttagen över inläggen för resp. länk till inlägg (d.v.s. kan vara annan än sajt), titel på sajt indikerad, titel inlägg, resp. hela sökväg feed där data hämtades (ej exakt i samma ordning mot mitten ev. samt inkluderande en till indikation om källa i URL-mening). Poängen längd ligger i att gå över alla nycklar utan hänsyn dimensioner för annan lookup för enklare förändringar, kontroller m.m. där allt nödvändigt för mycket finns direkt för varje nyckel (ex. för en del underhåll kontrollera om ett datum finns eller ex. som nyligen defekt-data ej önskat som läckte in: <![ eller liknande ibland förekommande i RSS-strömmar ev. för "sekundärt" data-relaterat innehåll (just här för sajt-länken för ganska många vilket missades vid skapandet).

I en värld där resp. två nycklar för de två grupperna egentligen motsvarar samma nycklar men där de första kommer ge fler kollisioner tvingande fram att append görs för resp. om plats finns, och när plats lokalt i filen där lagring redan skett saknas tvinga fram en pekare till nytt data allokerat på disken eller värre (ej kanske otroligt givet prestanda kostnaden jag fick tidigare) att data flyttas om ständigt görande att en ny växande jätte-fil behöver lagras gång på gång för varje 80 MB med exponentiellt växande tid för det eftersom komplexiteten att göra det ökar när resp. omflyttning kan inverka på nästa omflyttning. Om nu den Berkeley DB implementation jag fick via Perl (eller om den ligger ovanpå något i Linux) är riktigt dum kodad (elegansen i Berkeley DB är ju att det är enklaste tänkbara så mycket möjligt förväntas förståelse och ansvar hantering liggan ovanpå).

Tänkbart faktiskt en tids-kulturell-atavistisk företeelse. Berkeley DB har ju funnits så pass länge att problemen och utmaningarna när etablerad var mycket annorlunda: RAM-minne relativt litet (men kanske problem-baserat jämförbart) men förr var hårddiskar som nu inte mer eller mindre kostnadsfria om man inte behöver lägga på mer än några tera byte. Ev. lite default optimerad för att ej börja med att skapa en rimligt tilltagen fil (kanske konfigurerbart men jag såg det ej via Perl gränssnitt i DB FILE och utan att kontrollera konfigurations-loggar vet jag ej om jag installerade på något kompletterande).

Appendix A: Design pattern sortera nycklar i två enkla steg

Pre Berkeley DB power sorting:

Ta ut nycklar från mellan-lagring i Perl's vanliga hash-tabell. Exempel:

my @keys = keys %ldb

Sortera nycklarna. Exempel:

@keys = sort @keys;

Och stoppa in i Berkeley DB via lämpligt för det. Glöm inte att synkronisera mellan-lagrat data i sista steget. Vi antar att vi stoppar när överskridande viss storlek med målsättning att söka göra det med så stora chunk i taget som möjligt för att inte Berkeley DB ska allokera onödigt små-utrymmen i varje steg givet att om inte allt data redan är sorterat gäller att en del omflyttningar eller vad Berkeley DB nu gör behöva ske. För mig cirka 900 000 blogginlägg med RSS-meta översatt till trevlig CSV-fil (som vi i en rimlig värld hade haft direkt på webbsidan istället för SGML-rekursionens onödiga komplexitet praktiskt oavsett hur elegant språkteoretiskt). EFtersom blogginlägg kan komma från entiteter vid en tidpunkt efterföljande vad vi stoppar in idag okänd gäller att inlägg vi ska stoppa in ofta nog i perioder när tidskostnaden kan ha betydelse (d.v.s. spindlande ifatt internet där jag just nu ett tag expanderar antalet entiteter publicerande med cirka 50 000 till 100 000 per 24 - 36 timmar men räknar med att stoppa det om en eller ett par veckor) vara äldre och ej följande logisk ordning i övrigt samtidigt som jag tyckte det mindre tilltalande att försöka lägga till en bokstavsräknare initialt eftersom jag gärna vill kunna ta ut alla nycklar optimerat i meningsfull ordning att se ungefär var saker befinner sig i tiden vid underhåll o.s.v. via snabbtitt skärm.

Betryggande nog när vi står kvar på en robust gammal välkänd komonent är den välanvänd av andra gamla lösningar man känner igenom sedan snart 20 år. Ett fåtal från Wikipedias längre lista:

"MySQL database system – Prior to v5.1, MySQL included a BDB data storage backend.
OpenLDAP – A free/open source implementation of the Lightweight Directory Access Protocol (LDAP)
Postfix – A fast, secure, easy-to-administer MTA for Linux/Unix systems"

Även om det får erkännas att min lilla praktiska erfarenhet av MySQL och Postfix var en brutalt plågsamt fascinerande verklighet: Så slött saker kan bli med eller utan på det Apache resp. karttjänster ovanför. Men OpenLDAP är ju bra även om det var ett antal år sedan jag gjorde något med den. Och menar - det kan kanske diskuteras - Wikipedia dessutom något färskare news-fresh:

"Bitcoin - A distributed peer-to-peer open source digital currency."

Fortfarande lite små-coolt att skapa stabila stengolv med Berkeley DB hellre än något vulgärt IKEA-färdigt golv som limmas eller nitas. Riktiga värden som håller många år byggs med stenhacka och förståelse av problemen man vill lösa med att bygga golv.

Tidigare från samma domän av stegvis kreativt skapande för undvikka samma välkända strunt-problem i datan nu som på 1980-talet

Som Rebel-AS levererar sin lösning till:

1. Steg I: Behovet av praktisk big-data utan mina enkla ganska brutala ta in och ut ur minnet läsande data uppdelat i mindre filer resp. den gamla Berkeley DB lösningen där ingen databas praktiskt gick att ta större än 80 MB (d.v.s. samma problem praktiskt ungefär: många fil-accesser, opraktiskt att strukturera, och ordentligt med extra-logik i koden). Men eftersom vi är i domän av databaser blir det ändå segt eftersom jag varken kan eller vill lära mig teorin för dem. Varande så inarbetat sedan år borde det tycker man bara fungera.... Likt hash-funktionen i Perl.

NoSQL och Sun's och övriga hårdvaru-inriktades problem att orka med dom teoretiska utmaningarna vi alla behövt sedan år (2013-09-02)

Plattform jag reflekterade som tänkbar lösning: Mongodb.org. Huvudsakligen därför att den av flera indikerades snabb och endast i föga läsande dokumentationen verkade ha "överdrivna databas" relaterade funktioner: enkel och begriplig närmare hash-funktioner jag ju redan tycker mig kunna. Mindre risk onyttig inlärning. Och startade smidigt dessutom. Men hade fodrat ny installation Ubuntu om praktiskt funktionell vilket just nu ett tag är opraktiskt på utvecklingsservern.

Och diverse små-tester, läsande m.m. resulterar slutligen i att jag väljer samma teknik-plattform som tidigare förutom att skärande cash-logiken för parallell också utan Berkeley DB (användes uteslutande för similarity beräkningar mellan koncept där cirka 900 MB - 2 GB förberäknade värden fanns mellan koncept vars similarity oftare var efterfrågade eller förväntades vara det: dessa tar annars upp till för värsta tänkbara om gjord med hög exakthet närmare 20 minuter - och för aktuell version Blue light gällande i denna lösning fanns cirka om jag minns rätt 10 miljoner relationer bedömda troliga över cirka 140 000 existerande koncept jämfört med nu några miljoner koncept och ett okänt antal relationer troliga att återkommande behöva ta ut likhet m.fl. operationer applicerade för inkl. nu att fler resp. större andelar av vikter använda ska beräknas kontinuerligt uppdaterade vilket expanderar upp data tvingat via cash än mer så att det kan göras u bulk ett par gånger pe rdag - hence att databas-problem blev löst trots databas-fobi).

Mycket typisk mänsklig problemlösning i den ena av två grova grupper kreativitet vi kan se. Här stegvis-förändring sökande behålla värde vi har (eller ofta nog slippa lära något nytt). Äldre mer erfarna kan prestera väl i företagsutveckling i denna domän. Vanligt i antal nya företag ovanför detta är konsultverksamhet byggande på upparbetad vetskap om en form av problemlösning eller förståelse av en verksamhet. Den andra domänen är innovation i emergence skapande något radikalt nytt.

Säger vi att emergence är kontextuellt beroende utifrån ett perspektiv - här jag om tvingad att behöva lära något externt system nytt för mig resp. behöva plåga mig med att sätta upp nya version Ubuntu och ett ganska komplext legacy-system liggande ovanpå: ny kunskap, nya komponenter adderade och inte otroligt nya värden svåra att förstå från Berkeley DB perspektivet - har vi ex. när en metod från ett annat expertområde inses optimera i ett annat eller när en upplevt ny upptäckt kommer (för vilka ofta gäller att olika individer oberoende i vad ytligt uppenbart gör samma upptäckt ungefär samtidigt i tiden d.v.s. latenta faktorer existerar). Tidigare diskuterat många gånger även nyligen i år Emergence relationer - Emergence demokrati (2014-04-21). Innovation via emergence är ibland oftare lättare för yngre: de kan ju föga från början och har inte lärt sig hur det ska gå till att hämta upp data lagret (kanske inte ens hört talas om X.500, LDAP eller MD5).

Lite som att redan förstå varför allt i datat alltid ställer till med små-problem och hur vi ungefär löser det. Relativt att söka en ny givet viss tid mellan inlärt problemen och nutid möjligt bättre lösning kanske genom att elt undvika problemen.

Minimalistiskt sido-algoritm-skiss beräknande läsare nyhetsmedier (2014-04-30)
Minimalistiskt sido-algoritm-skiss beräknande läsare nyhetsmedier II: Algoritm omvandlande tidskostnad referera nyhet till förtroende publicist (2014-04-30)

Att välja mellan kontext och känsla vid betraktande av "minnen" (2014-04-20)

Minimalistiskt sido-algoritm-skiss beräknande läsare nyhetsmedier II: Algoritm omvandlande tidskostnad referera nyhet till förtroende publicist

Eftersom jag behövde strukturera tankar lite till fortsatt Minimalistiskt sido-algoritm-skiss beräknande läsare nyhetsmedier (2014-04-30) och ej algoritm eller område jag bedömer centralt för mig (en liten nödvändighet bäst hanterad enklast möjliga). Givet att jag valde att utnyttja relationer via äldre men inarbetat etablerad och snabb för analys länkar kan den troligt intressera en del.

Eftersom jag för ett antal i ev internets subkulturer förnöjelse (strävar och hoppas jag liksom alltid: läsaren är vår ledstjärna) pekade på motsvarighet i klassiska SEO-koncept rörande association koncept till domän relativt undersida resp. väg dit från donerande noder med text och länkar i föregående avslutade jag skissen med att göra det samma (och en av de föregripande faktorer jag tog hänsyn till för att förebygga problem från när de av och till görs lite väl stort). Jag citerar ut det direkt här men ligger i övrigt:

1. [Läsarens egen] skriven text [där denne länkar].

1.1. "Medelvärde" (i bäst fungerande variant fortfarande snabb) funktion av BLI, PA och textens längd. Högt värde är HÖGRE ***kostnad tid***. Komiskt kan vi föreställa oss Obama görande tidskostnad att leta upp lämpligt udda law domain termer ingen hederlig datorarbetare hört talas om (och lika otroligt för dessa en typiskt medborgare).

2. Indikerat "läst" ej news provider.

2.1. "Medelvärde" (i bäst fungerande variant fortfarande snabb) funktion av BLI, PA och textens längd. Högt värde är MINDRE ***kostnad tid***.

2.2. Praktiskt måste dessa tror starkt för god prestanda skattas från lämpligt medelvärde öve säg news providers istället.

3. Hantering ett par förekomster som kan störa:

X.1.1. Jämför "godtycklig" social eller "easy trade" länkning. Görs ofta nog snabbt d.v.s. tar ej tid från att läsa nyhet.

X.1.2. Jämför advancerad easy trade med anpassad given text kanske unik. Här ligger oftare komplexitet högre d.v.s. tar tid från övrigt reducerande ev. störning av säg news providers länkade riktat eller för taggign / länk-kontext.

Vidare för att ge ett exempel motsvarande vad som noterades särskilt relaterat SEO föregående motsvarar mitt gamla koncept (från säg 2006) om ambassader i sociala media eller vilka som helst samhällen på nätet bundna till en nod vi enkelt kan särskilja (d.v.s. typiskt minst ett domännamn och ibland pået mindre grupper). Vi kan ex. se hur Vitahuset (kanske också för rättvisa mot olika ofta amerikanska företag) lokaliserar sig i ganska många motsvarigheter samhällen. Motsvarande företag p.s.s. ger det möjlighet att möta samhället där de oftast här och ofta nog viktigare praktiskt finns relaterat innehåll när samhället söker det lokalt eller reagerar och uttrycker om företaget, organisation o.s.v. En inarbetad väg att tala lokalt vid behöv. Skillnaden relevant här som ex. finns där mellan default-publiceringen t.ex. samma filmklipp på resp. video-social-media-sajt (Youtube, Vimeo och jämförbart) resp. när reaktionen är riktad eller en meningsfull reaktion lokalt. Och för default-publicering om denna är direkt associerad till samma entitet eller uttrycks för ett antal olika entiteter där det senare kan indikera bl.a. "spam", behov av anonym publicering andra orsaker, eller något viralt.

Jag engagerade mig inte i att korrekturläsa det. Ingenting jag vanligen spar utan uttrycker i kod resp. samhörande kod när det prövas ut. Mer av en tankeprocess samt för att reducera risk att göra kod initialt "lite för bra" med något onödigt i tidskostnad utan att leverera värde i domän intressant övergripande. BLI avser Blue light intensity. PA avser sannolik for ett koncept (av totalt några miljoner ngram som erkänns existera) och här ev. snarast först uttryckt till vad jag brukar kalla WP vilket "förvandlat" sannolikhet för ett tänkt kontext-löst värde till en vikt man kan räkna med efter behovet i algoritm (här vill vi förslagsvis antagligen kunna summera sannolikheter för koncept i en text vilket för PA inte har någon egentlig vettig betydelse i sannolikslära: ett logiskt alt. till WP eller anvnt WP är entropi men applikationer nära nog just som tänkt nedan brukar det prestera sämre än en del andra lika enkla alternativ).

3. För resp. diskret tidsfönster - förslagsvis tillsvidare ett datum utan
överdriven hänsyn tidszoner (finns i news id) - fördelar vi skattning tid
utifrån den explicita snabba relations indikator utvald här:

3.1. Indikation mot en större grupp ej självklart förstådda sajter men saknade
snabbt kontrollerade parametrar överrensstämmande med övriga: Antags vara
shopping. Shopping kommer med en tidskostnad vi skattar från en filosofisk idé
om att de läser (eller lyssnar på någon d.v.s. social time cost). Eftersom
jag för första version big slow change stat. valde att ej göra mining på
Amazon review eller liknande känns rimligt givet inexaktheten hur som helst
samt [Små censurerad för läsarens bästa.].

:::: Negativt verkande tid kvarstående att läsa new entity.

3.2. Blogg-länkning, tweets m.m. antas socialt. För kors-blogglänkning ändras
det kanske senare men just nu ska de ju ändå inte hanteras gissar jag (beroende
på om det känns att skapa upp det i Rebel-AS.

:::: +/-. Social aktivitet. Vi ser gillande på att läsare som fokuserar
på sin core function men bestraffar inte sådant vi vet ej påverkar
kostnad läsande en tidning tryckt eller på webben. Ofta nog har de ju
trots allt inte annat än vid diskret tidpunkt eller några läst utan
varit sociala (eller gjort trade i andra dimensioner).

3.3. Wikipedia eller jämförbart. Kan vara "tagging" i vilket fall det förekommer
med news provider. Annars är det en tidskostnad. Allt länkat uppvisande trivial
form text samt refererar något publicerat vi saknar stämplat själv uppfyller
detta.

:::: Stör läsarens core-business. Negativt verkande tid att läsa
news entities. Kostnad tycker jag känns rimligt att beräkna med samma
funktion som för news entity tillsvidare.

3.4. News entity för gammal. Räknas tagging. Ingen tidspåverkan.

3.5. News entity i fönster. Tidskostnad enligt enkel funktion.

3.6. Läsande sig själv. Tidskostnad enligt samma funktion.

4. Enkel funktion tidskostnad.

4.1. Läsaren börjar för varje diskret tidpunkt med tillgänglig tid 1 HH-TIME.
Allas HH-TIME är olika men för en population är det endast mycket långsamt
föränderlig. Troligt 3D normalfördelad vilket vi hanterar indirekt.

4.2. Tidskostnad beräknas från komplexitet för aktuell text given.

4.2.1. Kostnaden faller enligt en exponentiellt avtagande funktion utifrån
mängd för parametrar indikerande kostnad som summerade för hela texten. Ex.
tänkbart.

1 komplexitet
1 kostnad

2 komplexitet
1.5 kostnad

3 komplexitet
1.75 kostnad

4 komplexitet
1.något en kvinna eller färgad med moraliskt
ansvar att hantera matematik negativa stereotyper
borde huvudräkna åt mig men vi avstår från som
primärt ett politiskt ställningstagande och
sekundär av mindre [Uppenbara] orsaker [Roar föregående läsaen: här
eg. att jag är föga bra på att huvudräkna och varande man ej behöver känna motivation att motbevisa
det för att reducera påverkan av negativa stereotyper rörande
kvinnor och matematik.]

4.2.2 Kostnadsparametrar kan man tänka sig tas med något läsbarhetsindex men
jag tror mer på att göra något själv som jag är van att se på text.

4.2.2.1. Vi önskar ej utnyttja DO och DESCRIBE över text. Kostar beräkning.

4.2.2.2 Längre text tar längre tid att läsa. Men köper vi bok och ska välja
läser vi inte hela boken i bokhandeln. Så vi bottnar ut ungefär i tidskostnad
med en typisk Reuters nyhet d.v.s. ungefär som baksida på en seriös bok.

4.2.2.3. Låg BLI bör i dessa sammanhang oftare vara dyrare. Det stämmer mindre
i allt vi ser som DESCRIBE sannolikt med cue-aktivering. Samma resonemang går
att ta för PA såväl också inarbetat jfr utnyttjande thesaurus och def. ordlistor
för de enklast sim sakerna folk gjort längre bak när data var mer färskt kring
sådant i datamedier (men ej hos mig med något enstaka undantag för småsak kanske) n i ngram.
Men skummar man tror jag nog det sista ej är avgörande och ovant för mig struntar
vi i det. D.v.s. ju större som funktion av BLI och PA över text desto mer tid
investerade läsaren (i en annan värld än den annat än ett få tag likt jag bor
i) eller alt. egentligen läst väldigt lite av den (för vår stereotypiska
läsare).

4.2.2.4 Ju mer "emotionell potential" desto troligare p.s.s. som ovan men för
resp. riktning omvänt. Eftersom konvergerad DESCRIBE -> DO transformation av
den samma ej är gjord bra (för få nyheter i förra krävande massor om meningsfullt
över då bara cirka 140 000 BL-koncept) struntar vi i denna. Alt gör projektion
nu ev. dumt till 1gram.

4.3, I Sammanfattning enklast tänkbara start variant:

*) Total mängd BLI för DESCRIBE.

*) Total mängd PA för DESCRIBE.

*) Ev. med därefter hantering rörande länk på text. Det är eg. onödigt
förutom att vid optimerad hantering vill vi kanske få viss naturlig
filtrering här mer att göra med att vi ej överanalyserar säg struktur.

*) Korrigering. Vi är tror jag ev. tvingande att hantera storlek:

- Givet. För riktiga nyheter snarare än bestraffning skillnad
vad som exporteras av DESCRIBE via optimerad kanal hämtande.

Det tycks vettigt att hantera det enligt välkända funktionen för det
från inverse-tf funktionerna. Den enklaste mest välkända har jag mycket
god erfarenhet av. Den fungerar bra just för denna skillnad (d.v.s.
man accepterar att man väljer att ej dra nytta av större DESCRIBE vilket
är rimligt här).

4.4. PROBLEMET KVAR:

4.4.1. Föregående fungerar perfekt för vad vi accepterar som godtagbara nyheter donerande
kraft till dem. Men vill jag egentligen sitta och spindla ner hela webben
för varje länk-referens? Nja. Istället tillsvidare - och sunt för att förebygga
atavist-risk - tar vi säg medelvärdet av 4.3. (undantaget läsa eget skrivet
som vi ju har).

4.4.2. Fördelning mellan indikerat i samma enhet analyserad. Jfr resonemang
föregående rörande enklast initiala form (som jag tror kan räcka också fortsatt
länke) för att reducera risk för atavistiska strukturer störande prestanda
eller introducera udda fel betraktar vi om det tycks praktiskt funktionellt
varje tidsfönster som en samlat enhet. Ev. går detta sämre eftersom det kan
vara brutalt snabbare att bara gå över alla newsid's direkt i Rebel-AS föregripande
eller görande tillstånd onödig alt. sparande extra referens till resp. sådan.
Jag tror ev. kostnad tillstånd är olämplig att försöka komma ifrån. Ev.
news-headline-app eller dyligt kan annars göra saker tämligen underliga om de
råkar tas upp i ström underligt.

4.4.3 Fördelning mellan resp. referens indikerande för oss att de menar sig
ha läst något är icke-trivial. Emellertid gäller:

4.4.4. Känd content-summary pressmeddelanden och news-fire ger oss initial
mening i Describe resp. första andra stycket. Delvis kulturellt skapande av
dessa tror jag. Resp. för närminne rörande list-innehåll har motsvarande
d.v.s. boost-tidigt samt dessutom boost det sista d.v.s. motsvarande redaktionellt
knorr. Korrekt spekulerar jag bör tidigt och ev. sista värderas högre. Praktiskt
tillsvidare värderas första till news-provider och övriga i samma betraktas
endast som tagging (d.v.s. ej kostnad de senare: läsaren antas endast läst
det första och sedan Wikipedia länkat lite p.g.a. ex. en tro att de flesta
i övrigt inte helt lärt sig att slå upp i Wikipedia eller liknande lika snabbt
som att följa länkar ofta bara med ankartext utan indikation var man hamnar
eller alt. sorterande för egen del eller hjälpa tredje-generationens sökmotorer
vi har förfallit ner till tagande värde där länk-struktur troligt räcker
excellent sparande beräkningstid analys implicita relationer eller än värre
göra NLP på det hela m.m.

5. Step by step.

1. Egen skriven text.

1.1. "Medelvärde" (i bäst fungerande variant fortfarande snabb) funktion av
BLI, PA och textens längd. Högt värde är HÖGRE ***kostnad tid***. Komiskt
kan vi föreställa oss Obama görande tidskostnad att leta upp lämpligt udda
law domain termer ingen hederlig datorarbetare hört talas om (och lika otroligt
för dessa en typiskt medborgare).

2. Indikerat "läst" ej news provider.

2.1. "Medelvärde" (i bäst fungerande variant fortfarande snabb) funktion av
BLI, PA och textens längd. Högt värde är MINDRE ***kostnad tid***.

2.2. Praktiskt måste dessa tror starkt för god prestanda skattas från lämpligt
medelvärde öve säg news providers istället.

3. Hantering ett par förekomster som kan störa:

X.1.1. Jämför "godtycklig" social eller "easy trade" länkning. Görs
ofta nog snabbt d.v.s. tar ej tid från att läsa nyhet.

X.1.2. Jämför advancerad easy trade med anpassad given text kanske unik. Här
ligger oftare komplexitet högre d.v.s. tar tid från övrigt reducerande ev.
störning av säg news providers länkade riktat eller för taggign / länk-kontext.

4. En till störning i co-locomotion - om vi för de plattformar avsedda i första
hand denna mining har motsvarande Twitter volation med plötsliga stötar - är
ej i hantering indikerat föregående. Men samma avtagande expoentiell form är
att förvänta men där vi nu betraktar distans från normalt tillstånd. I en
artikel tyckte jag mig uppleva att de fick motsvarande en exponent 3/2 men
läste ej nog för att se direkt motsvarighet. Praktiskt från vad jag minns av
news events är emellertid tids-längden inverkande såväl som mängden news providers
deltagande i event. Optimerad förenklad sannolikt överskådlig tid sannolikt är
att istället sätta hantering i den temporala dimensionen för diskreta tidsfönster
d.v.s. effekt vid en punkt avtar övertiden och ska helst avta mer när avvikande
innebärande att för etablerat förändrlig vikt kan varje inverkan på vikten
tror jag - och kan ha algoritmer för det i besläktade områden - beräknas direkt
från avståndet värde snarare än det faktiska värdet gående igenom reduktion
exponentiellt.

Sista April Uppsala: Flykt disk, eldsläckare, eldstålets gnista, pistolen och den tibetanska sensmoralen

1. Tools of the Trade: När elden kommer

Brandsläckare kommer raket träffar i närheten av datalager men ogärna om brinnande nära (pulver- och vatten-släckare är nog lika problematiska). En del år tycks det beskjutas. Möjligen något religiöst extremistiskt och tänkbart kristet och varande gender-politiskt i svenskt tradition efter reflekterande efterföljande forskning som indikerade att viss tro kan vara bra pagan tillbedjande gudinnan har jag väpnat upp mig.

Mer avskräckande snarare än nödlösning är det även förberett med eldstålet. Eldar man upp mina hårddiskar kanske jag kommer över och slår gnistor på fiendens hårddisk. Vidare viss mängd vatten om det går fel mer tillbaka riktat.

Kultur-atavistiskt såväl som mer eld-relaterat hade så klart ett spjut gjort hårt med eld. Samtidigt behöver man bibehålla viss realism och tänka praktiskt såväl som att ej onödigt divergera mellan det i information elegantare och konkret verklighet (jag vill t.ex. inte ha på ansvar att någon ger sig på att försvara sig vid beskjutning med ett spjut: det är viktigt att minnas att man är föredöme för en försvarlig andel av befolkningen).

2. Korrekt eld-relaterade skämt

I all sanning alltid gällande:

"Jag tog förövrigt inte med först tänkta algoritm nedan. Texten var endast för att tänka så när utgångspunkten tänkt avslutades det. Ev. kan jag av en del upplevt förolämpa läsare som skrivet. Det för de som de berör ska inses för uttryck för en hos dem mycket osäker självbild snarare än något besläktat hos mig. Riktigare ska förstås som en hyllning till läsarens visdom varande alltid min ledstjärna här i livet. "

Från: Minimalistiskt sido-algoritm-skiss beräknande läsare nyhetsmedier (2014-04-30)

Och med läsarens nöje styrande allt här korrekt för högtiden eld-relaterade skämt.

2.1. Anpassat Dalai Lama tänkande: Leende mot fienden.

2.2. Tibetanskt kärnvapen. Alla tillsammans hemma i Tibet.

I någon mening illustrerar resp. skämtteckning problematiken i effekt rörande självmords-eldandet: Det tenderar - lämnande övriga invändning - att ge reducerad effekt när tillämpat minst sagt ofta och regelbundet. Och en personlig verkan av det är att jag inte upplever något problem att göra skämtteckninganra vilket jag inte kan se överhuvudtaget hade varit möjligt 2010 - 2012.

Irlands längtan tillbaka till tryggheten i Storbritannien

Kan vi uppleva från deras hemsida:

Och lika intressant har vi tre från kulturområdets (jag vill inte skriva England eller något associerat men vi har åtminstone det som gemensam nämnare) mycket välkända stycken revolutions-musik.

Ye Jacobites by Name jag fann intressant i den humoristiska varianten. Medan jag tror jag kan ha uppfattat den första som på pro-jabote men ev. fattande den fel (lyriken framförs inte i någon version jag hört spelad för mig i allt riktigt tydligt rörande uttal relativt min motivation utanför själva upplevelsen) Humoristisk version här: Humoristisk anti-separistisk musik-lyrik: Skottland under jakobinernas och the Pretenders tidsålder. Inte helt olikt Irland upplever jag här viss ambivalens upplevande en ytlig preferens både för jakobinerna och England men mindre vetande just om Skottland.

Från tiden föregripande den Sydafrikanska befrielsen. Även om nu inte Storbritannien bär särskilt ansvar för förtrycket i Sydafrika ligger åtminstone polariseringen föregående någonstans såväl som styrande att lyriken nu är skriven just på engelska.

Annorlunda från resp. variant i har vi så vitt jag vet inte någon pro-engelsk-variant av pro-(vosoriska)-irländska:

Upplevd ambivalens när etablerad sedan evigheter tenderar gärna att kvarstå en evighet till. D.v.s. i konflikter tenderar just det volativt konflikt-uttryckande inte skrämma iväg dom andra utan är oftast mer av att göra vad resp. tycker speglar vad den andra gjort och utan att egentligen någon behöver ha fel i det skapar eller predikterar det lika rätt den upplevda orsaken.

Ett enkelt samband som emellertid inte just gör problemen enklare att lösa genom att de i mycket är mindre "ockuperande" hjärnans mer rationellt tänkande delar med istället kraftiga upplevelser av relativa (ex. ned i en riktigt föranledande försök att göra ner på dom andra) flock-värden (se t.ex. från 2011 Online social network size is reflected in human brain structure, Proceedings B of the Royal Society).

Men även om amygdala är associerad till dessa områden är sådana uttryck i sig ens när de är välutvecklade till direkt imponerande social graf-intelligens inte vad som säger något om reflekterande intelligens utan lika gärna att båda kan vara potenta bedömt från några möten individer presterande väl i båda områdena om än inte i konflikt-doäner och därav att jag ibland kallat det the LF projection efter LF som inte minst hade en vitt-spännande socialt nätverk på "nätet" år innan internet såväl som en ganska imponerande matematisk och liknandeinvolverande räkna som fysisk intelligens - lämnar vi matematik, fysik och BBS:er och återvänder till Nordirland ser vi samma motsvarighet som potentiellt problematiskt på resp. sida givet att analytiskt intelligens tenderar att lätt bli verktygs-betonad fokuserande på vad emotionellt upplevs värde-stort även om det senare i sig är irraationellt - och projektion från att uttryck i känslor tenderar att vid förändring tillstånd reducera information till en samlat upplevd "vikt" utan kvarstående detaljer).

Minimalistiskt sido-algoritm-skiss beräknande läsare nyhetsmedier

Och kärnan i vad det syftar till är ej predikterande läsare i morgon eller längre fram utan läsare samma dag eller rimligen nära i tiden föregående.

Sista punkten är möjligen upplevt intressantare av en hel del från annorlunda (men besläktade) perspektiv och jag tar ut den direkt. Samt adderar en visuell illustration av vad som ibland är ett besläktat fenomen (men som jag ej vet om det är fallet just med ex. jag råkade träffa på igår). I visualisering tänker vi oss att en konceptuell rymd blivit associerad till själva domänen vilket gör att individuellt data där publicerat tenderar att gynnas åtminstone när domänen i sig är sitt eget rum. Det är när så direkta motsatsen till egenskapen önskat för den typ av samplingspunkter indikerade i punkten. Frågeställningen - det potentiella problemet oavsett visuell illustration eller användning indikerad i punkten - är att associationen avser tjänsten som sådan för domänen medan innehållet ej nödvändigtvis är relaterad denna.

"2.0 Och självklart - färre inte fler - avgränsade habitat läsare för mining är bättre. Medan i övrigt förvisso en del fler krävs men ej stora där det kritiska för dessa endast är att fånga när något uttrycks brett utan rimlig varians över resp. habitat. Hence det mest exklusiva är självklart att själv kontrollera ett habitat om man grundläggande är mycket beroende av denna typ av nod-relations information medan vi här klarar oss jämförbart bra med tillgängliga utan att ex. känna behov av att försöka hitta pengar nog för att köpa Wordpress.com, Blogspot.com eller liknande inte helt olikt vad primärt tänkt här."

[Red. Referensen köpa Wordpress.com ska inte förstås som att det är ett tänkbart alternativ utan mer humor kanske. Jag har flera gånger genom åren försökt övertyga Matt m.fl. jag upplevt associerade redan utan att lyckats. /HH[]

Google.com: Illustration punkt 2.0. Association (tänkbart) mellan domän och sökords-clustren relaterade sökningen påverkande undersida visad och relativt konkurrerande undersidor samma domän resp. andra domäner.

Komplettering: En komisk detalj är att oavsett hur föga läst ett tydligare tråkigare inlägg mest skrivet för egen bearbetning typiskt är gäller att nära nog hur föga indikerat eller undangömd en sido-notering relaterat SEO är i det tenderar det att ge viss mycket enkelt mätbar reaktion under en efterliggande period av upp till cirka en månad. Av det förstår vi att den enklast mest framgångsrika webbaffären enkelt tänkbar är den som ger användaren läsare (jämför ex. med just Google) eller motsvarande internet-värde (ex. editor / skribent status i Wikipedia). Därmed inte sagt att det just är en metod att lära känna någon eller något nytt på internet :-)

Jag tog förövrigt inte med först tänkta algoritm nedan. Texten var endast för att tänka så när utgångspunkten tänkt avslutades det. Ev. kan jag av en del upplevt förolämpa läsare som skrivet. Det för de som de berör ska inses för uttryck för en hos dem mycket osäker självbild snarare än något besläktat hos mig. Riktigare ska förstås som en hyllning till läsarens visdom varande alltid min ledstjärna här i livet.

Vidare föranledande mini-alg.-kompletteringen är att antalet entiteter hanterade i mening att innehåll hanteras in i datalayer expanderar kraftigt vilket gör mappning mot läsare via andra metoder ganska begräsnat (resp. p.s.s. görande approximationen att värdera varje publicist snarare än läsare som ett mindre funktionell vilket tillsammans med andra viktsystem är funktionell "ner till" cirka de 10 000 - 15 000 största nyhetsmedierna på engelska).

1. "Easy" news-entity trust

I proof-of-concept motsvarande "fysikernas" lilla konstant men i FL ett eget
universum. Vi gör här något mer sofistikerat men ej överdrivet och utgår från:

1.1. Särskilda på domän identifierbara kan antas i rimlig utsträckning
representera: En individ.

1.2. En individ har per diskret tidsenhet betraktad en viss tid denne gör vad
läsare bör göra.

1.3. Individ kan dessutom söka för byggande referens-vetande eller ofta nog
argumentation eller illustration om uttryckande.

1.4. Vi är endast intresserade av det första för tänket här men ser det senare
ej som särskilt filtreras i någon textanalys-mening.

1.5. Vi identifierar läsande och därefter baffled, sur, utiliserande i
low-impulscontrol, larmande eller liknande typiskt i sig onyttigt beteende
läsaren gör genom att betrakta tidsfönster.

1.6. Potentiell risk tidsfönster är auto-publicerande där jag är osäker om det
är en läsare eller ska bort. Ev. kan jag sätta en brutal snabb id för identifikation
och innan för läsare habitat filtrera bort uppenbart förkortade strömmar
(filtrering naturlig för vad som är planerat att utilisieras).

1.5. Här - helt tänker jag i analys separerat projection describe -> do - är
vad läsaren säger ointressant. Kritiskt dock:

1.5.1 Att dimensioner till news-id i HH-NOSQL ger lookup per genuin
länk. ID i sig fick det ej och de känns redan ganska långa även om jag
inte vill utesluta att det ev. snabbar upp BDB skapandet eller i alla
fall inte slöar ner det. Men en av kanske 20 räknande alla koncept och
symboler som en snarare än de miljoner det maximalt kan bli när språket
orkat i fatt till allt existerande BL.

1.6. 90 miljoner frågan här är om koppling cognition mellan REWARD och attention
där förnärvarande attention endast existerar abstrakt och ej ens nära konkret
eller implementerad modell är meningsfull:

1.6.1. Värderar vi attention som andel?

1.6.2. Och är en som ex. notorisk Wikipedia engagerad värderad mer eller
mindre när mer tid regelmässigt prioriteras? Och om så vill jag - är
det värt det - att skapa ett tillståndssystem för historik i nuvarande
version? Vi säger nej där för att hålla initialt enkelt.

1.7. 900 miljoners frågan - och betryggande nog är vi nu mycket mer i inarbetad
core-funktionalitet i andra tmp. delar - är om reaktion, attention, läsande
o.s.v. speglande / indikerande större andel DESCRIBE läsande eller indikerande
att åtminstone inte endast DO läsande och reaktion (det senare får jag erkänna
till min irritation ofta nog genom åren är mycket vanligt hos reaktions-benägna
läsare) är möjlig utan ev. indikation att de faktiskt läst mer än titel, lite
ingress, och kanske läst en bild.

1.7.1. Det är ev. intressant återkopplande feedback för referens-checkup.

1.7.2. Men här kan vi ej värdera det utan vetskap mer om hur folk läser
jfr läsande som effect population än jag har just nu även om det lätt
nog kan tas ut effektivt.

1.7.3. Viktigare är headline (DO bättre sagt i analys mer än löpsedel
mening) i sig i bra mycket av all mening vad som är
grejen betraktande prediktion snarare än DESCRIBE -> PROJEKTIONERNa.

1.7.4. Vidare värderas DESCRIBE upp ges väl en del referens.

Inte otroligt ska dock DESCRIBE värdering till men vi lämnar det nog bäst
initialt så en utgångspunkt finns utan något som införs och riskerar att bli
atavistiskt.

1.8. Hur gör man med multipla läsande-indikationer i samma reaction-node?
Flera kan indikera att läsaren tänker, resonerar och argumenterar. D.v.s. söker
fram [argument försvarande] någon tanke eller idé de har utan just läst
det. Här särskiljer det från 1.7 givet att DO i 1.7 här blir inte heller
DESCRIBE egentligen utan vad som läsaen upplever har similarity med den cue-
aktivering tanken de har d.v.s. upp-aktiverande noder i dennes gärna nära stämmer
med och ev. med någon föreställande - argumenterande funktion jag ej har i
något regel oavsett modell tror jag. Samtidigt visst. De kanske intresserar sig
runt ex. Ukraina och överläser sig. Särskilt events upplevt lärmande eller
agiterande i övrigt kan läsaren ibland polla.

1.9 Oavsett 1.8 eller ev. en del i övrigt är frågan om analys-materiel är
scarce? om inte kan man ju mer exklusivt kasta bort en del som känns mer än
vad jag tror de har läst för att inte riskera att få bias från Google's sökning
eller liknande via läsaren. Jag kan ev. tänka mig att översättnings-filtrering
är egentlgien rörande mer direkt auto-publicering numera är viktigare än just
antalet länkar.

((( 2.0. Vidare lämnande indikation i 1. är frågan om optimering att ta på länkarna
räcker och/eller förenklar märkbart? Jfr att göra det the good old HH way?
Jag tror vi här för att begränsa mindre i förståelse etablerade
rundgångs-riskområden tar på länkarna givet att de är unika och jag heller inte
känner för separation-probabilistiska viktsystem rörande kollisioner runt entitets-system
jag starkt ser kommer ligga efter att mer direkt nödvändiga story-lookup
existerar. )))

1.10 Donering: Läsaren donerar sin tid. Läsaren reagerar på vad som har
potential. Potentialen är vad vi helst helt slipper här eftersom det skattas
mycket bättre många magnituder korrektare redan. Antal reaktion kan indikera
att personen läser mer. Emellertid vet jag ej nog här för att våga riskera
atavister.

1.11. Låt oss besluta att tillstånd finns. Konceptet här i sig kräver det
per newsprovider så varför inte på allt som importeras från?

1.12 "Problemet" här är sökmotor. Utan dem kan man enkelt med historiken nå
en skattning. Men det är nu läsare i spread som intresserar oss dit saker slutligen
hamnar så det känns lite underligt begränsade att kräva att de just ska vara
regelbundna. Men det är just motsvarande Google News front-page eller klistrade
topics medan riktade sökningar bär risk av resonerande-argumentation.

[1.NN Dummy point for good luck.]

1.14 De tre grupperna läsare i:

http://vcj.sagepub.com/content/5/1/65.abstract#aff-3

http://kodu.ut.ee/~cect/teoreetilised%20seminarid_2011/teoreetiline%20seminar%2019.04.2011/Holsanova_jt2006.pdf
[Red. Förövigt åtminstone en svensk författare - K. Holmqvist, Lunds Universitet, om jag minns rätt.]

Tycks motsvarande ungefär vad vi har resonerat här i reaktion men utan
att de är mängd-kvantierade så att totalen kan skattas från resp. motsvarande
i reaktion focused and general (medan editorial snarare riskerar att oftare
tror jag blandas med risk för sök-bias implicit från större sökmotorer).

1.15 Och mer hemvant från Netrunner prototypen är locomotion i social media
problematiskt p.s.s. "Re-tweeting" kan och är ofta någon läsande - agerande
från - tweet men ej nödvändigtvis vad där indikerat oavsett optimerat länkar
eller via konceptuell BL-rel. Desto ovanligare desto mer läst i mening av att
vi kastar bort all specifik information emellertid känns det ganska osäkert
om inte också bra information om läsande också försvinner för att filtrera
co-locomotion samtidigt om search-beteende för arg. utan läsande
riskerar att störa. Och omvänt lokalt på blogg ju vanligare.

2.0 Och självklart - färre inte fler - avgränsade habitat läsare för mining är
bättre. Medan i övrigt förvisso en del fler krävs men ej stora där det kritiska
för dessa endast är att fånga när något uttrycks brett utan rimlig varians över
resp. habitat. Hence det mest exklusiva är självklart att själv kontrollera
ett habitat om man grundläggande är mycket beroende av denna typ av nod-relations
information medan vi här klarar oss jämförbart bra med tillgängliga utan att
ex. känna behov av att försöka hitta pengar nog för att köpa Wordpress.com,
Blogspot.com eller liknande inte helt olikt vad primärt tänkt här.

HH-NOSQL: Vi avbryter och sätter bättre namn på det. Rebel-As? As för
asymmetric. Domänen har ju tradition av lite flexiblare namn även om jag eg.
inte vet om mongo är en slure som i svenskan. [Red. Men lite fegt as snarare än
uppenbara alternativ.]

Hyror och fastighetspriser i Shanghai

2014-04-28

I kontrast till varandra:

Igår när jag tog manuella seed-sajter till RSS-spindlingen närmare ekonomi resp. pressmeddelanden kom det till bläddrande nyheter att ev. ett antal aktörer nyligen (kanske rent av de närmasta dagarna) tagit ner dom kommersiella hyrorna i Shanghai några steg.

Det kändes intressant men jag såg det inte direkt i Google News på den tid jag var beredd att lägga på att söka efter det och upplevde istället ett tämligen stort fokus på tydligt "money-reward-positiva" nyheter vilket självklart om det stämmer som kraftigare tillväxt i uttryck relativt bakomliggande tidigare kan vara tecken på att vi närmare oss eller är i peak eller passerat den. Okänslighet för belöning på samma nivå tenderar ju när affären kring uttrycket också existerar att leverera en större dispergens mellan uttryckt värde och faktiskt värde ju närmare peak vi är när peak i sig åtminstone i efterhand upplevs "överdrivet" (jämför tulpaner (tulip mania i Wikipedia) som det mest slående exemplet på efterklokhet).

I en värld där så mycket mer av världen konkurrerar om min uppmärksamhet känns det emellertid lite som att ännu på ett tag får Shanghai vänta på en bättre ansträngd katastrof indikation innan den tar någon försvarlig andel av uppmärksamheten. Men i all rimlighet är balansering neråt att vänta snart (har jag tyckt i åtminstone åtta till 12 månader men samtidigt tenderar jag i ekonomi ligga föregripade - fel kalibrad fortfarande - ungefär slående för Sverige i fasförskjutningen mellan mig vs vanligast uttryckt i Dagens Nyheter för ränte-politiken där mitten mellan ligger på cirka åtta månader räknat ungefär från 2009 ev. sent till idag).

Så med viss förväntan om att ordentlig nyhetsvärid krasch på fastigheterna nere i Asien att sampla ner ordentligt (man kan tycka att många möjligheter till det givits bakåt men jag upplever inte något bra avgränsat som varit uppenbart överdrivet uppåt innan färskt) kanske ändå är på väg sätter vi uppmuntrande tema-musik till alla ännu glada-investerare som kan trycka upp det hela in bit till sista månaden (för månaden finns säkert rekordlig risk för att om felaktig inte föranledande någon korrigering).

"Here we go go go with total dedication
Here we go again
Here we go go go to the temple of consumption
Get your gear and start to spend
Here we go, here we go, here we go
As some sort of prototype I serve to be
You see tomorrow's dream has never been a part of me
Consume today and leave the rest behind you
Tomorrow is a surprise party buy a ticket too"

Stakka Bo, "Here We Go Again"

Resultat spindling efter RSS- och ATOM-strömmar

2014-04-27

Det huvudsakliga syftet med sista "spindla efter strömmar" (när refererat rss-ström avses vilka som helst strömmar oavsett RSS eller ATOM resp. version) projektet var att öka mängden blogg-strömmar (och på vägen dit nyhets- / pressmeddelande-strömmar) på .edu-domäner eller övrigt inriktat forskning. Spindlingen utgick från alla pressmeddelanden publicerade på EurekAlert! fortfarande i Breaking News.

Robot dumpade hittade länkar tidigt i samma fil och längre fram när jag började tråda den i filer med slumpmässigt namn. Vidare sattes ett stopp-värde per domän parametriserat vid start d.v.s. vid varje återstart eller att tråden börjar om (för att slippa hålla mycket stora mängder länkar gjorda eller att göra) är det inte självklart att de länkar först skrivna till fil för en domän tas först utan ordningen ges av filerna sorterade efter namn.

I skärmdump framgår ordningen filerna för redan besökta resp. identifierade länkar läses in. Rörande parametrisering anger första siffran antalet besök på domänen som tillåts, andra hur många länkar att besöka som tillåts ligga i minne (kan praktiskt hamna något under resp. över), tredje parametering vad som ska finnas i länken för att den ska besöka (eller tillåts resp. allt ska finnas) samt den fjärde ej i bilden omvänt från den tredje d.v.s. vad som ska uteslutas.

Utifrån tanken diskuterad i:

Riktad sampling Blogger för ökad tillförlitlighet (och pågående unikt problematiskt internet från min accesspunkt)

Införde jag möjlighet att parametrisera vilka undermängder av identifierade länkar en tråd ska prospektera. Bl.a. lät jag trådar gå tämligen länge (kanske 10 - 48 timmar totalt) för:

Just Blogspot.
Wordpress.com resp. Wordpress förekommande i url.
Typepad.com
.edu inkl. .edu.
.gov inkl. .gov.
.mil inkl. .mil.
.org inkl. .org.

En relativt övrigt kortare tid men med vid den tidpunkten startad (sista 25% av tiden robotarna vandrade nätet) snabbt expanderande i antal hittade rss-strömmar: .com (minns jag rätt ej inkl. .com.).

Samma trådar efter att de kommit igång med att besöka tidigare identifierade länkar.

Exakt som jag förväntat från när jag skapade första proof-of-concept versionen av sökmotorn gäller att spindla efter RSS-strömmar är vekt inom flera områden med viktiga newsprovidera:

Att utgå från <link ...> levererar ej och när det leverar en försvinnande liten andel.

Istället behöver man spindla efter länkade undersidor och där suga upp länkar (jag begränsade till länkar och intrycket är att det täcker upp de flesta även om några endast skriver dem i text) till RSS-strömmar man publicerar. Detta gäller särskilt:

Amerikanska .gov och .mil sajter.
P.s.s. som föregående en del nyhetstidningar.

Vidare besläktat men när man väl hittar motsvarande blogg fungerar ofta <link ...>:

Bloggar som enskilda medarbetare, organisationer m.m. har "undangömda" långt in i spindlings-väg relativt endast enklast domän-namn.

I detta spindlings-projekt sökte jag endast <link ...> medan jag vid ett föregående också analyserade länkar för att söka avgöra om de ev. är RSS. Det första projektet gav ordentligt fler RSS-strömmar men införde också diverse felaktigt antaget RSS som ännu ej filtrerats bort (bl.a. en del sitemap-länkar).

Trots att .gov och .mil prioriterades i timmar blev andelen RSS-strömmar levererade försvinnande få och inte mer än cirka 10% av vad jag lade till manuellt genom att gå igenom de viktigaste sajterna (ex. resp. vapengrens huvudsida för .mil med ex. site-sökning med Google) , tjänsterna (ex. tjänster för varningar rörande väder - ex. tsnunami-alert - o.s.v.). Det understryker hur begränsat <link ...> är.

Riktad spindling mot URL inkluderande news och/eller press levererade vettigt och tämligen högt men prioriterades relativt ordentligt mindre än övrigt. Bäst resultat i antal identifierade strömmar gavs av självklara orsaker när Blogspot, Wordpress och Typepad prioriterades. Dessa prioriterades vidare ordentligt i tid utifrån tankarna diskuterade i:

Riktad sampling Blogger för ökad tillförlitlighet (och pågående unikt problematiskt internet från min accesspunkt)

Totalt tycks 147 172 RSS-strömmar identifierats. En del är antagligen defekta bl.a. av följande noterande orsaker:

Angiven men används ej. D.v.s. man har växlat url någon gång men ej förändrat vad angivet alt. att den ej fungerar just när jag kontrollerat.

Den initiala start-noden EurekAlert! gav så länge jag körde en hög andel strömmar relaterade forskning. Men vilken andel det är av totalt identifierade domäner vet jag ej och har ej kontrollerat hur stort det totala antalet identifierade (spindlade eller inte) domäner är.

Trådar pollande RSS-strömmar. Den eller de parametriserade först inkl. EXTRA hämtar från vad som identifierats i diskuterad spidering. FAST särskilt prioriterade avseende bl.a. nyhetstjänster likt ex. Reuters eller New York Times (och dessutom inkluderade sådana manuellt adderade oavsett ofta uppdaterade). ALL avser en ganska stor lista skapad genom tidigare kontroll av alla sajter där det för mig är känt med ganska hög tillförlitlighet vilken entitet de tillhör (utnyttjande tvättat Wikipedia-data): totalt cirka 90 000 strömmar inkl. ett mindre antal (cirka 5000 - 20000) "defekta" strömmar och ATOM- och RSS-strömmar för samma publicering.

Sampling är e diskriminerande från annan aspekt än att det är önskvärt att en hög andel strömmar är på engelska. Och prioritet i manuellt arbete har gjorts för att söka inkludera särskilt politiska entiteter från länder "problematiska" att enkelt från domän identifiera som tillhörande ex. myndighet (ex. Sverige med government.se snarare än government.gov.se jag gärna önskat som synonym eller Japan med go.jp) liksom politiskt "mer bråkiga" länder som Ryssland och Kina. Vidare sker hantering sampling enligt principer som gör att ingen kostnad annat än i tid processing föreligger avseende att "inkludera för mycket" (undantag hantering strömmar där inlägg saknar meningsfull titel där positiv-särbehandling sker på ett antal RSS-strömmar från amerikanska myndigheter eftersom de där av och till berör varnings-tjänster vilka jag gärna vill få med just indexerade).

Spidering av url:er inkluderande news men ej .blogspot eller wordpress (därför de senare har egna trådar).

Sista raden ovanför ett antal = kan ge upp till två siffor indikerande antal länkar resp. antal strömmar identifierade.

Hur jag gärna vill se att domäner relaterat regering eller myndighet indikeras och p.s.s. relaterat utbildning med .edu..

Antal identifierade för några utvalda meningsfulla under-grupper

Totalt tycks 147 172 RSS-strömmar identifierats. Ev. summerar uppgifterna ej korrekt för undergrupperna vilket om så har att göra med logiken för hur resp. grupp tas ut när RSS-strömmarna efter spindling hämtas för att tas ned (typiskt enligt för ex. wordpress: index(lc($url),"wordpress") i Perl). Medan tillförlitlighet totalt andel är mycket god eftersom allt förekommande i filerna med identifierade RSS-strömmar tas in och lagras i hash-tabeller för att garantera unik-förekomst samtidigt som domäner som notoriskt indikerar både ATOM- och RSS-strömmar - ex. Blogspot.com - särbehandlas för att hantera detta).

Självklara blogg-plattformar

Wordpress (Oftast Wordpress.com men allt inkl. wordpress i url-feed
51190


Feedburner
1435


Blogspot (extrahering utnyttjar Google's semantik för hur strömmar namnges men ej en perfekt lösning)
46020


Typepad (inkl. typepad i url feed)
4219

Domäner indikerande meningsfull indelning verksamhet

.edu (inkl. .edu.)
4847


.gov (inkl. .gov.)
799


.org (inkl. .org.)
18179


.com (inkl. .com.)
21430


.mil (inkl. .mil.)
162

Övriga

Alla övriga (ex. ip-adresser)

3152

Riktad information - Exempel: Kina: Koncept polis kombinerat handeldvapen för ökad drivkraft förändring

2014-04-24

En upplevde jag ett ganska intressant förändring verksamhetssystem och verktyg:

Shanghai Police Officers to Begin Carrying Guns (2014-04-21) | The Wall Street Journal

Därför att i all praktiskt rimlighet bör i en välfungerande polis-organisation handeldvapen vara verklighet. Även om en viss tradition av kniv, yxa m.m. relativt handeldvapen (där jag baserar mig på kortare information i nyheter rörande ett större vapenbeslag relativt nyligen utan att känna till några enkla tillförlitliga källor till statistik rörande området, brott, eller särskilt mycket i övrigt från statliga och jämförbara organisationer alls egentligen - för Kina) är det självklart fortfarande mycket praktiskt.

Emellertid är militär i alla möjliga former ytterst välbevpänad och med anpassning mot krigföring egen befolkning (protester, kravaller eller det mesta i övrigt polis ej räcker till och som upplevs opraktiskt för diktatur). Militär är ett representativt maktblock i Kina. Det är del av en makt-konvergens inkluderande övergripande hela landet vidare kommunistpartiet (möjligen kan man föra i argumentation att något mer liknande finns men jag är osäker riktigt vad som är parti, militär eller en blandning och lutar nog att det är dessa två man trivialt kan förenkla ner till en gemensam abstraktion).

Självklart är det lätt att föreställa sig att polis kan vändas mot demonstranter. Men lika lätt i en jämfört med militär mycket mer divergerad struktur, resp. indelad med mycket lokaliserade relativt platta organisationer (där resp. big man in a small world representerar divergensen) kan det vara precis tvärtom.

Även om jag inser att kommunistparti och militär kan uppleva osäkerhet när det kommer till att dela ut vapen till polis av den anledningen kan jag tänka mig att ett större värde av polis görande moraliskt riktiga beslut snarare kan komma från:

Demonstranter abstraheras enkelt och nära nog automatiskt - undantaget reportage enskilda händelser eller personer - till ett gemensamt koncept: demonstrnater.
Polis skiljer ut sig från roll; visuell paketering (syns bra i bild och indikerar roll).
Och konceptet polis är ytterst existerande, repeterat och nära associerat det gemensamma samarbetet i en stat eller administrativt underliggande stat.

Polis fattande rätt beslut och passerande över till rätt sida är därför potenta företeelser i sig. Och kanske i sig det som kan vara mätbart i tryckande dynamik mot emergence (i mening av Emergence relationer - Emergence demokrati och Kreativ association när emergence i känsla inverkar snarare än nödvändigtvis emergence i mening "olycka" eller "katastrof").

Jag är emellertid väldigt osäker på hur balanserat eller obalanserat resp. "sidas" (polis "vs" militär) vapen och antal person polis kan tänkas vara i olika delar så helt ska det kanske inte uteslutas ha betydelse i ren "rörelseenergi". Frågan och en anledning att sätta citationstecken på vs är om kanske dynamiken indikerar möjlig för konceptet polis i händelse och scen av att fatta moraliskt rätt beslut är mer betydelsefullt för militära förband. Vidare om beväpning i sig kan tänkas förstärka självbild och självförtroende ökande möjlighet att de är rörliga i nivå där det får betydlese.

Skämtteckning tidigare publicerad i Nyskapat koncept roat förstärkt: Handing out the guns illustrerande något av kontrasten konkret rörelsenergi kontra symbolens påverkan...

- Var tyst och lyssna. Obama tog Washington med en hund - och den har rasta-hår utan att någon märkte det - och håller det hjälpligt med två. Denna är mycket större: Största hunden som fanns: St. Bernard.

- Så mycket vet vi att vi vinner med den. Din japanska pinne var borta långt innan bladet och stormen höll japan mot hundra tusentals.

Relaterat konceptet polis

Vapeneffekt (weapon effect)

Riktad information - Förstärkt intensitet via meningsfull närhet i informationen (reward discounting / prediction)

2014-04-22

När integration och behov ny version av delar nyhetsnalays rörande prediktion och återspegling inverkan symbol- / koncept-näten upplevde jag denna artikel vara mycket bra. God sammanfattning av området reward discounting såväl som att peka på områden där gängse funktion presterar sämre:

Is time-discounting hyperbolic or subadditive? | University of Oregon. Daniel Read

Här tänkte jag diskutera ett antal egenskaper eller konstruktioner som ibland förstärker effekt av text utifrån konceptet av reward discounting (inkl. antaganden rörande att några näraliggande fenomen uppvisar i ytformen och funktioner ungefär jämförbar form). Läsaren ska dock vara försiktigare än annars att se diskussion korrekt uppdaterad området eller att slutsatser jämförbart med annars ligger logiskt riktigt resonerat. I övrigt när jag diskuterat i riktad information har jag antingen lagt saker tämligen abstrakt med stort avstånd direkt funktion eller för mig refresh:at delar (relaterat ny arkitektur analyssystem i tidig skiss) jag hade få problem med innan resp. haft med länge. Reward discounting är lätt att uppleva enkelt när man betraktar en grupp av artiklar med viss "funktions-preferens" (d.v.s. menade vanligen antingen exponentiell- eller hyperbolisk-funktion discounting). Emellertid blir det snabbt oerhört komplext när man försöker ta ut det till praktisk-analys och ofta betraktat över ett år har jag inte tillräcklig kognitiv-prestanda för att inte röra bort mig men särskilt på våren om jag samtidigt trycker upp kognition via tetris m.m. och försöker diskutera det punktformigt kan jag komma närmare praktiskt värde. Och här diskuterar jag delvis för mig själv införstådd med att det kan bli ett antal logiska fel jag inte säkert någonsin korrigerar.

Vidare väljer jag att dela upp det i kanske fler delar lämnande de mer utmanande delarna när vi försöker uttrycka vad vi mer abstrakt beskriver här konkretiserat.

1. Nyhetshändelse vs Uppslagsboken

Betrakta diskussion separation tidsperspektiv nyhetshändelse och uppslagsbok i:

Emergence relationer - Emergence demokrati (2014-04-21)

Vidare färskt är kort notering om risk att slita ut ett varumärke lättare under och för en nyhetshändelse i:

Riktad information - Exempel: Översätta gaskrämare till engelska i negativ känsla riktad Ryssland (2014-04-22)

Fenomen vi här vill utgå från är att effekt påverkan av en symbol eller grupp av symboler utan en nyhetshändelse minskar relativt intensitet (och vi ser intensitet inkluderande flera dimensioner det gäller för). För att uppnå samma effekt senare under nyhetshändelsen fodras ökning för något av eller en kombination av:

Fler nyhetspublicister uttrycker det mot implicit (för mig är det inkluderat i publicist automatiskt antingen oviktat eller med varierade vikter beroende på version) eller alt. att fler läser av andra orsaker som att påskhelgen är slut.
Att i uppslagsboks tiden konvergerat inarbetat starkare symboler väljs men som bär när vi försöker konkretisera innebörden motsvarande definition i ordlista utelämnande dimensioner så som motsvarande känsla eller indikerad belöning och risk.
Att symbolen eller symbol-gruppen kommunicerar i större "mängd" per tidsenhet (för att slippa använda intensitet igen).

Och vi kan förenklat se allt komma "ner till" den totala mängden aktivitet hos befolkningen vi betraktar (d.v.s. samplar vi engelska är befolkningen alla som läser nyheter på engelska samt spridande från dem effekt av vad de säger eller gör som konsekvens).

Effekt av en symbol när övrigt antas konstant är långsamt förändrad i "uppslags-" och "nyhets-tid" (det senare avseende tidsperspektiv för skribenter tidning d.v.s. några år bakåt) och praktiskt kommer förändring utanför "normal" långsam förändring över tiden även återspegla större vetskap om det "riktiga" värdet (många symboler saknas praktiskt tillräckligt data för att få en god indikation om från start - åtminstone om nu saknar arkiv över alla nyheter från säg 1890 - 1940 och/eller datakraft för att göra något med det).

Varje nyhetshändelse påverkar givetvis effekt i uppslagstid. Men påverkan är där mycket mindre än påverkan på samma symbol under samma nyhetshändelse (alt. tänkbart samma tidsperspektiv: när jag följt upp effekt har jag tagit ut per nyhetshändelse men rent funktionellt under har jag inte tidigare separat det med tidsperspektiv och är starkt övertygad om att detta är det ända vettiga). Exempelvis:

Kommer atrocity vid tidpunkt t1 i land Kingdom of Hans därför att härskaren tröttnat på allt gnäll får det helt säkert stor uppmärksamhet resulterande i massa FN- och tidnings-gnäll från folk utanför landet.
Det blir kraftfull nyhetshändelse. Kanske beslagstas rent av några "decoy" bankkonton "lagom" undangömda i banker i United Kingdom.
Kommer fortsatt atrocities i Kingdom of Hans såväl för samma tidsperiod med ungefär konstant tidsintervall of ej normalt för en läsare möjligt att bedöma särskilt förändrad magnitud (bilder och ordval har betydelse men självklart konkretiserade antal även om det ligger i allt detta jämförbart från vårt resonemang här att sambandet ej är linjärt) reagerar läsaren mindre på händelserna.
Regelbaserade samarbetssystem (motsvarande politiska lösningar enskilda länder eller hårda regler FN) kan avvika från detta vilket indirekt när vi predikterar framåt kan påverka intensitet nyhetshändelse (ex. fortsattning där FN börjar flyga in i kungariket för att hindra mig att reducera bort mer strunt som stör mig.

Reducerad effekt nyhetshändelse tenderar att vara exponentiell. Jag tror (jag minns det så och rimligen bör det) det går att passa in med flera andra alternativ inkl. utvecklingar / varianter av hyperboliska funktioner (jag gillar att försöka hålla nere antalet grundfunktioner i koden och både andra såväl som naturliga logaritmen - och resp. exponent - är jag van att använda).

Åtminstone inverkande är intensitet för uttrycken (total effekt skattad från uppslagsboks-tid per tidsenhet), föregående det samma nyhetshändelse och implicit inverkan av besläktade symboler under jämförbar tidsperiod som kan härröra från annat pågående.

2. "Komplexitet" och effekt för diskret tidpunkt av ett stycke text

Vi betraktar:

"Kahneman and Knetsch (1992) were amongst the first to demonstrate subadditive pricing. They found that if a public good is decomposed into parts, then the willingness-to-pay for each part is frequently identical to the willingness-to-pay for the whole. One implication of this ‘embedding effect’ is that the total willingness-to-pay for a good depends greatly on whether its parts are priced separately or as a bundle – the more parts there are, the greater the total price. This effect has been replicated dozens of times for non-market goods (like pollution abatement) and has recently been demonstrated even for market goods like meals and peanut butter (Bateman, Munro, Rhodes, Starmer & Sugden, 1997; Frederick & Fischhoff, 1997; 1998). In a variant on this finding, Weber, Eisenführ, and von Winterfeldt (1988) showed that the impact of an attribute on subjective value is increased when it is divided into parts, such as dividing ‘job security’ into the separate attributes ‘low risk of bankruptcy’ and ‘cannot be fired.’"

Från: Is time-discounting hyperbolic or subadditive? | University of Oregon.

Vi kan abstrakta välja att tänka oss att vi kan förklara fenomenet med att:

Fler argument i mening av att mer information kommer behandlas och får påverka när vi betraktar delarna var för sig.
Jämförbart för ett stycke text (motsvarande en nyhet och tydligast för titel, bild, ingress m.m. direkt märkbart föregripande djupare läsande) är effekt större om vi fler nyhetskomponent uttryckande samma sak.
Upplevs det som upprepas vara ungefär det samma får vi emellertid inte den ökade effekten. Tvingar vi oss att "databehandla" (läsa o.s.v.) ändå tråkas vi ut.

Vi kan öka förstärkning genom att uttrycka mer för samma mängd som tas in för aktuell diskret tidpunkt. Rubrik och bild ger ofta tillsammans mycket nära i tid påverkan när vi börjar läsa eller väljer att börja läsa. Ökar komplexiteten för mycket är sannolikheten lägre för att vi tar in det med samma motivation (ex. drivkraft från risk, upplevt spridningsvärde av nyhet jfr skvaller eller "larma-fenoment" både påtagliga när egen kunskap eller erfarenhet av något är låg eller ekonomiskt värde av att läsa finns).

Jämfört tittar vi på ett filmklipp av en händelse med "fullt" bildrutor per sekund vi kan processa med märkbar förändring vet vi mer och får högre intensitet: vår vetskap och tilltro ökar. Men under förutsättning att vad som sker, mängd relevanta komponenter o.s.v. Betraktar vi ett naturligt övertydligt skeende så som en instruktionsvideo är ökad vetskap och vår tilltro till den enkel att förstå skillnaden för: Görs saker tydligt och inkluderar alla nödvändiga steg är tilltro hög men om överdrivet tråkigt (ex. pågående utdraget) eller att saker sker snabbare än vi hinner förstå ges inte effekten. Saknas uppenbart ett steg motsvarande att bildrutor för en händelse klippts bort minskar också tilltro.

Vi kan tydliggöra med tre exempel:

1. Ungefär normal takt för spännande, kul eller upplevt värdefull information i domän moving visuals. Filmklipp från The Boondocks:

2. Normal mängd "bildrutor" per tidsenhet tidigt under den film-tekniska historien. Pansarkryssaren Potemkin:

3. Stillbilder av en händelse med låg komplexitet och få komponenterna. Bilderna är från en av och till förekommanda vana av mig att fotografera "undangömda" trädgårdar och objekt uthuskonst i Uppsala när jag kommer ihåg och väljer att vandra dessa vägar (Uppsalas centrala delar är fylld av grömområden - liksom "tak-världar" de flesta inte alls känner till eller tror för en är unika). Här från en av de mindre eleganta exemplen men som istället har en trevligt "blå-arkitektur" på ett undangömt mini café. Platsen fotograferar är jag ganska säker på är enligt Google Maps nedan (jag förvirrar mig dock regelbundet när det ska översättas mellan perspektiv markplan och Eye in the Skyd):

Händelsen i bilden är en person som råkade komma förbi när jag betraktade arkitekturen från ett av perspektiven. Jag upplever inte att man ser några detaljer utseende så jag tycker inte att någons privatliv kränks.

I första exemplet framgår händelserna väl men detaljer enskilda komponenter är vad vi kan uppleva svårt att dra oss till minnes. Andra extremen i sista exemplet ger sämre förståelse händelserna och ju "sämre" samplat desto mer obegripligt kan enskilda punkter vara. Särskilt när det framgår att tid eller plats förändras mer mellan två punkter är tilltron till informationen lägre. Däremot är bara genom "default" prioritet betraktande en bild vad som gör att vi istället kan lägga märke till detaljer (ex. här att dörren är motsvarande bakdörr till restaurang och ej en normal ingång till en restaurang). Hade händelsen varit filmad och konkurrerande skeenden för saknade bildrutor varit fallet (säg för att göra övertydligt: ett föremål som exploderar eller en balkong som trillar ner) missar vi sådana detaljer väldigt lätt.

Riktad information - Exempel: Översätta gaskrämare till engelska i negativ känsla riktad Ryssland

Vi betraktar titeln i följande inlägg jag skrev irriterad över något relaterat Ryssland (minns ej exakt vad):

Gaskrämaren Ryssland: Lika värdelös för kinesiska diktaturen som Iran, Syrien och Nordkorea (2013-02-21)

Men hur ska vi översätta koncept gaskrämare till engelska? Poängen som använd är att det ligger en negativ valence (inte nödvändigtvis perfekt för alla grupper relaterat effekt på associerad valence till den som talar men just för ämnets typiska läsare intresserade fungerar krämare acceptabelt). En språkligt i mening närmare direkt översättning är därför utanför själva poängen.

Viktigare än att ligga nära direkt översättning är att få in olje-industrin. Det är ju något Ryssland såväl (och viktigare) läsarna upplever som en styrka och kan imponeras av påverkande hur benägen man är att se en aktuell nyhetshändelse där Ryssland agerar defekt från talarens definition som given eller vad man ska agera relaterat.

Ett exempel på en översättning ges i ett färskt uttalande Senator McCain:

McCain calls Russia a gas station (2014-04-22) | politicalticker.blogs.cnn.com

I USA är för något så när jämförbara grupper (och väsentligt bredare och större) där "krämare" är funktionellt utan att påverka talare negativt fungerande och associerad negativ valence. Vi har ex. ett antal amerikanska B-filmer med stooner arbetande pumping gas eller liknande roll med eller utan ganja-association.

Senator McCain och Senator Liebermann (Tyskland, 2010).

Foto: Kai Mörk (licens och information bild)

Jag bedömer alldeles för tidigt att konceptet gas station är något för artigt paketerat för det specifika uttalandet. Det skiljer emellertid ut sig tillräckligt mot koncept normalt använda i titel både för att nå dessa och ge större effekt än självklart annars enkelt. Jag gjorde följande anteckning personlig logg när jag noterade titeln publicerad:

"As expected given a single quote-even a bit to weak. Still easy enough to tire out the voice and if you like to talk a lot to exchange brand to effect one would as here be right not to go up to much now in the 20 - 35% time of the news even."

Att maximera utnyttjande brand när man kommer gång på gång under lång tid behöver ge hänsyn till risk att trötta ut varumärke. Varierade kontext men med en underliggande gemensam faktor (politik) är enklare. Likväl tror jag nivån på konceptet här är lagom och genomtänkt. Det ska ju också under pågående nyhetshändelse där kontext är det samma gå att höja nivån fortsatt. "Uttröttning" där är ej linjär utan ligger precis som intresset för hela nyhetshändelsen närmare en exponentiell fördelning.

Procent-satsen jag spontant utan att tänka efter skrev är fascinerande (men ej vad som ska tas allvarligt). Jag skrev den spontant utan att gjort rationell bedömning enligt system för det manuellt. Ej heller utnyttjat automatiserade verktyg. Men nyhetshändelsen kändes när jag skrev ligga där ungefär och jag är inte helt på det klara med vad som föranledde mig att uppleva det. Jag har emellertid följt ett gigantiskt stort antal nyhetshändelser nog för att reflektera ev. nya ledtrådar till detekterbara mönster perceptionens närmare hur mönsterigenkänning i artificiella neuron-grid'ar implementeras i bl.a. bildanalys. Kanske något perception tros sig se föranledande slutsats tillsammans med inlärda värde-associationer och sannolikhet i delar av frontala cortex? Samtidigt finns mängder av välkänt vanliga liknande igenkänningar som är fullständigt irrationella (bl.a. relaterat hudfärg hos många med felaktiga associationer och sannolikheter möte oavsett vilket kontext det sker i). Likväl kanske tiden - om det är dimension perception reagerar i: upparbetad intensitet kan vara troligare - visar sig stämma tills nyhetshändelsen konvergerat inarbetad verklighet för år som kommer.