Resultat spindling efter RSS- och ATOM-strömmar

2014-04-27

Det huvudsakliga syftet med sista "spindla efter strömmar" (när refererat rss-ström avses vilka som helst strömmar oavsett RSS eller ATOM resp. version) projektet var att öka mängden blogg-strömmar (och på vägen dit nyhets- / pressmeddelande-strömmar) på .edu-domäner eller övrigt inriktat forskning. Spindlingen utgick från alla pressmeddelanden publicerade på EurekAlert! fortfarande i Breaking News.


Robot dumpade hittade länkar tidigt i samma fil och längre fram när jag började tråda den i filer med slumpmässigt namn. Vidare sattes ett stopp-värde per domän parametriserat vid start d.v.s. vid varje återstart eller att tråden börjar om (för att slippa hålla mycket stora mängder länkar gjorda eller att göra) är det inte självklart att de länkar först skrivna till fil för en domän tas först utan ordningen ges av filerna sorterade efter namn.


I skärmdump framgår ordningen filerna för redan besökta resp. identifierade länkar läses in. Rörande parametrisering anger första siffran antalet besök på domänen som tillåts, andra hur många länkar att besöka som tillåts ligga i minne (kan praktiskt hamna något under resp. över), tredje parametering vad som ska finnas i länken för att den ska besöka (eller tillåts resp. allt ska finnas) samt den fjärde ej i bilden omvänt från den tredje d.v.s. vad som ska uteslutas.

Utifrån tanken diskuterad i:



Införde jag möjlighet att parametrisera vilka undermängder av identifierade länkar en tråd ska prospektera. Bl.a. lät jag trådar gå tämligen länge (kanske 10 - 48 timmar totalt) för:


  • Just Blogspot.
  • Wordpress.com resp. Wordpress förekommande i url.
  • Typepad.com
  • .edu inkl. .edu.
  • .gov inkl. .gov.
  • .mil inkl. .mil.
  • .org inkl. .org.

En relativt övrigt kortare tid men med vid den tidpunkten startad (sista 25% av tiden robotarna vandrade nätet) snabbt expanderande i antal hittade rss-strömmar: .com (minns jag rätt ej inkl. .com.).


Samma trådar efter att de kommit igång med att besöka tidigare identifierade länkar.

Exakt som jag förväntat från när jag skapade första proof-of-concept versionen av sökmotorn gäller att spindla efter RSS-strömmar är vekt inom flera områden med viktiga newsprovidera:


  • Att utgå från <link ...> levererar ej och när det leverar en försvinnande liten andel.

Istället behöver man spindla efter länkade undersidor och där suga upp länkar (jag begränsade till länkar och intrycket är att det täcker upp de flesta även om några endast skriver dem i text) till RSS-strömmar man publicerar. Detta gäller särskilt:


  • Amerikanska .gov och .mil sajter.
  • P.s.s. som föregående en del nyhetstidningar.

Vidare besläktat men när man väl hittar motsvarande blogg fungerar ofta <link ...>:


  • Bloggar som enskilda medarbetare, organisationer m.m. har "undangömda" långt in i spindlings-väg relativt endast enklast domän-namn.

I detta spindlings-projekt sökte jag endast <link ...> medan jag vid ett föregående också analyserade länkar för att söka avgöra om de ev. är RSS. Det första projektet gav ordentligt fler RSS-strömmar men införde också diverse felaktigt antaget RSS som ännu ej filtrerats bort (bl.a. en del sitemap-länkar).


Trots att .gov och .mil prioriterades i timmar blev andelen RSS-strömmar levererade försvinnande få och inte mer än cirka 10% av vad jag lade till manuellt genom att gå igenom de viktigaste sajterna (ex. resp. vapengrens huvudsida för .mil med ex. site-sökning med Google) , tjänsterna (ex. tjänster för varningar rörande väder - ex. tsnunami-alert - o.s.v.). Det understryker hur begränsat <link ...> är.


Riktad spindling mot URL inkluderande news och/eller press levererade vettigt och tämligen högt men prioriterades relativt ordentligt mindre än övrigt. Bäst resultat i antal identifierade strömmar gavs av självklara orsaker när Blogspot, Wordpress och Typepad prioriterades. Dessa prioriterades vidare ordentligt i tid utifrån tankarna diskuterade i:



Totalt tycks 147 172 RSS-strömmar identifierats. En del är antagligen defekta bl.a. av följande noterande orsaker:


  • Angiven men används ej. D.v.s. man har växlat url någon gång men ej förändrat vad angivet alt. att den ej fungerar just när jag kontrollerat.

Den initiala start-noden EurekAlert! gav så länge jag körde en hög andel strömmar relaterade forskning. Men vilken andel det är av totalt identifierade domäner vet jag ej och har ej kontrollerat hur stort det totala antalet identifierade (spindlade eller inte) domäner är.


Trådar pollande RSS-strömmar. Den eller de parametriserade först inkl. EXTRA hämtar från vad som identifierats i diskuterad spidering. FAST särskilt prioriterade avseende bl.a. nyhetstjänster likt ex. Reuters eller New York Times (och dessutom inkluderade sådana manuellt adderade oavsett ofta uppdaterade). ALL avser en ganska stor lista skapad genom tidigare kontroll av alla sajter där det för mig är känt med ganska hög tillförlitlighet vilken entitet de tillhör (utnyttjande tvättat Wikipedia-data): totalt cirka 90 000 strömmar inkl. ett mindre antal (cirka 5000 - 20000) "defekta" strömmar och ATOM- och RSS-strömmar för samma publicering.

Sampling är e diskriminerande från annan aspekt än att det är önskvärt att en hög andel strömmar är på engelska. Och prioritet i manuellt arbete har gjorts för att söka inkludera särskilt politiska entiteter från länder "problematiska" att enkelt från domän identifiera som tillhörande ex. myndighet (ex. Sverige med government.se snarare än government.gov.se jag gärna önskat som synonym eller Japan med go.jp) liksom politiskt "mer bråkiga" länder som Ryssland och Kina. Vidare sker hantering sampling enligt principer som gör att ingen kostnad annat än i tid processing föreligger avseende att "inkludera för mycket" (undantag hantering strömmar där inlägg saknar meningsfull titel där positiv-särbehandling sker på ett antal RSS-strömmar från amerikanska myndigheter eftersom de där av och till berör varnings-tjänster vilka jag gärna vill få med just indexerade).

Spidering av url:er inkluderande news men ej .blogspot eller wordpress (därför de senare har egna trådar).

Sista raden ovanför ett antal = kan ge upp till två siffor indikerande antal länkar resp. antal strömmar identifierade.

Hur jag gärna vill se att domäner relaterat regering eller myndighet indikeras och p.s.s. relaterat utbildning med .edu..

Antal identifierade för några utvalda meningsfulla under-grupper

Totalt tycks 147 172 RSS-strömmar identifierats. Ev. summerar uppgifterna ej korrekt för undergrupperna vilket om så har att göra med logiken för hur resp. grupp tas ut när RSS-strömmarna efter spindling hämtas för att tas ned (typiskt enligt för ex. wordpress: index(lc($url),"wordpress") i Perl). Medan tillförlitlighet totalt andel är mycket god eftersom allt förekommande i filerna med identifierade RSS-strömmar tas in och lagras i hash-tabeller för att garantera unik-förekomst samtidigt som domäner som notoriskt indikerar både ATOM- och RSS-strömmar - ex. Blogspot.com - särbehandlas för att hantera detta).


Självklara blogg-plattformar


Wordpress (Oftast Wordpress.com men allt inkl. wordpress i url-feed
51190
Feedburner
1435
Blogspot (extrahering utnyttjar Google's semantik för hur strömmar namnges men ej en perfekt lösning)
46020
Typepad (inkl. typepad i url feed)
4219

Domäner indikerande meningsfull indelning verksamhet


.edu (inkl. .edu.)
4847
.gov (inkl. .gov.)
799
.org (inkl. .org.)
18179
.com (inkl. .com.)
21430
.mil (inkl. .mil.)
162

Övriga


Alla övriga (ex. ip-adresser)
3152

Riktad information - Exempel: Kina: Koncept polis kombinerat handeldvapen för ökad drivkraft förändring

2014-04-24

En upplevde jag ett ganska intressant förändring verksamhetssystem och verktyg:



Därför att i all praktiskt rimlighet bör i en välfungerande polis-organisation handeldvapen vara verklighet. Även om en viss tradition av kniv, yxa m.m. relativt handeldvapen (där jag baserar mig på kortare information i nyheter rörande ett större vapenbeslag relativt nyligen utan att känna till några enkla tillförlitliga källor till statistik rörande området, brott, eller särskilt mycket i övrigt från statliga och jämförbara organisationer alls egentligen - för Kina) är det självklart fortfarande mycket praktiskt.


Emellertid är militär i alla möjliga former ytterst välbevpänad och med anpassning mot krigföring egen befolkning (protester, kravaller eller det mesta i övrigt polis ej räcker till och som upplevs opraktiskt för diktatur). Militär är ett representativt maktblock i Kina. Det är del av en makt-konvergens inkluderande övergripande hela landet vidare kommunistpartiet (möjligen kan man föra i argumentation att något mer liknande finns men jag är osäker riktigt vad som är parti, militär eller en blandning och lutar nog att det är dessa två man trivialt kan förenkla ner till en gemensam abstraktion).


Självklart är det lätt att föreställa sig att polis kan vändas mot demonstranter. Men lika lätt i en jämfört med militär mycket mer divergerad struktur, resp. indelad med mycket lokaliserade relativt platta organisationer (där resp. big man in a small world representerar divergensen) kan det vara precis tvärtom.


Även om jag inser att kommunistparti och militär kan uppleva osäkerhet när det kommer till att dela ut vapen till polis av den anledningen kan jag tänka mig att ett större värde av polis görande moraliskt riktiga beslut snarare kan komma från:


  • Demonstranter abstraheras enkelt och nära nog automatiskt - undantaget reportage enskilda händelser eller personer - till ett gemensamt koncept: demonstrnater.
  • Polis skiljer ut sig från roll; visuell paketering (syns bra i bild och indikerar roll).
  • Och konceptet polis är ytterst existerande, repeterat och nära associerat det gemensamma samarbetet i en stat eller administrativt underliggande stat.

Polis fattande rätt beslut och passerande över till rätt sida är därför potenta företeelser i sig. Och kanske i sig det som kan vara mätbart i tryckande dynamik mot emergence (i mening av Emergence relationer - Emergence demokrati och Kreativ association när emergence i känsla inverkar snarare än nödvändigtvis emergence i mening "olycka" eller "katastrof").


Jag är emellertid väldigt osäker på hur balanserat eller obalanserat resp. "sidas" (polis "vs" militär) vapen och antal person polis kan tänkas vara i olika delar så helt ska det kanske inte uteslutas ha betydelse i ren "rörelseenergi". Frågan och en anledning att sätta citationstecken på vs är om kanske dynamiken indikerar möjlig för konceptet polis i händelse och scen av att fatta moraliskt rätt beslut är mer betydelsefullt för militära förband. Vidare om beväpning i sig kan tänkas förstärka självbild och självförtroende ökande möjlighet att de är rörliga i nivå där det får betydlese.



Skämtteckning tidigare publicerad i Nyskapat koncept roat förstärkt: Handing out the guns illustrerande något av kontrasten konkret rörelsenergi kontra symbolens påverkan...

- Var tyst och lyssna. Obama tog Washington med en hund - och den har rasta-hår utan att någon märkte det - och håller det hjälpligt med två. Denna är mycket större: Största hunden som fanns: St. Bernard.

- Så mycket vet vi att vi vinner med den. Din japanska pinne var borta långt innan bladet och stormen höll japan mot hundra tusentals.



Relaterat konceptet polis


Vapeneffekt (weapon effect)

Riktad information - Förstärkt intensitet via meningsfull närhet i informationen (reward discounting / prediction)

2014-04-22

När integration och behov ny version av delar nyhetsnalays rörande prediktion och återspegling inverkan symbol- / koncept-näten upplevde jag denna artikel vara mycket bra. God sammanfattning av området reward discounting såväl som att peka på områden där gängse funktion presterar sämre:



Här tänkte jag diskutera ett antal egenskaper eller konstruktioner som ibland förstärker effekt av text utifrån konceptet av reward discounting (inkl. antaganden rörande att några näraliggande fenomen uppvisar i ytformen och funktioner ungefär jämförbar form). Läsaren ska dock vara försiktigare än annars att se diskussion korrekt uppdaterad området eller att slutsatser jämförbart med annars ligger logiskt riktigt resonerat. I övrigt när jag diskuterat i riktad information har jag antingen lagt saker tämligen abstrakt med stort avstånd direkt funktion eller för mig refresh:at delar (relaterat ny arkitektur analyssystem i tidig skiss) jag hade få problem med innan resp. haft med länge. Reward discounting är lätt att uppleva enkelt när man betraktar en grupp av artiklar med viss "funktions-preferens" (d.v.s. menade vanligen antingen exponentiell- eller hyperbolisk-funktion discounting). Emellertid blir det snabbt oerhört komplext när man försöker ta ut det till praktisk-analys och ofta betraktat över ett år har jag inte tillräcklig kognitiv-prestanda för att inte röra bort mig men särskilt på våren om jag samtidigt trycker upp kognition via tetris m.m. och försöker diskutera det punktformigt kan jag komma närmare praktiskt värde. Och här diskuterar jag delvis för mig själv införstådd med att det kan bli ett antal logiska fel jag inte säkert någonsin korrigerar.


Vidare väljer jag att dela upp det i kanske fler delar lämnande de mer utmanande delarna när vi försöker uttrycka vad vi mer abstrakt beskriver här konkretiserat.


1. Nyhetshändelse vs Uppslagsboken

Betrakta diskussion separation tidsperspektiv nyhetshändelse och uppslagsbok i:



Vidare färskt är kort notering om risk att slita ut ett varumärke lättare under och för en nyhetshändelse i:



Fenomen vi här vill utgå från är att effekt påverkan av en symbol eller grupp av symboler utan en nyhetshändelse minskar relativt intensitet (och vi ser intensitet inkluderande flera dimensioner det gäller för). För att uppnå samma effekt senare under nyhetshändelsen fodras ökning för något av eller en kombination av:


  • Fler nyhetspublicister uttrycker det mot implicit (för mig är det inkluderat i publicist automatiskt antingen oviktat eller med varierade vikter beroende på version) eller alt. att fler läser av andra orsaker som att påskhelgen är slut.
  • Att i uppslagsboks tiden konvergerat inarbetat starkare symboler väljs men som bär när vi försöker konkretisera innebörden motsvarande definition i ordlista utelämnande dimensioner så som motsvarande känsla eller indikerad belöning och risk.
  • Att symbolen eller symbol-gruppen kommunicerar i större "mängd" per tidsenhet (för att slippa använda intensitet igen).

Och vi kan förenklat se allt komma "ner till" den totala mängden aktivitet hos befolkningen vi betraktar (d.v.s. samplar vi engelska är befolkningen alla som läser nyheter på engelska samt spridande från dem effekt av vad de säger eller gör som konsekvens).


Effekt av en symbol när övrigt antas konstant är långsamt förändrad i "uppslags-" och "nyhets-tid" (det senare avseende tidsperspektiv för skribenter tidning d.v.s. några år bakåt) och praktiskt kommer förändring utanför "normal" långsam förändring över tiden även återspegla större vetskap om det "riktiga" värdet (många symboler saknas praktiskt tillräckligt data för att få en god indikation om från start - åtminstone om nu saknar arkiv över alla nyheter från säg 1890 - 1940 och/eller datakraft för att göra något med det).


Varje nyhetshändelse påverkar givetvis effekt i uppslagstid. Men påverkan är där mycket mindre än påverkan på samma symbol under samma nyhetshändelse (alt. tänkbart samma tidsperspektiv: när jag följt upp effekt har jag tagit ut per nyhetshändelse men rent funktionellt under har jag inte tidigare separat det med tidsperspektiv och är starkt övertygad om att detta är det ända vettiga). Exempelvis:


  • Kommer atrocity vid tidpunkt t1 i land Kingdom of Hans därför att härskaren tröttnat på allt gnäll får det helt säkert stor uppmärksamhet resulterande i massa FN- och tidnings-gnäll från folk utanför landet.
  • Det blir kraftfull nyhetshändelse. Kanske beslagstas rent av några "decoy" bankkonton "lagom" undangömda i banker i United Kingdom.
  • Kommer fortsatt atrocities i Kingdom of Hans såväl för samma tidsperiod med ungefär konstant tidsintervall of ej normalt för en läsare möjligt att bedöma särskilt förändrad magnitud (bilder och ordval har betydelse men självklart konkretiserade antal även om det ligger i allt detta jämförbart från vårt resonemang här att sambandet ej är linjärt) reagerar läsaren mindre på händelserna.
  • Regelbaserade samarbetssystem (motsvarande politiska lösningar enskilda länder eller hårda regler FN) kan avvika från detta vilket indirekt när vi predikterar framåt kan påverka intensitet nyhetshändelse (ex. fortsattning där FN börjar flyga in i kungariket för att hindra mig att reducera bort mer strunt som stör mig.

Reducerad effekt nyhetshändelse tenderar att vara exponentiell. Jag tror (jag minns det så och rimligen bör det) det går att passa in med flera andra alternativ inkl. utvecklingar / varianter av hyperboliska funktioner (jag gillar att försöka hålla nere antalet grundfunktioner i koden och både andra såväl som naturliga logaritmen - och resp. exponent - är jag van att använda).


Åtminstone inverkande är intensitet för uttrycken (total effekt skattad från uppslagsboks-tid per tidsenhet), föregående det samma nyhetshändelse och implicit inverkan av besläktade symboler under jämförbar tidsperiod som kan härröra från annat pågående.


2. "Komplexitet" och effekt för diskret tidpunkt av ett stycke text

Vi betraktar:


"Kahneman and Knetsch (1992) were amongst the first to demonstrate subadditive pricing. They found that if a public good is decomposed into parts, then the willingness-to-pay for each part is frequently identical to the willingness-to-pay for the whole. One implication of this ‘embedding effect’ is that the total willingness-to-pay for a good depends greatly on whether its parts are priced separately or as a bundle – the more parts there are, the greater the total price. This effect has been replicated dozens of times for non-market goods (like pollution abatement) and has recently been demonstrated even for market goods like meals and peanut butter (Bateman, Munro, Rhodes, Starmer & Sugden, 1997; Frederick & Fischhoff, 1997; 1998). In a variant on this finding, Weber, Eisenführ, and von Winterfeldt (1988) showed that the impact of an attribute on subjective value is increased when it is divided into parts, such as dividing ‘job security’ into the separate attributes ‘low risk of bankruptcy’ and ‘cannot be fired.’"


Från: Is time-discounting hyperbolic or subadditive? | University of Oregon.


Vi kan abstrakta välja att tänka oss att vi kan förklara fenomenet med att:


  • Fler argument i mening av att mer information kommer behandlas och får påverka när vi betraktar delarna var för sig.
  • Jämförbart för ett stycke text (motsvarande en nyhet och tydligast för titel, bild, ingress m.m. direkt märkbart föregripande djupare läsande) är effekt större om vi fler nyhetskomponent uttryckande samma sak.
  • Upplevs det som upprepas vara ungefär det samma får vi emellertid inte den ökade effekten. Tvingar vi oss att "databehandla" (läsa o.s.v.) ändå tråkas vi ut.

Vi kan öka förstärkning genom att uttrycka mer för samma mängd som tas in för aktuell diskret tidpunkt. Rubrik och bild ger ofta tillsammans mycket nära i tid påverkan när vi börjar läsa eller väljer att börja läsa. Ökar komplexiteten för mycket är sannolikheten lägre för att vi tar in det med samma motivation (ex. drivkraft från risk, upplevt spridningsvärde av nyhet jfr skvaller eller "larma-fenoment" både påtagliga när egen kunskap eller erfarenhet av något är låg eller ekonomiskt värde av att läsa finns).


Jämfört tittar vi på ett filmklipp av en händelse med "fullt" bildrutor per sekund vi kan processa med märkbar förändring vet vi mer och får högre intensitet: vår vetskap och tilltro ökar. Men under förutsättning att vad som sker, mängd relevanta komponenter o.s.v. Betraktar vi ett naturligt övertydligt skeende så som en instruktionsvideo är ökad vetskap och vår tilltro till den enkel att förstå skillnaden för: Görs saker tydligt och inkluderar alla nödvändiga steg är tilltro hög men om överdrivet tråkigt (ex. pågående utdraget) eller att saker sker snabbare än vi hinner förstå ges inte effekten. Saknas uppenbart ett steg motsvarande att bildrutor för en händelse klippts bort minskar också tilltro.


Vi kan tydliggöra med tre exempel:


1. Ungefär normal takt för spännande, kul eller upplevt värdefull information i domän moving visuals. Filmklipp från The Boondocks:




2. Normal mängd "bildrutor" per tidsenhet tidigt under den film-tekniska historien. Pansarkryssaren Potemkin:




3. Stillbilder av en händelse med låg komplexitet och få komponenterna. Bilderna är från en av och till förekommanda vana av mig att fotografera "undangömda" trädgårdar och objekt uthuskonst i Uppsala när jag kommer ihåg och väljer att vandra dessa vägar (Uppsalas centrala delar är fylld av grömområden - liksom "tak-världar" de flesta inte alls känner till eller tror för en är unika). Här från en av de mindre eleganta exemplen men som istället har en trevligt "blå-arkitektur" på ett undangömt mini café. Platsen fotograferar är jag ganska säker på är enligt Google Maps nedan (jag förvirrar mig dock regelbundet när det ska översättas mellan perspektiv markplan och Eye in the Skyd):




Händelsen i bilden är en person som råkade komma förbi när jag betraktade arkitekturen från ett av perspektiven. Jag upplever inte att man ser några detaljer utseende så jag tycker inte att någons privatliv kränks.





I första exemplet framgår händelserna väl men detaljer enskilda komponenter är vad vi kan uppleva svårt att dra oss till minnes. Andra extremen i sista exemplet ger sämre förståelse händelserna och ju "sämre" samplat desto mer obegripligt kan enskilda punkter vara. Särskilt när det framgår att tid eller plats förändras mer mellan två punkter är tilltron till informationen lägre. Däremot är bara genom "default" prioritet betraktande en bild vad som gör att vi istället kan lägga märke till detaljer (ex. här att dörren är motsvarande bakdörr till restaurang och ej en normal ingång till en restaurang). Hade händelsen varit filmad och konkurrerande skeenden för saknade bildrutor varit fallet (säg för att göra övertydligt: ett föremål som exploderar eller en balkong som trillar ner) missar vi sådana detaljer väldigt lätt.

Riktad information - Exempel: Översätta gaskrämare till engelska i negativ känsla riktad Ryssland

Vi betraktar titeln i följande inlägg jag skrev irriterad över något relaterat Ryssland (minns ej exakt vad):



Men hur ska vi översätta koncept gaskrämare till engelska? Poängen som använd är att det ligger en negativ valence (inte nödvändigtvis perfekt för alla grupper relaterat effekt på associerad valence till den som talar men just för ämnets typiska läsare intresserade fungerar krämare acceptabelt). En språkligt i mening närmare direkt översättning är därför utanför själva poängen.


Viktigare än att ligga nära direkt översättning är att få in olje-industrin. Det är ju något Ryssland såväl (och viktigare) läsarna upplever som en styrka och kan imponeras av påverkande hur benägen man är att se en aktuell nyhetshändelse där Ryssland agerar defekt från talarens definition som given eller vad man ska agera relaterat.


Ett exempel på en översättning ges i ett färskt uttalande Senator McCain:



I USA är för något så när jämförbara grupper (och väsentligt bredare och större) där "krämare" är funktionellt utan att påverka talare negativt fungerande och associerad negativ valence. Vi har ex. ett antal amerikanska B-filmer med stooner arbetande pumping gas eller liknande roll med eller utan ganja-association.


Senator McCain och Senator Liebermann (Tyskland, 2010).

Foto: Kai Mörk (licens och information bild)


Jag bedömer alldeles för tidigt att konceptet gas station är något för artigt paketerat för det specifika uttalandet. Det skiljer emellertid ut sig tillräckligt mot koncept normalt använda i titel både för att nå dessa och ge större effekt än självklart annars enkelt. Jag gjorde följande anteckning personlig logg när jag noterade titeln publicerad:


"As expected given a single quote-even a bit to weak. Still easy enough to tire out the voice and if you like to talk a lot to exchange brand to effect one would as here be right not to go up to much now in the 20 - 35% time of the news even."

Att maximera utnyttjande brand när man kommer gång på gång under lång tid behöver ge hänsyn till risk att trötta ut varumärke. Varierade kontext men med en underliggande gemensam faktor (politik) är enklare. Likväl tror jag nivån på konceptet här är lagom och genomtänkt. Det ska ju också under pågående nyhetshändelse där kontext är det samma gå att höja nivån fortsatt. "Uttröttning" där är ej linjär utan ligger precis som intresset för hela nyhetshändelsen närmare en exponentiell fördelning.


Procent-satsen jag spontant utan att tänka efter skrev är fascinerande (men ej vad som ska tas allvarligt). Jag skrev den spontant utan att gjort rationell bedömning enligt system för det manuellt. Ej heller utnyttjat automatiserade verktyg. Men nyhetshändelsen kändes när jag skrev ligga där ungefär och jag är inte helt på det klara med vad som föranledde mig att uppleva det. Jag har emellertid följt ett gigantiskt stort antal nyhetshändelser nog för att reflektera ev. nya ledtrådar till detekterbara mönster perceptionens närmare hur mönsterigenkänning i artificiella neuron-grid'ar implementeras i bl.a. bildanalys. Kanske något perception tros sig se föranledande slutsats tillsammans med inlärda värde-associationer och sannolikhet i delar av frontala cortex? Samtidigt finns mängder av välkänt vanliga liknande igenkänningar som är fullständigt irrationella (bl.a. relaterat hudfärg hos många med felaktiga associationer och sannolikheter möte oavsett vilket kontext det sker i). Likväl kanske tiden - om det är dimension perception reagerar i: upparbetad intensitet kan vara troligare - visar sig stämma tills nyhetshändelsen konvergerat inarbetad verklighet för år som kommer.

Riktad sampling Blogger för ökad tillförlitlighet (och pågående unikt problematiskt internet från min accesspunkt)

2014-04-21

Jag har just nu - och begående ovanligt många timmar - stora problem med många webbplatser åtminstone i USA (men har ej prövat något större antal svenska) med återkommande time-out:s. Också inkluderande Blogger om än mindre. I särklass de värsta problem jag någonsin haft med en bredbanstjänst från TeliaSonera såväl som f.d. Telia-företag eller tjänste-leverantörer åtminstone förr förekommande som i princip utnyttjade Telias nät. Vidare har jag haft problem med Google Chrome kraschat (vilket aldrig hänt tidigare). D.v.s. möjligen (även om jag lutar åt att det nog är det normala helg) är det inte para "Påsk-problem": fler surfande film, färre som startar om nätverksutrustning ytab rujtat abgreoo manipulerande datatrafik in.


Sampling feeds från Blogger är dock kanon-snabbt just nu i alla fall och bättre än vad normalt förväntat från strömmar i allmänhet:



Timmar, minut och sekund för resp. feed hämtad ovanför övrig utskrift. Och givetvis: Uppenbar spider-optimering framgående i bilden genom att sampla strömmen snarare än inlägg placerades där uteslutande för att ge läsarna ett undervisande exempel för att anknytna prestanda rent allmänt. I icke-kausal mening finns logik för att hantera det resp. i kausal-mening lär det tillkomma någon gång framöver.

Och för att komplettera:


"Praktiskt gäller tveklöst att ju fler strömmar hos dessa desto snabbare att polla igenom allt. Konkret märkbart - tydligt - snabbare än vad jag märkt allt förekommande nog i antal för att man ska märka det. Från denna aspekt är ex. blogg på Blogger trevligare än Wordpress (men säger givetvis inget om värde indexering eller som statistiskt mätpunkt varför de lika självklart pollas precis som Blogger)."

Från: Google: Feedburner, Youtube och Feedproxy (2014-04-21)


Åtminstone reflekterar jag ev. värde att ge i den mån det i omfång gör skillnad (där jag sökt strömmar bloggar via spider för närvarande har jag antingen sökt bloggar på edu-domäner underliggande alt. med utgångspunkt från sajter motsvarande d.v.s. mängd är inte sådan att man rimligen prioriterar annat än att inkludera allt) prioritera Blogger. Vi kan när just indexering och adresserbarhet i datalager se ett värde av att ha en data-punkt med hög tillförlitlighet prioriterat istället skattning av dimensioner associerade koncept oavsett om själva inläggen behålls eller inte.


Det har för denna paketering av data värde att för punkter mer intensivt publicerande per tidsenhet (och vi önskar dessa såväl som övriga samplade något så när jämförbart relativt övriga dag för dag utan väsentligt mer eller mindre eftersom det kan snedvrida sammantaget ganska tydligt för mer över all tid mer ovanliga kocnept och enklast hanteras det direkt sampling snarare än filtrering import) försöka sampla konntinuerligt eftersom feeds tenderar att ofta vara begränsade i antal inlägg.


Exakt varför Blogger rörande strömmarna tycks visa hög tillförlighet vet jag inte men jag håller det för troligt att det har att göra med en kombination av:


  • Content delivery network: data levererat via snabba vägar och cache av data lokalt hos operatörer (TeliaSonera är dock upplever jag mycket välfungerande i sig här och tror mig minnas att man använder Squid.
  • Datacenter geografiskt nära både "prestanda-distans" internet och geografiskt (d.v.s. tänkbart Sverige förutom tidigare uppmärksamade investeringar av Google i server-hallar Finland - Sveriges friska natur hoppade för att rädda finska energiindustrin från internationellt sammanbrott (2013-07-19) och längre bak kanske 2009 - 2010 - skapande energibesparing av naturlig vinterkyla.

Och en domän för alla att översätta till IP över route. D.v.s. om det nu är DNS som har problem (ganska vanligt rent naturligt och ibland nedskjutna för att möjliggöra DNS-spoofing) räcker färre korrekta försök (eller spoofade översättningar ex. för att försöka ta inloggnings-information till Google's samlade inloggning) för att IP översättning ska hålla refresh i bl.a. Telias lokala "tabeller" och fortsatt så över vägen.