Att hantera underliga datum i RSS-strömmar just nu och förberedande inför en mer korrekt framtid

2014-05-08

I fortsättning på tidigare publicerat kring spindling efter RSS-strömmar resp. initial inhämtning data där övriga publicerade innan de fyra föregående kan hittas i dessa:



En ganska vanlig idé är att vår tid är begränsad därför att vi föds och dör och att det är viktigt att hinna med väldigt många. Andra menar att det kanske oftare leder till höga kortison (kortison hellre än kortison kan passa bättre givet den medicinska kopplingen oavsett biologiskt snarare än syntetiskt ursprung) med förtidig död och försämrad livskvalitet som resultat.


Lösningen på problemområdet kan ibland vara (vill jag röeslå) att ta sig an något troligt i framtidens historia lagom gigantiskt men medan det genomförs inte överdrivet stressat (när fungerande idellt medan vi alla vet hur det ofta blir det mesta mänskliga). Vi minns ju från skolans undervisning i historia att nästan vad som helst relativt dagens mått mätt rena trivialiteter kan bli del av obligatorisk kunskap när den anses vara del av en gemensam kulturellt grundförståelse snarare än förhoppningsvis att någon tar den icke-vetenskapliga forskningen i dessa ämnen som att tolka ut och driva teser "vetenskapligt" om vad som skett bakåt i tiden med jämförbara krav jämfört vetenskap (hard science) i ämnen likt kemi, fysisk (utanför den "utsvävande teoretiska" som börjar när försök ej kan avgöra om hypoteserna är korrekta d.v.s. tvingande fram metoder tämligen lika ex. historia: från några saker sekundärt noterade i rest-effekt försöka göra en teori trolig eller ännu bättre utan bias söka en god teori).


Men hur förstår vi när något egentligen inträffade i historien? Befann jag mig där och såg det inträffa har det mycket högre trovärdighet än när resultatet av det inträffade själv försöker göra troligt för mig att det inträffade vid en tidpunkt. Betraktar vi detta (ett ex. från en vid varje tidpunkt aldrig helt ovanlig förekomst) ser vi att det försöker påskina att det inträffade i framtiden trots att det uppenbart är felaktigt:


Thu, 04 Sep 2031 0:00:00 CLT___http://www.goreloslagos.cl/resources/downloads/rss_es.xml___http://www.goreloslagos.cl___Noticias - Gore Los Lagos___www.goreloslagos.cl___en_osorno_se_realiz___la_primera_sesi__n_del_consejo_regional_de_los_lagos _TITLE___HH____En Osorno se realizó la primera sesión del Consejo Regional de Los Lagos___GG____URL_STORY___HH____http://www.goreloslagos.cl/sala_prensa/noticias_det/690___GG____DESC___HH____A la cita asistió el subsecretario de Desarrollo Regional, que recogió las sugerencias realizadas por el Consejo Regional.___GG____PUBDATE___HH____Thu, 04 Sep 2031 0:00:00

Det är förövrigt det mest extrema fallet av en serie underliga tidsförskjutningar från samma entitet vilka i ett "stickprov" från de första 900 000 av antagligen cirka 40 - 50 miljoner RSS-strömmar där övriga tänkbart kan innehålla några "senare inträffade" publicerringar.


Men som sagt är det inte helt ovanligt även om det är mycket mer "normalt" att saker inträffar några månader in i framtiden.


Samtidigt gäller åtminstone i min import där jag står just nu (framtida importer hanterar givetvis en del av detta i den mån kontroll om någon månad indikerar det meningsfullt att addera parallella lookup-dimensioner för att göra möjligt att kontrollera) kan inte avgöra om inlägg publicerade ex 2014 fram till idag egentligen publicerades säg 2000 till 2013 men satte datum felaktigt.


Och också om jag filtrerar bort uppenbart rimligt orimliga datum tillåter jag förnärvarande år ganska långt bak i tiden innan RSS var vanligt eller ens förekom. Orsaken är att jag upplevde mig minnas att ett par stora entiteter översatt publicering via annan kanal till RSS med samma aktuella datum och önskar följa upp det när i databas innan ev. radering om ej så eller problemområdet i övrigt tycks betydelsefullt (troligen är det för aktuella år säg från 1999 till cirka 2004 försumbart även om API varken för dem eller ett antal år i framtiden tillåter användning exponerat annat än totalt "dumt" tidsoberoende tillstånd).


Några exempel på år från de första 900 000 som ej tilläts utan gick i filter. Ett ganska uttjatat begrepp i och med betydelsen sociala media när de kan översättas till entitet har för påverkan sökmotorer är domäntrust. Men möjligen givet negativa stereotyper kring "universitet i solen" m.m. kan vi kanske (och kanske vad som när mer import är gjord visar sig varken mer eller mindre korrekt än för andra universitet) tänka oss att detta var mer förväntat för University of Hawaii än för (också universitet i solen faktiskt) Stanford (men IT-iinovativ-marknadsförda Palo Alto vilket tänkbart balanserar sol-slappa stereotyper) eller Harvard närmare den regniga östkusten.


Wed, 01 Jan 1964 00:00:00 GMT___http://scholarspace.manoa.hawaii.edu/feed/rss_2.0/site___http://scholarspace.manoa.hawaii.edu:80___ScholarSpace at University of Hawaii at Manoa___hdl.handle.net___pa1_013 _TITLE___HH____PA1-013___GG____URL_STORY___HH____http://hdl.handle.net/10125/32782___GG____DESC___HH____Box of 942 index cards of plant and animal names, labeled "Marshalls." Given in indigenous languages, English, and Latin. Digital versions provided as tiff, jpg, pdf.___GG____PUBDATE___HH____Wed, 01 Jan 1964 00:00:00 GMT___GG____URL_COMMENT___HH____

"ScholarSpace is an open-access, digital institutional repository for the University of Hawaii at Manoa community. ScholarSpace stores the intellectual works and unique collections of the UH at Manoa academic community and also provides a permanent web location for those accessing these resources. Click here for more information."

http://scholarspace.manoa.hawaii.edu/



Och vi noterar vid manuell-kontroll att aktuell datasamling vid University of Hawaii kan argumenteras handha datum fullt korrekt. Och ett utmärkt (men ej planerat) exempel på entiteter jag ade för mig lade ut väsentligt data med datum i RSS satta utifrån när publicerat förr och ej när publicerat i RSS:


Från: http://scholarspace.manoa.hawaii.edu/handle/10125/32782?show=full

Öar och jämförbart geografiskt i resurser och infrastruktur begränsade entiteter med få möjligheter att ta stabilitet av ett större land är vad jag riktat låtit spindel söka RSS strömmar från publikationer associerade till. De är intressanta att se till att man får med eftersom de av och till kan bli mer flexibla i vad man tillåter för att säkerställa typiskt ekonomiskt stabilitet.


Därav att vi har försvarlig mängd tjänsteleverantör inom "utökad" banksekretess lokaliserade i dessa regioner. Och i all accounting särsklt när ränta ska beräknas eller när AI intelligenser söker transkationer i Swift efter handel med länder under bojkott eller relaterat terrorism (resp. än mer kritiska vid inloggning mot deras nätlösningar) är tidsstämplarna viktiga.


Men knappast verksamhetskritiska i RSS för publicister i regionerna. Jag inaser förövrigt att jag tog fel på ursprunget och att detta nog inte är den "ö-nation" jag fick för mig var aktuell men exemplet kan ha värde ändå om inte annat för att visa upp höjden på min kvalitetskontroll och hur jag vanligen inte irrationellt döljer mina fel för läsaren (det är ju viktigt när ungdomar och yngre vuxna kan tänkas läsa vad man skriver som på nätet att ej glömma att man är ett föredöme - dessutom på plus-sidan sparar jag in tid på att ta bort redan skrivet). Hur som helst är ev. problem snarare än hälsa runt det mentala diskuterade möjligen Alzheimers sjukdom eftersom man nu tror sig befinna sig ett antal år bakåt i tiden:


Wed, 31 Dec 1969 19:00:00 -0500___http://www.countyofperth.on.ca/fileBin/news.xml___http://www.perthcounty.ca___Perth County___www.perthcounty.ca___perth_county_ems_hosts_emergency_workers_mental_health_workshop___heroes_are_human _TITLE___HH____Perth County EMS Hosts Emergency Workers Mental Health Workshop - Heroes Are Human___GG____URL_STORY___HH____ http://www.perthcounty.ca/page/news&iArticle= ___GG____DESC___HH____Perth County EMS Hosts Emergency Workers Mental Health Workshop - Heroes Are Human    Share On Twitter___GG____PUBDATE___HH____Wed, 31 Dec 1969 19:00:00 -0500___GG____URL_COMMENT___HH____

"Welcome!
To the County of Perth
A vibrant, rich agricultural community, diverse in its heritage and culture. The County will strive to efficiently and measurably deliver excellent services and work to strengthen the capacity of the local municipalities that Council represents."

http://www.countyofperth.on.ca/



Sista exemplet är del av en försvarlig mängd inlägg i RSS-strömmen alla "publicerade Wed, 31 Dec 1969 19:00:00".


En till aktör med ett filter-belastande stort antal publikationer 1969. Varav det första (givet året och konceptet "love" inte otroligt något hippi-relaterat kanske inkluderande hasch-knark och naken-dans):


Wed, 31 Dec 1969 16:00:00 -0800___http://www.ppt.org/announcements/index.rss___http://www.ppt.org/announcements___Pittsburgh Public Theater - What's New___www.ppt.org___shaw_s_sparkling_comedy _TITLE___HH____Shaw s Sparkling Comedy___GG____URL_STORY___HH____http://www.ppt.org/pages/shaws-sparkling-comedy___GG____DESC___HH____In this sparkling British comedy directed by Ted Pappas, love and marriage are the targets of George Bernard Shaw s celebrated wit.___GG____PUBDATE___HH____Wed, 31 Dec 1969 16:00:00 -0800___GG____URL_COMMENT___HH____

WELCOME
TO THE PUBLIC!
Welcome to Pittsburgh Public Theater, contemporary theater in the heart of downtown Pittsburgh's Cultural District. With our unique three-quarter thrust stage — the audience surrounds the actors on three sides — The Public offers intimate, engaging, professional theater.

http://www.ppt.org/



En till från årtiondet av riktigt dåliga polis-serier på televisionen. Om det är mer förtroende eller inte att en leverantör av mjukvara var med redan på 1970-talet är en fråga jag upplever kognitiv dissonans runt men just här fick jag för mig att det var en anpassning avsedd att köra på ett Windows kanske från Microsoft vilket mest känns underligt:


Thu, 01 Jan 1970 00:00:00 -0500___http://www.Acrocat.com/rss/en/news_rss.xml___http://www.Acrocat.com/bbs___Acrocat Software Announcements___www.Acrocat.com___acrocat_software_releases_pdabs_3_0_18__windows_ma _TITLE___HH____Acrocat Software releases PDAbs 3.0.18 (Windows/Ma___GG____URL_STORY___HH____http://www.Acrocat.com/bbs/forum_posts.asp?TID=665___GG____DESC___HH____Acrocat Software releases PDAbs [Desktop Component] Build 18 (v3.0.18):Enhancements \ Bug FixesEdit dialog was populating incorrectly. (#35)Manage Clients dialog drop down list updated t___GG____PUBDATE___HH____Thu, 01 Jan 1970 00:00:00 -0500___GG____URL_COMMENT___HH___

Här reflekterade jag kort om det kanske fanns mening i hur datum var angivet? Är det tänkbart att dokumentären gjordes januari 1984 (Diktaturen mellan September 11, 1973 till Mars, 1990)) enligt Wikipedia för ett par konkreta händelser):


Thu, 03 Jan 1974 00:00:00 +0000___http://www.journeyman.tv/rss.php?id=1___http://www.journeyman.tv___Journeyman Pictures :: Documentaries RSS___www.journeyman.tv___inside_pinochet_s_prisons _TITLE___HH____Inside Pinochet s Prisons___GG____URL_STORY___HH____ http://www.journeyman.tv/?lid=8946 ___GG____DESC___HH____Inside Pinochet's Prisons - 30' '' - 3 January 1974___GG____PUBDATE___HH____Thu, 03 Jan 1974 00:00:00 +0000___GG____URL_COMMENT___HH__

Hur hanterar vi det i framtidens filter?

D.v.s. publicerat nu men kommande från framtiden. Antingen p.s.s. som inläggen kan eftersökas databas just nu d.v.s. kontrollera om de förekommer med titel och innehåll redan innan tagit vid tidigare tidpunkt.


En tror jag egentligen mer stabil lösning men mer kostsam än jag just nu ser rimlig är att utgå från att något dyker upp i RSS-ström vid tiden ti oavsett om ti är rimlig och innehållet ej noterades i RSS vid tidpunkt ti-k då orimlig ej innebär att innehållet ej publicerades vid någon annan tidpunkt föregripande ti.


En nyhet kan exempelvis publiceras 2014-01-01 men ej komma i RSS oavsett samma entitet eller annan förrän senare kanske 2016-01-01. Att spindla nätet vid sidan om detta - eller utnyttja sekundär tjänst för detta i samband med kontroll av tillförlitlighet av entiteter - är en lösning.


Ett mindre krävande mellansteg är att spindla varje URL ett inlägg i RSS pekar ut. Detta är förövrigt mindre krävande än man kan tänka sig därför att en försvarlig del av värdet hämtande data via RSS medför kommer av att man skjuta på utmaningen att parsa html-sidor godtyckligt gjorda medan nedladdningstid resp. svarstid ej är väsentligt (i min erfarenhet) sämre för html utan tvärtom när ej tjänster motsvarande ex. feedburner.com används är ofta RSS långsammare (vilket är logiskt i perspektiv från publicist). Utökad kostnad inhämtning data detta medför behöver därför inte vara avgörande när det görs samlat vid diskreta tidpunkter kanske ett par, tre dagar eller kanske rent av en vecka i taget medan kostnad kvalitetskontroll är noll under antagande att hemsidor aldrig ändras och varje motsvarande nyhet alltid kommer se ut som en gång publicerad eller också förenlat men fungerande för möjligen tillräckligt antal för att göra lösningen rimlig att samma URL kan ses som indikation (i vilket fall vi egentligen inte behöver spindla men upparbetad historik är ju själva saken här om man vill utöka kontroller: kostnaden att spindla ifatt ett gigantiskt antal inlägg är abnorm vid vilken tidpunkt som helst).


Jag minns förövrigt från många år tillbaka i samband med en inkludering i Google News för en publikation ägd av mig att del av kraven där (och antagligen för RSS-strömmar rörande Google i övrigt ex. bloggsökning) är tillgänglighet i båda kanalerna RSS och vanlig HTML för Google-robotarna.