PDF: Säkerhetsrisk att angripare systematiskt analyserande stora mängder dokument

En av de funktioner jag i särsklass haft störst nytta av från funktioner Google adderat genom åren till sökresultaten är quick view för PDF (och önskvärt vore det samma för PS: givet mängden bildformat webbläsarna klarar och nästan sedan starten divergensen från html-konceptets idé om att ej ha absoluta avstånd o.s.v. och att det är det basala skrivar-språket d.v.s. jag betvivlar licens-problem eller svårighet tolka - förstår jag inte problemet).

För mig nyligen försvann funktionen. Även om jag inte ska utesluta att det är inställnings-relaterat (inte heller har jag kontrollerat om det fortfarande är funktionellt ex. via Google Docs d.v.s. access Google cache av PDF-filen snarare än originalet) var den första associationen jag nu håller som mindre trolig att det var relaterat att funktionen ofta är funktionell för att nå filer man ej direkt har access till. Förklaringen vad jag kommer ihåg utan undantag (surfande dock regelmässigt journal-artiklar när det handlar om PDF) är:

Åtminstone för flera journal-hus att de vill ha bättre indexering av PDF-filerna och gör Google full access.
De stänger ej av cache av dessa eller generellt. Anmärkningsvärt möjligen indikerande ett pedagogiskt eller tekniskt problem med någon plattform hos publicist eller Google är att åtminstone ett större journal-hus har cache avstängt html men ej på PDF (ev. på annan subdomän mer för html inkluderande där särskilt sammanfattningar med väldigt långt historiskt kontext bakåt), och samma ger ej access via cache på flera domäner men åtminstone för de mer arkiv-liknande subdomänerna inkl. pdf finns den.
D.v.s. oavsett betallösning journal-huset tänker sig kan vi för fallet när PDF-filen existerar i cache åtminstone i meningen att den går att nå där via quick-view (om detta avviker i övrigt för cache vet jag inte).

Regelmässigt när vi når login-ruta hos journal är det ju vettigt att söka Google på titeln. Inte ovanligt har ex. universitet rätt att publicera artikeln i dess helhet och vi kan läsa den. Görande detta får vi också normalt upp sökträff journalen och kan där notera möjligheten, och beroende på moralisk-tolkning (jag tolkar detta som att de vanligen gjort detta helt medvetet för att relativt annat on-site ganska taffligt försök att få mer trafik och därmed accepterar läsare via denna kanal varande färre än vad de tror ska generera försäljningsaffärer via mer allmän söktrafik).

Emellertid såvida inte något varit direkt fel hos Google betvivlar jag nu förklaringen. För Google att direkt engagera sig i sådana fel-beslut (när det ev. är det) är ju små-dumt. Det gör det otydligt var deras ansvar börjar och slutar samtidigt som givet tämligen konservativt föränderliga idéer och lösningar med sällan något radikalt nytt (jfr de sista större för många år sedan med sitemap's via XML, och API-leverans, resp. Google:s administrationstjänst hos dom för det och andra enklare inställningar).

Så vad är förklaringen? Jag har också nyligen uppmärksammat att andra aktörer också skurit återpublicering PDF. Vi kan se relationer till dom samarbetsgrupper för informationssäkerhet inkluderande särskilt större företag med behov och bredare påverkan, myndigheter och inte sällan leverantörer som normalt inte bidragit särskilt konstruktivt alls i problemlösning (d.v.s. jag avser antivirusföretagen) som etablerades för ett antal år sedan under Bush II period vid makten.

Vilket problem kan vi ha i PDF som skulle föranleda detta? Säkerhetsdefekter öppnande upp läsarens dator betvivlar jag lätt här eftersom det normalt bör vara en uppdateringsfråga snarare än publicist-fråga.

Däremot om PDF på skapande sidan - antingen som troligast den som ursprungligen skapat dokument men ev. också den som återpublicerar - adderar information som inte förväntas eller förstås ska finnas där kan det innebära problem krävande sådant här. Ex. om filerna kan innehålla "pdf-lokala" lösenord möjliga att extrahera direkt eller indirekt (ex. indirekt svaga-hash för bruteforce-angrepp) inkluderas inser vi att om användarna återanvänder dem kan problemet vara enormt. Många aktörer här är ju ex. myndigheter m.m. Mycket annat liknande är också tänkbart och då jag inte kan något om formatet mer än att jag noterat att dess iso-ofta feltolkas regelmässigt vid kopiering ex. från Google quickview till dokument i Google Docs kan jag ingenting om det.

Inte heller har jag kontrollerat vad som kan ha publicerats. Mitt perspektiv på sådant här är att problematiken ej är associerat ett dokument-format eller tjänst utan allt publicerat sker denna mining på regelmässigt av olika aktörer. För återpublicerande aktörer att ta bort filerna kan vara mer relaterad att de inte ska riskeraa publicera vägar in att angripa ursprungligt publicerande trots att de kanske själva korrigerat problemet.