Snowden-filerna: Att detektera manipulerad information

Antar vi att de flesta (inte alls otroligt alla ännu) filer stämer med som tagna (piratkopierade? spionerade?) från SSA's bygger det givetvis upp stort förtroende över tiden.

Vi kan här leka på antagandet att filer vid någon punkt kan innehålla enskilda delar manipulerade eller ändrade. Kanske endast en rad. Problematiken relaterat att detektera det är intressant bredare och Snowden-filerna kan passa som utgångspunkt för att diskutera det.

En möjlighet här är att om rimlig korrekt finns upparbetad i att ej förneka filer korrekta (åtminstone i meningen att man ej heller bekräftar dem) hos NSA kan det delvis vara funktionellt för att begränsa ev. skadeverkan på godtyckligt företag eller annan aktör.

Under förutsättning att NSA kan spåra publicerade filer till deras motsvarighet hos dem och noterar enskilda manipulationer av data (det tycks troligt).

Om den möjligheten saknas behöver vi först konstatera vår större utmaning i detektionen:

Vi kan ej anta att vi kan verifera fakta givet som korrekt eller inte på rimlig tid (istället kan det ta många år innan det klarar).
Manipulaton av enskild text rörande detaljer (ex. ersättande hypotetiskt och ej troligt något relaterat avlyssning Google's datacenter med något spelkonsol-leverantör Microsoft eller Playstation) kan vi heller inte detektera vi språkmodeller.

Några pdf-filer publicerade av Guardian jag tittade lite närmare på (utan något liknande god vetskap om pdf-formatet) tycks vara skapade av ett antal bildfiler efter varandra. Om så redan i NSA databas (eller ev. om kontorsdatorer om nu Snowden kopierade upp dem från sådana korrigerande problem eller installerade program) är det tror jag bättre här än om skapat mer direkt i relevant program för att göra sådant här genom att test, linjer m.m. då är uttryckt i meta-språk för pdf (om jag försår konceptet rätt).

Ändå för så begränsad manipulation betvivlar jag att det alls detekteras givet att mycket annat varit tycks det genomtänkt i detaljer i mycket kring det här. Det går ju enkelt via gissar jag räcker bra ex. Gump att utmärkt ta bort det som nu märks med lite filter m.m.

Så återstår möjligheter för detektion? Nja. På nivån vi anagit ovan är det nog tror svårt via andra metoder också. Men skillnad finns trots allt ändå mellan vad vi ser och hur något uttrycks. Ju mer "komponent-överskrivande" eller strukturellt det ändras (där det lär bli troligare förändrande om man mer försöker föra in saker och ting eller ändra struktur - d.v.s. manipulativt på störr nivåer och potentiellt farligare i skadeverkan ex. på företag eller liknande) desto ("eventuellt" läggs bäst för jag har aldrig prövat det pdf) blir en till metod möjlig (och möjligt när den är funktionell är övriga metoder vi antog ej möjliga minst lika effektiva samtidiga).

Vi förstår metoden från vad som kanske gör pdf känsligare än mycket annat:

"A PDF file consists primarily of objects, of which there are eight types:[38]
[...]
Objects may be either direct (embedded in another object) or indirect. Indirect objects are numbered with an object number and a generation number. An index table called the xref table gives the byte offset of each indirect object from the start of the file.[39] This design allows for efficient random access to the objects in the file, and also allows for small changes to be made without rewriting the entire file (incremental update). Beginning with PDF version 1.5, indirect objects may also be located in special streams known as object streams. This technique reduces the size of files that have large numbers of small indirect objects and is especially useful for Tagged PDF."

Från: PDF | Wikipedia

D.v.s. tänkbart kan vi etablera språkmodell ej för innehållet utan själva språket dokumentet uttrycks med. Där distansiering över tiden med relativt små-förändringar i klientprogram, personliga preferens hos användare m.m. kan bli märkbart.

Kan det hindras att detekteras genom medvetenhet om detta? Kanske. Det beror nog på hur mycket data Snowden egentligen har. Jag misstänker nog att PDF-filerna inte innehåller genomgående särskilt komplett information hur konfiguration sett ut ev. inverkande här (även om det nog kan förenklas till ett fåtal enkla grupper möjligt) medan jag mer tydligt kan tänka mig att corpus för användare nog här saknas.

Det räcker inte för att bevisa något men kanske kan ge en och annan out-lier via en kompletternade metod om jämförelse corpus kan påvisas personer. Detta är en helt annan fråga där en del alternativa lösningar kan existera men ligger utanför vad möjöigt att få med här vettigt begränsat och meningsfullt vad jag vet om representativt.

Artikel nedan från The Royal Society's journal Proceedings of the Royal Society B (B är mer hard-science och matematik närmare ingenjörs-tillämpning och A biologi och neuro science, bioinformation m.m.) ger illustration hur detektion meta-språk fungerar:

"Many prehistoric societies have left a wealth of inscribed symbols for which the meanings are lost. For example, the Picts, a Scottish, Iron Age culture, left a few hundred stones expertly carved with highly stylized petroglyph symbols. Although the symbol scripts are assumed to convey information, owing to the short (one to three symbols), small (less than 1000 symbols) and often fragmented nature of many symbol sets, it has been impossible to conclude whether they represent forms of written language."

"This paper reports on a two-parameter decision-tree technique that distinguishes between the different character sets of human communication systems when sample sizes are small, thus enabling the type of communication expressed by these small symbol corpuses to be determined. Using the technique on the Pictish symbols established that it is unlikely that they are random or sematographic (heraldic) characters, but that they exhibit the characteristics of written languages."

Från: Pictish symbols revealed as a written language through application of Shannon entropy
Rob Lee1, Philip Jonathan och Pauline Ziman,
Mars 2010 doi: 10.1098/rspa.2010.0041
Proc. R. Soc. A rspa20100041

Pressmeddelande: Unlocking the mysteries of the Picts | The Royal Society

Specifika algoritmer i artikel för bildspråk är dock något för förenklade här där från det mer begränsade jag sett för PDF-filerna istället graf-relaterade informationsmått (Entropy and Graphs, Seyed Saeed Changiz Rezaei (University of Waterloo, Kanada), 2013 är en diskussion men flera mått relaterat graf-entropier finns flera är nog vad som normalt oavsett tillämpning man prövar praktiskt hellre än att försenare för mycket kring resp. teori- se kompletterande att globala distributioner finns såväl som lokala ev- uttryckt i flera dimensioner per användare, miljö, tidpunkt, organisation i IT-mening fil passerade relaterat i samband med skapad och presenterad) är aktuella (PDF gör åtminstone för delar jag såg i standarder och från data extraherad från ett apr test-filer Snowden just vad som skapar vad vi kan se som graf inkl. vad vi programmatiskt kan se som rekursiva förhållanden - men mindre av det senare i aktuella filer vilket dock kan vara relaterat angvet sist här).

Motsvarande en värld där vi definierar meningsfullt språk som nivå med hur näraliggande "vanligt" som förväntad för skapare A, på plattform B, för event C där filen tas och sparas om för gemensam presentation (exempelvis) o.s.v.

Flera exempel på bildspråket finns i Wikipedia Pictish stones (artikel refererad längre upp har endast en bild).

Meningsfullhet i att koncept går igen med liknande betydelse är möjligt. Samband kan också tänkas uppstå från att de förekommer tillsammans meningsfullt utan att vara riktigt språk som vi oftare kanske tänker oss det nu.

Något jag minns mig uppleva när jag tittade på ett antal bilder av stenar i samband med att läste artikeln var kontrakts-liknande övrrenskommelser relaterade mark, giftemål, bokskap m.m. Att hugga det i sten ger det ju väldokumenterat och trovärdigt en tid i alla fall. Passande storbönder när de gifter sig samman med en näraliggande för tiden kraftfull aktör med många djur, betesmarker, gårdsfolk inkl. vapen till dem kanske mycket tiotal eller rent av hundra st även om det spontant utan att veta mycket alls om kulturen låter ovanligt stort under normala tider).

Där får vi ju statistiskt återkommande mönster meningsfulla med viss kontext runt stnen (kontrakt rörande giftemål ex.) men utan riktigt ren återkommande betydelse. Att storbonde eller motsvarande uttrycker relativ storlek till häst. Och ev. kontrakts-relaterat djur uttrycks relaterat det med djur eller jämförbart (jag minns ej exakt hur det brukade se ut).

Från den tanken kanske vi överst har et avtal relaterat jaktmark eller jämförbart.

Ett av många tänkbara ex. där dom statistiska relationerna ger mönster av språk men utan att vi enkelt förstår språket utan att veta en del av två kkonkurrerande storbönders historia några år tillbaka och giftmålet man önskade ha detaljerna huggna i sten kring rörande betesmarker o.s.v.

Relaterat

Intrusion detection: Snowden-sensorer

PDF-begränsning

Att understryka: PDF från sajt Guardian refererar är med säkerhet ändrade efter NSA och antagligen just relaterat denna. Vad av ursprunlgit data som kvarstår oföänrdrat för de få jag tittat på är inte helt trivialt att veta. Men en möjlighet att förutom webb-program för att hantera pdf'er där är det samma. Datum för event tycks stämma med geo och händelse konret visad som jag såg som möjligt stämmande med en presentation för data identifierad genom att med hjälp av Google.com's sökoperator site:gov sökande diverse sidor i och runt aktuella datum. Så möjligen stämmer det. Samtidigt är datum relaterat webb-api-pdf-grunkan för uardian's lagringstjänst också angiven relaterat den. Men det kan nog om alls riktigt variera "binärt" mellan filerna.

Möjligt gör samma mjukvara (ganska standardartad sådan och taggad i filerna så det går antagligen att kontrollera) filerna optimerade för snabbare nedladdning samtidigt som information från nod-relationerna vi här önskar analysera reduceras.