Data hoarders med garage diskar huvudvärk för NSA

2016-10-08

Påfyllning i ett corpus av en typ. Förvisso en av de större men inte längre att web corpus avviker lika abnormt längre mot andra större naturliga att använda om ej specifikt intresserade av just webben (ex. PDF-artiklar uppsamlade journal-hus m.m.). 102 TB november 2013 [Mindre internet 2013...]:


"We are very please to announce that new crawl data is now available! The data was collected in 2013, contains approximately 2 billion web pages and is 102TB in size (uncompressed)."

Från: commoncrawl.org/2013/11/new-crawl-data-available

I kontrast spekuleras att en inhyrd resurs till NSA (NSA: En organisation i verksamhet av data mining och som många menar gärna tar abnormt stora corpus kontinuerligt. Är du ej intresserad av just det faller vad dom ner till riktade sökningar i datat gjorda eller summeringar i rapporter uttryckande föga av den flexibilitet och möjlighet tillgång till data för egen analys innebär).


Expertis i medan förklarar att han ska ha haft flera tera-byte samlade i sitt garage: "had tera-bytes of data" citerande något dokument (spekulativt införskaffat genom att besöka någon human desk-keeper):



I får vi anta något irrationellt alternativ till att sitta och vänta på några power points släppta av Snowden med uppgifter (utanför i alla fall tappning call-detail-records och ev. mer i telefon inrikes USA) så vitt jag såg mer eller mindre i det strukturella redan tillgängligt från amerikanska myndigheter publicerat normalt (resp. i några fall krävande komplettering genom att kontrollera uppgifterna givna i publicering när tjänster och hårdvara ska köpas in - det tunga som indikationer "gränszoner" internationellt nät tror jag gavs tämligen tydligt i en uppgift här börjande för evigheter sedan om än tror jag inte riktigt för första jag sett före 2000 - den första unikt för dessa vad jag lade märkte till nära i tiden kanske ett år efter publicerad övriga sökte jag rätt på samlat för research något ett antal år sedan till tror jag en artikel IDG:s dåvarande tidning Säkerhet & Sekretess). Hur är det man brukar säga: Har inte någon suttit först och power-point:at upp det såväl enkelt men ändå trovärdigt tekniskt, och därefter arrangerat en liten skattjakt med en massa spännande efectos especiales så blir det inte läst oavsett om nu egentligen ingen tung data mining krävs.


Och igen... kommer den olämpligt datahanterande (havande ej försökt kontrollera om några konkreta uppgifter om att närmare till i bevis rapporterat datat vidare ännu finns: Men det kanske kommer - Själv ställer jag mig fortfarande om till för Snowden uppgifterna om att levt med flyktingar i Hong Kong eller var det var kontra att samma dagar promenerat in på fastlandet till kinesiska låt oss kalla det internet-spioneriet eller cyber warfare centraliteten) från Booz Allen Hamilton ser jag:



Precis som jag vill minnas att jag föreslog lika troligt skulle komma igen därifrån lite som toppen ovanför andra resurser och kanske mer än så givet den riktigt låga ribban rörande all form av intern-säkerhet som framgick i och runt om Snowden-"eventen" eller vad man nu riktigare kallar det hela: Power-point:en kanske man kan kalla Sverige Wikipedia jämfört med Engelska Wikipedia jfr att göra sig besvär att bara söka allt myndigheterna själva publicerat över åren antingen via en antagligen tämligen tidsödande manuell insats på några månader även om massor ganska spännande - Snowden-nivå av och till no doubt - säkert hittas tidigt eller direkt - eller göra sig besvär att söka intelligent med mjukvara -


En del tämligen - och uppåt från det - seniora f.d. medarbetare arbetande där också. Men jag kan inte föreställa mig annat än att FBI betraktar frågor sådant kan väcka kontinuerligt och kanske fortsatt godtyckligt länge sedan om ej tidigare Snowden.