Tidigare exempel extraktion metadata resp. diskussion möjligheter analys kompletteras här med en första version av ett enkelt liten program (själva basfunktionerna var för sig tog cirka fyra timmar att skriva men mer samlat till praktiskt funktionellt kontinuerligt nedladdande och analyserande) för analys pdf-dokument, omvandling till text, och sammanförande med meta-data i separerade databaser (ex. OID).
Tidigare i ämnet:
- Metadata i bilder: Mer omfångsrik extraktion (med själva programmet)
- Snowden-filerna: Att detektera manipulerad information
- Intrusion detection: Snowden-sensorer resp. tools of the trade för sociala media konflikter och Wikipedia-krigföring
- Nyhetsanalys: Sunt förnuft när det gäller bildanalysen
Exempel: WWW
Referenser till webb-sidor är säkert ett mer naturligt hemvant exempel på "anslutningar" från dokumentet till aktörer, personer, information m.m. som betraktat över många fler kan säga något mer allmänt om organisationen. Nedan från ADA554030 några st. identifierade:
__FUNCTION_WORKING PDF_TO_TEXT_LOGIC __PDF_FILE_NAME ADA554030.pdf __IN_DIR_GIVEN C:\PTOOLS\SAMPLER\DTIC\PDF\ __PAGES 156 __WWW_CONNECTIONS www.china.org.cn/english/features/dengxiaoping/103389.htm GlobalSecurity.org mearsheimer.uchicago.edu/pdfs/A0034b.pdf www www.cfr.org www.stanleyfoundation.org __EASY_JOURNAL_CONNECTIONS_EX_DOI
I kontext av Google och ranking är egentligen prioritering och utnyttjande av länkar ganska annorlunda (som man oftare ser på deras algoritmer externt även om jag är tämligen säker på att association nära denna mening också är en av många möjligheter kring länkar som utnyttjas förutom koncept-beskrivning ankartext, prioritering spindling, page ranking, implicit association mellan koncept på resp. sida om länken såväl som kanske statistisk-modeller med något av flera alternativ liknande Bayesian yin yang för ett implicit samspel effektivt skattat och förr ev. en del nu övergivet för annat som förståelse av association mellan felskrivningar, begrepp för samma sak inom olika expertområden o.s.v. och vad de avser resp. relevans-kontroll om Google någonsin haft det senare tydligt tidigare än sista åren där jag tror feedback från hur själva sökresultaten fungerar med användaren används idag resp. för expertområden via riktade datakällor - datat i Google Scholar lär väl vara vad som ger många möjligheter med endast lite metadata om journalernas inriktning och författarnas association över tiden till mer övergripande områden).
Vad vi är huvudsaklingen är intresserade av här är ju mindre att säga något om indikerade dokument så mycket som prfererenser och association mellan entiteter och deras delar. Mer Google-liknande-analys är nog mindre vad man kanske valt för denna form av pdf-dokument varande relativt intet-sägande om vi vill analysera mycket snabbt (få, sällan ankartext, ofta presenterade i ex. fotnoter längst ner på sidan medan både den presentationen och fotnoterna är vådligt felområde via omvandling till text - åtminstone för mig även om jag sett att bättre teknik används av en hel del nu bl.a. Google och möjligen vad som bl.a. utvecklades av NSA och tillgängligt enligt Classification of Machine-Printed and Handwritten Text for Document Images såväl gissar jag teknik ganska väsentligt för stora delar av dokumenten DTIC publicerat vilka ofta är dåliga fotostat-kopier av ex. gamla datautskrifter eller maskinskriven text: själva problemet vi ser tydligare i omvandlingen till text är ju att det visuella lätt feltolkas med ord av avbrytna av och till i särskilt visuellt intensiva delar som huvudrubrik, författare m.m. positionerat kreativt fritt över en sida).
Exempel: Versionshistorik
Samtliga pdf-moduler jag prövade är ofullständiga i förmåga att identifiera åtminstone här konkret intressant information. Även om jag inte prövats Adobe's stöd misstänker jag lätt att det är väsentligt mer fullständigt men också riktigt dyrare i beräkningskostad (XML vara upplevt vackert graf-rätt men är samtidigt vad som tenderar att kosta brutalt i minne och cpu antingen på begränsad hårdvara eller när vi trådar upp flera processer och där kollisioner mellan processer som oväntat samtidigt åker på något överdrivet stort och komplext XML-träd kan bli svårt problematiskt om man försökt utnyttja hårdvaran närmare dess övre gräns).
Ett bra exempel är att historiken över hur pdf-dokument ADA554030 (att referera dokument med ID känns mycket rätt här) utvecklats steg för steg inte alls kommer med:
<xmpMM:History> <rdf:Seq> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:62851626731AE011A09ECC9ACC76B452" stEvt:when="2011-01-07T15:00:21-06:00" stEvt:softwareAgent="Adobe Photoshop CS4 Windows" stEvt:changed="/"/> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:EED3050E561EE0119927C84E9CB8197E" stEvt:when="2011-01-12T08:12:57-06:00" stEvt:softwareAgent="Adobe Photoshop CS4 Windows" stEvt:changed="/"/> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:11BA444CC627E0119987A6F9DFDA4467" stEvt:when="2011-01-24T15:54:48-06:00" stEvt:softwareAgent="Adobe Photoshop CS4 Windows" stEvt:changed="/"/> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:09357E023B64E011895EA90A7558D10D" stEvt:when="2011-04-11T12:57:22-05:00" stEvt:softwareAgent="Adobe Photoshop CS4 Windows" stEvt:changed="/"/> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:0A357E023B64E011895EA90A7558D10D" stEvt:when="2011-04-11T12:57:22-05:00" stEvt:softwareAgent="Adobe Photoshop CS4 Windows" stEvt:changed="/"/> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:0EB62AC83565E011990DE0CB345F06A5" stEvt:when="2011-04-12T14:34:21-05:00" stEvt:softwareAgent="Adobe Photoshop CS4 Windows" stEvt:changed="/"/> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:FF5769E5CE65E011B575D54F7DC87B53" stEvt:when="2011-04-13T08:06:50-05:00" stEvt:softwareAgent="Adobe Photoshop CS4 Windows" stEvt:changed="/"/> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:005869E5CE65E011B575D54F7DC87B53" stEvt:when="2011-04-13T08:08:32-05:00" stEvt:softwareAgent="Adobe Photoshop CS4 Windows" stEvt:changed="/"/> </rdf:Seq> </xmpMM:History>
Ett till exempel där närmiljö i integration andra format framgår (och som vi ska se därefter ganska brett samarbetande olika former av media-komponenter):
<xmpMM:History> <rdf:Seq> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:F77F117407206811871FB2ED4E37AE08" stEvt:when="2011-01-14T12:11:33-05:00" stEvt:softwareAgent="Adobe Illustrator CS5" stEvt:changed="/"/> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:01801174072068118C14E72FBDC50C68" stEvt:when="2011-06-28T14:07:30-04:00" stEvt:softwareAgent="Adobe Illustrator CS5" stEvt:changed="/"/> <rdf:li stEvt:action="converted" stEvt:parameters="from application/postscript to application/vnd.adobe.illustrator"/> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:F77F1174072068118083E0155A4A0A32" stEvt:when="2011-06-28T14:13-04:00" stEvt:softwareAgent="Adobe Illustrator CS5" stEvt:changed="/"/> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:351C424C262068118F62BE1AEC87ECB3" stEvt:when="2011-08-24T15:36:22-05:00" stEvt:softwareAgent="Adobe Photoshop CS5 Macintosh" stEvt:changed="/"/> <rdf:li stEvt:action="converted" stEvt:parameters="from image/tiff to application/vnd.adobe.photoshop"/> <rdf:li stEvt:action="derived" stEvt:parameters="converted from image/tiff to application/vnd.adobe.photoshop"/> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:361C424C262068118F62BE1AEC87ECB3" stEvt:when="2011-08-24T15:36:22-05:00" stEvt:softwareAgent="Adobe Photoshop CS5 Macintosh" stEvt:changed="/"/> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:371C424C262068118F62BE1AEC87ECB3" stEvt:when="2011-08-24T15:36:35-05:00" stEvt:softwareAgent="Adobe Photoshop CS5 Macintosh" stEvt:changed="/"/> <rdf:li stEvt:action="converted" stEvt:parameters="from application/vnd.adobe.photoshop to image/tiff"/> <rdf:li stEvt:action="derived" stEvt:parameters="converted from application/vnd.adobe.photoshop to image/tiff"/> <rdf:li stEvt:action="saved" stEvt:instanceID="xmp.iid:381C424C262068118F62BE1AEC87ECB3" stEvt:when="2011-08-24T15:36:35-05:00" stEvt:softwareAgent="Adobe Photoshop CS5 Macintosh" stEvt:changed="/"/> </rdf:Seq> </xmpMM:History>
Exempel: Integration mjukvara - Kultur och säkerhet
En mer uppenbar fråga kring risk och värde att stämpla dokument med de programvaror som används är att det kan indikera trovärdigt vad som används fortfarande vid en tidpunkt längre fram också om så långt indikerat tidigare säkra. D.v.s. berätta hur organisationen tänkbart kan angripas.
Navigating complex buildings: cognition, neuroscience and architectural design (University College of London, bok-kapitel, Dalton) - vilket dessutom är en till Riktad information - Navigation: Förstärkt i spatiell organisation excellent komplettering både ganska praktiskt men med visst djup och referenser vidare - ger ett lättsamt exempel på båda om vi nu väljer att tro Microsoft Word som mer säkerhetsdefekt trolig resp. att Macintosh nog ibland är ett kulturellt val oavsett om preferens inom tekniksegment (en del applikationer inom moving pictures för att skapa om jag minns rätt) eller att något uttrycks fullt mindre av conformity ej onödigt komplext i konfiguration känns bättre om man arbetar kreativt ganska ointressad av annan bredare vanliga kontorsapplikationer.
__FUNCTION_WORKING METADATA_LOGIC __PDF_FILE_NAME navigating_complex_buildings.pdf __IN_DIR_GIVEN c:\PTOOLS\PDF\pmid\ __METADATA_FIELD ModDate D:20100602114653-04'00' __METADATA_FIELD CreationDate D:20100529222217+01'00' __METADATA_FIELD Producer Mac OS X 10.4.11 Quartz PDFContext __METADATA_FIELD Creator Word __METADATA_FIELD Author Ruth __METADATA_FIELD Title Microsoft Word - Dalton_Spiers_Hoelscher.rtf __DOCUMENT_ID_UID_CONNECTIONS
Och så en till kulturella preferenser (även om jag inte alls betvivlar att tex, post-script m.m. har en försvarlig mängd ej dokumenterande säkerhetsdefekter bara i befintlig kod: komplicerade standarder med komplex parsning). Latex är fortfarande idag stort i delar av forskningsvärlden (mer så i de mer tillämpade delarna inom data och fysik snarare än ex. forskning inom medicinsk eller kemi).
__FUNCTION_WORKING METADATA_LOGIC __PDF_FILE_NAME hanford.pdf __IN_DIR_GIVEN c:\PTOOLS\PDF\pmid\ __METADATA_FIELD ModDate D:20111121131055-05'00' __METADATA_FIELD CreationDate D:20111121131055-05'00' __METADATA_FIELD Producer MiKTeX pdfTeX-1.40.11 __METADATA_FIELD Creator TeX __DOCUMENT_ID_UID_CONNECTIONS __XMP_META_DATA_HH_EXTRACTION __START __XMP_META_DATA_HH_EXTRACTION __END
Vidare besläktat meda båda föregående exempel på vad vi kan se kan det ge indikationer om preferens open source (mjukvara snarare än metadata promiskiöst delat för andras analys) liksom benägenhet eller möjlighet att budgetera inköp mer front-end nya koncept (längre fram indikeras nog mindre inressant här när något är vanligt: vad vi syftar är mer webb-baserade lösningar i dokumenthantering, sökning m.m.).
Exempel: ID för media-komponenter och dokument
Förutom WWW-kopplingar valde jag att ta ut PMID (National institutes of healths ID för journal-artiklar i deras för forskningsområdet helt dominerande databas med applikationer sökning m.m.) resp. DOI (brett använd namngivning av journalartiklar för betalande aktörer: dx.doi.org kan från DOI namnet föra dig vidare till sidan där artikeln finns. Och slutligen referenser till unika objekt XML-dokumentet i sig gör (d.v.s. potentiellt ett helt för applikationen lokalt kontext om ej hanterat i ett övergripande system för organisationen). Fler finns man kan ta ut med PMID och DOI är mycket stora och inte ointressanta om man för en större samling av dokument ex. vill komma ifrån att i övrigt riktat parsa och analysera referenser och istället behanda det som vilken sida som helst (vilket man nog ofta vill för dokument-samlingar likt DTIC jag tar ner just nu mer totalt där dokumenten kommer från många generationer resp. där referenser filtrerat av och till kan dyka upp i separata dokument):
Nedan några typiska ID för delar av PDF-filen (eller avseende hela den i någon instans):
__FUNCTION_WORKING METADATA_LOGIC __PDF_FILE_NAME a569695.pdf __IN_DIR_GIVEN c:\PTOOLS\PDF\ __METADATA_FIELD ModDate D:20130321040825-04'00' __METADATA_FIELD CreationDate D:20120530205500-04'00' __METADATA_FIELD Producer iText 5.0.4 (c) 1T3XT BVBA __DOCUMENT_ID_UID_CONNECTIONS uuid:b3d384ac-d60e-4945-82e9-8b6e47f48eba uuid:3e6c776a-3058-4aee-856b-2ff7247c779f
Uppenbart ovan är att jag valt att inte ta med något sammanhang alls för dem. Möjlig användning för att söka samband tenderar ju att reducera probelmatik med ovsäentligt och vidare oavsett om vi refererar externt eller om någon refererar oss är det ett samband. Dock om vi vill se djupare i dem när hittade (för association jag bedömer intressantare tror jag övergripande att man når så långt man kan utan annan kunskap alls om dem: jämför med vad likheter i termonologi kan indikea om likhet i kultur eller expertområde mellan entiteter) bör åtminstone själv-refererande för dokumentet särskiljas varför jag också tar med delar av själva XML-koden (när vi vill förstå kopplingar specifikt mellan två entiteter). Känslan jag har att med minde än att man överdrivet tittar på standarden och ändå riskerar att komma fel är praktisk användning för träffar nog utmärkta för att vettigt begipa vad som är helt eller delvis självrefererande (eller praktiskt så avgränsat ex. dator med pgoramvaror) resp. vad som via indikerat XML resp. uttrycket kan vara mer generellt dokument-id format i något sammanhang.
Emellertid för ev. behov finns resp. dokument id eftersom mer basal xml-kod sparas (praktiskt som extraktionen tycks fungera - jag är nu ingen expert på PDF så finns praktiskt prövande kändes tidseffektivt - tas all XML läsbar med medan jag valde bort delvis parsad struktur för att spara håddisk vilket jag från början också hade med temporärt via DATA::DUMPER på objektet för pdf-filen):
<x:xmpmeta x:xmptk="Adobe XMP Core 5.2-c001 63.139439, 2010/09/27-13:37:26 " xmlns:x="adobe:ns:meta/"> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"> <rdf:Description rdf:about="" xmlns:xmp="http://ns.adobe.com/xap/1.0/"> <xmp:ModifyDate>2013-03-21T04:08:25-04:00</xmp:ModifyDate> <xmp:CreateDate>2012-05-30T20:55:00-04:00</xmp:CreateDate> <xmp:MetadataDate>2013-03-21T04:08:25-04:00</xmp:MetadataDate> </rdf:Description> <rdf:Description rdf:about="" xmlns:dc="http://purl.org/dc/elements/1.1/"> <dc:format>application/pdf</dc:format> </rdf:Description> <rdf:Description rdf:about="" xmlns:xmpMM="http://ns.adobe.com/xap/1.0/mm/"> <xmpMM:DocumentID>uuid:b3d384ac-d60e-4945-82e9-8b6e47f48eba</xmpMM:DocumentID> <xmpMM:InstanceID>uuid:3e6c776a-3058-4aee-856b-2ff7247c779f</xmpMM:InstanceID> </rdf:Description> </rdf:RDF> </x:xmpmeta>
En försvarlig mängd av det för moderna kameror, dokumentsystem m.m. typiska formatet för att ge media producerat en unik identifierare. Exemplet nedan från samma som nummer två med versionshistorik tidigare:
__DOCUMENT_ID_UID_CONNECTIONS uuid:5B20892493BFDB11914A8590D31508C8 xmp.did:714C3D9B56AAE011B1AA9CA76A9EC25B xmp.did:724C3D9B56AAE011B1AA9CA76A9EC25B xmp.did:734C3D9B56AAE011B1AA9CA76A9EC25B xmp.did:F77F1174072068118083E0155A4A0A32 xmp.did:FB7F1174072068118083E0155A4A0A32 xmp.iid:006035250D2068118F628C890978B148 xmp.iid:008011740720681197A5820352CD19F2 xmp.iid:016035250D2068118F628C890978B148 xmp.iid:01801174072068118083C809E165E027 xmp.iid:01801174072068118C14E6A624D85812 xmp.iid:01801174072068118C14E72FBDC50C68 xmp.iid:026035250D2068118F628C890978B148 xmp.iid:02801174072068118C14D5EDF20B39EA xmp.iid:03801174072068118C14D5EDF20B39EA xmp.iid:04801174072068118C14D5EDF20B39EA xmp.iid:05801174072068118C14E72FBDC50C68 xmp.iid:321C424C262068118F62BE1AEC87ECB3 xmp.iid:331C424C262068118F62BE1AEC87ECB3 xmp.iid:341C424C262068118F62BE1AEC87ECB3 xmp.iid:351C424C262068118F62BE1AEC87ECB3 xmp.iid:361C424C262068118F62BE1AEC87ECB3 xmp.iid:371C424C262068118F62BE1AEC87ECB3 xmp.iid:381C424C262068118F62BE1AEC87ECB3 xmp.iid:624FA1CF212068118F62BE1AEC87ECB3 xmp.iid:634FA1CF212068118F62BE1AEC87ECB3 xmp.iid:644FA1CF212068118F62BE1AEC87ECB3 xmp.iid:654FA1CF212068118F62BE1AEC87ECB3 xmp.iid:664FA1CF212068118F62BE1AEC87ECB3 xmp.iid:674FA1CF212068118F62BE1AEC87ECB3 xmp.iid:684FA1CF212068118F62BE1AEC87ECB3 xmp.iid:694FA1CF212068118F62BE1AEC87ECB3 xmp.iid:6A4FA1CF212068118F62BE1AEC87ECB3 xmp.iid:6B4FA1CF212068118F62BE1AEC87ECB3 xmp.iid:6C4FA1CF212068118F62BE1AEC87ECB3 xmp.iid:714C3D9B56AAE011B1AA9CA76A9EC25B xmp.iid:724C3D9B56AAE011B1AA9CA76A9EC25B xmp.iid:734C3D9B56AAE011B1AA9CA76A9EC25B xmp.iid:B1D0A6060F2068118F62BE1AEC87ECB3 xmp.iid:B2D0A6060F2068118F62BE1AEC87ECB3 xmp.iid:F77F1174072068118083E0155A4A0A32 xmp.iid:F77F1174072068118083E5C6D079A5EF xmp.iid:F77F117407206811871FB2ED4E37AE08 xmp.iid:F77F117407206811B84094BC3C7FBB8B xmp.iid:F77F117407206811BA4A8DBC7C9B7B1F xmp.iid:F87F117407206811B84094BC3C7FBB8B xmp.iid:F87F117407206811BA4A8DBC7C9B7B1F xmp.iid:F97F117407206811BA4A8DBC7C9B7B1F xmp.iid:FB7F1174072068118083E0155A4A0A32
Vad som gör dessa intressanta rent allmänt (ej analyserat för ex. alls) kan tyckas svårbegripligt men jämför vi med vad vi menade att www-länkarna kunde berätta blir det kanske tydligare. Vi kan se propagering, samarbete, copyright-problematik eller oftare bara odefinierat lånat m.m. när enskilda indikationer dyker upp i flera dokument. Min erfarenhet av PDF är här ännu minst sagt begränsad men min allmänna känsla är att det utanför kontext där viss standardiserad användning fövantas eller är normalt är det kanske inte den mest intressanta källan innan man börjar laborera på riktigt stora mängder av dokument (vilket ju inte sällan redan kan vara motierat av andra tyngre orsaker där detta kommer gratis på köpet: statistiskanalys, indexering m.m.). Likväl är träffar åtminstone inte vad som inte inträffar för större organisationer på inte allt för många besläktade dokument (där en del om jag tolkar konceptet och PDF rätt i alla fall hittades för NATO relaterat mer prospekterande resonerande om forskning och teknik långt ifrån något alls känsligt och helt publikt men i alla fall vad jag ej förväntat på relativt få dokument).
Detta är en motsatt sida av det värde (utanför det kanske ofta mer primära att kunna organisera information man äger som stor organisation) i informationssäkerhet och kontroll av flöde in och ut eller mellan personer i företaget. I koncept av intrusion detection kan vi jämföra med "Snowden-detektor / sensor" diskuterad där vi enkelt kan se det som att själva förekomsten av vissa media-dokument via deras identifierade kan vara binärt förbjudet för en viss person, ligga längre från dennes normala användning, eller bygga upp mot något troligt problematiskt (ex. om många tusen dokument ej relaterade systemadministration identifieras på en medarbetares PDA när han vid den dagliga utpasseringen lämnar den till säkerhetspersonalen för kontroll som konsekvens av att ha en arbetsuppgift med odefinierat höga rättigheter i datanätverket).
Men likartat kan andra ibland beroende på lösning dra slutsatser (vi kan tänkas oss att varje instans adderar in något slumpmässigt för unikt värde via en ID-fabrik någonstans men heller inte det behöver utesluta analys här helt: hur snabbt förändras entropi över tiden? hur mycket nytt resp. gammalt i kontext av en person är aktuellt?). Förutom att skapa ett fascinerande problemområde med felaktiga format eftersom det tror jag kan behöva hanteras med reaktion för att systemet ska kännas betryggande i denna form av hantering (ett dokument existerande uttryckande säkerhetsfunktion men felaktigt d.v.s. potentiellt förfalskad är ju en ganska tung indikation om angrepp men förstås dyr att hantera om någon sitter och för in defekta saker av och till för att ockupera resurser i organisationen: dock finns ju det problemet besläktat i alla fall också utan identifiera via falska mail m.m.).
Exempel: OID och innehåll
I exakthet i domän av sammanfattad information om innehållet och dess organisation i ett kunskapssystem är många andra system utanfö själva pdf-dokumentet oftare mer talande. Nedan har vi data uttryckt, sparat och gjorts tillgängligt i en standard nu ganska vanlig för fakta-dokument, journal-artiklar m.m.
Också använd för att publicera och distribuera det kanske mer välkända id för bl.a. journal-artiklar: DOI. En tysk databas var där praktiskt enkel och välfungerande för mig medan jag ännu har att få helt klart för mig hur jag effektivsas kan få ner DOI för alla vetenskapliga journalers artiklar beskrivna samt gärna fångar ny publicering utan att behöva besöka dem alla regelbundet (i den mån det alls går: en del mediehus är ganska introverta också när det gäller titel, abstract, doi m.m. och tycks göra en hel del svår-tillgängligt):
Men jag undviker gärna att i onödan lära mig sådant i detalj innan det är nödvändigt (jag spindlar och analyserar annat just nu): det finns så mycket lika viktigt och stort men inom annat. Förutom kompletthet är det tilltalande att försöka få huvuddelen publicerat i segment vi analyserar som en domän eftersom det underlättar hur vi resonerar med statistiska modeller (eller också teoretiskt förenklat sampla dem gärna nära när det går slumpmässigt - risk bias och preferens finns ju dessutom med andra metoder om än kanske lättare att resonera om när befintligt data för detektion finns).
Just för metadata neda är det från Department of Defence, US del för att hantera kunskap, forskning m.m. information man etablerat på olika nivåer genom åren för att göra det lättare att ta fram nya värden från dem (kanske se samband mellan dokument om indirekta behov, var en lösning finns att anpassa i ennan försvarsgren, upptäcka nya innnovationer m.m.), ej dubbel-arbeta saker och ting o.s.v.
- www.dtic.mil/dtic/
- Radio Interview Features DTIC’s Information Analysis Centers
| Dtic.mil (följ länken i pdf-press-meddelandet vidare till deras "radio-försvar"). - DTIC’s Key Role in DoD S&T Information Program
Outlined in DoD Issuance 3200.12
Rörande mängd och exakthet finns inget unikt jämfört med normalt för journal-artiklar publicerade idag på nätet: jämförbart metadata, ofta möjligt att spindla eller ta ner på annat sätt o.s.v. Dock finns också en mängd äldre studier, utredningar m.m. med början tidigt under 1900-talet och där känner jag ej till metadata tillsammans med dokument ens i närheten i möjlighet om vi ex. vill följa utveckling av koncept eller fånga upp koncept-associationer lika viktiga idag men mindre diskuterade och uttalade i modern litteratur därför att vetskap tas som givet etablerad redan i grundutbildning. Längre bak och särskilt vissa tidsperioder kan emellertid oftare endast ha meta-informationen (möjligen gäller det oftare 1960-talet än 1950-talet även om jag inte säkert vet eftersom jag fortfarande tar ner deras pdf:er resp. databas med metadata).
Det ska också sägas att samlingen av dokument och vetandet representerat i dom publika tjänsterna är omfattande och för många områden en mycket välfungerande databas och funktion för att hitta forskning över längre tidsperioder. För flera segment tycker jag att den fungerar enklare för att hitta vad önskat snabbare. Det gäller dock en del områden (bildanalys finns ex. mycket publicerat för) medan andra områden kan vara mindre intressanta för en försvarsorganisation att direkt finansiera eller bevaka för återpublicering.
Nedan ett exempel från 1949 existerande både som dokument ADA297559 och beskrivet med metadata:
____________________________________________________________________ __FUNCTION_WORKING FUNCTION_MANAGER __URL http://www.dtic.mil/cgi-bin/GetTRDoc?Location=U2&doc=GetTRDoc.pdf&AD=ADA297559 ____________________________________________________________________ __FUNCTION_WORKING OID_HARVESTING_BY_ACCESS_NUMBER <Citation type="tr"> <AccessionNumber>ADA297559</AccessionNumber> <CitationStatus code="">ACTIVE</CitationStatus> <CitationClassification code="">UNCLASSIFIED</CitationClassification> <CorporateAuthor>TECHNICAL INFORMATION SERVICE (AEC) OAK RIDGE TN</CorporateAuthor> <UnclassifiedTitle>Manual of Instruments and Controls for the Brookhaven Nuclear Reactor. Book 3. Volume 1.</UnclassifiedTitle> <TitleClassification code="">UNCLASSIFIED</TitleClassification> <ReportDate>MAY 1949</ReportDate> <PaginationOrMediaCount>167</PaginationOrMediaCount> <PaginationCode>0</PaginationCode> <ItemCost>14.60</ItemCost> <ReportNumber nonPunctuated="AECM4415">AEC-M-4415</ReportNumber> <MonitorAcronym nonPunctuated="XF">XF</MonitorAcronym> <MonitorSeries nonPunctuated="XD">XD</MonitorSeries> <ReportClassification code="">UNCLASSIFIED</ReportClassification> <DistributionCode code="01">APPROVED FOR PUBLIC RELEASE</DistributionCode> <DescriptorClassification code="">UNCLASSIFIED</DescriptorClassification> <AbstractClassification code="">UNCLASSIFIED</AbstractClassification> <InitialInventory>0001</InitialInventory> <SourceSeries>1</SourceSeries> <SourceCode>342750</SourceCode> <GeopoliticalCode>4702</GeopoliticalCode> <OrganizationTypeCode code="Z">INDEPENDENT FEDERAL AGENCIES</OrganizationTypeCode> <DocumentLocation code="1">DTIC AND NTIS</DocumentLocation> <Abstract>The instruments and controls for the Brookhaven Nuclear Reactor have evolved from a development program whose objective was, among others, to create a research facility. Throughout this program it has been clear that the ultimate arrangement of instruments and controls can not be fixed in advance of actual operation. The ultimate arrangement will depend in large measure on the research activity to take place in the future. It has been necessary, therefore, to provide a wide range of instrument capabilities and a large number of control functions. Underlying this primary objective of creating a versatile research facility is the associated requirement that the reactor be safe. The requirements for safety are in some ways as varied and complex as those of research. In some instances they are dominant. Exemplifying the flexibility and versatility of the reactor instrumentation are electronic instruments of advanced design for measuring power at extremely low levels, indicating and recording the rate of rise of power level over a wide range of power, and regulating power at preset levels. Exemplifying the variety of safety devices are instruments for monitoring power level detected by ionization chambers, by neutron thermopiles, and by graphite and metal-cartridge thermocouples. Devices which monitor the operability of equipment also contribute to the safety of the reactor. (KAR) p.7</Abstract> <Descriptor>*USER MANUALS</Descriptor> <Descriptor>*POWER LEVELS</Descriptor> <Descriptor>*NUCLEAR REACTORS</Descriptor> <Descriptor>*POWER MEASUREMENT</Descriptor> <Descriptor>CONTROL</Descriptor> <Descriptor>MEASUREMENT</Descriptor> <Descriptor>MONITORING</Descriptor> <Descriptor>ELECTRONIC EQUIPMENT</Descriptor> <Descriptor>GRAPHITE</Descriptor> <Descriptor>IONIZATION CHAMBERS</Descriptor> <Descriptor>LOW LEVEL</Descriptor> <Descriptor>INSTRUMENTATION</Descriptor> <Descriptor>RECORDING SYSTEMS</Descriptor> <Descriptor>RANGE(EXTREMES)</Descriptor> <Descriptor>INDICATORS</Descriptor> <Descriptor>NEUTRONS</Descriptor> <Descriptor>SAFETY EQUIPMENT</Descriptor> <Descriptor>THERMOPILES.</Descriptor> <FieldsAndGroups code="180501">Nuclear Fission Reactors(power)</FieldsAndGroups> <SBIHoldingSymbol>NPS</SBIHoldingSymbol> <handle>http://handle.dtic.mil/100.2/ADA297559</handle> <PdfFileSize>12 MB</PdfFileSize> </Citation>
Exempel: Text är bättre
Analyserar vi språk i text snarare än bilderna, visuell presentation m.m. vill vi just helst bara ha texten. Det sparar minne vid analystillfällen, beräkningskostnad för att ta fram den och utrymme på hårddisken (PDF dokument kan av och till mer än stora vara gigantiska om de inkluderar en mängd föga komprimerade bilder).
Med de lösninga jag använder nu (och tror jag mycket vanliga även om system säkert kan vara bättre och sämre här varierat med kostnad i utveckling och processande av vad visuell-information betyder) med av och till feltolkningar på visuellt mer komplexa sidor (önskar man ta kostnad för det och det tror jag ej är aktuellt här med något värde för mig kan det mesta om inte nära nog alla dessa fel fås bort i efterhand via bl.a. ngram-detektion, förståelse av hur url:er, standard information som doi, pmid m.m. skrivs och åtminstone enklare parsning med Natural language processing av meningar för att förstå om en radbrytning kombinerat punkt är en förkortning avhuggen eller meningsslut på rad ovanför: dyrt i beräkningstid när det handlar om miljoner dokument - en god skattning är att cirka 10 - 15 miljoner täcker upp en god andel av viktig publicerad forskning tillgänglig i pdf-format på nätet och cirka två miljoner en god andel av väsentligt från dom senaste åren när det handlar om journal-artiklar - där jag initialt ser cirka två till 25 miljoner som en lagom nivå för titel, abstrakt m.m. och bredare analys hela dokumenten för särskilda områden scarce i inlärda relationer eller särskilt viktiga vid någon tidpunkt).
__FUNCTION_WORKING PDF_TO_TEXT_LOGIC __PDF_FILE_NAME ADA297559.pdf __IN_DIR_GIVEN C:\PTOOLS\SAMPLER\DTIC\PDF\ __PAGES 167 __WWW_CONNECTIONS __EASY_JOURNAL_CONNECTIONS_EX_DOI __PAGE 1 UNCLASSIFIED OJ UNCLASSIFIED M-4415 Subject Category: INSTRUMENTATION UNITED STATES ATOMIC ENERGY COMMISSION MANUAL OF INSTRUMENTS AND CONTROLS FOR THE BROOKHAVEN NUCLEAR REACTOR. BOOK 3, VOLUME I r KJ31SEm;a!BBanBI!! ^lM| vUG.U6Jl9.9_a biM& W'' ?s^^M^^ ^Bm^asi^^^s^sf t^i^sz^, May 1949 Servomechanisms Laboratory Massachusetts Institute of Technology Cambridge, Massachusetts Jackson and Moreland Engineers New York, New York Technical Information Extension, Oak Ridge, Tennessee ' % ' ~ '1--"-" % """ * DTIS Q UALTrYlNSFEClED3 ______________END_PAGE______________ __PAGE 2 Date Declassified: January 13, 1956. LEGAL NOTICE This report was prepared as an account of Government sponsored work. Neither the United States, nor the Commission, nor any person acting on behalf of the Commission: A. Makes any warranty or representation, express or implied, with respect to the ac- curacy, completeness, or usefulness of the information contained in this report, or that the use of any information, apparatus, method, or process disclosed in this report may not in- fringe privately owned rights; or B. Assumes any liabilities with respect to the use of, or for damages resulting from the use of any information, apparatus, method, or process disclosed in this report. As used in the above, "person acting on behalf of the Commission" includes any em- ployee or contractor of the Commission to the extent that such employee or contractor prepares, handles or distributes, or provides access to, any information pursuant to his em- ployment or contract with the Commission. This report has available copy. been reproduced directly from the best Issuance of this document does not constitute authority for declassification of classified material of the same or similar content and title by the same authors. Printed in USA, Charge $1.00. Available from the Office of Technical Services, Department of Commerce, Wash- ington 25, D. C. AEC, Oak Eidge, Tenn. ______________END_PAGE______________
Ytterst tilltalande gäller normalt att innehållsförteckning, tabeller över figurer m.m. liknande översätts till text utmärkt för journal-artiklar. Ex. från samma dokument:
__PAGE 6 CONTENTS VOLUME I Page 9. Coarse Rod-Position Indicators - Component Description 3.35 10. Hod-Position Recorders 3.44 11. Parts List - Instrument Pinion Support Assembly 6546DN048 (For Regulating Hods) 3.47 12. Parts List - Instrument Pinion Support Assembly 6546DN047 (for Emergency Rods) 3.47 13. Parts List - Regulating-Rod Position Transmitter Assembly 6546M030 3.49 14. Parts List - Regulating-Rod Position Indicating Unit 6546LN006 3 . 5 2 15. Parts List - ilmergency-Rod Position Transmitter Assembly 6546EN029 3.56 16. Parts List - Kmergency-Rod Position Indicating Unit 6546BH001 3 . 5 9 17. Parts List - Coarse Rod-Position Indien tor 654&SN018 and 6546i.NQ19 3 . 6 2 18. Reference Drawings 3.65 19. Engineering Report References, D.l.C 6546, td.l.T, . . 3.65 ______________END_PAGE______________ __PAGE 7
Ett till exempel från ADA297788 med tekniska data såväl som några referenser. Resultatet är varken bra eller dålig men knappast problematiskt för normal textanalys.
__PAGE 20 fill XJaxium Temperature Observed 2120 C to 2510 C ^-12" 30 lbs to 89 lbs cci 4 20 lbs to 98 lbs *2 10 cu it to 450 cu fir. "Boron Analysis 00 ppm to 10 (spec) Total Ash 1 ppm to 17 ppm gOMMAR T OF OPERATIONAL DATA Adc kbjj TO AEVI AL "RIMS 11 " 1 Maximum Tariatian, Average* Range 2250 - 2400 C 60 = 65 lbs 40 = 50 lbs 100 - 300 cu ft 03 - 06 ppm 1 to 8 ppm As the runs were made for production purposes no attempt to control the variables ms made So correlation between the variables and the purity obtained can be drawn from the operational data &f Majority of the runs fall within these ranges ABHSKBEC *C" BIBLIOGRAPHY 1. Neumark, H R , Trans. Electrochem. Soc. 9jL, 367, (19*1-7) 2. Sermon, G. T. United Carbon Products Co. Report Ho 3 (19^7) 3. Sermon, G. T., "16OO MA Powsr Installation on 22 M Line", United Carbon Products Co. Report Ho. 13, (19*&) 4* Bodden, C. J. Richmond, M. S., National Bureau of Standards unpublished report, "Determination of Small Amounts of Boron in Project Materials". 5. Sermon, G. T., "Heating Tests in Granular Resistance Furnaces for preparing High Purity Graphite", united Carbon Products Company Report Ho. 6, (19*1-7) 19 ______________END_PAGE______________