Statistisk analys av PDF-dokument: Omvandling till text och extraktion metadata från fil resp. databaser

Tidigare exempel extraktion metadata resp. diskussion möjligheter analys kompletteras här med en första version av ett enkelt liten program (själva basfunktionerna var för sig tog cirka fyra timmar att skriva men mer samlat till praktiskt funktionellt kontinuerligt nedladdande och analyserande) för analys pdf-dokument, omvandling till text, och sammanförande med meta-data i separerade databaser (ex. OID).

Tidigare i ämnet:

Exempel: WWW

Referenser till webb-sidor är säkert ett mer naturligt hemvant exempel på "anslutningar" från dokumentet till aktörer, personer, information m.m. som betraktat över många fler kan säga något mer allmänt om organisationen. Nedan från ADA554030 några st. identifierade:

__FUNCTION_WORKING PDF_TO_TEXT_LOGIC
__PDF_FILE_NAME ADA554030.pdf
__IN_DIR_GIVEN C:\PTOOLS\SAMPLER\DTIC\PDF\
__PAGES 156
__WWW_CONNECTIONS www.china.org.cn/english/features/dengxiaoping/103389.htm GlobalSecurity.org mearsheimer.uchicago.edu/pdfs/A0034b.pdf www www.cfr.org www.stanleyfoundation.org
__EASY_JOURNAL_CONNECTIONS_EX_DOI

I kontext av Google och ranking är egentligen prioritering och utnyttjande av länkar ganska annorlunda (som man oftare ser på deras algoritmer externt även om jag är tämligen säker på att association nära denna mening också är en av många möjligheter kring länkar som utnyttjas förutom koncept-beskrivning ankartext, prioritering spindling, page ranking, implicit association mellan koncept på resp. sida om länken såväl som kanske statistisk-modeller med något av flera alternativ liknande Bayesian yin yang för ett implicit samspel effektivt skattat och förr ev. en del nu övergivet för annat som förståelse av association mellan felskrivningar, begrepp för samma sak inom olika expertområden o.s.v. och vad de avser resp. relevans-kontroll om Google någonsin haft det senare tydligt tidigare än sista åren där jag tror feedback från hur själva sökresultaten fungerar med användaren används idag resp. för expertområden via riktade datakällor - datat i Google Scholar lär väl vara vad som ger många möjligheter med endast lite metadata om journalernas inriktning och författarnas association över tiden till mer övergripande områden).

Vad vi är huvudsaklingen är intresserade av här är ju mindre att säga något om indikerade dokument så mycket som prfererenser och association mellan entiteter och deras delar. Mer Google-liknande-analys är nog mindre vad man kanske valt för denna form av pdf-dokument varande relativt intet-sägande om vi vill analysera mycket snabbt (få, sällan ankartext, ofta presenterade i ex. fotnoter längst ner på sidan medan både den presentationen och fotnoterna är vådligt felområde via omvandling till text - åtminstone för mig även om jag sett att bättre teknik används av en hel del nu bl.a. Google och möjligen vad som bl.a. utvecklades av NSA och tillgängligt enligt Classification of Machine-Printed and Handwritten Text for Document Images såväl gissar jag teknik ganska väsentligt för stora delar av dokumenten DTIC publicerat vilka ofta är dåliga fotostat-kopier av ex. gamla datautskrifter eller maskinskriven text: själva problemet vi ser tydligare i omvandlingen till text är ju att det visuella lätt feltolkas med ord av avbrytna av och till i särskilt visuellt intensiva delar som huvudrubrik, författare m.m. positionerat kreativt fritt över en sida).

Exempel: Versionshistorik

Samtliga pdf-moduler jag prövade är ofullständiga i förmåga att identifiera åtminstone här konkret intressant information. Även om jag inte prövats Adobe's stöd misstänker jag lätt att det är väsentligt mer fullständigt men också riktigt dyrare i beräkningskostad (XML vara upplevt vackert graf-rätt men är samtidigt vad som tenderar att kosta brutalt i minne och cpu antingen på begränsad hårdvara eller när vi trådar upp flera processer och där kollisioner mellan processer som oväntat samtidigt åker på något överdrivet stort och komplext XML-träd kan bli svårt problematiskt om man försökt utnyttja hårdvaran närmare dess övre gräns).

Ett bra exempel är att historiken över hur pdf-dokument ADA554030 (att referera dokument med ID känns mycket rätt här) utvecklats steg för steg inte alls kommer med:

<xmpMM:History>

    <rdf:Seq>

     <rdf:li

      stEvt:action="saved"

      stEvt:instanceID="xmp.iid:62851626731AE011A09ECC9ACC76B452"

      stEvt:when="2011-01-07T15:00:21-06:00"

      stEvt:softwareAgent="Adobe Photoshop CS4 Windows"

      stEvt:changed="/"/>

     <rdf:li

      stEvt:action="saved"

      stEvt:instanceID="xmp.iid:EED3050E561EE0119927C84E9CB8197E"

      stEvt:when="2011-01-12T08:12:57-06:00"

      stEvt:softwareAgent="Adobe Photoshop CS4 Windows"

      stEvt:changed="/"/>

     <rdf:li

      stEvt:action="saved"

      stEvt:instanceID="xmp.iid:11BA444CC627E0119987A6F9DFDA4467"

      stEvt:when="2011-01-24T15:54:48-06:00"

      stEvt:softwareAgent="Adobe Photoshop CS4 Windows"

      stEvt:changed="/"/>

     <rdf:li

      stEvt:action="saved"

      stEvt:instanceID="xmp.iid:09357E023B64E011895EA90A7558D10D"

      stEvt:when="2011-04-11T12:57:22-05:00"

      stEvt:softwareAgent="Adobe Photoshop CS4 Windows"

      stEvt:changed="/"/>

     <rdf:li

      stEvt:action="saved"

      stEvt:instanceID="xmp.iid:0A357E023B64E011895EA90A7558D10D"

      stEvt:when="2011-04-11T12:57:22-05:00"

      stEvt:softwareAgent="Adobe Photoshop CS4 Windows"

      stEvt:changed="/"/>

     <rdf:li

      stEvt:action="saved"

      stEvt:instanceID="xmp.iid:0EB62AC83565E011990DE0CB345F06A5"

      stEvt:when="2011-04-12T14:34:21-05:00"

      stEvt:softwareAgent="Adobe Photoshop CS4 Windows"

      stEvt:changed="/"/>

     <rdf:li

      stEvt:action="saved"

      stEvt:instanceID="xmp.iid:FF5769E5CE65E011B575D54F7DC87B53"

      stEvt:when="2011-04-13T08:06:50-05:00"

      stEvt:softwareAgent="Adobe Photoshop CS4 Windows"

      stEvt:changed="/"/>

     <rdf:li

      stEvt:action="saved"

      stEvt:instanceID="xmp.iid:005869E5CE65E011B575D54F7DC87B53"

      stEvt:when="2011-04-13T08:08:32-05:00"

      stEvt:softwareAgent="Adobe Photoshop CS4 Windows"

      stEvt:changed="/"/>

    </rdf:Seq>

   </xmpMM:History>

Ett till exempel där närmiljö i integration andra format framgår (och som vi ska se därefter ganska brett samarbetande olika former av media-komponenter):

<xmpMM:History>
    <rdf:Seq>
     <rdf:li
      stEvt:action="saved"
      stEvt:instanceID="xmp.iid:F77F117407206811871FB2ED4E37AE08"
      stEvt:when="2011-01-14T12:11:33-05:00"
      stEvt:softwareAgent="Adobe Illustrator CS5"
      stEvt:changed="/"/>
     <rdf:li
      stEvt:action="saved"
      stEvt:instanceID="xmp.iid:01801174072068118C14E72FBDC50C68"
      stEvt:when="2011-06-28T14:07:30-04:00"
      stEvt:softwareAgent="Adobe Illustrator CS5"
      stEvt:changed="/"/>
     <rdf:li
      stEvt:action="converted"
      stEvt:parameters="from application/postscript to application/vnd.adobe.illustrator"/>
     <rdf:li
      stEvt:action="saved"
      stEvt:instanceID="xmp.iid:F77F1174072068118083E0155A4A0A32"
      stEvt:when="2011-06-28T14:13-04:00"
      stEvt:softwareAgent="Adobe Illustrator CS5"
      stEvt:changed="/"/>
     <rdf:li
      stEvt:action="saved"
      stEvt:instanceID="xmp.iid:351C424C262068118F62BE1AEC87ECB3"
      stEvt:when="2011-08-24T15:36:22-05:00"
      stEvt:softwareAgent="Adobe Photoshop CS5 Macintosh"
      stEvt:changed="/"/>
     <rdf:li
      stEvt:action="converted"
      stEvt:parameters="from image/tiff to application/vnd.adobe.photoshop"/>
     <rdf:li
      stEvt:action="derived"
      stEvt:parameters="converted from image/tiff to application/vnd.adobe.photoshop"/>
     <rdf:li
      stEvt:action="saved"
      stEvt:instanceID="xmp.iid:361C424C262068118F62BE1AEC87ECB3"
      stEvt:when="2011-08-24T15:36:22-05:00"
      stEvt:softwareAgent="Adobe Photoshop CS5 Macintosh"
      stEvt:changed="/"/>
     <rdf:li
      stEvt:action="saved"
      stEvt:instanceID="xmp.iid:371C424C262068118F62BE1AEC87ECB3"
      stEvt:when="2011-08-24T15:36:35-05:00"
      stEvt:softwareAgent="Adobe Photoshop CS5 Macintosh"
      stEvt:changed="/"/>
     <rdf:li
      stEvt:action="converted"
      stEvt:parameters="from application/vnd.adobe.photoshop to image/tiff"/>
     <rdf:li
      stEvt:action="derived"
      stEvt:parameters="converted from application/vnd.adobe.photoshop to image/tiff"/>
     <rdf:li
      stEvt:action="saved"
      stEvt:instanceID="xmp.iid:381C424C262068118F62BE1AEC87ECB3"
      stEvt:when="2011-08-24T15:36:35-05:00"
      stEvt:softwareAgent="Adobe Photoshop CS5 Macintosh"
      stEvt:changed="/"/>
    </rdf:Seq>
   </xmpMM:History>

Exempel: Integration mjukvara - Kultur och säkerhet

En mer uppenbar fråga kring risk och värde att stämpla dokument med de programvaror som används är att det kan indikera trovärdigt vad som används fortfarande vid en tidpunkt längre fram också om så långt indikerat tidigare säkra. D.v.s. berätta hur organisationen tänkbart kan angripas.

Navigating complex buildings: cognition, neuroscience and architectural design (University College of London, bok-kapitel, Dalton) - vilket dessutom är en till Riktad information - Navigation: Förstärkt i spatiell organisation excellent komplettering både ganska praktiskt men med visst djup och referenser vidare - ger ett lättsamt exempel på båda om vi nu väljer att tro Microsoft Word som mer säkerhetsdefekt trolig resp. att Macintosh nog ibland är ett kulturellt val oavsett om preferens inom tekniksegment (en del applikationer inom moving pictures för att skapa om jag minns rätt) eller att något uttrycks fullt mindre av conformity ej onödigt komplext i konfiguration känns bättre om man arbetar kreativt ganska ointressad av annan bredare vanliga kontorsapplikationer.

__FUNCTION_WORKING METADATA_LOGIC
__PDF_FILE_NAME navigating_complex_buildings.pdf
__IN_DIR_GIVEN c:\PTOOLS\PDF\pmid\
__METADATA_FIELD ModDate D:20100602114653-04'00'
__METADATA_FIELD CreationDate D:20100529222217+01'00'
__METADATA_FIELD Producer Mac OS X 10.4.11 Quartz PDFContext
__METADATA_FIELD Creator Word
__METADATA_FIELD Author Ruth
__METADATA_FIELD Title Microsoft Word - Dalton_Spiers_Hoelscher.rtf
__DOCUMENT_ID_UID_CONNECTIONS

Och så en till kulturella preferenser (även om jag inte alls betvivlar att tex, post-script m.m. har en försvarlig mängd ej dokumenterande säkerhetsdefekter bara i befintlig kod: komplicerade standarder med komplex parsning). Latex är fortfarande idag stort i delar av forskningsvärlden (mer så i de mer tillämpade delarna inom data och fysik snarare än ex. forskning inom medicinsk eller kemi).

__FUNCTION_WORKING METADATA_LOGIC
__PDF_FILE_NAME hanford.pdf
__IN_DIR_GIVEN c:\PTOOLS\PDF\pmid\
__METADATA_FIELD ModDate D:20111121131055-05'00'
__METADATA_FIELD CreationDate D:20111121131055-05'00'
__METADATA_FIELD Producer MiKTeX pdfTeX-1.40.11
__METADATA_FIELD Creator TeX
__DOCUMENT_ID_UID_CONNECTIONS
__XMP_META_DATA_HH_EXTRACTION __START
__XMP_META_DATA_HH_EXTRACTION __END

Vidare besläktat meda båda föregående exempel på vad vi kan se kan det ge indikationer om preferens open source (mjukvara snarare än metadata promiskiöst delat för andras analys) liksom benägenhet eller möjlighet att budgetera inköp mer front-end nya koncept (längre fram indikeras nog mindre inressant här när något är vanligt: vad vi syftar är mer webb-baserade lösningar i dokumenthantering, sökning m.m.).

Exempel: ID för media-komponenter och dokument

Förutom WWW-kopplingar valde jag att ta ut PMID (National institutes of healths ID för journal-artiklar i deras för forskningsområdet helt dominerande databas med applikationer sökning m.m.) resp. DOI (brett använd namngivning av journalartiklar för betalande aktörer: dx.doi.org kan från DOI namnet föra dig vidare till sidan där artikeln finns. Och slutligen referenser till unika objekt XML-dokumentet i sig gör (d.v.s. potentiellt ett helt för applikationen lokalt kontext om ej hanterat i ett övergripande system för organisationen). Fler finns man kan ta ut med PMID och DOI är mycket stora och inte ointressanta om man för en större samling av dokument ex. vill komma ifrån att i övrigt riktat parsa och analysera referenser och istället behanda det som vilken sida som helst (vilket man nog ofta vill för dokument-samlingar likt DTIC jag tar ner just nu mer totalt där dokumenten kommer från många generationer resp. där referenser filtrerat av och till kan dyka upp i separata dokument):

Nedan några typiska ID för delar av PDF-filen (eller avseende hela den i någon instans):

__FUNCTION_WORKING METADATA_LOGIC
__PDF_FILE_NAME a569695.pdf
__IN_DIR_GIVEN c:\PTOOLS\PDF\
__METADATA_FIELD ModDate D:20130321040825-04'00'
__METADATA_FIELD CreationDate D:20120530205500-04'00'
__METADATA_FIELD Producer iText 5.0.4 (c) 1T3XT BVBA
__DOCUMENT_ID_UID_CONNECTIONS uuid:b3d384ac-d60e-4945-82e9-8b6e47f48eba uuid:3e6c776a-3058-4aee-856b-2ff7247c779f

Uppenbart ovan är att jag valt att inte ta med något sammanhang alls för dem. Möjlig användning för att söka samband tenderar ju att reducera probelmatik med ovsäentligt och vidare oavsett om vi refererar externt eller om någon refererar oss är det ett samband. Dock om vi vill se djupare i dem när hittade (för association jag bedömer intressantare tror jag övergripande att man når så långt man kan utan annan kunskap alls om dem: jämför med vad likheter i termonologi kan indikea om likhet i kultur eller expertområde mellan entiteter) bör åtminstone själv-refererande för dokumentet särskiljas varför jag också tar med delar av själva XML-koden (när vi vill förstå kopplingar specifikt mellan två entiteter). Känslan jag har att med minde än att man överdrivet tittar på standarden och ändå riskerar att komma fel är praktisk användning för träffar nog utmärkta för att vettigt begipa vad som är helt eller delvis självrefererande (eller praktiskt så avgränsat ex. dator med pgoramvaror) resp. vad som via indikerat XML resp. uttrycket kan vara mer generellt dokument-id format i något sammanhang.

Emellertid för ev. behov finns resp. dokument id eftersom mer basal xml-kod sparas (praktiskt som extraktionen tycks fungera - jag är nu ingen expert på PDF så finns praktiskt prövande kändes tidseffektivt - tas all XML läsbar med medan jag valde bort delvis parsad struktur för att spara håddisk vilket jag från början också hade med temporärt via DATA::DUMPER på objektet för pdf-filen):

<x:xmpmeta x:xmptk="Adobe XMP Core 5.2-c001 63.139439, 2010/09/27-13:37:26        " xmlns:x="adobe:ns:meta/">
   <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
      <rdf:Description rdf:about="" xmlns:xmp="http://ns.adobe.com/xap/1.0/">
         <xmp:ModifyDate>2013-03-21T04:08:25-04:00</xmp:ModifyDate>
         <xmp:CreateDate>2012-05-30T20:55:00-04:00</xmp:CreateDate>
         <xmp:MetadataDate>2013-03-21T04:08:25-04:00</xmp:MetadataDate>
      </rdf:Description>
      <rdf:Description rdf:about="" xmlns:dc="http://purl.org/dc/elements/1.1/">
         <dc:format>application/pdf</dc:format>
      </rdf:Description>
      <rdf:Description rdf:about="" xmlns:xmpMM="http://ns.adobe.com/xap/1.0/mm/">
         <xmpMM:DocumentID>uuid:b3d384ac-d60e-4945-82e9-8b6e47f48eba</xmpMM:DocumentID>
         <xmpMM:InstanceID>uuid:3e6c776a-3058-4aee-856b-2ff7247c779f</xmpMM:InstanceID>
      </rdf:Description>
   </rdf:RDF>
</x:xmpmeta>

En försvarlig mängd av det för moderna kameror, dokumentsystem m.m. typiska formatet för att ge media producerat en unik identifierare. Exemplet nedan från samma som nummer två med versionshistorik tidigare:

__DOCUMENT_ID_UID_CONNECTIONS uuid:5B20892493BFDB11914A8590D31508C8 xmp.did:714C3D9B56AAE011B1AA9CA76A9EC25B xmp.did:724C3D9B56AAE011B1AA9CA76A9EC25B xmp.did:734C3D9B56AAE011B1AA9CA76A9EC25B xmp.did:F77F1174072068118083E0155A4A0A32 xmp.did:FB7F1174072068118083E0155A4A0A32 xmp.iid:006035250D2068118F628C890978B148 xmp.iid:008011740720681197A5820352CD19F2 xmp.iid:016035250D2068118F628C890978B148 xmp.iid:01801174072068118083C809E165E027 xmp.iid:01801174072068118C14E6A624D85812 xmp.iid:01801174072068118C14E72FBDC50C68 xmp.iid:026035250D2068118F628C890978B148 xmp.iid:02801174072068118C14D5EDF20B39EA xmp.iid:03801174072068118C14D5EDF20B39EA xmp.iid:04801174072068118C14D5EDF20B39EA xmp.iid:05801174072068118C14E72FBDC50C68 xmp.iid:321C424C262068118F62BE1AEC87ECB3 xmp.iid:331C424C262068118F62BE1AEC87ECB3 xmp.iid:341C424C262068118F62BE1AEC87ECB3 xmp.iid:351C424C262068118F62BE1AEC87ECB3 xmp.iid:361C424C262068118F62BE1AEC87ECB3 xmp.iid:371C424C262068118F62BE1AEC87ECB3 xmp.iid:381C424C262068118F62BE1AEC87ECB3 xmp.iid:624FA1CF212068118F62BE1AEC87ECB3 xmp.iid:634FA1CF212068118F62BE1AEC87ECB3 xmp.iid:644FA1CF212068118F62BE1AEC87ECB3 xmp.iid:654FA1CF212068118F62BE1AEC87ECB3 xmp.iid:664FA1CF212068118F62BE1AEC87ECB3 xmp.iid:674FA1CF212068118F62BE1AEC87ECB3 xmp.iid:684FA1CF212068118F62BE1AEC87ECB3 xmp.iid:694FA1CF212068118F62BE1AEC87ECB3 xmp.iid:6A4FA1CF212068118F62BE1AEC87ECB3 xmp.iid:6B4FA1CF212068118F62BE1AEC87ECB3 xmp.iid:6C4FA1CF212068118F62BE1AEC87ECB3 xmp.iid:714C3D9B56AAE011B1AA9CA76A9EC25B xmp.iid:724C3D9B56AAE011B1AA9CA76A9EC25B xmp.iid:734C3D9B56AAE011B1AA9CA76A9EC25B xmp.iid:B1D0A6060F2068118F62BE1AEC87ECB3 xmp.iid:B2D0A6060F2068118F62BE1AEC87ECB3 xmp.iid:F77F1174072068118083E0155A4A0A32 xmp.iid:F77F1174072068118083E5C6D079A5EF xmp.iid:F77F117407206811871FB2ED4E37AE08 xmp.iid:F77F117407206811B84094BC3C7FBB8B xmp.iid:F77F117407206811BA4A8DBC7C9B7B1F xmp.iid:F87F117407206811B84094BC3C7FBB8B xmp.iid:F87F117407206811BA4A8DBC7C9B7B1F xmp.iid:F97F117407206811BA4A8DBC7C9B7B1F xmp.iid:FB7F1174072068118083E0155A4A0A32

Vad som gör dessa intressanta rent allmänt (ej analyserat för ex. alls) kan tyckas svårbegripligt men jämför vi med vad vi menade att www-länkarna kunde berätta blir det kanske tydligare. Vi kan se propagering, samarbete, copyright-problematik eller oftare bara odefinierat lånat m.m. när enskilda indikationer dyker upp i flera dokument. Min erfarenhet av PDF är här ännu minst sagt begränsad men min allmänna känsla är att det utanför kontext där viss standardiserad användning fövantas eller är normalt är det kanske inte den mest intressanta källan innan man börjar laborera på riktigt stora mängder av dokument (vilket ju inte sällan redan kan vara motierat av andra tyngre orsaker där detta kommer gratis på köpet: statistiskanalys, indexering m.m.). Likväl är träffar åtminstone inte vad som inte inträffar för större organisationer på inte allt för många besläktade dokument (där en del om jag tolkar konceptet och PDF rätt i alla fall hittades för NATO relaterat mer prospekterande resonerande om forskning och teknik långt ifrån något alls känsligt och helt publikt men i alla fall vad jag ej förväntat på relativt få dokument).

Detta är en motsatt sida av det värde (utanför det kanske ofta mer primära att kunna organisera information man äger som stor organisation) i informationssäkerhet och kontroll av flöde in och ut eller mellan personer i företaget. I koncept av intrusion detection kan vi jämföra med "Snowden-detektor / sensor" diskuterad där vi enkelt kan se det som att själva förekomsten av vissa media-dokument via deras identifierade kan vara binärt förbjudet för en viss person, ligga längre från dennes normala användning, eller bygga upp mot något troligt problematiskt (ex. om många tusen dokument ej relaterade systemadministration identifieras på en medarbetares PDA när han vid den dagliga utpasseringen lämnar den till säkerhetspersonalen för kontroll som konsekvens av att ha en arbetsuppgift med odefinierat höga rättigheter i datanätverket).

Men likartat kan andra ibland beroende på lösning dra slutsatser (vi kan tänkas oss att varje instans adderar in något slumpmässigt för unikt värde via en ID-fabrik någonstans men heller inte det behöver utesluta analys här helt: hur snabbt förändras entropi över tiden? hur mycket nytt resp. gammalt i kontext av en person är aktuellt?). Förutom att skapa ett fascinerande problemområde med felaktiga format eftersom det tror jag kan behöva hanteras med reaktion för att systemet ska kännas betryggande i denna form av hantering (ett dokument existerande uttryckande säkerhetsfunktion men felaktigt d.v.s. potentiellt förfalskad är ju en ganska tung indikation om angrepp men förstås dyr att hantera om någon sitter och för in defekta saker av och till för att ockupera resurser i organisationen: dock finns ju det problemet besläktat i alla fall också utan identifiera via falska mail m.m.).

Exempel: OID och innehåll

I exakthet i domän av sammanfattad information om innehållet och dess organisation i ett kunskapssystem är många andra system utanfö själva pdf-dokumentet oftare mer talande. Nedan har vi data uttryckt, sparat och gjorts tillgängligt i en standard nu ganska vanlig för fakta-dokument, journal-artiklar m.m.

OpenID

Också använd för att publicera och distribuera det kanske mer välkända id för bl.a. journal-artiklar: DOI. En tysk databas var där praktiskt enkel och välfungerande för mig medan jag ännu har att få helt klart för mig hur jag effektivsas kan få ner DOI för alla vetenskapliga journalers artiklar beskrivna samt gärna fångar ny publicering utan att behöva besöka dem alla regelbundet (i den mån det alls går: en del mediehus är ganska introverta också när det gäller titel, abstract, doi m.m. och tycks göra en hel del svår-tillgängligt):

Men jag undviker gärna att i onödan lära mig sådant i detalj innan det är nödvändigt (jag spindlar och analyserar annat just nu): det finns så mycket lika viktigt och stort men inom annat. Förutom kompletthet är det tilltalande att försöka få huvuddelen publicerat i segment vi analyserar som en domän eftersom det underlättar hur vi resonerar med statistiska modeller (eller också teoretiskt förenklat sampla dem gärna nära när det går slumpmässigt - risk bias och preferens finns ju dessutom med andra metoder om än kanske lättare att resonera om när befintligt data för detektion finns).

Just för metadata neda är det från Department of Defence, US del för att hantera kunskap, forskning m.m. information man etablerat på olika nivåer genom åren för att göra det lättare att ta fram nya värden från dem (kanske se samband mellan dokument om indirekta behov, var en lösning finns att anpassa i ennan försvarsgren, upptäcka nya innnovationer m.m.), ej dubbel-arbeta saker och ting o.s.v.

www.dtic.mil/dtic/
Radio Interview Features DTIC’s Information Analysis Centers
| Dtic.mil (följ länken i pdf-press-meddelandet vidare till deras "radio-försvar").
DTIC’s Key Role in DoD S&T Information Program
Outlined in DoD Issuance 3200.12

Rörande mängd och exakthet finns inget unikt jämfört med normalt för journal-artiklar publicerade idag på nätet: jämförbart metadata, ofta möjligt att spindla eller ta ner på annat sätt o.s.v. Dock finns också en mängd äldre studier, utredningar m.m. med början tidigt under 1900-talet och där känner jag ej till metadata tillsammans med dokument ens i närheten i möjlighet om vi ex. vill följa utveckling av koncept eller fånga upp koncept-associationer lika viktiga idag men mindre diskuterade och uttalade i modern litteratur därför att vetskap tas som givet etablerad redan i grundutbildning. Längre bak och särskilt vissa tidsperioder kan emellertid oftare endast ha meta-informationen (möjligen gäller det oftare 1960-talet än 1950-talet även om jag inte säkert vet eftersom jag fortfarande tar ner deras pdf:er resp. databas med metadata).

Det ska också sägas att samlingen av dokument och vetandet representerat i dom publika tjänsterna är omfattande och för många områden en mycket välfungerande databas och funktion för att hitta forskning över längre tidsperioder. För flera segment tycker jag att den fungerar enklare för att hitta vad önskat snabbare. Det gäller dock en del områden (bildanalys finns ex. mycket publicerat för) medan andra områden kan vara mindre intressanta för en försvarsorganisation att direkt finansiera eller bevaka för återpublicering.

Nedan ett exempel från 1949 existerande både som dokument ADA297559 och beskrivet med metadata:

____________________________________________________________________
__FUNCTION_WORKING FUNCTION_MANAGER
__URL http://www.dtic.mil/cgi-bin/GetTRDoc?Location=U2&doc=GetTRDoc.pdf&AD=ADA297559
____________________________________________________________________
__FUNCTION_WORKING OID_HARVESTING_BY_ACCESS_NUMBER
<Citation type="tr">
<AccessionNumber>ADA297559</AccessionNumber>
<CitationStatus code="">ACTIVE</CitationStatus>
<CitationClassification code="">UNCLASSIFIED</CitationClassification>
<CorporateAuthor>TECHNICAL INFORMATION SERVICE (AEC) OAK RIDGE TN</CorporateAuthor>
<UnclassifiedTitle>Manual of Instruments and Controls for the Brookhaven Nuclear Reactor. Book 3. Volume 1.</UnclassifiedTitle>
<TitleClassification code="">UNCLASSIFIED</TitleClassification>
<ReportDate>MAY 1949</ReportDate>
<PaginationOrMediaCount>167</PaginationOrMediaCount>
<PaginationCode>0</PaginationCode>
<ItemCost>14.60</ItemCost>
<ReportNumber nonPunctuated="AECM4415">AEC-M-4415</ReportNumber>
<MonitorAcronym nonPunctuated="XF">XF</MonitorAcronym>
<MonitorSeries nonPunctuated="XD">XD</MonitorSeries>
<ReportClassification code="">UNCLASSIFIED</ReportClassification>
<DistributionCode code="01">APPROVED FOR PUBLIC RELEASE</DistributionCode>
<DescriptorClassification code="">UNCLASSIFIED</DescriptorClassification>
<AbstractClassification code="">UNCLASSIFIED</AbstractClassification>
<InitialInventory>0001</InitialInventory>
<SourceSeries>1</SourceSeries>
<SourceCode>342750</SourceCode>
<GeopoliticalCode>4702</GeopoliticalCode>
<OrganizationTypeCode code="Z">INDEPENDENT FEDERAL AGENCIES</OrganizationTypeCode>
<DocumentLocation code="1">DTIC AND NTIS</DocumentLocation>
<Abstract>The instruments and controls for the Brookhaven Nuclear Reactor have evolved from a development program whose objective was, among others, to create a research facility. Throughout this program it has been clear that the ultimate arrangement of instruments and controls can not be fixed in advance of actual operation. The ultimate arrangement will depend in large measure on the research activity to take place in the future. It has been necessary, therefore, to provide a wide range of instrument capabilities and a large number of control functions.            Underlying this primary objective of creating a versatile research facility is the associated requirement that the reactor be safe. The requirements for safety are in some ways as varied and complex as those of research. In some instances they are dominant.            Exemplifying the flexibility and versatility of the reactor  instrumentation are electronic instruments of advanced design for measuring power at extremely low levels, indicating and recording the rate of rise of power level over a wide range of power, and regulating power at  preset levels. Exemplifying the variety of safety devices are instruments for monitoring power level detected by ionization chambers, by neutron  thermopiles, and by graphite and metal-cartridge thermocouples. Devices  which monitor the operability of equipment also contribute to the safety  of the reactor.   (KAR)  p.7</Abstract>
<Descriptor>*USER MANUALS</Descriptor>
<Descriptor>*POWER LEVELS</Descriptor>
<Descriptor>*NUCLEAR REACTORS</Descriptor>
<Descriptor>*POWER MEASUREMENT</Descriptor>
<Descriptor>CONTROL</Descriptor>
<Descriptor>MEASUREMENT</Descriptor>
<Descriptor>MONITORING</Descriptor>
<Descriptor>ELECTRONIC EQUIPMENT</Descriptor>
<Descriptor>GRAPHITE</Descriptor>
<Descriptor>IONIZATION CHAMBERS</Descriptor>
<Descriptor>LOW LEVEL</Descriptor>
<Descriptor>INSTRUMENTATION</Descriptor>
<Descriptor>RECORDING SYSTEMS</Descriptor>
<Descriptor>RANGE(EXTREMES)</Descriptor>
<Descriptor>INDICATORS</Descriptor>
<Descriptor>NEUTRONS</Descriptor>
<Descriptor>SAFETY EQUIPMENT</Descriptor>
<Descriptor>THERMOPILES.</Descriptor>
<FieldsAndGroups code="180501">Nuclear Fission Reactors(power)</FieldsAndGroups>
<SBIHoldingSymbol>NPS</SBIHoldingSymbol>
<handle>http://handle.dtic.mil/100.2/ADA297559</handle>
<PdfFileSize>12 MB</PdfFileSize>
</Citation>

Exempel: Text är bättre

Analyserar vi språk i text snarare än bilderna, visuell presentation m.m. vill vi just helst bara ha texten. Det sparar minne vid analystillfällen, beräkningskostnad för att ta fram den och utrymme på hårddisken (PDF dokument kan av och till mer än stora vara gigantiska om de inkluderar en mängd föga komprimerade bilder).

Med de lösninga jag använder nu (och tror jag mycket vanliga även om system säkert kan vara bättre och sämre här varierat med kostnad i utveckling och processande av vad visuell-information betyder) med av och till feltolkningar på visuellt mer komplexa sidor (önskar man ta kostnad för det och det tror jag ej är aktuellt här med något värde för mig kan det mesta om inte nära nog alla dessa fel fås bort i efterhand via bl.a. ngram-detektion, förståelse av hur url:er, standard information som doi, pmid m.m. skrivs och åtminstone enklare parsning med Natural language processing av meningar för att förstå om en radbrytning kombinerat punkt är en förkortning avhuggen eller meningsslut på rad ovanför: dyrt i beräkningstid när det handlar om miljoner dokument - en god skattning är att cirka 10 - 15 miljoner täcker upp en god andel av viktig publicerad forskning tillgänglig i pdf-format på nätet och cirka två miljoner en god andel av väsentligt från dom senaste åren när det handlar om journal-artiklar - där jag initialt ser cirka två till 25 miljoner som en lagom nivå för titel, abstrakt m.m. och bredare analys hela dokumenten för särskilda områden scarce i inlärda relationer eller särskilt viktiga vid någon tidpunkt).

__FUNCTION_WORKING PDF_TO_TEXT_LOGIC
__PDF_FILE_NAME ADA297559.pdf
__IN_DIR_GIVEN C:\PTOOLS\SAMPLER\DTIC\PDF\
__PAGES 167
__WWW_CONNECTIONS
__EASY_JOURNAL_CONNECTIONS_EX_DOI
__PAGE 1
UNCLASSIFIED
OJ
UNCLASSIFIED
M-4415
Subject Category: INSTRUMENTATION
UNITED STATES ATOMIC ENERGY COMMISSION
MANUAL OF INSTRUMENTS AND CONTROLS FOR THE BROOKHAVEN NUCLEAR REACTOR. BOOK 3, VOLUME I
r
KJ31SEm;a!BBanBI!! ^lM|
vUG.U6Jl9.9_a
biM& W''
?s^^M^^ ^Bm^asi^^^s^sf t^i^sz^,
May 1949
Servomechanisms Laboratory Massachusetts Institute of Technology Cambridge, Massachusetts
Jackson and Moreland Engineers New York, New York
Technical Information Extension, Oak Ridge, Tennessee
' % ' ~ '1--"-" % """ *
DTIS Q UALTrYlNSFEClED3
______________END_PAGE______________
__PAGE 2
Date Declassified: January 13, 1956.
LEGAL NOTICE
This report was prepared as an account of Government sponsored work. Neither the United States, nor the Commission, nor any person acting on behalf of the Commission:
A. Makes any warranty or representation, express or implied, with respect to the ac- curacy, completeness, or usefulness of the information contained in this report, or that the use of any information, apparatus, method, or process disclosed in this report may not in- fringe privately owned rights; or
B. Assumes any liabilities with respect to the use of, or for damages resulting from the use of any information, apparatus, method, or process disclosed in this report.
As used in the above, "person acting on behalf of the Commission" includes any em- ployee or contractor of the Commission to the extent that such employee or contractor prepares, handles or distributes, or provides access to, any information pursuant to his em- ployment or contract with the Commission.
This report has available copy.
been reproduced directly from the best
Issuance of this document does not constitute authority for declassification of classified material of the same or similar content and title by the same authors.
Printed in USA, Charge $1.00. Available from the Office of Technical Services, Department of Commerce, Wash- ington 25, D. C.
AEC, Oak Eidge, Tenn.
______________END_PAGE______________

Ytterst tilltalande gäller normalt att innehållsförteckning, tabeller över figurer m.m. liknande översätts till text utmärkt för journal-artiklar. Ex. från samma dokument:

__PAGE 6
CONTENTS VOLUME I
Page
9. Coarse Rod-Position Indicators - Component Description 3.35
10. Hod-Position Recorders 3.44
11. Parts List - Instrument Pinion Support Assembly
6546DN048 (For Regulating Hods) 3.47
12. Parts List - Instrument Pinion Support Assembly
6546DN047 (for Emergency Rods) 3.47
13. Parts List - Regulating-Rod Position Transmitter
Assembly 6546M030 3.49
14. Parts List - Regulating-Rod Position Indicating Unit
6546LN006 3 . 5 2
15. Parts List - ilmergency-Rod Position Transmitter
Assembly 6546EN029 3.56
16. Parts List - Kmergency-Rod Position Indicating Unit
6546BH001 3 . 5 9
17. Parts List - Coarse Rod-Position Indien tor
654&SN018 and 6546i.NQ19 3 . 6 2
18. Reference Drawings 3.65
19. Engineering Report References, D.l.C 6546, td.l.T, . . 3.65
______________END_PAGE______________
__PAGE 7

Ett till exempel från ADA297788 med tekniska data såväl som några referenser. Resultatet är varken bra eller dålig men knappast problematiskt för normal textanalys.

__PAGE 20
 fill
XJaxium Temperature Observed
2120  C to 2510 C
^-12"
30 lbs to 89 lbs
cci 4
20 lbs to 98 lbs
*2
10 cu it to 450 cu fir.
"Boron Analysis
 00 ppm to  10 (spec)
Total Ash
1 ppm to 17 ppm
gOMMAR T OF OPERATIONAL DATA
Adc kbjj  TO AEVI  AL "RIMS 11 " 1
Maximum Tariatian, Average* Range
2250 - 2400 C 60  =  65 lbs 40 = 50 lbs 100 - 300 cu ft  03 -  06 ppm 1  to 8  ppm
As the runs were made for production purposes no attempt to control the variables ms made  So correlation between the variables and the purity obtained can be drawn from the operational data 
&f Majority of the runs fall within these ranges
ABHSKBEC *C" BIBLIOGRAPHY
1. Neumark, H  R , Trans. Electrochem. Soc. 9jL, 367, (19*1-7)
2. Sermon, G. T. United Carbon Products Co. Report Ho  3 (19^7)
3. Sermon, G. T., "16OO MA Powsr Installation on 22 M Line", United Carbon Products Co. Report Ho. 13, (19*&)
4* Bodden, C. J. Richmond, M. S., National Bureau of Standards unpublished report, "Determination of Small Amounts of Boron in Project Materials".
5. Sermon, G. T., "Heating Tests in Granular Resistance Furnaces for preparing High Purity Graphite", united Carbon Products Company Report Ho. 6, (19*1-7)
19
______________END_PAGE______________