HANS HUSMAN OM MEDIA

Visar inlägg med etikett Bildanalys. Visa alla inlägg

Youtubes sökning duger inte för tuffare problem vi vanliga musik-sökare möter på det verkliga nätet

2014-12-29

Youtube är en praktisk och trevlig tjänst fyllande en viktig core functionality in the Husman everyday enterprise:

Vi kan hyggligt använda gränsssnitt.
Den kan spela musik relativt enkelt och har alltid fungerande träffar. Annonseringen stör lite mer nu tror jag (julen kanske) men samtidigt kostar det att lära sig något nytt att höra musik via.

Youtube har alltid gjort samma sak här när man söker. Titel och musiker löser problemet (ibland fodras "särskilda" varianter av namen även om Youtube är tämligen enkel bedömt från föga varianter här jämfört med andra kanaler: Säkert delvis därför att de har kanaler och apier för leverantörer att själva ställa in filtrering vilket jag gissar ibland blir en aning "distansierat" från verklighet - kanske just namnen) . I övrigt är det mest när jag kunnat följa upp mer noggrant (och jag har ett par gånger rent av tittat ganska omfattande på Youtube så upplevelse sökning mot faktiskt innehåll på sajten är möjligt för mig) gäller context från diskussioner och beskrivningar: Ej lösande mitt problem. Jag vill höra musiken och ibland se något särskilt. Ej diskutera det med folk.

Men vad gör vi - eller jag - när jag ej minns namnen som får Youtube att leverera? Jag hade kunnat söka runt med Google men för dessa områden levererar den ej heller annat än efter en tämligen överdriven ansträngning. Letande Wikipedia levererar alltid givet deras välutvecklade listor. Men där ligger en brytpunkt i ansträngning för alla situationer där seende aktuella concept beteckningar ej kommer ge slutförd association rätt.

Eller så tänker man sig att Youtube datasystemen börjat läsa bild-innehåll och man kan söka på det. Jag prövade det (också antagande någon form natural language parser hellre än att sitta och läsa sökmanual för ev. kanske ej trolig riktad funktion för det).

Första snippet-bild ser röd ut. Men inte meningsfullt röd. Bara irrelevant röd.

Så här ser jag på på detta:

Jag är säkert tämligen vanlig. Därmed är jag en viktig person när jag uttrycker behov. Det finns säkert massor av andra som söker så här men som genereras (p.g.a. hela den här subkulturella diskutera videoklipp där jag tänker att musik-elitister kan se ner på vanliga enkla musik-lyssnare som jag).
Jag är mycket viktigare än Google-medarbetarna närmare kreativ-kravställning. För Google-användare som är Google-medarbetare är mindre vanliga än vad jag är också tror jag när betalda surfare (d.v.s. ingen intäkt hoppas säkert och riktigt så alla Adwords annonsörer utan kostnad).
Google och Youtube borde rimligen kunna massor här. Men de har spretat ut genom åren samtidigt som höga intäkter gjort dem lite "förtjockade". Den hårda verkligen blir nog ofta distansierad i solens Kalifornien samtidigt som ontologier, fina tänk datastrukturer, moln-grafer och annat blir allt populärare bland medarbetarna.

Ett riktigt problem. Från det riktiga internet som byggde det hela från behov som betyder något.

Det gäller att inte glömma att internet finns för vanliga människor med verkliga i total mängd gigantiska problem.

När man glömmer sti ursprung var vi kom ifrån blir vi rotlösa och ny erfarenhet kan divergera till subkultur där den inte bygger på annat än den egna internet-frånvända tankarna.

Ett exempel välkänt i Sverige är Televerket och Sveriges Television länge svårt (och den senare fortfarande drabbad) divergerade från verklighet.

Erfarenhet av Telia kanske var Flag semaphore såväl som senare teknik man lärt sig och vant sig vid. Resulterande i stagnation: Ett trivialt något motsvarande söka med Youtube-exemplet var att man ej fick sälja eller koppla in vilken telefon som helst utan det fanns en standardiserad telefon och alla hade samma (i några färgvarianter).

Och vad är framtiden när musik och kultur glöms? Musik har varit big business bra länge i såväl som utanför internet.

Gissar jag rätt finns kanske en del utmaningar i pengarna hos Youtube givet detta. Funktioner har kommit i diverse långt utanför värden verkliga och välkända i alla fall för mig (Youtube fame-persons och small teve vet jag ingenting om: det är inte vad jag alltid gjort på Youtube). Och de har sista året börjat pusha annonser mer aggressivt. Så går det när man tappar sina rötter hos oss gamla internet-användare med riktiga problem och säljer ut till "kul-konceptuell-systemutveckling" och filmatisering av en massa ungdomar som vill bli kända, kapitalisera Google, eller uttrycka något konstnärligt (musik är big business övrigt är mer tveksamt spekulerar jag).

Här så elegant skapar ju själva musik-videon ett värde även om man kanske ofta endast är intresserad av musiken: Jag beskriver något jag minns från den och maskinen letar rätt på rätt musik som jag kan lyssna. Hur kan ett visuell organisation som Youtube missat det utan att lämnat den hårda verklighet där problemen är fortsatt fortgående och pågående ännu en dag.

Ett internet där man löser core problem och inte sitter och tittar igenom tiotusentals videoklipp för att uttrycka en skepnad. Vi vet ju sedan länge att det går - och också om jag förvisso om någon inte underskattar den utmaningen det säkert innebär även för en resurs-stark entitet bara att hantera datat och strukturerna - så tror jag säkert att enklare "feature" detektioner i klipp mappande mot typiska sökkoncept (eller varför inte NP-fraser med adjektiv lika gärna: red ball + afroamerican musician in cloth looking a bit like a uniform.

Jag har inte läst-upp-mig på vad de använt för algoritmer tidigare. Men möjligen - och kanske ett ok val för en tämligen infrastruktur-utspridd-entitet som bygger stora analys-strukturer - har de intresserat sig för Boltzmann machine.

Metadata i bilder: Mer omfångsrik extraktion

2013-11-27

Mer komplett extraktion av metadata i bilder än mini-koden i Nyhetsanalys: Sunt förnuft när det gäller bildanalysen. Ev. kollisioner mellan variabler djupare i trädet hanteras inte. Vetskap om dem behöver ändå hanteras och ev. kollisioner kan hänteras när de uppstår. Viss redunans mellan de tre moduler som används finns d.v.s. för skräp indexering på begränsad hårdvara går det bra att optimera en del.

Exempel utskriften för en bild från Reuters kan dessutom för den intresserade läsaren ge ett kompletterande besläktat men enklare exempel för metod diskuterad kort i Snowden-filerna: Att detektera manipulerad information. Ex. avseende preferenser person eller organisatoriskt bias där vissa program, bildstorlek m.m. är mer eller mindre normalt (i sig eller givet värde för annat metadata).

Exempel: Utskrift metadata
Kod

Exempel: Utskrift metadata

För många (men inte alla) fält hittas information tillsammans med de moduler som används färdiga och hittas på search.cpan.org. Annat metadata som kan förekomma är varierat legacy mer eller mindre riktigt mot hur tänkt att vara och ibland med egen formatering i datafälten.

Bits Per Sample 8

Color Components 3

Comment CREATOR: gd-jpeg v1.0 (using IJG JPEG v62), quality = 95


Current IPTC Digest bf21543e5c98c2174bac65abbe29c7ca

Directory test

Encoding Process Baseline DCT, Huffman coding

ExifTool Version Number 9.27

File Access Date/Time 2013:11:27 10:32:53+01:00

File Creation Date/Time 2013:11:27 10:33:31+01:00

File Modification Date/Time 2013:11:27 10:33:45+01:00

File Name a1.jpg

File Permissions rw-rw-rw-

File Size 41 kB

File Type JPEG

Image Height 215

Image Size 380x215

Image Width 380

JFIF Version 1.01

MIME Type image/jpeg

Resolution Unit None

SamplesPerPixel 3

X Resolution 1

Y Cb Cr Sub Sampling YCbCr4:2:0 (2 2)

Y Resolution 1

by-line DENIS BALIBOUSE

caption/abstract European Union foreign policy chief Catherine Ashton (3rd L) delivers a statement during a ceremony next to British Foreign Secretary William Hague, Germany's Foreign Minister Guido Westerwelle, Iranian Foreign Minister Mohammad Javad Zarif, Chinese Foreign Minister Wang Yi, U.S. Secretary of State John Kerry, Russia's Foreign Minister Sergei Lavrov and French Foreign Minister Laurent Fabius (L-R) at the United Nations in Geneva November 24, 2013. Iran and six world powers reached a breakthrough agreement early on Sunday to curb Tehran's nuclear programme in exchange for limited sanctions relief, in a first step towards resolving a dangerous decade-old standoff. REUTERS/Denis Balibouse (SWITZERLAND - Tags: POLITICS ENERGY TPX IMAGES OF THE DAY)

category I

city GENEVA

color_type YCbCr

country/primary location code CHE

country/primary location name Switzerland

credit REUTERS

date created 20131124

edit status CORRECTION

file_ext jpg

file_media_type image/jpeg

fixture identifier GM1E9BO0W9W01

headline European Union foreign policy chief Catherine Ashton delivers a statement during a ceremony at the United Nations in Geneva

height 215

image type 3S

keywords :rel:d:bm:GF2E9BO09X801

language identifier en

object name IRAN-NUCLEAR-DEAL/

original transmission reference DBA01

originating program JPEGTOII2/MED

program version 1.0.0.16

source X90072

supplemental category DIP POL ENR tpx

time created 053640+0000

urgency 4

width 380

writer/editor DBA/KR

Kod

Perl.

use FileHandle;
use Image::Info qw(image_info dim);
use Image::EXIF;
use Image::ExifTool qw(:Public);
use Image::IPTCInfo;

my $debug = 1;
my %metadata_image;

&run_it("_RULE_bRITANNIA",
 "test/" . "a1.jpg");

sub run_it()
{
    my $session_id = $_[0];
    my $file = $_[1];

    if ( length($session_id) < 3 )
    {
 die;
    }

    my $fp = FileHandle -> new($file);

    if ( ! $fp )
    {
 die;
    }

    $fp -> close();

    &sense__image__init_session($session_id);

    #.................................

    &sense__image__iptc($session_id,$file);
    &sense__image__elif_tags($session_id,$file);
    &sense__image__image_info($session_id,$file);

    if ( $debug )
    {
 &power_print();
    }

    #.................................

    &sense__image__end_session();
}

sub sense__image__init_session()
{
    undef %metadata_image;

    return $_[0];
}

sub sense__image__end_session()
{
    undef %metadata_image;

    return 1;
}
    
sub sense__image__iptc()
{
    # Legacy i värden för datafält. 

    my $file_name = $_[1];
    my $info = new Image::IPTCInfo($file_name);

    my %db = %{$info};

    if ( ! %db )
    {
 return 0;
    }


    my @keys = keys %db;
    my $i = 0;

    my $dirty = 0;

    while ( $i < @keys )
    {
 if ( ! ( ref ( $db{$keys[$i]} ) eq "HASH" ) )
 {
     goto abc;
 }

 my @gg = keys %{$db{$keys[$i]}};
 my $k = 0;
     
 while ( $k < @gg )
 {
     my @ww;
     if ( ref ( $db{$keys[$i]} -> {$gg[$k]} ) eq "ARRAY" )
     {
  @ww = @{$db{$keys[$i]} -> {$gg[$k]}};
     }
     else
     {
  my $value = $db{$keys[$i]} -> {$gg[$k]};
  $ww[0] = $db{$keys[$i]} -> {$gg[$k]};
     }
     
     my $cc = 0;

     while ( $cc < @ww )
     {
  my $value = $ww[$cc];
  
  if ( length($value) > 0 )
  {
      # Kolliderar meta-data: stopp-fält eller hantera annat :-D
      $metadata_image{$gg[$k]} -> {$value}++;
      
      $dirty = 1;
  }
  
  $cc++;
     }

     $k++;
 }

      abc:

 $i++;
    }

    return $dirty;
}    

sub sense__image__image_info()
{
    my $file_name = $_[1];

    my %info = %{image_info($file_name)};
    my @keys = keys %info;
    my $i = 0;
    my $dirty = 0;

    while ( $i < @keys )
    {
 if ( 
     ( $keys[$i] eq "color_type" ) ||
     ( $keys[$i] eq "file_media_type" ) ||
     ( $keys[$i] eq "file_ext" ) ||
     ( $keys[$i] eq "width" ) ||
     ( $keys[$i] eq "height" ) ||
     ( $keys[$i] eq "SamplesPerPixel" ) ||
     ( $keys[$i] eq "Interlace" ) ||
     ( $keys[$i] eq "Compression" ) ||
     ( $keys[$i] eq "Gamma" ) ||
     ( $keys[$i] eq "LastModificationTime" ) 
     )
 {

     if ( length($info{$keys[$i]}) > 0 )
     {
  $metadata_image{$keys[$i]} -> {$info{$keys[$i]}}++;
  $dirty = 1;
     }
 }


 $i++;
    }

    return
 $dirty;
}

sub sense__image__elif_tags()
{
    my $file_name = $_[1];

    # Re-used dokumentations-texten ungefär...

    my $exifTool = new Image::ExifTool;
    $exifTool->Options(Unknown => 1);
    my $info = $exifTool->ImageInfo($file_name);

    my $group = '';
    my $tag = '';
    my $c1 = 0;
    my $dirty = 0;

    foreach $tag ($exifTool->GetFoundTags('Group0'))
    {
 if ($group ne $exifTool->GetGroup($tag))
 {
     $group = $exifTool->GetGroup($tag);
 }

 my $val = $info->{$tag};

 if (ref $val eq 'SCALAR') 
 {

     if ($$val =~ /^Binary data/)
     {
  $val = "($$val)";
     } 
     else 
     {
  my $len = length($$val);
  $val = "(Binary data $len bytes)";
     }
 }

 # Antingen värdet eller förklaring av det om ej.
 my $value = 
     $exifTool->GetDescription($tag);

 if ( 
     ( ! ( index($val,"Bad IPTC data") != -1 ) ) &&
     ( length($tag) > 0 )
     )
 {
     $metadata_image{$value} -> {$val}++;     
     $dirty = 1;
 }

 if ( $c1 > 200 )
 {
     goto safety;
 }

 $c1++;
    }

  safety:

    return
 $dirty;
}

sub power_print()
{
    my $out = FileHandle -> new("debug.tmp","w");

    my @gg = sort keys %metadata_image;
    my $i = 0;

    print
 @gg . "\n";

    while ( $i < @gg )
    {
 my @hh = sort keys %{$metadata_image{$gg[$i]}};
 my $k = 0;

 while ( $k < @hh )
 {
     print
  $out
  $gg[$i] . "\t" . $hh[$k] . "\n";

     $k++;
 }

 print
     $out
     "\n";

 $i++;
    }

    $out -> close();
}

Nyhetsanalys: Sunt förnuft när det gäller bildanalysen

Never Ending Language Learner är ett datalärt common sense jag berört tidigare av och till. Praktiskt för den som vill ha en kunskapsbas just nu för att konkret resonera smidigt med är det nog det mindre naturliga valet än många andra (just därför att dator lärt sig själv) men är på många andra sätt - särskilt över längre tid i sig själv eller tänkbara liknande lösningar det kan leda till direkt eller indirekt . intressantare än andra (de flesta i övrigt är ju vetskap mellan relationer vi har och i mycket mellan dem oavsett FreeBase, Wordnet eller ConceptNet) genom att det adderar självlärande i (praktiskt i alla fall nu tycks det i ganska lugn takt och ska man ta data krävande hantering en del kvalitetsfrågor) takt.

Carnegie Mellon University där AI NELL bor har nu publicerat i pressmeddelande i åtminstone konceptuellt i meningen självlärande rörande relationer självklarande besläktade NEIL: Never Ending Image Learner (Nelly och Neil?):

"It is an effort to build the world’s largest visual knowledge base with minimum human labeling effort – one that would be useful to many computer vision and AI efforts. See current statistics about how much NEIL knows about our world!!"

Från: www.neil-kb.com

Se pressmeddelandet för mer om det medan Neil-kb.com presenterar resultatet: Carnegie Mellon Computer Searches Web 24/7 To Analyze Images and Teach Itself Common Sense.

I tillämpningsintresse är domänen inte direkt ny för mig och praktiskt från perspektiv av analys jag är intresserad av för särskilt nyheter och artiklar relativt resurser är följande tre frågor intressanta när det kommer till att etablera den här typen av vetskap:

Är det relationer mellan koncept som förekommande visuellt i bilder som är viktigt oavsett om vi just lär dem från bilder eller exakt just som kanske de flesta skulle benämna dem om tillfrågade vad de heter i bilder?
Är det viktiga att kunna identifiera koncept förekommande i en given bild och förstå hur de troligt relaterat till varandra avseende mening och betydelse i bilden?
Är värdet vi söker att komplettera andra datakällor och metoder för att lära relationer och associationer som förekommer visuellt (d.v.s. primärt avsett relationer vi lär enligt ett).

När jag snappt tittade runt på NEIL tycks det starkt ligga mot att vara en metod i det sista. Ännu är den heller inte snabb (men det lär nog växa allt eftersom den redan lärt mer). För relationer på webbsajt är jag inte säker på om det endast är relationer NEIL lär själv eller om det inkluderar också träningsdata rörande givna relationer.

Lösningar jag gjort har uteslutande varit i den första domänen i prakisk ej experimentiell kod (men jag har utanför det en del kod för att rita på scener vilket genom de preferenser bl.a. media har för bildformat, meta-data- beskrivningar av bilder m.m. är ordentligt mycket enklare). De andra två och särskilt tre känns ännu för kostsamt i beräkningskraft såväl som att identifiera bra algoritmer som presterar resultat adderande något som höjer upp textanalys snarare än att riskera den mer med mer osäkert data.

Målsättningen praktiskt är ju att för en nyhet eller artikel givet kunna dra nytta av också bilder förekommande förutom själva texten såväl som att kunna utnyttja visuella koncept och deras relationer för hur scener och händelser beskrivs. Dessa två områden är besläktade men inte självklart samma sak: Vi kan ju - och gör det ofta - beskriva en visuell scen i ord.

Självklart vore det underbart om analysen av själva bilden (d.v.s. bildanalys snarare än ex. bildtext) kunde utelämnas därför att bilder var noggrant taggade och beskrivna såväl för vad de innehåller i personer, platser, föremål m.m. entiteter, relationer mellan entiteter, test-resultat avseende påverkan kognitivt i känslor på en liten population människor mätt med fmri, information om kostnad för att kunna ta bilden alt. köpa den eller om creative commons eller fri användnings-intensitet och allt annat relevant.

Verkligen är emellertid att Reuters trots föga ligger föredömligt högt jämfört med de flesta i media. Tar vi en offensiv Obama just nu överst på deras startsida relaterat nyhet In Western swing, Obama goes on offensive over healthcare law - alternativ titel given startsidan: Obama goes on offensive - länkad är direkt i filnman datum angivet:

http://s3.reutersmedia.net/resources/media/global/assets/images/20131126/20131126_3650140620131126235002.jpg

Och tittar vi på meta-data finns fotograf, datum och själva händelsen eller ett övergripande sammanhang för händelsen) och huvud-taggar för nyheten: politics och USA d.v.s. ingenting vi inte får från textanalysen av själva nyheten):

Jämför vi med AFP som Google tror jag betalar för att visa innehållet på Google.com (det sades ofta så om kanske ej kommenterat av Google eller AFP för ett antal år sedan när det blev aktuellt) för (och rimligen har Google stort intresse kring det här området särskilt längre tillbaka: hosted news har var tänker jag kanske delvis från början smidig snabb tidsaktuell analys i väl-definierat format via push från aktuell aktör) fanns åtminstone för bild på B52-flygplanet i US challenges China's fly zone with B-52 flight saknas meta-information:

Inget intressant i metainformation detekterat varken manuellt med Emacs eller analyserande dataformatet.

AFP är normal nivå. Att något mer finns och ännu mer ovanligt att man generellt kan lita på det något så när som för de manuella bilder jag tittade på för Reuters är väldigt ovanligt.

Men ingenting i det säger något alls om vad som gör detta till en bra bild för startsidan. Och heller ingenting om vilka entiteter mer än Obama vi har i bilden.

Den kraftfulla flaggan i bakgrunden.
Obama på väg att göra en vinnan gest med v-tecknet.
Alt. att det är del av en självförsvars-teknik Secret Service lärt honom för att angripa ögonen på en angripare han i emottionell ögonblicket kanske talande om IT- och datats förbannelse och datorernas hot mot ObamaCare råkat göra.
Vi vet inte säkert vilket men orsaken till varför Reuters valt bilden och vad läsaren kan se i nyhets-kontext är troligare v-tecknet.

Och lika troligt allmänt kanske en ögonblicksbild som inte leder till avslut på potent seger-gest men det är ej viktigt för vad bilden adderar till vad en nyhet eller här startsidan med länk till nyhet adderar i påverkan.

Även om det redaktionellt för en potent aktör som Reuters är tilltalande korrekt att bilden kommer från sammanhanget nyheten berör gäller ju att som konceptuellt illustration på startsidan rörande den påverkan bilden har hade något liknande från ett annat sammanhang haft samma effekt på läsaren.

Men för att skatta ut det måste vi kunna tolka och förstå bilden visuellt och det är i beräkningstid kostsamt jämfört med textanalys. Och alt. djupare analys kring andra uppgifter, fakta och information i text finns för textanalys.

Kostnaden tycks för mig reducerats en hel del sista åren bara (men jag kan ta fel här) även om de flesta om inte alla mer självklara grundläggande algoritmer matematiskt funnits länge. Vi kan förstå min spekulation här från att skillnaden inte konkret och ännu mindre konceptuellt är avgörande mellan text- och bildanalys: ett tydligt (och långt mer uttryckande detta än genomsnittligt i konkret nästan direkt mappning mellan matematiska koncept) PCA (Hotelling-transformationen med namn från Harold Hotelling) som är mycket vanlig för text- och bildanalys enligt samma idé. Förmåga och förutsättningar i hur bilder används att snabbare kunna och tolka och analysera dem är en sak jag upplever förbättrats senast åren (men har inte jämfört det tillräckligt för att våga säga det säkert - ex. kan vi se relevant för bloggen här hur Blogger automatiskt sparar stora filer i mindre format motsvarande hur jag använder bilder som är snabbare att ladda ner än ofta den bild jag laddar upp - och min känsla är att effektivare såväl som mer informativa bildformat är vanligare).

Relaterat

Mer både aktuellt och historiskt i forskning, algoritmer m.m. om bildanalys från aktuell kaegori Arxiv:

Computer Vision and Pattern Recognition

Arxiv återpublicerar journal-artiklar eller jämförbart relaterat forskning eller etenskaplig-spelulation och argumentation kategoriserat (ex. som ovan bildanalys).

Metainformation för bilden extraherades ad-hoc med Image::Info och för att dela tillbaka till internets alla intresserade ges koden nedan:

use Image::Info qw(image_info dim);
use Data::Dumper;

my $info = image_info("ALeqM5gNf9_uAKU6LXLtvGv0O4yO0rheeg.jpg");
#my $info = image_info("20131126_3650140620131126235002.jpg");

print
    Dumper ( %{$info} ) . "\n";

Det finns ganska mycket färdigt till Perl för att extrahera metainformation från dom vanligaste filformatet.

Ej bokförda militära-problem: Bildanalys kan ibland lösa problemet med urgamla legacy-system

2013-11-18

Jag är inte säker på att denna metod är funktionell på dom här systemen (flera tusen business systems) som använda (en hel processas kanske mer automatiserat utan att visualisera sig):

For two decades, the U.S. military has been unable to submit to an audit, flouting federal law and concealing waste and fraud totaling billions of dollars | Reuters

Men också för legacy system direkt svårt p.g.a. gammal hårdvara, programvara hårdkodad eller med okänt ursprung o.s.v. kanske sittande i en dyr stridstraktor eller någon föregångare till Gigantiska stridsfartyget Gerald R. Ford redan föråldrat trots nybyggt: Saknar ångkraft har de ofta skärm.

Bildanalys rörande detektion av text och sffror på det bör i sig inte vara något problem. Och antagligen presenteras data på skärn för just dom och särskilt äldre system tämligen eller exakt alltid konstant rörande avstånd (förutom siffer och bokstävsvariationer) så att det är mycket enklare att få ut funktionellt data. Tillskillnad från mycket värre datorer och IT ObamaCare: IT- och datasystem är naturligt torterande med federala problem datorer tillochmed innan Obama steg in i Vitahuset PDF-dokument för journal-artiklar m.m. omvandlade från värst PS-filer innan (tror jag) eller som en hel del på Dtic.mil avfotograferade i gryniga kopiatorer (utmärkt specialarbete eller examensarbete för någon att göra en open source perl modul för).

Det kan rent av vara mycket enklare än att "quick-parsa" (en myckenhet memcopy, substr eller motsvarande beroende på språk) som ju typiskt närstan alltid ger bra data om man är van att göra sådant men regelmässigt alltid skjuter en andel fel av och till. Tråkigt nog som allmänt problem lär sådant här inte minska. Eleganta koncept som rekursiva-träd likt html och xml förvärrar saker och ting medan en hemsida egentligen lika gärna (tycker jag) kan skrivas som en CSV lista med kanske maximalt fyra fält.

Och ändå oavsett hur komplex, fylld med helt irrelevant html, xml, javascript, massa jox för reklam m.m. html-sidan är gäller att vill vi bara ha texten kan vi ju utnyttja black-box med webbläsare och bildanalysera skärm (även om jag absolut inte gör det: jag har kommit att se ett närmast religiös proces i att quick-parsa data från sajter eller dokument samlade från UN, Reuters, Xinhua m.m. En fin upplevelse där man får trevlig chans att upptäcka spännande små fakta om världen när fel-text kommer in eller skrivs ut i debug - Och samtidigt arbetsmoral- och impulskontroll-tränande - vad ungdomen borde göra i skolan för att träna sig till bättre människor kanske åt aktörer utanför som behöve få sådant gjort och jag är själv villig att skriva en affärs-tränande kravspecifikation på hur jag vill ha sådant gjort skolan kan använda för att organisera en skolklass till att parsa ut en bunt sajter eller dokumentsystem åt mig).

Det finns ju en ofta uttryckt dröm om enkelt api i ex. Perl för att bara få ut text. Det intresserar mig mer sällan. Ingen verkar nöjd med vad som finns och vad jag prövat oavsett html eller mer som xml används i ontologier, rds-junk eller en del sgml ej html är ofta åtminstone brutalt slött. Men där har vi samma koncept: Texten utan alla legacy-format kanske engång standardiserade eller praktiskt för webbsajter individuellt för varje när det är specifika datafält vi önskar (nätet ramlade ner en bit från html 1.0 i det här perspektivet även det är mycket begripligt och givetvis sammantaget bättre).

Och rent av att datasystem för att fotografera skärm inte behöver vara avancerat heller. Bara att potestera en sailor framför the nuclear supply- and waste management system för att fotografera av uppgifterna om mängden uran eller vad som nu används i dom här större båtarna och ubåtarna.

Bara att se upp för UUID omvandling mellan kamera, UCORE eller jämförbart, Drupals representation, och vad diverse dokument-program likt Word eller Adobe-använder. Om än ej enorm åtminstone en del möjliga indikationer man kan träffa på i en del sådant PDF-filer från Guardian (även om i alla fall för mig helt intet-sägande och antagligen men inte säkert ej bärande problem). Annars får man spårbarhet mindre anvädnbar för säkerhetslösningar, dokumenthantering och accounting och istället icke-definierade risker och sammanblandningar.

Annars var jag ganska imponerad av lösningarna. Andra metoder för att hantera sådant här i slutet av månden jag hört om inkluderar att samla små rester av månadens måltider att sätta på hudfett, åtta olika pennor, en liten hammare för att försiktigt slå på handen man skriver med och svarta sopsäckar att fästa på fönstren. Lösningarna här kändes mer rationella. Att förändra luftfuktighet är ett till ex. på irrationell helt onödig åtgärd ej helt okänd. Men så är en del mycket mer noggranna och exakta när det kommer till detaljer: tyskt exakt som jag brukar kalla det och då faller sig sådana här egentligen överdrivna metoder naturliga. Kvalitets-motivation inbyggd i personligheten...

Komplettering: Precis som hos svenska Polisen före - och av historik att bedömma fortsatt - senaste försöket att göra IT:

"'At last count, there were 167 manual workarounds' for the 40-year-old pay system used by DFAS and all the services except the Marines, he says. As a result, staff often must transcribe information from one system onto paper, carry it to another office, and hand it off to other workers who then manually enter it into other systems - a process called "finger-gapping" that Wallace faults as a further source of errors."

Från: How the Pentagon’s payroll quagmire traps America’s soldiers | Reuters

Och tråkigt nog också delade likhet med dom moraliskt-administrativa problem Sverige haft relaterade skadade i Afganistan såväl som dom afganska tolkarna (oavsett hur nu det senare problemet slutade).

Samtidigt som ett faktiskt bra befintligt system existerar jag rent av fick för mig Sverige är stor delägare i via medlemsskap i en internationell grupp eller organisation. Men jag är ju inte särskilt detalj kunnig kring arresterings-formalia m.m. Men mötet affärssystem, kontorsmiljö och mobila huvudsakligen automatiserade lösningar så nära liggande verkar ju intressant.