Metadata i bilder: Mer omfångsrik extraktion

2013-11-27

Mer komplett extraktion av metadata i bilder än mini-koden i Nyhetsanalys: Sunt förnuft när det gäller bildanalysen. Ev. kollisioner mellan variabler djupare i trädet hanteras inte. Vetskap om dem behöver ändå hanteras och ev. kollisioner kan hänteras när de uppstår. Viss redunans mellan de tre moduler som används finns d.v.s. för skräp indexering på begränsad hårdvara går det bra att optimera en del.


Exempel utskriften för en bild från Reuters kan dessutom för den intresserade läsaren ge ett kompletterande besläktat men enklare exempel för metod diskuterad kort i Snowden-filerna: Att detektera manipulerad information. Ex. avseende preferenser person eller organisatoriskt bias där vissa program, bildstorlek m.m. är mer eller mindre normalt (i sig eller givet värde för annat metadata).



Exempel: Utskrift metadata


För många (men inte alla) fält hittas information tillsammans med de moduler som används färdiga och hittas på search.cpan.org. Annat metadata som kan förekomma är varierat legacy mer eller mindre riktigt mot hur tänkt att vara och ibland med egen formatering i datafälten.


Bits Per Sample 8

Color Components 3

Comment CREATOR: gd-jpeg v1.0 (using IJG JPEG v62), quality = 95


Current IPTC Digest bf21543e5c98c2174bac65abbe29c7ca

Directory test

Encoding Process Baseline DCT, Huffman coding

ExifTool Version Number 9.27

File Access Date/Time 2013:11:27 10:32:53+01:00

File Creation Date/Time 2013:11:27 10:33:31+01:00

File Modification Date/Time 2013:11:27 10:33:45+01:00

File Name a1.jpg

File Permissions rw-rw-rw-

File Size 41 kB

File Type JPEG

Image Height 215

Image Size 380x215

Image Width 380

JFIF Version 1.01

MIME Type image/jpeg

Resolution Unit None

SamplesPerPixel 3

X Resolution 1

Y Cb Cr Sub Sampling YCbCr4:2:0 (2 2)

Y Resolution 1

by-line DENIS BALIBOUSE

caption/abstract European Union foreign policy chief Catherine Ashton (3rd L) delivers a statement during a ceremony next to British Foreign Secretary William Hague, Germany's Foreign Minister Guido Westerwelle, Iranian Foreign Minister Mohammad Javad Zarif, Chinese Foreign Minister Wang Yi, U.S. Secretary of State John Kerry, Russia's Foreign Minister Sergei Lavrov and French Foreign Minister Laurent Fabius (L-R) at the United Nations in Geneva November 24, 2013. Iran and six world powers reached a breakthrough agreement early on Sunday to curb Tehran's nuclear programme in exchange for limited sanctions relief, in a first step towards resolving a dangerous decade-old standoff. REUTERS/Denis Balibouse (SWITZERLAND - Tags: POLITICS ENERGY TPX IMAGES OF THE DAY)

category I

city GENEVA

color_type YCbCr

country/primary location code CHE

country/primary location name Switzerland

credit REUTERS

date created 20131124

edit status CORRECTION

file_ext jpg

file_media_type image/jpeg

fixture identifier GM1E9BO0W9W01

headline European Union foreign policy chief Catherine Ashton delivers a statement during a ceremony at the United Nations in Geneva

height 215

image type 3S

keywords :rel:d:bm:GF2E9BO09X801

language identifier en

object name IRAN-NUCLEAR-DEAL/

original transmission reference DBA01

originating program JPEGTOII2/MED

program version 1.0.0.16

source X90072

supplemental category DIP POL ENR tpx

time created 053640+0000

urgency 4

width 380

writer/editor DBA/KR

Kod


Perl.


use FileHandle;
use Image::Info qw(image_info dim);
use Image::EXIF;
use Image::ExifTool qw(:Public);
use Image::IPTCInfo;

my $debug = 1;
my %metadata_image;

&run_it("_RULE_bRITANNIA",
 "test/" . "a1.jpg");

sub run_it()
{
    my $session_id = $_[0];
    my $file = $_[1];

    if ( length($session_id) < 3 )
    {
 die;
    }

    my $fp = FileHandle -> new($file);

    if ( ! $fp )
    {
 die;
    }

    $fp -> close();

    &sense__image__init_session($session_id);

    #.................................

    &sense__image__iptc($session_id,$file);
    &sense__image__elif_tags($session_id,$file);
    &sense__image__image_info($session_id,$file);

    if ( $debug )
    {
 &power_print();
    }

    #.................................

    &sense__image__end_session();
}

sub sense__image__init_session()
{
    undef %metadata_image;

    return $_[0];
}

sub sense__image__end_session()
{
    undef %metadata_image;

    return 1;
}
    
sub sense__image__iptc()
{
    # Legacy i värden för datafält. 

    my $file_name = $_[1];
    my $info = new Image::IPTCInfo($file_name);

    my %db = %{$info};

    if ( ! %db )
    {
 return 0;
    }


    my @keys = keys %db;
    my $i = 0;

    my $dirty = 0;

    while ( $i < @keys )
    {
 if ( ! ( ref ( $db{$keys[$i]} ) eq "HASH" ) )
 {
     goto abc;
 }

 my @gg = keys %{$db{$keys[$i]}};
 my $k = 0;
     
 while ( $k < @gg )
 {
     my @ww;
     if ( ref ( $db{$keys[$i]} -> {$gg[$k]} ) eq "ARRAY" )
     {
  @ww = @{$db{$keys[$i]} -> {$gg[$k]}};
     }
     else
     {
  my $value = $db{$keys[$i]} -> {$gg[$k]};
  $ww[0] = $db{$keys[$i]} -> {$gg[$k]};
     }
     
     my $cc = 0;

     while ( $cc < @ww )
     {
  my $value = $ww[$cc];
  
  if ( length($value) > 0 )
  {
      # Kolliderar meta-data: stopp-fält eller hantera annat :-D
      $metadata_image{$gg[$k]} -> {$value}++;
      
      $dirty = 1;
  }
  
  $cc++;
     }

     $k++;
 }

      abc:

 $i++;
    }

    return $dirty;
}    

sub sense__image__image_info()
{
    my $file_name = $_[1];

    my %info = %{image_info($file_name)};
    my @keys = keys %info;
    my $i = 0;
    my $dirty = 0;

    while ( $i < @keys )
    {
 if ( 
     ( $keys[$i] eq "color_type" ) ||
     ( $keys[$i] eq "file_media_type" ) ||
     ( $keys[$i] eq "file_ext" ) ||
     ( $keys[$i] eq "width" ) ||
     ( $keys[$i] eq "height" ) ||
     ( $keys[$i] eq "SamplesPerPixel" ) ||
     ( $keys[$i] eq "Interlace" ) ||
     ( $keys[$i] eq "Compression" ) ||
     ( $keys[$i] eq "Gamma" ) ||
     ( $keys[$i] eq "LastModificationTime" ) 
     )
 {

     if ( length($info{$keys[$i]}) > 0 )
     {
  $metadata_image{$keys[$i]} -> {$info{$keys[$i]}}++;
  $dirty = 1;
     }
 }


 $i++;
    }

    return
 $dirty;
}

sub sense__image__elif_tags()
{
    my $file_name = $_[1];

    # Re-used dokumentations-texten ungefär...

    my $exifTool = new Image::ExifTool;
    $exifTool->Options(Unknown => 1);
    my $info = $exifTool->ImageInfo($file_name);

    my $group = '';
    my $tag = '';
    my $c1 = 0;
    my $dirty = 0;

    foreach $tag ($exifTool->GetFoundTags('Group0'))
    {
 if ($group ne $exifTool->GetGroup($tag))
 {
     $group = $exifTool->GetGroup($tag);
 }

 my $val = $info->{$tag};

 if (ref $val eq 'SCALAR') 
 {

     if ($$val =~ /^Binary data/)
     {
  $val = "($$val)";
     } 
     else 
     {
  my $len = length($$val);
  $val = "(Binary data $len bytes)";
     }
 }

 # Antingen värdet eller förklaring av det om ej.
 my $value = 
     $exifTool->GetDescription($tag);

 if ( 
     ( ! ( index($val,"Bad IPTC data") != -1 ) ) &&
     ( length($tag) > 0 )
     )
 {
     $metadata_image{$value} -> {$val}++;     
     $dirty = 1;
 }

 if ( $c1 > 200 )
 {
     goto safety;
 }

 $c1++;
    }

  safety:

    return
 $dirty;
}

sub power_print()
{
    my $out = FileHandle -> new("debug.tmp","w");

    my @gg = sort keys %metadata_image;
    my $i = 0;

    print
 @gg . "\n";

    while ( $i < @gg )
    {
 my @hh = sort keys %{$metadata_image{$gg[$i]}};
 my $k = 0;

 while ( $k < @hh )
 {
     print
  $out
  $gg[$i] . "\t" . $hh[$k] . "\n";

     $k++;
 }

 print
     $out
     "\n";

 $i++;
    }

    $out -> close();
}

Färden till Västern: Premiärminister Li Keqiang söker taoistisk kraft i Central- och Östeuropa

Det här tror jag kommer med trevliga möjligheter för alla. Med utlovade turister och infrastruktur vill Premiärminister Li Keqiang bygga mång-dimensionella broar till Europa:


"Beijing stands ready to increase the imports of competitive CEE products and encourage more Chinese tourists to visit CEE countries, added the Chinese premier.

Meanwhile, Li called for the launching of a number of large infrastructure projects, proposing to combine China's relatively mature and full-fledged industry of equipment manufacturing and the needs of CEE countries for infrastructure improvement."

[...]

"CEE countries and China should seize the opportunities, respect and learn from each other, and work together to lift CEE-China cooperation and the Europe-China relationship to higher levels."

Från: Chinese premier calls for all-dimensional cooperation with CEE countries (2013-11-27) | Xinhuanet

Några år bakåt hade nog vissa risker varit riktiga att indikera: Kina har ju ofta önskat viss likhet med ex. egna politiska koncept i utrikespolitik åtminstone i meningen att man ej talar emot.


Idag jämfört med 2008 tror jag när sist diskuterat allt mer vad alla lägger märke till: det både skapar mer möjlighet att upptäcka vad som kan ge starkare samarbete genom att man ser värden att skapa samtidigt som risker och mindre korrekta förväntningar om att kommersiella investeringar ska ge politiskt inflytande på EU's utrikespolitik direkt i EU eller i närmiljö ses innan det blir problematiskt.


Europa delvis tack-ware "NSA-affären" och mycket naturligt i utveckling av EU kanske är nog mer medveten om den enorma ekonomiska, politiska och politära kraft man representerar och villig att assert vad Europa är utan osäkerhet om vem av alla länder och organ som kan säga vad.


Jag känner också att den politiska eliten i Kina under åren av internationella möten med andra kulturer lärt mycket och idag allt mer hungrar efter att lämna frihet till yngre släktningar i det moraliska riktiga såväl som reducerande deras risker att falla i kommande politiska strider.


Premiärminister Li Keqiang likt en av Kinas historiska mest kraftfulla symboler och föredömen - Apkungen - söker nog delvis taostisk inspiration till förändring från Europas transformation från det Kalla Kriget det en ny verklighet med växande välstånd såväl som lugn med föga av den oro och rädsla förtrycket gav för allt mer av Europa. Ett rykte - obekräftat men ändå - gör dessutom gällande att Premiärminister Li Keqiang i hemlighet under flera år varit medlem i Amnesty International årligen donerande åtminstone vad medlemsskapet kostat.


"The splendid Great Sage then put his cudgel away, made a spell with his fingers while saying the magic
words, called 'Change!' and turned into a fire−fly.

He was really nimble. Just look at him:
Wings that shine like shooting stars:

The ancients say fire−flies grow from rotting plants.
His powers of transformation are truly great,
And he loves to wander all around.
When he flies to the stone doors to look within
A draft blows through the crack beside him.
A single jump and he is in the dark courtyard,
Watching the movements of the evil spirits.

[...]

'Master,' said Brother Monkey, unable to keep quiet any longer, 'I'm here.'
'I was just wondering how there could be a fire−fly at this time of year, and it's you,' the Tang Priest replied with delight.
'Master,' said Monkey, turning back into himself, 'the journey's been held up so long and so much effort has been wasted because you can't tell true from false. All the way along I've told you demons are no good, butyou will kowtow to them.'"

Journey to the West, Wu Cheng−en (PDF)
Kapitel 92
Three Monks Wage a Great Fight on Green Dragon Mountain

Yoshitoshi Tsukioka, 1889

Att välja en japansk konstnärs viusalisering här ska korrekt ses som resulterande av en visualisering såväl som påminnande om den gemensamma kulutrhistoria Kina och Japan har. Och två aktörer vad man från en större kulturell distans här i Europa kan uppleva inte alltid skiljer sig enormt åt i politiskt tydligare språk om än av och till innehållets detaljer i vad man söker.

Snowden-filerna: Att detektera manipulerad information

Antar vi att de flesta (inte alls otroligt alla ännu) filer stämer med som tagna (piratkopierade? spionerade?) från SSA's bygger det givetvis upp stort förtroende över tiden.


Vi kan här leka på antagandet att filer vid någon punkt kan innehålla enskilda delar manipulerade eller ändrade. Kanske endast en rad. Problematiken relaterat att detektera det är intressant bredare och Snowden-filerna kan passa som utgångspunkt för att diskutera det.


En möjlighet här är att om rimlig korrekt finns upparbetad i att ej förneka filer korrekta (åtminstone i meningen att man ej heller bekräftar dem) hos NSA kan det delvis vara funktionellt för att begränsa ev. skadeverkan på godtyckligt företag eller annan aktör.


Under förutsättning att NSA kan spåra publicerade filer till deras motsvarighet hos dem och noterar enskilda manipulationer av data (det tycks troligt).


Om den möjligheten saknas behöver vi först konstatera vår större utmaning i detektionen:


  • Vi kan ej anta att vi kan verifera fakta givet som korrekt eller inte på rimlig tid (istället kan det ta många år innan det klarar).
  • Manipulaton av enskild text rörande detaljer (ex. ersättande hypotetiskt och ej troligt något relaterat avlyssning Google's datacenter med något spelkonsol-leverantör Microsoft eller Playstation) kan vi heller inte detektera vi språkmodeller.

Några pdf-filer publicerade av Guardian jag tittade lite närmare på (utan något liknande god vetskap om pdf-formatet) tycks vara skapade av ett antal bildfiler efter varandra. Om så redan i NSA databas (eller ev. om kontorsdatorer om nu Snowden kopierade upp dem från sådana korrigerande problem eller installerade program) är det tror jag bättre här än om skapat mer direkt i relevant program för att göra sådant här genom att test, linjer m.m. då är uttryckt i meta-språk för pdf (om jag försår konceptet rätt).


Ändå för så begränsad manipulation betvivlar jag att det alls detekteras givet att mycket annat varit tycks det genomtänkt i detaljer i mycket kring det här. Det går ju enkelt via gissar jag räcker bra ex. Gump att utmärkt ta bort det som nu märks med lite filter m.m.


Så återstår möjligheter för detektion? Nja. På nivån vi anagit ovan är det nog tror svårt via andra metoder också. Men skillnad finns trots allt ändå mellan vad vi ser och hur något uttrycks. Ju mer "komponent-överskrivande" eller strukturellt det ändras (där det lär bli troligare förändrande om man mer försöker föra in saker och ting eller ändra struktur - d.v.s. manipulativt på störr nivåer och potentiellt farligare i skadeverkan ex. på företag eller liknande) desto ("eventuellt" läggs bäst för jag har aldrig prövat det pdf) blir en till metod möjlig (och möjligt när den är funktionell är övriga metoder vi antog ej möjliga minst lika effektiva samtidiga).


Vi förstår metoden från vad som kanske gör pdf känsligare än mycket annat:


"A PDF file consists primarily of objects, of which there are eight types:[38]
[...]
Objects may be either direct (embedded in another object) or indirect. Indirect objects are numbered with an object number and a generation number. An index table called the xref table gives the byte offset of each indirect object from the start of the file.[39] This design allows for efficient random access to the objects in the file, and also allows for small changes to be made without rewriting the entire file (incremental update). Beginning with PDF version 1.5, indirect objects may also be located in special streams known as object streams. This technique reduces the size of files that have large numbers of small indirect objects and is especially useful for Tagged PDF."

Från: PDF | Wikipedia

D.v.s. tänkbart kan vi etablera språkmodell ej för innehållet utan själva språket dokumentet uttrycks med. Där distansiering över tiden med relativt små-förändringar i klientprogram, personliga preferens hos användare m.m. kan bli märkbart.


Kan det hindras att detekteras genom medvetenhet om detta? Kanske. Det beror nog på hur mycket data Snowden egentligen har. Jag misstänker nog att PDF-filerna inte innehåller genomgående särskilt komplett information hur konfiguration sett ut ev. inverkande här (även om det nog kan förenklas till ett fåtal enkla grupper möjligt) medan jag mer tydligt kan tänka mig att corpus för användare nog här saknas.


Det räcker inte för att bevisa något men kanske kan ge en och annan out-lier via en kompletternade metod om jämförelse corpus kan påvisas personer. Detta är en helt annan fråga där en del alternativa lösningar kan existera men ligger utanför vad möjöigt att få med här vettigt begränsat och meningsfullt vad jag vet om representativt.


Artikel nedan från The Royal Society's journal Proceedings of the Royal Society B (B är mer hard-science och matematik närmare ingenjörs-tillämpning och A biologi och neuro science, bioinformation m.m.) ger illustration hur detektion meta-språk fungerar:


"Many prehistoric societies have left a wealth of inscribed symbols for which the meanings are lost. For example, the Picts, a Scottish, Iron Age culture, left a few hundred stones expertly carved with highly stylized petroglyph symbols. Although the symbol scripts are assumed to convey information, owing to the short (one to three symbols), small (less than 1000 symbols) and often fragmented nature of many symbol sets, it has been impossible to conclude whether they represent forms of written language."

"This paper reports on a two-parameter decision-tree technique that distinguishes between the different character sets of human communication systems when sample sizes are small, thus enabling the type of communication expressed by these small symbol corpuses to be determined. Using the technique on the Pictish symbols established that it is unlikely that they are random or sematographic (heraldic) characters, but that they exhibit the characteristics of written languages."

Från: Pictish symbols revealed as a written language through application of Shannon entropy
Rob Lee1, Philip Jonathan och Pauline Ziman,
Mars 2010 doi: 10.1098/rspa.2010.0041
Proc. R. Soc. A rspa20100041

Pressmeddelande: Unlocking the mysteries of the Picts | The Royal Society

Specifika algoritmer i artikel för bildspråk är dock något för förenklade här där från det mer begränsade jag sett för PDF-filerna istället graf-relaterade informationsmått (Entropy and Graphs, Seyed Saeed Changiz Rezaei (University of Waterloo, Kanada), 2013 är en diskussion men flera mått relaterat graf-entropier finns flera är nog vad som normalt oavsett tillämpning man prövar praktiskt hellre än att försenare för mycket kring resp. teori- se kompletterande att globala distributioner finns såväl som lokala ev- uttryckt i flera dimensioner per användare, miljö, tidpunkt, organisation i IT-mening fil passerade relaterat i samband med skapad och presenterad) är aktuella (PDF gör åtminstone för delar jag såg i standarder och från data extraherad från ett apr test-filer Snowden just vad som skapar vad vi kan se som graf inkl. vad vi programmatiskt kan se som rekursiva förhållanden - men mindre av det senare i aktuella filer vilket dock kan vara relaterat angvet sist här).


Motsvarande en värld där vi definierar meningsfullt språk som nivå med hur näraliggande "vanligt" som förväntad för skapare A, på plattform B, för event C där filen tas och sparas om för gemensam presentation (exempelvis) o.s.v.


Flera exempel på bildspråket finns i Wikipedia Pictish stones (artikel refererad längre upp har endast en bild).


Meningsfullhet i att koncept går igen med liknande betydelse är möjligt. Samband kan också tänkas uppstå från att de förekommer tillsammans meningsfullt utan att vara riktigt språk som vi oftare kanske tänker oss det nu.

Något jag minns mig uppleva när jag tittade på ett antal bilder av stenar i samband med att läste artikeln var kontrakts-liknande övrrenskommelser relaterade mark, giftemål, bokskap m.m. Att hugga det i sten ger det ju väldokumenterat och trovärdigt en tid i alla fall. Passande storbönder när de gifter sig samman med en näraliggande för tiden kraftfull aktör med många djur, betesmarker, gårdsfolk inkl. vapen till dem kanske mycket tiotal eller rent av hundra st även om det spontant utan att veta mycket alls om kulturen låter ovanligt stort under normala tider).

Där får vi ju statistiskt återkommande mönster meningsfulla med viss kontext runt stnen (kontrakt rörande giftemål ex.) men utan riktigt ren återkommande betydelse. Att storbonde eller motsvarande uttrycker relativ storlek till häst. Och ev. kontrakts-relaterat djur uttrycks relaterat det med djur eller jämförbart (jag minns ej exakt hur det brukade se ut).

Från den tanken kanske vi överst har et avtal relaterat jaktmark eller jämförbart.

Ett av många tänkbara ex. där dom statistiska relationerna ger mönster av språk men utan att vi enkelt förstår språket utan att veta en del av två kkonkurrerande storbönders historia några år tillbaka och giftmålet man önskade ha detaljerna huggna i sten kring rörande betesmarker o.s.v.

Relaterat



PDF-begränsning

Att understryka: PDF från sajt Guardian refererar är med säkerhet ändrade efter NSA och antagligen just relaterat denna. Vad av ursprunlgit data som kvarstår oföänrdrat för de få jag tittat på är inte helt trivialt att veta. Men en möjlighet att förutom webb-program för att hantera pdf'er där är det samma. Datum för event tycks stämma med geo och händelse konret visad som jag såg som möjligt stämmande med en presentation för data identifierad genom att med hjälp av Google.com's sökoperator site:gov sökande diverse sidor i och runt aktuella datum. Så möjligen stämmer det. Samtidigt är datum relaterat webb-api-pdf-grunkan för uardian's lagringstjänst också angiven relaterat den. Men det kan nog om alls riktigt variera "binärt" mellan filerna.


Möjligt gör samma mjukvara (ganska standardartad sådan och taggad i filerna så det går antagligen att kontrollera) filerna optimerade för snabbare nedladdning samtidigt som information från nod-relationerna vi här önskar analysera reduceras.

Nyhetsanalys: Sunt förnuft när det gäller bildanalysen

Never Ending Language Learner är ett datalärt common sense jag berört tidigare av och till. Praktiskt för den som vill ha en kunskapsbas just nu för att konkret resonera smidigt med är det nog det mindre naturliga valet än många andra (just därför att dator lärt sig själv) men är på många andra sätt - särskilt över längre tid i sig själv eller tänkbara liknande lösningar det kan leda till direkt eller indirekt . intressantare än andra (de flesta i övrigt är ju vetskap mellan relationer vi har och i mycket mellan dem oavsett FreeBase, Wordnet eller ConceptNet) genom att det adderar självlärande i (praktiskt i alla fall nu tycks det i ganska lugn takt och ska man ta data krävande hantering en del kvalitetsfrågor) takt.



Carnegie Mellon University där AI NELL bor har nu publicerat i pressmeddelande i åtminstone konceptuellt i meningen självlärande rörande relationer självklarande besläktade NEIL: Never Ending Image Learner (Nelly och Neil?):


"It is an effort to build the world’s largest visual knowledge base with minimum human labeling effort – one that would be useful to many computer vision and AI efforts. See current statistics about how much NEIL knows about our world!!"

Från: www.neil-kb.com

Se pressmeddelandet för mer om det medan Neil-kb.com presenterar resultatet: Carnegie Mellon Computer Searches Web 24/7 To Analyze Images and Teach Itself Common Sense.


I tillämpningsintresse är domänen inte direkt ny för mig och praktiskt från perspektiv av analys jag är intresserad av för särskilt nyheter och artiklar relativt resurser är följande tre frågor intressanta när det kommer till att etablera den här typen av vetskap:


  1. Är det relationer mellan koncept som förekommande visuellt i bilder som är viktigt oavsett om vi just lär dem från bilder eller exakt just som kanske de flesta skulle benämna dem om tillfrågade vad de heter i bilder?
  2. Är det viktiga att kunna identifiera koncept förekommande i en given bild och förstå hur de troligt relaterat till varandra avseende mening och betydelse i bilden?
  3. Är värdet vi söker att komplettera andra datakällor och metoder för att lära relationer och associationer som förekommer visuellt (d.v.s. primärt avsett relationer vi lär enligt ett).

När jag snappt tittade runt på NEIL tycks det starkt ligga mot att vara en metod i det sista. Ännu är den heller inte snabb (men det lär nog växa allt eftersom den redan lärt mer). För relationer på webbsajt är jag inte säker på om det endast är relationer NEIL lär själv eller om det inkluderar också träningsdata rörande givna relationer.


Lösningar jag gjort har uteslutande varit i den första domänen i prakisk ej experimentiell kod (men jag har utanför det en del kod för att rita på scener vilket genom de preferenser bl.a. media har för bildformat, meta-data- beskrivningar av bilder m.m. är ordentligt mycket enklare). De andra två och särskilt tre känns ännu för kostsamt i beräkningskraft såväl som att identifiera bra algoritmer som presterar resultat adderande något som höjer upp textanalys snarare än att riskera den mer med mer osäkert data.


Målsättningen praktiskt är ju att för en nyhet eller artikel givet kunna dra nytta av också bilder förekommande förutom själva texten såväl som att kunna utnyttja visuella koncept och deras relationer för hur scener och händelser beskrivs. Dessa två områden är besläktade men inte självklart samma sak: Vi kan ju - och gör det ofta - beskriva en visuell scen i ord.


Självklart vore det underbart om analysen av själva bilden (d.v.s. bildanalys snarare än ex. bildtext) kunde utelämnas därför att bilder var noggrant taggade och beskrivna såväl för vad de innehåller i personer, platser, föremål m.m. entiteter, relationer mellan entiteter, test-resultat avseende påverkan kognitivt i känslor på en liten population människor mätt med fmri, information om kostnad för att kunna ta bilden alt. köpa den eller om creative commons eller fri användnings-intensitet och allt annat relevant.


Verkligen är emellertid att Reuters trots föga ligger föredömligt högt jämfört med de flesta i media. Tar vi en offensiv Obama just nu överst på deras startsida relaterat nyhet In Western swing, Obama goes on offensive over healthcare law - alternativ titel given startsidan: Obama goes on offensive - länkad är direkt i filnman datum angivet:


http://s3.reutersmedia.net/resources/media/global/assets/images/20131126/20131126_3650140620131126235002.jpg


Och tittar vi på meta-data finns fotograf, datum och själva händelsen eller ett övergripande sammanhang för händelsen) och huvud-taggar för nyheten: politics och USA d.v.s. ingenting vi inte får från textanalysen av själva nyheten):



Jämför vi med AFP som Google tror jag betalar för att visa innehållet på Google.com (det sades ofta så om kanske ej kommenterat av Google eller AFP för ett antal år sedan när det blev aktuellt) för (och rimligen har Google stort intresse kring det här området särskilt längre tillbaka: hosted news har var tänker jag kanske delvis från början smidig snabb tidsaktuell analys i väl-definierat format via push från aktuell aktör) fanns åtminstone för bild på B52-flygplanet i US challenges China's fly zone with B-52 flight saknas meta-information:


Inget intressant i metainformation detekterat varken manuellt med Emacs eller analyserande dataformatet.

AFP är normal nivå. Att något mer finns och ännu mer ovanligt att man generellt kan lita på det något så när som för de manuella bilder jag tittade på för Reuters är väldigt ovanligt.


Men ingenting i det säger något alls om vad som gör detta till en bra bild för startsidan. Och heller ingenting om vilka entiteter mer än Obama vi har i bilden.


  • Den kraftfulla flaggan i bakgrunden.
  • Obama på väg att göra en vinnan gest med v-tecknet.
  • Alt. att det är del av en självförsvars-teknik Secret Service lärt honom för att angripa ögonen på en angripare han i emottionell ögonblicket kanske talande om IT- och datats förbannelse och datorernas hot mot ObamaCare råkat göra.
  • Vi vet inte säkert vilket men orsaken till varför Reuters valt bilden och vad läsaren kan se i nyhets-kontext är troligare v-tecknet.

Och lika troligt allmänt kanske en ögonblicksbild som inte leder till avslut på potent seger-gest men det är ej viktigt för vad bilden adderar till vad en nyhet eller här startsidan med länk till nyhet adderar i påverkan.


Även om det redaktionellt för en potent aktör som Reuters är tilltalande korrekt att bilden kommer från sammanhanget nyheten berör gäller ju att som konceptuellt illustration på startsidan rörande den påverkan bilden har hade något liknande från ett annat sammanhang haft samma effekt på läsaren.


Men för att skatta ut det måste vi kunna tolka och förstå bilden visuellt och det är i beräkningstid kostsamt jämfört med textanalys. Och alt. djupare analys kring andra uppgifter, fakta och information i text finns för textanalys.


Kostnaden tycks för mig reducerats en hel del sista åren bara (men jag kan ta fel här) även om de flesta om inte alla mer självklara grundläggande algoritmer matematiskt funnits länge. Vi kan förstå min spekulation här från att skillnaden inte konkret och ännu mindre konceptuellt är avgörande mellan text- och bildanalys: ett tydligt (och långt mer uttryckande detta än genomsnittligt i konkret nästan direkt mappning mellan matematiska koncept) PCA (Hotelling-transformationen med namn från Harold Hotelling) som är mycket vanlig för text- och bildanalys enligt samma idé. Förmåga och förutsättningar i hur bilder används att snabbare kunna och tolka och analysera dem är en sak jag upplever förbättrats senast åren (men har inte jämfört det tillräckligt för att våga säga det säkert - ex. kan vi se relevant för bloggen här hur Blogger automatiskt sparar stora filer i mindre format motsvarande hur jag använder bilder som är snabbare att ladda ner än ofta den bild jag laddar upp - och min känsla är att effektivare såväl som mer informativa bildformat är vanligare).


Relaterat

Mer både aktuellt och historiskt i forskning, algoritmer m.m. om bildanalys från aktuell kaegori Arxiv:



Arxiv återpublicerar journal-artiklar eller jämförbart relaterat forskning eller etenskaplig-spelulation och argumentation kategoriserat (ex. som ovan bildanalys).


Metainformation för bilden extraherades ad-hoc med Image::Info och för att dela tillbaka till internets alla intresserade ges koden nedan:


use Image::Info qw(image_info dim);
use Data::Dumper;

my $info = image_info("ALeqM5gNf9_uAKU6LXLtvGv0O4yO0rheeg.jpg");
#my $info = image_info("20131126_3650140620131126235002.jpg");

print
    Dumper ( %{$info} ) . "\n";

Det finns ganska mycket färdigt till Perl för att extrahera metainformation från dom vanligaste filformatet.