Semantiska roller: Location eller GEO political?

2015-02-07

Två övergripande ofta styrande egenheter med orter allmänt noteras först:


  • Nästan allt är en geografisk plats med ett känt namn. Det är nära noga svårt att hitta på ett namn som om kort inte visar sig existera. Jag försökte nyligen göra ett påhittat ortnamn som låter som ett riktigt men jag hoppades ej var det (för att slippa gå igenom vilka orter jag hade innan systemet gick för att testköra med orten) för att se detektionen av det. Orten jag prövade med var svensk (litet språk naturligt för mig manuellt så att säga): Bredsten men visade sig existera.
  • Orter tenderar att fras-relationerna komma relativt enkel att filtrera i regler. Man behöver knappast ens bry sig i verb-kunnande ex. via Verb net annat än utanför några enstaka möjliga konstruktioner.

Oftare förbisett är att samma benämning vi använder för orter kan vara geopolitiska aktörer. Det är i nyhetsrubrik ytterst vanligt att referera till dessa som personer (ex. USA hotar Kina, Kina gnällig och sur över Obamas möte med Dalai Lama). Det behöver inte vara ett svårt problem för de situationer där de kan ha betydelse och vi avstår här från att diskutera det (väldigt mycket relaterat orter rörande detta såväl som mycket av föregående är vad jag löser genom omfattande logiska regelkontroller i koden för att anpassa ut mot olika användningsområden: huvudsakligen för att slippa förstå om något är en ort endast när det inte skadar förståelse rörande vad man just är engagerad i för ett specifikt fall).


Intressantare är vad förståelse av en geopolitisk entitet möjliggör i djupare förståelse utanför själva nyheten eller titeln från denna tillsammans med vår befintliga vetskap om världen.


Vi utgår vi från ex. Marie burned Jack Londom from monday to friday in Alaska during lent rollerna finns satta via dumpen publicerad i Kulturellt medveten kvalitetssäkring: Semantisk analys (finns även sist)- Trroligen följer jag upp det här inlägget med en kompletterande dialog där ett till ex. dump publiceras så vi får ett ex. där on going och criminal activity för activity - d.v.s. under tidsperioden Marie begår brottet eller del av en större tidsperiod hon eller en grupp samarbetande eller en avgränsad annan grupp begår brotts-typen beroende på vad vi söker efter - vilket i analys är mer besläktat än motsvarande för crime som accomplishment vilket jag istället skar bort från dumpen eftersom det blir här nära nog samma som roll-exemplen diskuterade längre ner).


För rollerna systemet menar att deltagarna ska ha gäller inser vi också:


  • Marie (proto-agent och en human agent - dessutom female - i act d.v.s. fattande ett beslut tillsynes från text hon bör ha juridiskt ansvar för) fick bl.a. rollerna i den "verb / discourse happening nära" gruppen: Criminal, Killer (Jack London antingen allvarligt skadad eller död: Systemet förutsätter att han är död men vi inser att det missat att hon kan sitta och bränna honom på begränsade ytor under tidsperioder: Straffskattning för båda fallen är dock på så pass allvarlig att det ej är en problematisk förenkling: Om systemet sätter Killer och Criminal snarare än murder vet vi att en död-kropp ej är uppenbart noterad av systemet alternativt att murder är den explicita händelsen), Enemy o.s.v.
  • De flesta av Jack Londons motsvarande roller skapas genom att vända de roller agenten fick (några undantag - cirka 1/10 i totalt antal - finns från det där egna roll-system finns för proto-agent även för dom verb-nära): Victim eftersom han inte kämpar i discourse i vilket fall han hade kunnat få istället eller dessutom enemy, crime victim, burn victim (oavsett om burn-rollen för agent indikeras ett brinnande tillstånd när vi går in i det pågående en händelse eller "burner" betraktande det "händelse-utanför" som en sak startad och kanske avslutat mer startande som en vana eller flera gånger fire starter (eller fire stoper omvänt).

Vi har med andra ord ett brott burning genom att en AG__MALE_AGENT ("roller" börjande på "ag" är datatyper styrt av hur entiteten förstås snarare än uteslutande eller ens börjande med verb:et: Ett företag, en man, en organisation, en påtryckar-grupp är ex. alla överst mest topp AG__HUMAN_AGENT därför en eller flera människor kan agera via dem).


Antar vi att systemet tänker rätt när Alaska förstås som regionen där brottet begicks (snarare än varande en kroppsdel på Jack London) gäller att det är location snarare än geopolitiskt aktör. Samtidigt gäller att:


  • Den som är ansvarig för att hantera brott i location Alaska är den geopolitiska aktören Alaska samt "ovanför" denna det geopolitiska samarbete Alaska ingår i d.v.s. bl.a. geopolitiska organisationen USA.
  • Förståelse av detta ger bättre djup när ex. en nyhetshändelse pågående tolkas därefter. Andra aktörer ej varande Alaska, Jack London eller Marie som dyker upp senare (ex. AG__POLICE_ORG) blir praktiskt enkelt med föga annan logik att förstå hur de hör dit resp. hur olika sådana förhåller sig till varandra: Ex. att information från säg FBI är besläktad i källa med DEA eller state police när samma brott utreds men att det är parallella organisationer där nivå av samarbete under utredning ett brott resp. när samarbetet började och när resp. entitet började utreda relaterat brottet eller vad brottet är del av större kan variera från jämförbart till resultatet av oberoende kanske rent av konkurrerande entiteter.
  • Vi ges vidare kanaler analysen kan indikera är meningsfulla att börja kontrollera kontinuerligt resp. direkt för att försöka kontrollera information etablerad nyheter hittills under nyhetshändelsen: Polisorganisationer för administrative region

  • Vill vi rent av manuellt ta kontakt med någon ansvarig som resultat av analysen (kanske försöka kommunicera vikten av att vettigt normalt ge personer deras roller i förhållande till namnen - Rätt: State trooper Bill Montreol. Ok men ej rekommenderat: State Trooper Bill montreol, Fel: State trooper bill Montreol, . Fel: Statetrooper, Great Friend, and today Father, Bill Montreol - eller om vi ger upp hela konceptet att lära världen bättre och istället gör oss bättre att hantera dem kan vi hämta upp kända talespersoner och andra från aktuella organisationer som förekommit i historiska nyheter. Wikipedia, andra register m.m. vi har aggregerat med förstådda roller och relationer till den geopolitiska organisationen.


  • Vi kan söka prospekterande efter kanaler vid sidan om bevaka kända kanaler. Ex. kan vi söka finna indexerat material vi ej enkelt direkt får som relaterat men som kan visa sig vara det efter djupare analys. Ett enkelt exempel är att söka efter "Jack London" + "FBI" + Anchorage visande vid träff potentiellt en kanal som etablerat kontakt tidigare än övrigt till polisorganisationen.

Vad är särskilt för geopolitiska organisationer?

Egentligen ingenting. De är endast aktörer med en förstådd funktion associerad till ett geografiskt område.

Antar vi att vi har en upparbetad kunskap om diverse grupper eller personer som brukar bränna författare i Alaska är det kunskap vi kan tillämpa likartat.

Förståelse av hur en entitet (här bl.a. FBI in Anchorage och Jack London) förhåller sig till ett geografiskt område / entitet (Alaska) gör att vi bättre kan förstå analys pågående om de dyker upp i nyheten, kan komplettera med mer information enklare, identiifiera nya kanaler resp. prioritera dem mellan varandra (därför vi kan se vilka som har ny information indikerad vi vet potentiellt / troligt är intressant som ex. en tidning publicerande nyhet med FBI Anchorage i titel förutom Jack London medan ännu få hunnit med det).

Principiell skillnad mellan person och organisation finns egentligen inte. Organisationer är oftare relevanta. Men person med deras domäner oavsett om geografiska eller ett kunskapsområde (ex. domän kryptografi för Bruce Schneier eller att referenser runt Alaska och Jack London med The Call of the Wild troligt berör hans litterära gärning snarare än / eller nödvändigtvis något pågående just nu).

I hur jag väljer att sortera AG-typer i större grupper särskiljer jag några typer (som mer exakta uttryck för går att få) hörande till en "org-typ" inkl. geopolitiska organisationer. Personer, djur, sensorer, vapen, fordon m.m. sorterar ej här. Hit hör företag, organisationer, polisorganisationer, militära organisationer, entiteter i inom medicin, nöje, forskning m.m. Entiteter bestående av flera personer i ett samarbete mer varaktigt existerande vi som den större mängden människor i resp. område, land eller värld tenderar att se behov av eller naturligt att ställa till ansvar oavsett om "moraliskt" i nyheter eller i våra juridiska system. Det är också entiteter vi ger varaktiga namn på och som naturligt tar roll av agent vars beslutande människor vi gärna utan att tänka på det "gömmer" uttryckande det som att organisationen är den som tänker.

Samtliga org-typ såväl som personer får man en tror jag för de flesta förvånande bra utgångspunkt i antal inkluderade, bredd och djup rörande förståelse genom att ta första steget till etablering av vetskap om entiteter i världen från Wikipedia. Extraherar man djupt blir antalet rent av "gigantiskt" (djupt i mening av nyheter i kända tidningar eller referenser till journaler publicerade forskning - och tar upp personer också där rörande sådant som skribent tidning, insändarskribent engagerad i NN, eller bredare än så citerade talespersoner i nyheterna. Wikipedia är världen approximerad och approximationen blir mer exakt och inkluderande dag från dag utan att kostnaden extraktion av världens vetskap blir dyrare märkbart därifrån (medan världen växer snabbare i kanaler om man ska hämta ut samma approximation därifrån: Ett dataformat i Wikipedia och om än onödigt okynnes komplext så blir det sakta enklare och bättre, en kanal hämta data inkl. komprimerade filer).

Wikipedia har rent av sådant långsiktigt värde att man kan göra sig besvär att gå över deras kulturbärare manuellt av och till när man har tid genom åren och etablera vetskap om vem som egentligen är vem och var de hör till utanför Wikipedia (var de arbetar ex. inte ointressant SEO, PR o.s.v.) vilket aldrig blivit av för mig för något Wikipedia språk utanför svenskan (där jag dock tror jag har en försvarlig andel - åtminstone så sent som för fyra år sedan hade jag nästan alla inom ett antal stora ämnesområden som intresserade mig).

Argumenterat är behovet av sådan kontextuell information personer ej nödvändigt p.s.s. för engelskan som för det mindre språkområdet Sverige (detta kan vara förändrat: jag har ej följt upp svenska Wikipedia i storlek, antal aktiva personer m.m. på många år nu) när vi analyserar engelska Wikipedia. Andelen positivt verkande är ju givet värdet uppenbart etablerat större totalt medan fler allmänt engagerande kan tänkas göra upptäckt av kvalitets-divergenser från större värde per text-enhet till sämre detekterat för allt fler ämnesområden (Wikipedia gör ju en samma kvalitetsprojekt och fler personer med fler kompetenser möjliggör mer här). Att antalet läsare är potentiellt mycket stort beroende av artikel och publikationen ej är "fryst" till nästa upplaga löser säkert en hel del problem också (också om jag tror att format och nivå av information relaterat funktion och titlar för personer relaterade vad man skrivit om kanske i faktiskt antal bättre fångas av Wikipedia själva körande ungefär samma programvara och sedan sätta något i artikeln automatiskt när information saknas).

Jämför minskat behov av att förstå kontextuella kopplingar Wikipedia-folk utåt med i ett välfungerande land mindre behov av att bibehålla data över enskilda poliser klarar av sitt utredningsarbete eller vilka de känner. Andra kan ha detta behov (sökande korruption eller beslutande om befordring). Men analyserande nyheter räcker det att se dem som utredande polis i rätt organisation där kvalitetsproblem i sig kan antas propageras till och hanteras av övergripande ansvarig när behov uppstår (ex. kommun, department m.m.) och i det blivande sin egen nyhetshändelse. Söker vi prospekterande djupare just en särskild nyhet eller brott kanske kontextuellt djup är intressant (säg att vi är en tidning sökande korruption) men ju mer riktat djup analysen är desto mer data hanterat i andra områden kan exkluderas görande hantering av mer data och / eller CPU-tid (här mer det senare) görligt.

Vi ska vara på det klara med att vi får expoentiell tillväxt att totala mängden entiteter om vi ej sätter begränsning någonstans. Personer har så många relationer som i någon del av deras liv motsvarande ett område som generaliserar över människor åtminstone där är relevanta. En lagom nivå för den som ej extraherat djupt från Wikipedia förr troligen underskattande antalet personer är tror jag att ta motsvarande spokes person m.fl. roller för personer och var de hittades och vänta med dessa personers relationer till ämnen, händelser, andra entiteter o.s.v.

Dump med semantiska roller satta för test-meningen

En bit av dumpen från "arbetsminnet" där allt under all parsning lagras nedan (mängder av det borttaget) följer. Nummer längst vänster för resp. del motsvarar ungefär ordningen på resp. som ges roll (motsvarar frasens id-nummer) när PH är satt oavsett var pekar det också på PH-fras (den avsedd). Nummer på fält kan också vara ett, två eller något annat utan att värdet har mening annat än för att skapa datafältet (detta gäller ex. "label" där det är att label existerar som representerar analysresultat och ej om label är 1 eller 2).

Roller i typ-gruppen actor roles är de i huvudsak diskuterade. Thematic role sla ej ses som en satt semantisk eller tematisk roll utan är den första rollen som en initial "grov-hypotes" analysen satte medan ev. semantiska roller slutgiltigt om trovärdiga eller önskade dyker upp i Semantic roles där vissa ej behöver vara unika och alla kan vara ej unika om systemet ej klarar att avgöra vilken det är (minns jag rätt raderade jag bort semantic roles för alla därför de var fyllda med debug data samt att någon funktion skapade upp dessa på fel plats via define-kontroll: utvecklingssystemet dumpen kommer från). Vanligen är dock thematic role den semantisk roll man efter bra mycket mer kod får långt senare (men ej trovärdig på samma nivå: utnyttjar endast common sense rörande semantiska roller kombinerat en två-dimensionell roll prioritet för proto-agent och proto-patient grammatisk roll - ex. passiv + subjekt - resp. grammatisk relation framåt och nedåt - ex. varande en NP-fras i en PP-fras - och resp. dimension två prioritet via regler som om entiteten tycks kunna indikera både ett datasystem kallat Bill Xxxx samt en person med samma namn funktionellt som verktyg för att lösa ett problem och positionen i meningen ej sällan är aktuell både för agent och instrument ger vi den rollen agent oavsett om Bill Xxxx som verktyg kan antas eller är känt är enormt oftare refererad ty min princip är att vi hellre tappar lite vetskap etablerad än att vi etablerad vetskap defekt: Instrument är ett constraint görande narrow på världsbilden medan endast proto-agent egentligen ej skiljer mellan instrument och människa därför att oavsett vilket kan vi ej anta att en människa bakom verktyg resp. människa direkt indikerad finns styrande och beslutande och med mindre än om entiteten kan vara en automat, väderfenomi m.m. för vilket djupare analys kan vara värt att göra när det känns viktigt - så finns likväl i discourse om än inte alltid just för vad en enskild mening diskuterad en människa någonstans: Constraint vad någon kan göra och är är begränsning av vad som är rimligt att anta om världen bakåt och framåt d.v.s. sparande tid men om defekta gör att vi missar saker - desto mer någon kan göra eller indikerar ju säkrare antagande om man är osäker - även om jag i allmänt ser till att kod sätter resp. varande normalt där ekvivalent med resonemanget här).


'SITUATION_TYPE' => {
[Red. Accomplishment här därför bounded temporal
passed. Och Bounded -> mannerative är endast verb 
utan tolkning grammatik o.s.v. Givetvis inser jag
nu efter QA är avslutat att det kan kännas fel 
att kalla händelsen för en accomplishment. /HH]

  'ACT' => 1,
  'ACCOMPLISHMENT' => 1
  },

  'DEP_B' => {
   'SPATIAL_IMPLICIT_NON_MOVEMENT' => 1
   },

  'BOUNDEDNESS' => {
     'BOUNDED' => {
         'TIME' => {
            'START' => {
            'PH' => '6'
          },

          'TIME_PERIOD' => {
             'START_END' => 1
           },

          'END' => {
             'PH' => '8'
          }
      },
      
      'SPATIAL' => {
         'SPATIAL_AREA' => {
            'PH' => '4'
          }
       }
   },

   'UNBOUNDED' => { 'MANNERATIVE' => 1 }
   }
  },

 'AGENTATIVE' => {
  'ARG' => {
  
  '8' => {
     'ACTOR_ROLES' => {
         'PP_OPERATION' => {
             'DIRECTION' => 1
          },
          'BOUNDARY' => {
          'END' => 1
          },
          'NATURE_OF_SURFACE' => {
          'TIME' => 1
          }
      },

     'LABEL' => {
        'TIME PERIOD' => 1,
         'DAY' => 1
      },

      'SEM_TYPE' => 'PP',

       'AG' => {
          'AG__TIME' => 2
        },

       'TYPE' => 'PP__NP',
       'PREP' => 'TO',
       'head_np' => 'friday',
   },

  '6' => {
      'ACTOR_ROLES' => {
         'PP_OPERATION' => {
          'DIRECTION' => 1
          },
          'BOUNDARY' => {
          'START' => 1
          },
          'NATURE_OF_SURFACE' => {
          'TIME' => 1
          }
       },

      'LABEL' => {
         'TIME PERIOD' => 1,
         'DAY' => 1
      },

      'SEM_TYPE' => 'PP',

      'AG' => {
         'AG__TIME' => 2
       },

       'TYPE' => 'PP__NP',
       'PREP' => 'FROM',
       'head_np' => 'monday',
   },

  '4' => {
     'ACTOR_ROLES' => {
         'PP_OPERATION' => {
             'TOPOLOGICAL' => 1
          },
          'BOUNDARY' => {
             'INSIDE' => 1
           },
           'NATURE_OF_SURFACE' => {
              'SPACE' => 1,
           }
       },

       'SEM_TYPE' => 'PP',
          
       'AG' => {
          'AG__GOVERNMENT_ORG' => 2,
          'AG__LOCATION' => 2,
        },

        'TYPE' => 'PP__NP',
        'PREP' => 'IN',

        'CONCEPT_LABEL' => {
           'GEO ARENA' => {
              'ADMINISTRATIVE REGION' => 1,
              'INHABITED PLACE' => 1
            },
           
            'GEO POLITICAL ORG' => {
               'COUNTRY' => 1,
               'US STATE' => 1,
               'ADMINISTRATIVE DISTRICT' => 1,
               'STATE' => 1,
               'DISTRICT' => 1
            },
         },

         'head_np' => 'Alaska',
   },
 
 '0' => {
    'ACTOR_ROLES' => {
       'STIMULUS' => 1,
       'BURNER' => 1,
       'DESTROYER' => 1,
       'ENEMY' => 1,
       'CRIMINAL' => 1,
       'KILLER' => 1
    },

   'AG' => {
      'AG__HUMAN_FEMALE' => 1,
      'AG__HUMAN_AGENT' => 1,
      'AG__PERSON' => 1
    },

   'EMO_ROLES' => {
 '     NEGATIVE_ROLE' => 1,
       'UP_ROLE' => 1
    },

   'SEM_TYPE' => 'PROTO_AGENT',
   'THEMATIC_ROLE' => 'AGENT',
   'head_np' => 'Marie',
   },

  '2' => {
   
     'ACTOR_ROLES' => {
        'VICTIM' => 1,
         'BURN VICTIM' => 1,
      },

     'AG' => {
        'AG__HUMAN_MALE' => 2,
        'AG__HUMAN_AGENT' => 2,
        'AG__NOT_SHORT_NAME' => 2,
        'AG__PERSON' => 2
     },

   'LABEL' => {
      'PERSON' => 1,
      'SOCIALIST' => 1,
      'WAR CORRESPONDENT' => 1,
      'SURVIVOR' => 1,
      'WRITER' => 1,
      'NOVELIST' => 1
    },

   'SEM_TYPE' => 'PROTO_PATIENT',
   'CONCEPT_LABEL' => {
       'ARENA' => {
          'WAR CORRESPONDENT' => 1,
          'MILITARY' => 1
       }
    },

   'THEMATIC_ROLE' => 'PATIENT',
   'head_np' => 'Jack London',
   }
  }
 }
 },