Visar inlägg med etikett Grunda symboler och mening. Visa alla inlägg
Visar inlägg med etikett Grunda symboler och mening. Visa alla inlägg

Meningsfull parsning: Parser man har nytta av

2014-11-13

Eftersom jag inte skrivit något på ett tag tänkte jag skriva något kanske större utspritt över några inlägg rörande hur egentligen för tänker jag de flesta normala användningsområden meningslösa vanliga parsers är. Vad har man egentligen för nytta t.ex. av "träden" som skapas?

De är ju absolut inte meningsfulla direkt för att ta ut mening, tolka och förstå vad som sägs, utan det är ju arbete som helt kvarstår. Praktiskt är det bara att börja parsa resultatet man får. Vilket jag tidigare gjort och har en tämligen kompetent parser för (med viss chunking). Emellertid är det ju en massa arbete som görs tycks det i onödan om vi nu mer är intresserade av att tolka och förstå ungefär som en människa (tänk någon som surfar nyhetstitlar på en tidnings startsida eller i sökresultat) där beräkningskostnad (för att inte tala om minnesåtgången) prioriteras i mycket där det inte behövs.


Nedan har vi som jag börjar med att publicera för att ha att referera dump av en datastruktur uttryckande "arbetsminne" för analysen av en nyhetstitel. Den är av och till (en hel del) kommenterad lokal.


I "parser-familj" vet jag inte riktigt var den hör samman. NP och verb-grupper detekteras och tas ut via chunking och den processen är i huvudsak regelstyrd vilket tycks prestera bättre än befintliga chunking-system åtminstone för nyhetstitlar (helt säkert delvis just därför att det är nyhetstitlar) utifrån part of speech där jag bl.a. använt brill resp. en statistisk. Ingendera är egentligen perfekt men jag har verkligen ingen lust att skriva en egen.


Likt dom dependency parsers ex. Speech and Language Processing (Jurafsky) diskuterar uttrycks beroenden emellertid inte som i exemplen där mellan orden utan fraserna. Dessa finns när de uttrycker samband som ligger lite utanför vad chunkingen direkt får fram när de är praktiskt användbara.


I dumpen arbetsminne noterar vi att riktad parsning mot mening skett. Här från att titlar uttrycker en världsbild Bill heard that the tank destroyer was attacking Hillary (test-titarna kan tyckas underliga men här får man ju förutom själva claus-konstruktionen och mening kring den sådant som weapon effect, ett koncept - tank destroyer ngram-detektion kan ta ut flera typer av, vi har personer indikerade med förnamn - imperfective o.s.v. Där testmeningarna mer skapas bit-for-bit utan att egentligen vara alltid särskilt troliga nyhetstitlar).


Jag ids inte sitta och konvertera dumpen som kommit via något xterm-liknande på utvecklingsdatorn. Bäst kopieras det säkert in till Emacs eller liknande än att läsa direkt.


Notera gärna också kommentaren i sista stycket rörande gun boat och tank destroyer :-D




$VAR1 = 'PH';
$VAR2 = {
          '6' => {
                   'end_position' => 8,
                   'PH' => 'NP',
                   'start_position' => 8,
                   'phrase_true' => 'Hillary',
                   'HEAD' => {
                               'ARGUMENT' => {
                                               'DIRECT_OBJECT' => {
                                                           'PH' => '5',
                                                           'RIGHT' => 1,
                                                           'RAW' => 'DIRECT_OBJECT(attacking, Hillary)'
                                                         }
                                             }
                             },
                   'CH' => {
  
                             '0' => {
                                      'WORD_GIVEN' => 'Hillary',
                                      'CHUNK' => 'B_NP',
                                      'pos' => 8,
                                      'WORD_BASE' => 'hillary',
                                      'POS' => 'NNP'
                                    }
                           },
                   'CH_NUM' => 6,
                   'ngram' => {
                                'hillary' => {
                                               'ME' => {
                                                         '8' => 1
                                                       },
                                               'CONCEPT_AS_GIVEN' => 'Hillary',
                                               'CONCEPT_BASE' => 'hillary',
                                               'TYPES' => {
                                                            'type_marker' => {
                                                                               'NGRAM' => 1
                                                                             },
                                                            'human_nature' => {
                                                                                'PERSON' => 1
                                                                              }
                                                          },
                                               'VALENCE_HH' => {
                                                                 'LAMBDA' => '29.3707558220325',
                                                                 'BLI' => '1.85637293777104e-05',
                                                                 'WP' => '1.10809794620763e-10',
                                                                 'HH' => '0.000174095460703142',
                                                                 'WE' => '1.01241183202824e-07',
                                                                 'EMI' => '0.000174095460703142',
                                                                 'IDF' => '24.4047821320418',
                                                                 'SCALED_COUNT' => '1.4142135623731'
                                                               },
                                               'POS' => 'NNP'
                                             }
                              },
                   'phrase' => 'hillary',
                   'phrase_pos' => 'NNP'
                 },
          '4' => {
     # AUX-operator som stoppats in i VP bildande en verb-grupp. Kvarstår p.g.a. av programlogiken.

                   'PH' => '_STOP',
                   'HEAD' => {

                             }
                 },
          '1' => {
                   'end_position' => 1,
                   'PH' => 'VP',
                   'start_position' => 1,
                   'phrase_true' => 'heard',
                   'HEAD' => {
                               'WORD_GIVEN' => 'heard',
                               'HH_TYPES' => {
                                               'PROTO_VERB' => {
                                                                 '_MODAL_INFORMATION' => 1,
                                                                 '_STATE_VERB' => 1,
                                                                 '_MODAL_PCU' => 2
                                                               },

                                               'TRANS' => {
# Typerna är egentligen ner-informerade från data The Specialist Lexicon (National Institute of Health) ger i tense information och fungerar som indikationer om vad som kan hämtas där rörande verb-argumenten (gör ganska lite - ingenting egentligen  mer än grund-kategorier adverb m.m., tense och sub- men alltid rätt och vad jag nog oftast i området mer regelbundet över åren återvänder till: Bra funktionell datastruktur dessutom: CSV).

                                                            'CPLXTRAN' => 1, # Realiserad CLAUSE_VERB_COMP
                                                            'ARG_COUNT' => 2, # Subjekt och complex transitivity med verb.
                                                            'INTRAN' => 0, # Ej realiserad som definierad.
                                                            'TRAN' => 0  # Ej realiserad som definierad.
                                                          },
                                               'CL' => {
        # Högnivå typ härledd från gramamtik och allmän vetskap verb m.m. Uttrycker en världsbild från subjekt till
        # _PCU_HEAD d.v.s. heard i den mening att "Bill heard". Där "verb 2" ger oss själva världsbilden tillsammans
        # med dess argument. PCU = Perception (heard) - Cognition ( "Bill beliefs that Hillary will run for president" ),
        # Utterancy ( "Bill heard that Hillary might come to run against Jeb Bush in the election." ). 

                                                         '_HAS_VERB_2' => '5',
                                                         '_PCU_HEAD' => 1,
                                                         '_PCU_MIDDLE' => 'that',
                                                         '_PCU_HEAD__HAS_VERB_2' => '5'
                                                       },
                                               'V' => {
                                                        '_TRAN' => 8,  # Viktning för typ av "transitivity" (eller vad det vanligen kallas). Inkl. 
          # viss hantering av verb som för mig tycks ha fler argument än annars diskuterat 
          # (en definitions fråga kanske): Penning-transferering och handel ev. endast (de jag 
          # sett): "Boy-toy Hans "mistress" bought *him* *the house in Stockholm *for 100 million*."
          # Mannerative i någon mening även om det känns en aning annorlunda med "for cash": 
          # Jfr beneciary vilket vi ju också kan se som en mannerative dimension relaterad dimension
          # och värde-spridning. Ej riktigt (inte alltid i alla fall) manner i hur vi gör det
          # fysiskt kanske men väl betydelsefullt praktiskt för vad verb:et innebär. 

                                                        '_PAST' => 1  # Saknas lokala "aux" och "md" operatorer är detta härlett *endast* från heard medan
          # samspel efterföljande verb rörande ex. imperfective, perfective m.m. hanteras ovanpå
          # beroende av frihet vid punkten där vi "imploderar" världsbild av talande jfr händelsen
          # för att ta ut vikter och dimensioner. 
                                                      }
                                             },
                               'VALENCE_HH' => {
       # Diverse vikter som sätts tidigt men egentligen inte längre används. Praktiska att ha kvar för manuella kontroller.
       # Även om IDF vikter nu använda är framtagna riktat för nyhetstitlar från endast nyhetstitlar som indata (cirka i 
       # en mindre pre-körning 50 GB men just nyhetstitlar såväl som titlar forskning och government data finns *försvarliga*
       # mängder av - för att inte tala om titlar websidor vilka dock kan ge lite oförutsedda "Wikipedia IDF-effekter" om man
       # inte är oförsiktig i filtrering). 

                                                 'WP' => '0.000375847068042446',
                                                 'BLI' => '0.0593952801874406',
                                                 'HH' => '0.511927612425699',
                                                 'EMI' => '0.511927612425699',
                                                 'WE' => '0.11813802909792',
                                                 'IDF' => '6.0609820328783'
                                               },
                               'ARGUMENT' => {
                                               'NP_SUBJECT' => {
                                                            'PH' => '0',
                                                            'LEFT' => 1,
                                                            'RAW' => 'NP_SUBJECT(heard, Bill)'
                                                          },
                                               'CLAUSE_VERB_COMP' => {
                                                            'PH' => '5',
                                                            'LEFT' => 1,
                                                            'RAW' => 'CLAUSE_VERB_COMP(heard, attacking)'
                                                          }
                                             },
                               'WORD_BASE' => 'hear',
                               'POS' => 'VBD'
                             },
                   'CH' => {
                             '0' => {
                                      'WORD_GIVEN' => 'heard',
                                      'CHUNK' => 'B_VP',
                                      'pos' => 1,
                                      'WORD_BASE' => 'hear',
                                      'POS' => 'VBD'
                                    }
                           },
                   'CH_NUM' => 1,
                   'ngram' => {
                                'heard' => {
                                             'ME' => {
                                                       '1' => 1
                                                     },
                                             'CONCEPT_AS_GIVEN' => 'heard',
                                             'CONCEPT_BASE' => 'hear',
                                             'TYPES' => {
                                                          'type_marker' => {
                                                                             'NGRAM' => 1
                                                                           },
                                                          'human_nature' => {
                                                                              'ACTIVE' => 1,
                                                                              'POWER' => 1
                                                                            },
                                                          'noun_properties' => {
                                                                                 'PROM_ALBUM' => 1
                                                                               }
                                                        },
                                             'HH_TYPE' => {
                                                            'VERB' => 1
                                                          },
                                             'VALENCE_HH' => {
                                                               'BLI' => '0.0593952801874406',
                                                               'WP' => '0.000375847068042446',
                                                               'HH' => '0.511927612425699',
                                                               'WE' => '0.11813802909792',
                                                               'EMI' => '0.511927612425699',
                                                               'IDF' => '6.0609820328783'
                                                             },
                                             'POS' => 'VBD'
                                           }
                              },
                   'phrase' => 'hear',
                   'phrase_pos' => 'VBD'
                 },

          '3' => {
                   'end_position' => 5,
                   'PH' => 'NP',
                   'start_position' => 3,
                   'phrase_true' => 'the tank destroyer',
                   'HEAD' => {
                               'HH_OPERATORS' => {
                                                   'DT' => 'THE'
                                                 },
                               'ARGUMENT' => {
                                               'NP_SUBJECT' => {
                                                            'PH' => '5',
                                                            'RIGHT' => 1,
                                                            'RAW' => 'NP_SUBJECT(attacking, destroyer)'
                                                          },

                                               'NN' => {
                                                         'PH' => '3',
                                                         'LEFT' => 1,
                                                         'RAW' => 'NN(destroyer, tank)'
                                                       },

            # Operator determiner. I den mån DT ej ingår i ett ngram detekterat "större" än sig själv raderas DT från de 
            # identifierade möjliga ngram:en. Och placeras istället i HH_OPERATORS. 

                                               'DT' => {
                                                          'PH' => '3',
                                                          'LEFT' => 1,
                                                          'RAW' => 'DT(destroyer, the)'
                                                        }
                                             }
                             },

                   'CH' => {
        # Respektive ord i "frasen" / "verb-gruppen" / "chunk". WORD_BASE kan vara modifierat (ex. till lower cause bl.a. därför att delar
        # av viktsystemen förväntar eller bättre uttryckt vinner på mer "core-typer" medan andra som IDF ibland ej gör det).

                             '1' => {
                                      'WORD_GIVEN' => 'tank',
                                      'CHUNK' => 'I_NP',
                                      'pos' => 4,
                                      'WORD_BASE' => 'tank',
                                      'POS' => 'NN'
                                    },
                             '0' => {
                                      'WORD_GIVEN' => 'the',
                                      'CHUNK' => 'B_NP',
                                      'pos' => 3,
                                      'WORD_BASE' => 'the',
                                      'POS' => 'DT'
                                    },
                             '2' => {
                                      'WORD_GIVEN' => 'destroyer',
                                      'CHUNK' => 'I_NP',
                                      'pos' => 5,
                                      'WORD_BASE' => 'destroyer',
                                      'POS' => 'NN'
                                    }
                           },
                   'CH_NUM' => 3,
                   'ngram' => {
    # Samtliga detekterade ngram. För många beräkningar väljs det koncept som har mest tilltalande entropi och / eller IDF-vikt 
    # (det senare är praktiskt snabbare när man nu har IDF-vikter för ca 20 miljoner flergram och tycks ge samma resultat). 
    # Att kasta övriga detekterade ngram om de är koncept tycks dumt. Tänker vi oss ex. kanske tydligast sökning gäller ju att 
    # "destroyer" mycket väl kan vara en sökning med föga annat för aktuell tid, plats o.s.v. och givet att vi nu hanterar flergram
    # (tank destroyer) snarare än bara ord är de praktiskt snabbare att spara och beräkna ut vikter för. Söker man inte på "tank destroyer" 
    # så stör den ju inte. 

                                'destroyer' => {
                                                 'CONCEPT_AS_GIVEN' => 'destroyer',
                                                 'CONCEPT_BASE' => 'destroyer',
                                                 'HH_TYPE' => {
                                                                'NOUN' => 1
                                                              },
                                                 'ME' => {
                                                           '5' => 1
                                                         },
                                                 'TYPES' => {
                                                              'type_marker' => {
                                                                                 'NGRAM' => 1
                                                                               },
                                                              'human_nature' => {
                                                                                  'POWER_NEWS' => 1,   # Weapon effect m.m. via "dum-kategorier" som 
               # vikter när körande beräknas till (nuvarande är
               # slutar med nyheter 2012 så jag sätter allt till 1 istället).
                                                                                  'HUMAN_NATURE_TOOLS' => 1,  # Båt är ett verktyg, synål också, en algoritm är ett verktyg o.s.v. 
                                                                                  'DANGER' => 1,   # Farligt.
                                                                                  'ACTIVE' => 1,   # Det händer saker när en destroyer kommer även om den inte skjuter.
                                                                                  'POWER' => 1,    # Projiserar makt i situationen.
                                                                                  'TOOLS' => 1 
                                                                                },
                                                              'noun_properties' => {
                      # Samma som föregående men från ett annat system (ovanpå Wordnet m.m. för jämförelse och pröva). Används ej.

                                                                                     'N_AGENTATIVE_CAUSAL_AGENT' => 1,
                                                                                     'N_TOOL' => 1,
                                                                                     'C_ARTIFACT' => 1,
                                                                                     'C_MILITARY' => 1,
                                                                                     'N_PHYSICAL_ENTITY' => 1,
                                                                                     'C_NAUTICAL' => 1,
                                                                                     'N_ARTIFACT' => 1,
                                                                                     'N_ANIMATE' => 1,
                                                                                     'N_CONCRETE' => 1,
                                                                                     'N_COUNT' => 1,
                                                                                     'C_PERSON' => 1
                                                                                   }
                                                            },
                                                 'NOT_ME' => {
        # Ord som ej ingår i ngram. Praktiskt när vi ex. projiserar påverkar emotionell intensitet m.m. från adjektiv m.m. till ngram omv i ej önskar projisera
        # sådan effekt om dessa faktiskt ingår i ngram. Ex. en entitet som heter "green Mama". 
                                                               '4' => 1,
                                                               '3' => 1
                                                             },
                                                 'VALENCE_HH' => {
            # Diverse av de vikttyper som används. Just som satta här endast för att läsa och av och till (som idf några generationer efter). 
                                                                   'BLI' => '0.010770903762987', # Bluelight intensity. Ganska högt för en icke-politisk enhet, eller mer i varianter kategori-artat koncept.
                                                                   'WP' => '2.32257322056041e-06', # Viktat probability (jfr cirka 20 miljoner flergram). 
                                                                   'HH' => '0.000167973616381427', # Funktion av WP, WE och EMI.
                                                                   'WE' => '0.00120090321990928', # Viktad entropi-mått. 
                                                                   'EMI' => '0.000167973616381427', # Emotionell intensitet. Används endast egentligen för verb, adjektiv och adverb i "enkel mening" motsvarande HH.
                                                                   'IDF' => '12.1816504899042',  # Gammal IDF från mycket större corpus än nyhetstitlar (och mycket sämre än IDF härledd endast från nyhetstitlar). 
                                                                 },
                                                 'POS' => 'NN'
                                               },
                                'tank' => {
                                            'CONCEPT_AS_GIVEN' => 'tank',
                                            'CONCEPT_BASE' => 'tank',
                                            'HH_TYPE' => {
                                                           'NOUN' => 1,
                                                           'VERB' => 1
                                                         },
                                            'ME' => {
                                                      '4' => 1
                                                    },
                                            'TYPES' => {
                                                         'type_marker' => {
                                                                            'NGRAM' => 1
                                                                          },
                                                         'human_nature' => {
                                                                             'WEAPONS' => 1,
                                                                             'HUMAN_NATURE_TXOOLS' => 1, # TXOOLS indikerar antagligen något system jag prövat och givet en gen indikation jag tycks ha glömt bort (jag såg den någonstans i övrigt också men editerade det rätt där). 
                                                                             'DANGER' => 1,
                                                                             'ACTIVE' => 1,
                                                                             'TOOLS' => 1
                                                                           },
                                                         'noun_properties' => {
                                                                                'N_TOOL' => 1,
                                                                                'N_ABSTRACT' => 1,
                                                                                'C_FACTOTUM' => 1,
                                                                                'C_MILITARY' => 1,
                                                                                'N_PHYSICAL_ENTITY' => 1,
                                                                                'C_TRANSPORT' => 1,
                                                                                'N_ARTIFACT' => 1,
                                                                                'N_CONCRETE' => 1,
                                                                                'N_COUNT' => 1
                                                                              }
                                                       },
                                            'NOT_ME' => {
                                                          '3' => 1,
                                                          '5' => 1
                                                        },
                                            'VALENCE_HH' => {
                                                              'LAMBDA' => '10.121083523761',
                                                              'BLI' => '0.0346619332458489',
                                                              'WP' => '6.41390074653817e-05',
                                                              'HH' => '0.503579521068032',
                                                              'WE' => '0.0246804930395017',
                                                              'EMI' => '0.503579521068032',
                                                              'IDF' => '7.6256833901337',
                                                              'SCALED_COUNT' => '1.4142135623731'
                                                            },
                                            'POS' => 'NN'
                                          },
                                'tank destroyer' => {
                                                      'ME' => {
                                                                '4' => 1,
                                                                '5' => 1
                                                              },
                                                      'CONCEPT_AS_GIVEN' => 'tank destroyer',
                                                      'CONCEPT_BASE' => 'tank destroyer',
                                                      'TYPES' => {
                                                                   'type_marker' => {
                                                                                      'NGRAM' => 1
                                                                                    },
                                                                   'human_nature' => {
                                                                                       'WEAPONS' => 1,
                                                                                       'DANGER' => 1
                                                                                     },
                                                                   'noun_properties' => {
                                                                                          'C_TRANSPORT' => 1
                                                                                        }
                                                                 },
                                                      'NOT_ME' => {
                                                                    '3' => 1
                                                                  },
                                                      'VALENCE_HH' => {
                                                                        'LAMBDA' => '22.6285737033206',
                                                                        'BLI' => '0.000503088001004535',
                                                                        'WP' => '1.10152033886457e-08',
                                                                        'HH' => '0.00579202765547812',
                                                                        'WE' => '8.04481864441989e-06',
                                                                        'EMI' => '1.54456392015009e-05',
                                                                        'IDF' => '19.2047355153611',
                                                                        'SCALED_COUNT' => '1.4142135623731'
                                                                      },
                                                      'POS' => 'NN VBD'
                                                    }
                              },
                   'phrase' => 'the tank destroyer',
                   'phrase_pos' => 'DT NN NN'
                 },

          '0' => {
                   'end_position' => 0,
                   'PH' => 'NP',
                   'start_position' => 0,
                   'phrase_true' => 'Bill',
                   'HEAD' => {
                               'ARGUMENT' => {
                                               'NP_SUBJECT' => {
                                                            'PH' => '1',
                                                            'RIGHT' => 1,
                                                            'RAW' => 'NP_SUBJECT(heard, Bill)'
                                                          },
                                             }
                             },
                   'CH' => {
                             '0' => {
                                      'WORD_GIVEN' => 'Bill',
                                      'CHUNK' => 'B_NP',
                                      'pos' => 0,
                                      'WORD_BASE' => 'bill',
                                      'POS' => 'NNP'
                                    }
                           },
                   'CH_NUM' => 0,
                   'ngram' => {
                                'bill' => {
                                            'ME' => {
                                                      '0' => 1
                                                    },
                                            'CONCEPT_AS_GIVEN' => 'Bill',
                                            'CONCEPT_BASE' => 'bill',
                                            'TYPES' => {
                                                         'type_marker' => {
                                                                            'NGRAM' => 1
                                                                          },
                                                         'human_nature' => {
                                                                             'HUMAN' => 1,
                                                                             'DANGER' => 1,
                                                                             'ACTIVE' => 1,
                                                                             'POWER' => 1,
                                                                             'TOOLS' => 1
                                                                           },
                                                         'noun_properties' => {
                  [BORT-TAGET]
                                                                              }
                                                       },
                                            'HH_TYPE' => {
                                                           'NOUN' => 1,
                                                           'VERB' => 1
                                                         },
                                            'VALENCE_HH' => {
                                                              'LAMBDA' => '20.8820662336034',
                                                              'BLI' => '0.0439001009558573',
                                                              'WP' => '2.38824892163046e-07',
                                                              'HH' => '0.514465422090061',
                                                              'WE' => '0.000145138603998346',
                                                              'EMI' => '0.514465422090061',
                                                              'IDF' => '5.8013756873731',
                                                              'SCALED_COUNT' => '3.46410161513775'
                                                            },
                                            'POS' => 'NNP'
                                          }
                              },
                   'phrase' => 'bill',
                   'phrase_pos' => 'NNP'
                 },
          '2' => {
                   'end_position' => 2,
                   'PH' => 'PP',
                   'start_position' => 2,
                   'phrase_true' => 'that',
                   'HEAD' => {
                               'ARGUMENT' => {

                                               'CLAUSE_THAT_HOW_DISTANCE_MARKER_COMP' => {
                                                             'PH' => '5',
                                                             'RIGHT' => 1,
                                                             'RAW' => 'CLAUSE_THAT_HOW_DISTANCE_MARKER_COMP(attacking, that)'
                                                           }
                                             }
                             },
                   'CH' => {
                             '0' => {
                                      'WORD_GIVEN' => 'that',
                                      'CHUNK' => 'B_PP',
                                      'pos' => 2,
                                      'WORD_BASE' => 'that',
                                      'POS' => 'IN'
                                    }
                           },
                   'CH_NUM' => 2,
                   'ngram' => {
                                'that' => {
                                            'ME' => {
                                                      '2' => 1
                                                    },
                                            'CONCEPT_AS_GIVEN' => 'that',
                                            'CONCEPT_BASE' => 'that',
                                            'TYPES' => {
                                                         'type_marker' => {
                                                                            'NGRAM' => 1
                                                                          },
                                                         'human_nature' => {
          [Borttaget]
                                                                           },
                                                         'noun_properties' => {
          [Borttaget]
                                                                              }
                                                       },
                                            'VALENCE_HH' => {
                                                              'LAMBDA' => '16.2840339446254',
                                                              'BLI' => '5.29978934473552e-05',
                                                              'WP' => '9.63993221190068e-07',
                                                              'HH' => 0,
                                                              'WE' => '0.000532225724160357',
                                                              'EMI' => 0,
                                                              'IDF' => '9.6845518262135',
                                                              'SCALED_COUNT' => '1.4142135623731'
                                                            },
                                            'POS' => 'IN'
                                          }
                              },
                   'phrase' => 'that',
                   'phrase_pos' => 'IN'
                 },
          '5' => {
                   'end_position' => 7,
                   'PH' => 'VP',
                   'start_position' => 7,
                   'phrase_true' => 'attacking',
                   'HEAD' => {
                               'HH_TYPES' => {
                                               'PROTO_VERB' => {
                                                                 '_VERB_PROPERTY__HUMAN_VIOLENCE' => 2,
                                                                 '_MANIPULATION' => 1
                                                               },

                                               'TRANS' => {
                                                            'ARG_COUNT' => 3,
                                                            'INTRAN' => 0, # Ej realiserad *som definierad*..
                                                            'TRAN' => 0         # Ej realiserad som definierad.
                                                          },
                                               'CL' => {
                                                         '_PCU_VERB_2' => 1
                                                       },
                                               'V' => {
       # Progressive avser när verb betraktas UTAN HÄNSYN HH_OPERATORS.
       # _PAST_PROGRESSIVE när operatorerna använts "was attacking". 
       # Och imperfective är definierad till en kategori bl.a. inkluderande past progressive. 

                                                        '_PAST_PROGESSIVE' => 1,
                                                        '_PROGESSIVE' => 1,
                                                        '_IMPERFECTIVE' => 1,
                                                      }
                                             },
                               'WORD_GIVEN' => 'attacking',
                               'HH_OPERATORS' => {
                                                   'AUX' => {
                                                              'was' => {
                                                                         '_ACTIVE' => 1, # Ej passiv. 
                                                                         'end_position' => 6,
                                                                         'start_position' => 6,
                                                                         'ARGUMENT' => {
                                                                                         'AUX' => {
                                                                                                    'PH' => '5',
                                                                                                    'RIGHT' => 1,
                                                                                                    'RAW' => 'AUX(attacking, was)'
                                                                                                  }
                                                                                       },
                                                                         'phrase_pos' => 'VBD'
                                                                       }
                                                            }
                                                 },
                               'VALENCE_HH' => {
                                                 'WP' => '0.000298256136957894',
                                                 'BLI' => '0.0413263690641225',
                                                 'HH' => '0.765989109703756',
                                                 'EMI' => '0.765989109703756',
                                                 'WE' => '0.0964980396099565',
                                                 'IDF' => '6.1371324495446'
                                               },
                               'ARGUMENT' => {
                                               'NP_SUBJECT' => {
                                                            'PH' => '3',
                                                            'LEFT' => 1,
                                                            'RAW' => 'NP_SUBJECT(attacking, boat)'
                                                          },
                                               'AUX' => {
                                                          'PH' => '4',
                                                          'LEFT' => 1,
                                                          'RAW' => 'AUX(attacking, was)'
                                                        },
                                               'CLAUSE_THAT_HOW_DISTANCE_MARKER_COMP' => {
                                                             'PH' => '2',
                                                             'LEFT' => 1,
                                                             'RAW' => 'CLAUSE_THAT_HOW_DISTANCE_MARKER_COMP(attacking, that)'
                                                           },
                                               'DIRECT_OBJECT' => {
                                                           'PH' => '6',
                                                           'LEFT' => 1,
                                                           'RAW' => 'DIRECT_OBJECT(attacking, Hillary)'
                                                         },
                                               'CLAUSE_VERB_COMP' => {
                                                            'PH' => '1',
                                                            'RIGHT' => 1,
                                                            'RAW' => 'CLAUSE_VERB_COMP(heard, attacking)'
                                                          }
                                             },
                               'WORD_BASE' => 'attack',
                               'POS' => 'VBG'
                             },
                   'CH' => {
                             '0' => {
                                      'WORD_GIVEN' => 'attacking',
                                      'CHUNK' => 'B_VP',
                                      'pos' => 7,
                                      'WORD_BASE' => 'attack',
                                      'POS' => 'VBG'
                                    }
                           },
                   'CH_NUM' => 5,
                   'ngram' => {
                                'attacking' => {
                                                 'ME' => {
                                                           '7' => 1
                                                         },
                                                 'CONCEPT_AS_GIVEN' => 'attacking',
                                                 'CONCEPT_BASE' => 'attack',
                                                 'TYPES' => {
                                                              'packs' => {
                                                                           '__ATTACK' => 0,
                                                                           '__HOSTILE_EVENT' => 0
                                                                         },
                                                              'type_marker' => {
                                                                                 'NGRAM' => 1
                                                                               },
                                                              'human_nature' => {
                                                                                  'DANGER' => 1,
                                                                                  'UP' => 1,
                                                                                  'ACTIVE' => 1,
                                                                                  'POWER' => 1,
                                                                                  'NEGATIV' => 1
                                                                                },
                                                              'noun_properties' => {
                                                                                     'N_MASS' => 1,  # Har att göra med hur man "räknar" attacking om det är en "noun-event": 
                                                                                     'C_ACT' => 1,
                                                                                     'N_ABSTRACT' => 1,
                                                                                     'C_FACTOTUM' => 1,
                                                                                     'N_CONCRETE' => 1,
                                                                                   }
                                                            },
                                                 'HH_TYPE' => {
                                                                'VERB' => 1
                                                              },
                                                 'VALENCE_HH' => {
                                                                   'BLI' => '0.0413263690641225',
                                                                   'WP' => '0.000298256136957894',
                                                                   'HH' => '0.765989109703756',
                                                                   'WE' => '0.0964980396099565',
                                                                   'EMI' => '0.765989109703756',
                                                                   'IDF' => '6.1371324495446'
                                                                 },
                                                 'POS' => 'VBG'
                                               }
                              },
                   'phrase' => 'attack',
                   'phrase_pos' => 'VBG'
                 }
        };
$VAR3 = 'SENTENSE';
$VAR4 = {
          'CH' => {
                    '6' => {
                             'IN_PHRASE' => {
                                              '4' => {
                                                       '_WITH_WORD' => 'was',
                                                       'ngram' => {
                                                                    'was' => 1
                                                                  }
                                                     }
                                            }
                           },
                    '3' => {
                             'IN_PHRASE' => {
                                              '3' => {
                                                       '_WITH_WORD' => 'the',
                                                       'ngram' => {
                                                                    'the' => 1
                                                                  }
                                                     }
                                            }
                           },
                    '7' => {
                             'IN_PHRASE' => {
                                              '5' => {
                                                       '_WITH_WORD' => 'attacking',
                                                       'ngram' => {
                                                                    'attacking' => 1
                                                                  }
                                                     }
                                            }
                           },
                    '2' => {
                             'IN_PHRASE' => {
                                              '2' => {
                                                       '_WITH_WORD' => 'that',
                                                       'ngram' => {
                                                                    'that' => 1
                                                                  }
                                                     }
                                            }
                           },
                    '8' => {
                             'IN_PHRASE' => {
                                              '6' => {
                                                       '_WITH_WORD' => 'Hillary',
                                                       'ngram' => {
                                                                    'hillary' => 1
                                                                  }
                                                     }
                                            }
                           },
                    '1' => {
                             'IN_PHRASE' => {
                                              '1' => {
                                                       '_WITH_WORD' => 'heard',
                                                       'ngram' => {
                                                                    'heard' => 1
                                                                  }
                                                     }
                                            }
                           },
                    '4' => {
                             'IN_PHRASE' => {
                                              '3' => {
                                                       '_WITH_WORD' => 'gun',
                                                       'ngram' => {
                                                                    'gun' => 1
                                                                  }
                                                     }
                                            }
                           },
                    '0' => {
                             'IN_PHRASE' => {
                                              '0' => {
                                                       '_WITH_WORD' => 'Bill',
                                                       'ngram' => {
                                                                    'bill' => 1
                                                                  }
                                                     }
                                            }
                           },
                    '-1' => {
                              'IN_PHRASE' => {}  # Defekt gissar vi. Auto-skapat när något icke-existerat refererats. 
                            },
                    '5' => {
                             'IN_PHRASE' => {
                                              '3' => {
                                                       '_WITH_WORD' => 'boat',
                                                       'ngram' => {
                                                                    'boat' => 1
                                                                  }
                                                     }
                                            }
                           }
                  }
        };
$VAR5 = 'META';
$VAR6 = {
          'ID' => 'ID',
          'TITLE_TOKENIZED' => 'Bill heard that the [Korrigerar till tank destroyer: Körde en variant med tank destroyer men hade tagit in delar från gun boat redan]. gun boat was attacking Hillary',
     'NEWS_PRODUCER' => 'HANS',
          'TRUST_LEVEL' => '1',
          'TAGS' => {
                      'Nothing here' => 1
                    },
          'TIMESTAMP' => '_UNDEF',
          'IMPORT_METHOD' => 'news_import',

   # Avser PP-operatorer vi kan sätta utanför själva informationen (d.v.s. nyheten). Ex. om vi från andra nyheter om pågående nyhetshändelser vet bättre var det hela 
   # geografiskt pågår. 

          'PP_META' => ''

   [Diverse borttaget här och lite varstans från META]



Semantiska nätverk intressant nära mitt underliggande nät

2013-07-17

Neurally Implementable Semantic Networks (Mars 18, 2013) är konceptuellt mycket nära Blue light tidigt och troligt nära unikt så. Förutom grundprinciperna fann jag perspektivet man kort också tog från några principer kända från djurmodeller baserade på zebrafinkorna intressant om än här tyckte jag särskilt bidragande (även om jag tycker att egentligen annat där var mer intressant när jag tittade på det för ett par år sedan).


Vad jag både upplevde irriterade och lugnande är att hela konceptet som uttryckt i artikeln är före praktisk verklighet. Normalt när något kommer nära ett koncept jag har etablerat får jag ut åtminstone något från artikeln när så noggrann och ganska omfattande som denna men ej så här. Det gav viss irritation men är antar jag naturligt för ett av mina äldsta mest grundläggande koncept.


P.s.s. var det lätt lugnande därför segmentet där man troligare kan få ut något ligger i det mer komplexa praktiska. Konceptet är ju så elegant tilltalande i dess grundprincip uteslutande föga samtidigt som det mesta är möjligt. I princip. Svårigheterna - väldigt mycket större - ligger praktiskt i att:


  • Etablera matematik i form av operatorer för att kunna utnyttja nätverken till dra slutsatser.
  • Beräkningseffektivt ta fram den statistik som krävs för att driva operatorerna.
  • Hantera överföringen från relationer i ögonblicket - ex. så precis som i deras exempel för en enskild scen i något tänkt pågående - till etablerad långsiktig inlärning d.v.s. vad jag ser som Blue light relativt inlärningen pågående i Symbol mind (vilken förövrigt fodrar sina operatorer därför att vad vi lär från är verklighet också väsentlig för analys jfr ex. Egypten: Att tala tydligt igen nyligen).

Just den binära principen för förekommande noder anslutna ett koncept etablerande vedertagen inlärning (jfr Blue light) tillsammans med situationen just nu illustrerar den enorma skillnaden mellan idé och verklighet. När en Blue light är etablerad med mycket hög kvalitet i relationer (och där ligger mina koncept beroende på hur en Blue light tagits ut utifrån krav minnesåtkomst o.s.v. inte sällan på ett antal relationer varande flera tusen upp till om jag minns rätt som mest på nuvarande hårt optimerade cirka 24 000 på en av de största). Där är ex. similarity helt oviktat förvånandsvärt funktionellt även om jag normalt inte på flera år gör similarity riktigt på det sättet eller sedan cirka två utan också vikter per noder och staitstik på co-occurences.

Steget att uttrycka Blue light som expanderande och lärande från situationer i ögonblicket är vidare vad man visst gärna vill tro ska gå att göra via enkel förekomst som byggs över tiden. Men åtminstone när vi ser vår värld i ögonblicket som "alla" nyheter på engelska har vi fenomenen kring emergence (kort diskuterat igår i Egypten och Markov: Vi står där vi faller men en hel del längre bak över sista åren finns även omag avpublicerat en del) och hur värderingen av intensitet i ögonblicket hos människor ej direkt översätter till påverkan på befintlig inlärning. Vidare besläktat gäller att vi etablerar enorma kunskapsmängder via skola, universitet, utbildningar av andra slag m.m. som tas för given och ej uttrycks statistiskt jämförbart dess implicita inverkan på koncept och deras relationer som uttryckta i nyheter såväl som ex. fullt corpus av allt Plos givit ut.

Värt att peka på är att jag kompletterat Blue light med ett antal semantiska nät ovanför inkl. nät med konkreta named relations och kategorisystem för att förklara vad ett mindre antal koncept (cirka 300 MB koncept med deras relationer och kategorisering) är i en förenklad mening. Jag ser dessa huvudsakligen som en presentationsfråga där dom underlättar och optimerar när det kommer till att förklara en del relationer tämligen vanliga. Inte minst för att enkelt kunna göra meningsfulla och lätt tolkade grafer (se ex. Sverige-grafen). Vidare har jag en del mer parallella lösningar ex. Visual light som egentligen är ett underrum till Blue light (endast cirka 5 MB stort i koncept och relation utan associationsvärdena) inriktat på visuella relationer ex. scenarier vi kan ha i nyheter för att fylla i resp. förstå. Samt också en väsentligt större som fortlöpande grundtillstånd för spreading activation.

Från Penn State University har vi också via dess cache-funktion av forskningsartiklar praktiskt mycket användbara citeseerx.ist.psu.edu även om jag kunde önska att Google Chrome som default visade dem i webbläsaren hellre än att tvinga nedladdning (troligt något relaterat hur PDF-filerna skapas av Citeseer) och därefter öppna den nedladdade filen i webbläsaren problemfritt (om man inte använder Adobe's fetare applikation istället som egen process) även om jag inte är 100% säker på att det egentligen är tänkt att det ska gå heller i Chrome givet dom tycker jag ganska över-uttryckta varningarna om dessa pdf-filers risker för min dator.

Corpus för hela Citeseerx (inkluderande titel, sammanfattning och referenser men oavsett om tillgängligt eller inte ej brödtext) som cirka tror jag andra kvartalet 2012 eller alternativt fjärde kvartalet 2011 var vad jag prövade som en statistik källa till co-occurance tillsammans med ett större antal liknande. Dess omfång över koncept var emellertid inte större än att det gav föga och givet en del andra problem ej relaterat statistik källan brydde jag mig inte om ta in det datat alls (varande tämligen litet jämfört med hela samlingen använd och parallella metoder) vilket är vad jag tror är en mycket talande indikation om ungefär datamängderna, områdes association (här för området forskning och associerade områden med alla dess koncept), metoder o.s.v. som krävs för att etablera "associations- / närhetsmått" mellan koncept i Blue light eller jämförbart.

Jag tror dock det kunde vara ett spännande och givande projekt för Penn State University att göra något jämförbart på hela verkliga CiteSeerX inkl. deras cach:ade PDF-filer av artiklarna (annars är det föga) hanterande enligt olika varianter gärna artikel-komponenter som undertitlar, bildtext, sammanfattning, titel o.s.v. särskilt men ej i relation till sådan hantering heller utelämna brödtext (ex se avgränsad brödtext mellan en titel och nästa som ett under-händelse-rum eller liknande). Och givetvis publicera data för det också mer raw.

Lycka till med det. Och verkligen att få projekt man kan sysselsätta sig med är så glädjande och utvecklande som att ta fram statistik från feta-corpus. Man både lär sig mycket om sitt område såväl som hela världen. Verkligen vad en två - fem doktorander skulle minnas hela livet som något riktigt kul att ha gjort. Föga av känslor relaterat misstankar om att man torterar sig själv och gör det därför att man egentligen är mentalt eller emotionellt skadad eller akuta drömmar om att datat är levande konspirerar mot dig skärande bort delar av hjärnan finns någon risk för. Bara sund glädje och avslappnad förnöjsamhet. Vi vet ju alla att bigdata är kul och samhällsnyttigt: coolt och utvecklande för ungdomen hålla på med. Hade jag inte så mycket annat roligt att göra skulle jag själv tveklöst spindla ner alla Citeseerx PDF-er och göra det själv. Kanske att belöna mig till jul med om ingen annan tycks ha påbörjat det eller om så ligger i erfaret god fart mer än för erfarenhets-tidiga sådana lösningar ligger närmare sex månader eller längre tiden.

Språkets mening grundad i bild: I nyhetsvärlden II

2013-05-18

I en liten fortsättning på Att grunda mening... avseende särskilt i bild i kontext av nyhetsanalys där vi här har ett till vanligt steg precis som bild och bildtext från den visuella scenen till text: grafer för att visualisera samband.


En föga elegant i sig själv men utmärkt illustrerande är denna jag använde för att uttrycka tankar. När strukturer som dessa uttrycker färdiga tankar gäller att de när en noggrann person gör dem kan ha en mycket tydlig struktur. Här där tankarna ej är klara kan vi jämföra flexibiliteten och hur koncept adderats med den kreativa associationen och informationsinhämtningen.




Komplettering:


Citatet nere till vänster ej i skissen refererat är från:



D.v.s. citatet:


"The authors show that verb aspect influences the activation of event knowledge with 4 novel results. First, common locations of events (e.g., arena) are primed following verbs with imperfective aspect (e.g., was skating) but not verbs with perfect aspect (e.g., had skated). Second, people generate more locative prepositional phrases as completions to sentence fragments with imperfective than those with perfect aspect. Third, the amplitude of the N400 component to location nouns varies as a function of aspect and typicality, being smallest for imperfective sentences with highly expected locations and largest for imperfective sentences with less expected locations. Fourth, the amplitude of a sustained frontal negativity spanning prepositional phrases is larger following perfect than following imperfective aspect. Taken together, these findings suggest a dynamic interplay between event knowledge and the linguistic stream."




När vi jämför för att se likhet med text kan vi se vår parsning av en mening från vänster till höger motsvarande den väg vi går mellan områden där en mening samlat uttrycks som i sig själv kan konvergera till mening - ofta vad som kan ha en rektangel eller cirkel för att avgränsa undermängden mot hela infografen - och i exemplet från min kreativa tanke också hur jag valde att använda punktlistor. Dessa kan vi ex. se som logiskt undergripande ett områdes konvergens oavsett om händelser, eller delar av en mening, eller något annat.


Resp. sådan del oavsett om uttryckande mer än ett begrepp har ju just normalt en symbol vi infört som representerar den i ord. I grafen har vi ej ARBETSMINNETS REPRESENTATION men jag lade till det som det korrekt är precis även om jag lär ändra det till systemets beteckning när de fått ett klart namn på datastrukturen och dess logik.


Vi kan ju också precis som vi kan flytta ut vårt perspektiv ex. betraktande en längre tidsperiod se fler mer övergripande händelsesituationer men med färre detaljer. Med infografer kan vi göra samma sak på en mängd sätt. En metod jag själv ganska ofta använder för det lite komplexare just när jag skissar upp det är att kombinera infografer som ovan med med presentationer. Det gör det tycker jag både enkelt att skissa och när man betraktar en detalj få vettig (men ändå praktiskt för mig utrymmes begränsad i vad vi kan uttrycka) och vi får en enkel linjär "händelse- / situations-kedja" att följa. Ett exempel lika ännu begränsat uttryckt nås via:



(Egentligen lite väl just startat för att vara ett bra ex. men jag lär väl addera på lite i morgon varpå jag kan frysa denna version vid en lagom punkt. Det lär mindre troligt vara en spännande mycket värdeskapande och intressant process att följa för alla läsare men jag kan i alla kompenserande ex. begränsning nu indikera det som möjligt.)


Komplettering: Jag fryser exempel-presentationen nu eftersom jag upplever att jag börjar komma för nära konkreta algoritmer för att ha säkerhetsmarginal till sådant jag har föga lust att dela.