Värdet av promiskuösa noder utanför det lägre som feature omedelbar diskriminerbarhet

2017-03-01

Följande från en handbok data mining är värt att diskutera:


"Removing pizza nodes (i.e. very high-degree nodes) is likely to be an essential prior component to get useful results. Intuitively, a pizza node is likely to be a large impersonal entity like a pizza parlour or an electricity supplier: the fact that two people both communicate with the pizza node gives us no reason to think that they are linked socially."

Eventuellt (jag läste ej artikeln i detalj där länken fanns som jag nådde från nyheten sist d.v.s. dokumentet två steg ifrån denna) är dokumentet ej publicerad korrekt utan del av något läckage av information. Det tycks dock fått text genomgående borttagen rörande detaljer organisationer m.m. resp. rör ämne där det är troligt och normalt (och troligen ekonomiskt resp. från perspektiv konkurrerande andra entiteter som en givet stor och stark entiteter effektivt genom att stimulera kunskapsbyggande i samhället allmänt man kan utnyttja - ej heller tekniskt särskilt avancerat eller särskiljande sig i nivå eller erfarenhet från allmän kunskap) så jag kan tänka mig och tror det troligast att det publicerats korrekt.

Från: HIMR Data Mining Research Problem Book, OPC-MCR, GCHQ (PDF)

De kan emellertid vara utmärkta som generella features för att beskriva entiteter meningsfullt för typbestämning. Kommunikation mot ex. en uppsättning stora entiteter av myndighetstyp kan tillsammans ge indikation av sådant som medborgarskap. Tjänsteleverantörer tillsammans för geografisk lokalisering. O.s.v.


För 300-FF har vi exempel på det genom ingen särskild viktning diskriminerande dessa typer av noder (och viktning via förekomst tillsammans resp. likheter via de 400-längd vektorer som används som indata vid träningen) vilket tycks mycket funktionellt utan problem. Utnyttjande annat men besläktat common sense med varje form av sense mellan namngivna kategorier (vilket är allmänt för många: Innan ungefär följande för struktur Wordnet) och clustrande resp. dessa med 300-FF och Kohonen med fast antal cluster grovt grupperade efter hur vanliga de är eller hur breda de är (6 st vanligast, små-kategorier 3 st, samt ett fåtal 12 st). Totalt cirka 10 - 20000 kategorier indata för lokal clustering. Därefter clustrande resp. av resultaten tillsammans och vi har fortfarande i utdata inget problem att få geografisk-gruppering, gruppering personer, roller och övriga entiteter, resp. ej heller mer av topic-natur som matematiska begrepp.


Vilket jag tror men har inte försökt prövat om det stämmer skulle vara mycket svårare utan att från början inkluderat de stora noderna. Det ger ju något gemensamt över många noder utan behov av att expanderande bygga träd nedanför direkta relationer d.v.s. mycket lägre komplexitet. Samtidigt som när relationen ej är binär utan bygger på förekomsten det kan fungera diskriminerande också där. Du kan (för att ge exempel för en typ av relation ej aktuell för 300 riktigt på samma sätt utan mer på applikation av handboken jag citerade) tänka dig att du får indikation för relationerna att en entitet är person och svensk medborgare men också en medborgare (han / hon tycks ha "hög bandbredd" mot svenska institutioner) men han uttrycker låg intensitet kontakt med myndigheter (d.v.s. exempelvis enkel-person rörande deklaration o.s.v. Skatteverket, föga kriminell så som känt, ej politiskt intresserad o.s.v.) så antingen en ekonomiskt-effektiv medborgare (eller kanske misstänkt välanpassad) och / eller mycket tråkig.


Så som exempel clustering av Earthlight kan vi se möjlighet att betrakta relationerna som vad som kan strukturera sig mellan varandra i närmare ontologisk-mening där stora (nästan promiskuösa noder givet en population: Så ex. om vi redan vet att en person är svensk faller en del av meningen bort här - Samtidigt vet vi ej enkelt innan vad dessa relationer här kommer säga i övrigt) där stora noder kan uttrycka djupare / bredare möjlighet till exakthet från smalare mer diskriminerande relationer (de senare vad som normalt bör ha mycket högre inverse document frequency i mening av att behandla varje nod som ett dokument och varje relation som en frekvens förekomst ev. viktat med förekomst - och de första mycket låg idf).


Också gäller vilket är praktiskt enkelt att förstå om vi fortsätter tänker oss ett land (men oftast normalt gäller allmänt för allt mänskligt relaterat i grafer) stora noder gärna uttrycka spridd av aktivitet som är resulterande detekterbart nära dem. D.v.s. om ex. en nations militära organisationer börjar agera mer är det att förvänta att vi ser omedelbart i noder i nära relationer till nationen (ex. deras övriga statliga funktioner såväl som företag m.m. inom landet, medborgare o.s.v.) högre aktivitet nära i tiden. Medan över hela grafen för människan över världen och historien mindre troligt ser särskilt höjd aktivitet på större distans. Medan aktivitet för mindre noder när spridd aktivitet av någon aktivitet vi kan se som uttrycka något vi kan betrakta som en aktivitets-typ klarar att nå något förändrande i ej trivial mening ej alls självklart eller troligt ser det nära inpå dem: Ex. i den mån en person klarar att förändra något i världen som märks där vi bryr oss är det föga troligt något i hans omedelbara relationer av vad som där är typiska relationer för honom (ex. aktivitet inom familjen så som att han mördar en familjemedlem är ytterst sällan vad som kommer bli märkbart) utan märks det är det snarare på större avstånd (i samma mening som för nära relationer: Medan distansen i mening av antal steg om vi ej som föreslaget i citatet kastat promiskuösa noder mycket väl kan ha omedelbar kontakt) ex. byggt ett företag påverkande alla möjliga städer där de har kontor eller stora kunder eller som utbytesstudent i annat land flyget ett flygplan in i en stor byggnad. Jag är osäker på om någon koppling till (eller möjlighet till argumenterbar rationalisering av potensen stereotypen Small and Spreadable har).


Det tycks troligt för mig att promiskuösa noder är nödvändiga eller användbart för att försöka bedöma var ev. / tänkbar större aktivitet för ej i sig promiskuösa noder (där det mig är givet så även om säkert andra vägar enklare finns här lika bra) utan istället små noder med få relationer. Preferensen allmänt kulturellt sedan många år för att när features identifieras och utnyttjas använda de mer diskriminerande och värdera dem högre (ex. som med idf) är dock mycket stor. Och förvisso att det förenklar saker och ting men det har också gjort att mindre arbete skett för att få ut värdet av promiskuösa noder.


Man kan ju löst relaterat se att i skogen finns träden. Och ett träd kan vara en nod vi expanderar ut till dess omedelbara relationer. Och en del av skogen är den spridning och konvergens av aktivitet vi där ser mellan träden. Och att en skog i ett land ej uttrycks med samma ord som i ett annat. Benämning av saker och ting är inte alltid så självklara när de ej förklarats i detalj som man kan tro från hur begrepp används allmänt i en kultur man har given. Särskilt utmanande blir det när samma begrepp används för samma lösning med båda verkande. Därmed inte sagt att jag har någon preferens för att tro om tolkningen i artikeln nedan rörande algoritm är korrekt eller inte (särskilt har jag inte läst dokumentet citerat först i detalj eller något alls i övrigt relaterat det - utan mer en allmän reflektion från vad min känsla är för vad man kanske troligare använder från egentligen föga information hos mig etablerat sista fem - sju åren eller så, och osäker här om implicit inkluderat analysen jag gjorde för väldigt mycket data bl.a. relaterat inköp av saker och ting vilket bl.a. - och allmänt just nätverk med sensorer - var mycket talande rörande etablering av infrastruktur avlyssning för trafik till och från USA långt innan något konkret blivit känt).



Rörande journalisten diskuterad inser vi ju förövrigt att i ett givet subset av entiteter som entiteter kan ha relationer till kan han kanske ses som en promiskuös nod. På tema av samma exempel-typ som tidigare med bland kan vi tänka oss relationer till honom av viss typ (ex. personer han skrivit något om) uttrycker features för dessa som motsvarar något relaterat till journalistens preferens för ämnen och organisationer han skriver.