A Community-Based Approach to Identifying Influential Spreaders

2015-04-19

Algoritmer av den typ diskuterad i:


"Identifying influential spreaders in complex networks has a significant impact on understanding and control of spreading process in networks. In this paper, we introduce a new centrality index to identify influential spreaders in a network based on the community structure of the network. The community-based centrality (CbC) considers both the number and sizes of communities that are directly linked by a node. We discuss correlations between CbC and other classical centrality indices. Based on simulations of the single source of infection with the Susceptible-Infected-Recovered (SIR) model, we find that CbC can help to identify some critical influential nodes that other indices cannot find. We also investigate the stability of CbC."

A Community-Based Approach to Identifying Influential Spreaders
Zhiying Zhao, Xiaofan Wang, Wei Zhang och Zhiliang Zhu
Entropy 2015, 17(4), 2228-2252; doi:10.3390/e17042228

Har en applikation i att beräkna "storleksmått" på entiteter eller för den delen ämnen (jfr Bluelight intensity (BLI) där jag använder grupper av liknande lösningar).


Just den typ av lösning tillämpad i BLI kan vi här stoppa in i en större grupp av lösningar där vi också har som en del similarity mått och den gemensamma egenskapen att anslutningen mellan koncept ev. viktad utifrån antalet anslutningar resp. koncept vi ansluter till och likhet mellan denna och noden vi står på.


Sådana algoritmer är nästan förvånande effektiva när kvaliteten på relationerna mellan koncept håller god kvalitet och är jämförbara i vad de bör säga och antalet mellan resp. koncept (d.v.s. man får lätt ett visst avdrift om en del koncept har väsentligt färre relationer än förväntat som normalt för ett koncept som har samma betydelse och faktiska anslutningar i verkligheten).


Men de har också begränsningar och är vad jag föredragit att ej uteslutande använda för härledning av på ganska länge nu. Vi kan förstå begränsningen av följande exempel:


1. Västerländska och åtminstone industraliserade länder i Asien tenderar att uttrycka en jämförbar form i hur de stödjer forskning. De har exempelvis ofta en organisation för att finansiera forskning. Säg nu (för att löst återknyta till ex. med Twitter i artikeln) att vi har två länder ungefär lika stora i verkligheten utifrån någon relevant definition och gemensamt stora på Twitter med ungefär samma följeslagare (en bunt medborgare samt personer inom press resp. tjänster av olika slag som aggregerar vidare vad de Twittrar). Både twittrar att de ska satsa på ämne A.


Men är de båda lika spridande? Och i vilken tidsrymd? Vi kan omformulera frågan som har de samma bandbredd? Historik har en faktor ytterst talande för vad vi vill uttrycka här. Rent av kortsiktigt - upp till några månader - där man kan tycka att det borde ha mindre betydelse har ändå historik (trivialt vad vi kan skatta som P [land & ämne] ) inverkan bara genom effekt på entiteter som hos aktör där befintliga satsningar redan är del av satsningar reagerar. Den effekten blir särskilt stor när samma entiteter deltar i en grupp av projekt och exempel är de större amerikanska universiteten reagerande mot amerikanska forskningssatsningar de senaste fem åren.


Historik säger oss också något om vad vi kan kalla "effektstorleken" eller alternativt "var vi befinner oss i subjektiv tid". Säger vi att ett land gör sin första satsning vid denna tid befinner de sig var det andra landet som satsat 20 år var för kanske fem år sedan (grovt ungefär och antagande att annan funktion för satsningen är välfungerande - och närmare i område av ex. ämnen som data medan jag verkligen inte vill ge mig på att ge ett grovt mått för satsningar krävande en väldigt stor partikelaccelerator, kärnkraftverk eller liknande man vid tiden saknar). Effektstorleken relativt landet själv kan tendera att bli större men också om vi inkluderar en faktor "exakthet" eller "djup" på hur långt man når och som samlat ger ett mått på hur man täcker hela ämnet indikerat är det ej självklart att man uppnår mer än landet som satsar ett år till (fodrar den typ av analys vi gör här men mer riktat än jag gör skattande allmän Bluelight intensity).


Förövrigt förutom en väldig mängd faktiskt förekommande industrispionage kan jag tänka att en del samband kring vad jag kallade "effektstorlek" ovan när de realiserar sig i konkreta resultat ibland gör att det uppfattas som kanske drivet av industrispionage också när så ej är fallet. Av besläktade orsaker men nu det jag kallade "exakthet" / "djup" är jag heller inte säker på U.S. Agencies Block Technology Exports for Supercomputer in China (The Wall Street Journal) är en ineffektiv åtgärd (även om jag för ämnet inte kan bedöma det specifikt rörande teknikområdet).


2. Att Syriens regering har kemiska stridsmedel vet vi och vi vet också att de kan leverera de samma till landets egna städer och byar. Från lager oavsett var de finns existerar i någon mening relationer för att sprida giftet via.


Att samma regering nu känt just spridit kemiska stridsmedel är talande för vad relationerna betyder vid sidan om också faktorer som i ett vi kan tänkas ganska kreativt kan tala om som bandbredd. Om vi så vill sannolikheten för att relationen faktiskt ska skicka vad vi skattande exempelvis nyheter kan välja att se som "data" (motsvarande kemiska stridsmedel i en annan del av verkligheten).


Gemensamt om vi väljer att betrakta forskning som exempelområde snarare än vapen av olika slag handlar det om att mängden satsningar ett land gjort samlat för resp. ämne har betydelse mer än antalet ämnen och hur dessa ämnen generellt bildar samhällen med varandra. Någon anledning att begränsa historiken här finns inte. Tvärtom får man bättre mer korrekta värden för åtminstone mindre europeiska länder när man tar hänsyn till verksamhet relaterade i företag (ta exempelvis Finland jag tycker mig minnas ha följt upp för kanske fyra år sedan rörande det här skattande från Nokia). Och fortsatt därifrån finns heller ingen fortsatt anledning att begränsa sig rörande egentligen något alls. Ex. om land A gör en satsning inom ämne B det ej satsat på tidigare men entiteter berörda redan har verksamhet inom B bör det inverka.


Av dessa orsaker är det heller inte trivialt att komma ifrån att man behöver ha epoker spridande effekten utåt. Eller jämförbara lösningar. En tänkbar lösning jag gärna önskat införa men ej annat än med något enstaka trivialt försök inte ens testat är att låta resp. entitet vi har i vår graf få verka ensam med ny "effekt" och därefter i princip köra algoritm för spridning av effekt (oavsett vilken man nu exakt har) och skattande hur mycket den klarar totalt resp. implicit att vi också får effekt distanser mellan detta koncept och övriga (för mig för många för att göra det här realistiskt på den dator jag har: det kan handla om år innan det går klart för de 150 000 koncepten troligast "störst").


Men riktat när något särskilt intresserar (inte minst när ett fåtal gemensamma mätpunkter finns över kanske 1000 koncept där effekten tas upp) är det en ibland talande lösning. Med författarna till artikeln i Kina vore det så klart intressant att kanske jämföra detta för något ämne relativt USA. Emellertid gäller för mig fortfarande att Kina är sämre samplat än Nordamerika och Europa när det gäller forskningssatsningar. Dessbättre tycks det vara ett snabbt reducerande problem utifrån att man snabbt ser allt mer forskning publicerad på engelska från typiska enkla mätpunkter för uppdaterad sampling. MDPI är ett exempel på det där jag tycker mig minnas kanske inte mer än tre år tillbaka när man aldrig var jag lade märke till såg kinesiska namn från kinesiska universitetet.


Vi kan se ett tänkbart gemensamt exempel mellan 1. och en variant av 2. där vi i två istället betraktar spridandet av en grupp av sjukdomar. Historik inom resp. såväl en mängd andra områden som märks är vad som vi kan förstå bör inverka om än inte riktigt på samma sätt.