Exempel på Sökning i Relationer: Nuclear

2011-05-24

Det är fascinerande hur långt man når bara med själva relationerna. Utan emotionella faktorer, mer eller mindre över linjer, relationer utanför det formella o.s.v.

När jag experimenterade med vad som utvecklar sig till det som ska bli det första lagret med de mer "intentsägande" relationer motsvarande hur en väldigt tråkig person skulle dela in vetenskap i natt körde jag med en begränsad undermängd av data och skar dessutom relationer från Wikipedia (och också p.s.s. bibliotekssystemen) som är så mycket mer passande för kategorisera ett stycke data snarare än att uttrycka relationer mellan begrepp eller känslomässiga aspekter var det svårt att inte försöka göra mer än undersystemet var avsett för.

Det klassificerar tämligen utmärkt som var det hör hemma även om andra undersystem så mycket bättre kommer ta hand om bara genom att samla huvudområden utspridda över människans vetande och sedan uttrycka relationerna runt dem.

Men det som är riktigt fascinerande och jag är säker på att nästan alla som tittat på den här typen av data har missat är att felträffande i sådan pseudo-klassificering är det mest intressanta. Anledningen till att jag inte missade åtminstone detta är just att man kan se dessa som ett särfall av undersystemet jag kallar mer eller mindre.

Vi ser utmärkt vad jag menar från det här exemplet där data från aktuella nyheter i sammandrag från respektive RSS analyserats samlat för träffat på nuclear:

Siffran ovan kan tolkas som en vikt för respektive speglande motsvarande förekomst i data samplat (men ej i en linjär mening).

5
air pollution,development,ecology,epidemiology,food,terrorism

6
climate,economic development,environmental policy,mining,politics,public health,safety

7
electric power,environment,productivity,public administration

8
business,health

9
natural resources,pollution

10
technology

12
nuclear energy

18
energy

Vi kan först konstatera att som jag pekade på är det just inte optimalt för klassificering men vi ser också att det just är relaterat vilket också är vad datat kommer från. Det stora hårda värdet med för ex. nyhetsanalys är att vi egentligen oavsett område lätt kan känna igen något som viktig information när vi ser det men det är ofta svårare innan vi sett ett samband mellan två grupper av data att veta att det är viktigt om vi inte innan sett det (jämför ex. med retorik i Sökmotor är begrepp som knappt går att använda längre).

Ovan kan vi särskilt se just över relationerna räknade trots att de inte givits en vikt från statistik (vilket andra senare subsystem gör eller kommer göra utifrån område). Ändå ser vi att de större frågorna som oroar människor och därmed också styr politisk policy och områden utveckling och forskning även tenderar att prioritera och/eller lyfta fram i kommunikation lyfts fram. Därmed att terrorism trots att det troligen är en relativt begränsad fråga ännu (även om givetvis samarbetet Nordkorea, Kina och Iran är minst sagt mer problematiskt).

Av troligen samma anledning (jag följde här inte upp det bakåt) har vi också food som kommer in högt. Vi kan om vi tänker oss bakåt till Tjernobyl se hur det kommer sig även om vi kanske inte just nu tänker på.

Just för den här typen av sampling runt om en fråga för att upptäcka om en större fråga rör sig i kombinationer i underområden man inte förutsatt lär dock om inte allt för länge alls ha markörer på relationer i cirka fem huvudområden. Ungefär som tänkt "hårda vetenskaper" som fysik, kemi, matematik och övriga vetenskaper ex ekonomi, humanism och liknande (någon särskild anledning att hantera ekonomi separat tycks inte finnas även om man vill följa det särskilt), politik och en från system för att beskriva företag. Den ovan ligger i allt samlat vilket gör det problematiskt om man ex. vill separera ut terrorism och food varande vad som har viss politisk tyngd runt som här nuclear.