Sökmotor för politik och vetenskap?

2011-05-20

Det är så fascinerande när man tar perspektivet från relationerna. För debug har jag relationer för cirka 1/4 av vetenskapsrelationerna och de flesta för politik (undantaget för båda Wikipedia och synonymer) och adderar ingen statistik överhuvudtaget av den vanliga typen. Ändå trots att det tippar över ordentligt för politik och ligger brett får vi klassifikation som tycks vara tämligen acceptabel på nyheter.

Och då har man statistiken för orden och relationens förekoms kvar att lägga för förbättring. Den vanliga statistiken för ngram o.s.v. Frekvens och bayesianska relationer.

På det kan vi sedan lägga för mer eller mindre, svart eller vitt, emotionell payload och övriga subsystem som ligger efter de mer i kunskapsrelationer baserade näten.

Ändå ser det minst sagt tillfredsställande ut.

Nedan har vi ett exempel för ett område nära relaterad till energi där vi just över ett antal nyhetsartiklar i sammanfattning ser hur vi fördelar oss över några huvudämnen utvalda (totalt kanske fyra hundra) där vi ligger tämligen acceptabelt överensstämmande mellan också de viktigaste d.v.s. relaterat till allmän klassificering, forskning, i samhället, miljöfrågor o.s.v.

27 energy power
28 climate
29 ecology
33 space sports
37 agricultural production
41 technology
48 health
50 social sciences
53 chemistry
57 arts humanities
59 medicine
65 economics finance
105 mind brain
128 fossils
147 business
150 computer
236 plants
487 matter
514 earth

De två sista är också de bredaste kategorierna och ska egentligen bäst för sådana här ämnen brytas upp. Men det var nu bara en testkörning av ett annat subsystem och jag brydde mig därför inte om att anpassa något eller ens används hårda ord för respektive ämne utan bara allmänna relationer. I övrigt en relativt vad man förväntar från orden tämligen representativa uttryck förutom att vi för kategorier som tycks vara samma områden en del speciella saker relaterade till att jag önskade se fördelning mellan hur de stämmer med två olika aktörer rörande hur forskning delas upp.

Annars kan man ju förbättra för områden bara genom att kräva att aktuellt ord ska finnas med på sidan. Det är givetvis vad man gör om man gör en sökmotor men för en del användningsområden ex. relaterade till innovation kan det vara en nackdel. Intressanta saker kan inträffa direkt relaterade utan att just det uppenbara eller de uppenbara orden används för det. Därför är breda relationer väldigt bra också där man inte stirrar sig blind på att man ska ha med ett visst antal ord man definierat för att få en sökträff. Utan vad som uttrycker relationer från det (där man också kan göra det mer komplett än jag gjorde vid den här lilla testkörningen ex. använda liknande de algoritmer jag tog fram för isomorfologiska samband).

Även om sådant här givetvis är mer intressant just kring innovation, analys m.m. kan jag se att det kan vara användbart medan man utvecklar sådant att just ha det också uttryckt som en sökmotor i gui-mening anpassad för att man enklare ska kunna pröva lite olika sökningar m.m. Dessutom just för forskning finns egentligen heller ingen bra sökmotor för vad som händer och sker där man kan styra in nära relaterat till forskningens synsätt men samtidigt ta ut även i andra områden som ex. media, Twitter o.s.v. Det kan vara skönt att ständigt behöva sitta och göra site-sökningar på EurekAlert, Sciencedaily, Alphagalileo, elisevier o.s.v.

Jag hade inte räknat med det men det är logiskt därför vi kan se corpus här i tidningar där abstract används som en tunn skärning från mer eller mindre tillsammans med emotionell payload trots att system inte används. Aktiverande kontext för många av skribenterna är ju deras roll som skribenter på tidningarna och därigenom är det ju mer neutralt skrivet och ofta oavsett område med en ganska hög andel politiska ordval även när det är helt indirekt. Mer allmänt kan vi tänka utifrån följande artikel jag skrev fast där mer allmänt där vi ser från exemplen hur vår roll, vad vi gör o.s.v. styr våra ordval också när orden är ekvivalenta och inte bär några av de problem exemplen indikerar:

Jag tror nästan jag sätter upp en liten sökmotor för politik och vetenskap i tidningar och kanske också för Twitter och Facebook där för de senare även om jag inte testat klassificera datat sannolikt behöver mer eller mindre från de tabellter för isomorfologiska känslomässiga samband jag tog fram från diverse forskningsdata som filtrerades från aspekter som gör vissa ord i ett kontext mer troliga. Det vill säga bland annat:

Och så avgörande om man gör det - då jag inte har någon lust att göra bort mig även om det är en liten sak vid sidan - har jag ju klassificeringsfiler från mer eller mindre respektive kunskap utanför relationerna som jag spenderade av och till ett par månader på att sortera ut för intressanta områden. Därmed har man ju det också förutom den vanliga ordstatistiken för sådant och övrigt.