Hur ofta titlar på journalartiklar, publicerade studier m.m. förekommer

2014-03-23

Från ett reducerat dataset av titlar på journal-artiklar eller jämförbart (men här uteslutande motsvarande open archive från universitet m.m. men ex. inte CitesserX, titlar patentansökningar, sociala media inkl. Citeulike, Bisonomy m.fl. i området) avsett för att läggas ovanpå hela subset research inkl. titlar, abstract's, tags m.m. (låt oss kalla det en förstärkning enklare att parametrisera från data-hårdvaru-begränsnings-perspektiv med titlar också representerade för sig).


Vi har på x-axel funktion av antalet gånger en titel förekommer på x-axlarna (och för resp. två grupp på kalkylblad till vänster) och på y-axel funktion av antalet artiklar som det gäller för. För resp. av de tre varianterna:


  • Värdena direkt utan omräkning men vi stannar här på ett ganska lågt värde på x-axeln (om jag minns rätt cirka 20).
  • Ingen omräkning x-axel resp. log2 y-axel.
  • log2 för x-axel resp. log2 y-axel (del av en underlig upplevelse inkl. tolkat behov av det resulterande från att det var ett tag sedan jag använde kalkyl-programmet sist och som förväntat ser vi att vi har ungefär samma skepnad på kurvan här resp. med x-axeln utan log).

En anledning sociala media inriktad forskning uteslutits är att minska antalet multipla förekomster av titel som är redundans i mening refererande samma unika artikel. Emellertid är denna redundans för antal mindre eller två (och troligt ganska hög också i tre) hög därför att för vissa datakällor är kvalitet och värde resp. samtidigt problematik effektivt extrahera det p.g.a. storlek sådan att jag hellre accepterat att de kommer redundanta relativt varandra därför att vad jag egentligen kommer använda av science titel only är de unika förekomsterna utan att vikta med hur många gånger de föreommit.



En bit av skärmdumpen förstorad för att enklare se de första värdena utan log-funktion på x- eller y-axeln. Enligt indikerat tidigare är det bättre att tänka sig att 1,2 och kanske också 3 ses som en stor-grupp närmare 1 än 2.


Notera vidare att ingenting i bild inkluderar något som sökt ta med hantering av antalet ord i resp. titel, hur vanliga dessa är eller liknande. Det kan vara intressant att göra och ev. gör jag det trivialt men troligen tämligen vettig exakthets-nivå senare med någon av de varianter som används i ett par familjer av similarity-funktioner (ej någon av de jag använder för similarity: dessa familjer av similarity är verkligen inte särskilt bra ens med magnituder större ontologier än Wordnet) som söker normalisera likhet i motsvarande koncept beskrivning, definition i ordlista m.m. med antalet ord i resp. ngram (vek metod där givet scarce-data man nog hellre undviker förenklade approximationer på såväl som p.g.a. möjlighet förberäkning vilket man antagligen oftast ändå behöver göra och därmed lika gärna kan göra dyrare beräkningar åtminstone för de datamänger någonsin aktuella för dessa funktionsfamiljer i publicerat runt dem där ju i antal koncept och relationer lilla - om än inte alls dålig, tvärtom, för många andra användningsområden - Wordnet).


Tänkbart tappar man mindre med approximation här (jämfört mer för korta mänskliga uttryck likt Twitter eller Facebook) - jämförbart med i troligt mindre utsträckning definitioner ordlistor och jämförbart - genom ett för resp. kontextuellt-ämnesområde har ett mer standardiserat språk syftande att vara mycket tydligt. Men jag vågar inte riktigt någonsin där det har praktiskt betydelse lita till vad som känns naturligt rörande sådana samband. Ofta nog visar det sig vara tvärtom där åtminstone jag har lätt att ta fel på riktning - i svart- eller vitt mening - rörande ganska mycket runt språk-statistik och samband runt det och behöver regelmässigt pröva för att se att jag inte blandat samman motsvarande plus och minus.