Givealink.org: Att ta ut taggar och statistik för webbsidor

2012-12-06

Antingen tror jag i , Google: Kvalitetsproblem och Statistik samförekomst koncept: Enkel metod för att förstärka värdet statistik från generellt språk ger vid tillämpning inom specialistområden eller Abstrakta och konkreta koncept (diskussion: "The semantic richness of abstract concepts") nämnde jag kort Givealink.org som bl.a. Indiana University är involverade i.


Potentiellt intressant är att de gör datat tillgängligt under en creative commonslicens. En del till deras information kompletterande frågor och tydliggörande finns nedan från e-post med en av medarbetarna för den forskningsinstitution vid universitet som driver projektet. Notera också den sista frågan jag precis e-postade och ej fått svar på och om någon har tips om liknande (i bredare mening) data tillgängligt ex. något liknande statistik sökord för webbsökningar över ett helt språkområde eller liknande eller jämförbart stort med Flickr över en innehållstyp eller publikationstyp vilken som helst så kommentera gärna här eller e-posta.


"On Wed, Dec 5, 2012 at 7:08 PM, Hans Husman husman.hans at_at gmail.com wrote:

Hi again Fil,

Would you know if your Givealink.org have the data in a CSV file for
download besides the API, or knew who to email to ask about it?

Best regards, and happy December
Hans"

Svar:


"2012/12/6 Fil Menczer [...] indiana.edu:
Dear Hans,

We only provide the GiveALink data through the API. The database is
quite large and complex, with many relationships (hundreds of millions
of page-page similarity links, for instance), so I am afraid that it
is not feasible to share the data in flat files. We might be able to
share a small sample of the data in a CSV file, if you specify exactly
what data you are after. In this case, please contact my student
Dimitar Nikolov (in cc).

Thank you and best wishes,
-Fil"

Mitt svar:


"No problem,

The size you indicate anyhow show it is probably worth the time taking
1/2 day or so programming the api-download.

It is mostly the co-occurancs between tag concepts that interrest me
and not by anyway association between them and the URL.

Also the association between tag words and a title heading either by
the human user or the actual web page. Is the later collected by the
service ready or do I need to do a fetch myself? If the later I might
also for news papers, articles and reference web pages try to take out
the association between the co-occurance vector of tags and the
overall article. Is it much such type of content regarding serious
knowledge and issues or is it mostly "popular culture"?

Thanks for your help anyway. I do feel you perform good and useful
projects in your area in the practical dimension even something for
other universitites to take inspiration from as research strategy.

Best regards
Hans Husman"

Och så den sista frågan jag skickade efter om statistik över hur API:et används också publiceras:


"PS

Another question: Do you save and publish statistics of the requests to the API? Such statistics if big enough would be quite interresting also. It is in a broader meaning general harder if you aren't Google or Bing and have a lot of search requests to get that sort of feedback to content.

If not would you be able to do so in the future with logs of today if you for example got financing for another Phd student or such?

Best regards
Hans"

På tema av den sista frågan gör jag för egen del när jag hämtar ut större datamängder en försvarlig mängd whitening i request trots att det kostar ordentligt i extra-tid. Ex, körande en mängd relationer från en datakälla jag förkastat p.g.a. inkorrekt extrahering eller lågkvalitet samtidigt. Dels ger det statistik jag ändå har användning av potentiellt längre fram eller för sammanfattande värden, och vidare ökar det kostnadskomplexiteten att analysera dina requests ordentligt. Sista större insamlingen körde jag ex. tror jag 500 000 relationer (ev. att endast cirka 75 000- 3000 000 gick klart d.v.s. i så fall totalt ca 1 miljoner förfrågningar inräknande koncepten utan relationerna +/- några hundra tusen) ej i övrigt data från en misslyckad dataimport från Google's nyligen inköpta Freebase.


Något verkligt behov av att göra på det sättet tror jag sällan är fallet ens när analys är möjligt. För egen del betvivlar jag ens att ett problem skulle existera om förfrågningar publicerades men vi kan också se det som en god vana och också att även om ett problem ej finns med att det analyseras kan ju ett värde ligga i att någon som har motiv att göra det ödslar tid på överdrivet mycket irrelevant data.


På samma tema förvånar det mig egentligen (lite i alla fall) att Google tar betalt för att göra förfrågningar. Även om vissa typer gäller för vad som annars kan stärka konkurrenter olämpligt gäller det inte mycket annat liknande data där statistiken förfrågningarna i sig rimligen borde kunna förstärka deras ännu misstänker jag mindre lönsamma applikationsssatsningar och cloud-koncept ungefär som sökordsstatistiken förstärkt deras Adwords- och Adsense-affär. Ev. är de fåtal (åtminstone som fanns förr när jag prövade api:et ett par dagar innan jag tröttnade på att gå in i gränsen för antal requests) antal fria förfrågningar tillräcklig för att ge dem balanserad statistik? Eller tillräckligt för utveckling av kunskapsdomänen om hur sådan statistik används (vilket är önskar jag i alla fall lätt avundsjukt kring möjligheten är ett smärtsamt stort problem när man väl har sådan statistik). Allmänt gäller dessutom att Google:s api:er relaterat sådant här är väldigt funktionsdrivet specifika för dem förtådda och accepterade tillämpningar ex. sajtsökningar initierad av en surfare snarare än att gemöjlighet till kreativitet i business-2-business utanför redan välkända lösningar (när man inte vill betala för datat och även då begränsat). Praktiskt begränsande torde alla möjliga affärsmodeller relaterade att tjäna pengar på Google:s befintliga affärsmodeller genom att stoppa in data i Google och/eller tappa ut data från Google vara men för komplext data och data ej relaterat ranking tror jag dom är överdrivet försiktiga.


Givealink.org: Mer om tjänsten

Bra teoretisk introduktion:


GiveALink: Mining a Semantic Network of Bookmarks for Web Search and Recommendation (PDF)


Här hittas nyheter m.m. publicerat av Indiana University om Givealink.org:


cnets.indiana.edu om Givealink.org