Reuters Calais (Väldigt Dåligt) resp Guardian Content API (Bra)

2011-05-11

En mycket mer imponerande tjänst än Reuters Calais vi ligger korrekt emr tid på att diskutera (för att dela med oss av vår kunskap och tydliggöra för oss själva hur bättre vi är vilket ju sägs vara bra för humöret samt viktigast bidra till en bättre värld genom att skydda oskyldiga barn och ungdomar från att sitta och kategorisera sina skolarbeten med ett så undermåligt system) jag troligen återvänder till när jag tittat mer på den är:

Den tycks visst inte vara stor men är heller inte liten (cirka 25000 termer jämfört med cirka 450 000 för mig där det också inkluderar kategorier i andra system för att kunna hämta upp information ex. kategorier i Wikipedia, Wiktionary, politiska thesaruus o.s.v. i kunskaps-organisation men relation för känslor, mer eller mindre, kognition, värdering, skalning, entiteter o.s.v. är ej inräknat i detta antal men kommer troligt ligga lägre kanske på totalt tillsammans ungefär lika mycket). Elegant är ju också att komplexitet och samband uttrycks i en väg som går att göra ganska snabbt även om de tappat (om jag inte tolkade datat fel) relationsbredden där det blir svårt att se närhet mellan områden.

Vad som förvånar oss med den och alla andra vi sett allmänt är att de vi har i media genomgående ser detta som ett sätt att organisera sitt data för delning. Känslan är verkligen också att man egentligen inte förändrat hur man lagrar eller organiserar datat under utan att det är separata system. Det tycks väl troligt att man söker de värden jag ser som det primära men i organisation och uttryck ser man inte det (ex. genom att antalet begrepp är väldigt smalt och hur relationer är uttryckta) där det just tycks vara vad man tror ska bli en informationskanal:

Vad Reuters Calais försöker göra är att uttrycka aspekter och kategorier från en text man ger tjänsten. Dessa ska man sedan publicera. Läser vi ex. följande sida kan vi se att man lyfter fram konceptet om att uttrycka relationer mellan dessa:

Emellertid ger vi tjänsten data med mycket nära relaterade termer alla lokaliserade ungefär i samma område för t.ex. ett stycke fallerar tjänsten direkt på ett sätt som indikerar att den antingen inte arbetar med relationer annat än i det enklaste eller har en väldigt ofullständig uppsättning.

De kategorier Calais ger tillbaka trots att vi givit data extremt lokaliserat nära i andra områden är de statistiskt vanligaste. D.v.s. den tycks plocka ut n-gram och ger det direkt vanligaste snarare än att analysera relationerna och avstånden från texten. Det även när termerna mycket starkt ligger i ett mindre delområde där vad vi får tillbaka inte är bra eller ens förekommande i delområdet.

Låt oss titta på ett exempel där ett litet antal begrepp i education. De är alla vad som används i politiska sammanhang och de flesta förekommer också i vetenskaplig beskriv av ämnet:

  • Accounting education
  • Agricultural education
  • Art education
  • Bilingual education
  • Computer education
  • Continuing education
  • Distance education
  • Health education
  • Language education
  • Legal education
  • Medical education
  • Military education
  • Multicultural education
  • Music education
  • Nursing education
  • Physical education
  • Preschool education
  • Primary education
  • Religious education
  • Retraining
  • Rural education
  • Secondary education
  • Special education
  • Technical education
  • Teacher education
  • Tertiary education
  • Vocational education and training

Föga förvånande är tjänsten 100% säker på att det har att göra med education och politics. Direkt förvånande är emellertid att den till 99% sannolikhet tror att texten följer ämnet: Religion Belief. Orsaken till det senare är med största sannolikhet att den inte utifrån relationer klarar att begränsa och bestämma den mängd statistiska samband ska tas ut från. Därmed har den troligt för enstaka termer hamnat i något religiöst där de relativt alla ord är enormt vanligt. Vill man ha sådant använder man enklare Google Ngram eller en vanlig frekvens-tabell gjord från en corpus av ex. blogg-postningar.

Föreslagna sociala taggar följer mer eller mindre topics:

  • Religion Belief
  • Politics
  • Education
  • Knowledge sharing
  • Educational stages
  • Education
  • Index of education articles
  • Outline of education
  • Continuing education
  • Higher education

Ingenting bra finns med dessa därför att:

  • Att de är utvalda därför att de är vanliga är uppenbart inte fallet.
  • De uttrycker troligast Calais relationer och de är som sådana inte alls bra.
  • Är det vad vi går till om vi vill diskutera utbildningspolitik? I något fall men de flesta är antingen för breda (Politics och Education istället för Education Politics eller för smala i fel område (Higher education inkluderar ju troligast studenter som ska söka utbildning).

Mycket bättre sociala kategorier går att få från en mängd tjänster. Wordpress.com är en möjlig även om jag inte tittat på den på kanske tre till fem år men redan då var den överlägsen det här många gånger om.

Entities intresserar mig just nu eftersom jag snart lär sätta upp en databas över aktörer av olika slag. Jag ser inget större problem med det givet att jag lagt lite tid på att peka ut cirka 30 primära aktörer där det går att få fram i utvalda områden utmärkta nyhetskällor väldigt typiska för något där vi får ett kontinuerligt stickprov av entiteter databasen kan byggas från. Exempel är:

  • New York Times.
  • Wikipedia.
  • EurekAlert!
  • Voice of America.
  • Xinhua.
  • Guardian.
  • Ett fåtal journaler men ej säkert utvalda.
  • Washington post men ej definierad rörande RSS än.
  • Samt ett antal liknande.
  • Vidare ska en del ej relaterat till nyheter till ex. lämplig tjänst med denna typ av information: AstraZeneca - Principal Informatics Scientist [...]. Vi ser att vi får entitet, kategorier för den, information relaterad till en aspekt av intensitet m.m.

För Sverige gjordes ju också ett exempel med SvD där området diskuterades mer i:

Se också följande artiklar för fler experiment och datakällor (jag tror dock inte riktigt på att använda New York Times Thesaurus alls därför att den är väldigt liten för vad som ändå krävs i arbete för att komplettera den enskilda namnen där man lika lätt eller snarast lättare kan ta ut rikare data från sajter som ovan inte sällan med väldefinierade API:er):

För en seriös nyhetsleverantör, analytiker eller en tjänst som önskar uttrycka relationer för besökare där det är huvudpoängen är det ungefär på den nivån vi behöver ligga på. Följande är vad Calais ger mig:

"Political Event
education Nursing education Physical education Preschool education Primary

Position
education Secondary education"

Jaha och här var det ju inte ens svårt givet att entiteterna är abstrakta och går att återfinna tabulerade i alla möjliga referensverk om man inte minns det själv från när man gick i skolan.

Ett till område från politik har vi i business där några mycket relaterade termer för praktisk politik (administration i myndigheter och dessa definierade av Australiska regeringen för en tillämpning):

  • Bankruptcy
  • Business cycles
  • Business finance
  • Business innovation
  • Business insurance
  • Business parks
  • Business records
  • Capitalism
  • Commerce
  • Commercial law
  • Companies
  • Consumption (Economics)
  • Cooperatives
  • Corporate planning
  • E-commerce
  • Economics
  • Entrepreneurs
  • Licences
  • Management
  • Marketing
  • Mergers
  • Offices
  • Retail trade
  • Supply and demand
  • Trade regulation

Nu får vi för entiteter förslag på industritermer:

"Industry Term
e-commerce
finance"

Finans och e-commerce: I pengar säkert viktigt för Reuters men borde kunna förvänta oss att mer än det presteras. Bloggosfär och nyhetsmedia är ju deras primära inriktning i detta som jag tolkar informationen och politik är stort i båda dom delarna av nätet.

Bland de sociala taggarna för vi ex. JEL classification codes. En misstanke är att det är ett rent informationsläckage för från vad Reuters själva hämtat in data. Kanske några fel i koden? Och JEL är inte ens en bra thesaurus (egentligen kategorisering bättre skrivet) för ekonomisk information (för liten). Inte i sig själv dock även om man kan använda den.

Hur presterar nu tjänsten på en verklig text? Vi utgår från Vita husets bloggpostning How Tough Love Averted Catastrophe & Led to 4,200 New American Jobs där de två första styckena togs bort för att inte ge Calais i mycket välkänt namn ledtråd om att det är i politikens mitt.

Calais identifierar korrekt att texten är relaterat till bilar. Men ser ingenting mer än vad varje begrepp i sig själv ensamt säger:

"Company
Daimler AG
Ford Motor Company

Continent
America

Industry Term
energy independence
gas prices

Position
President
situation head

Events & Facts:
Bankruptcy
Daimler AG, 2009-06-00, June 2009, emerged
Generic Relations
America, the future, win
Daimler AG, emerge"

Ännu mer även givet det för så pass stora företag, stora händelser och här allt tillsammans bör tjänsten rimligen kunna gå djupare och mer exakt i förslag på relationer och kategorier.

Byter vi ut de flesta GM i texten till Volvo klarar Calais inte av att identifiera rätt företag. Trots att två andra bilfabrikanter och att den pekat ut hela texten som handla om i stort bara bilar är företaget Calais identifierar som refererad aktör AB Volvo vilket ju inte tillverkar bilar:

"Company

Aktiebolaget Volvo
Daimler AG
Ford Motor Company"

Informationssida om "Volvo" i Calais länkad från sammanställd analys:

Helt undermåligt. Att man inte klarar att separera varumärken, företag eller för den delen knappast heller företag med samma namn men olika ägare är anmärkningsvärt.

Hur bra är detta när det sedan kombineras med finansiella uppgifter relaterat till nyheterna och folk sedan bygger vidare på det utåt?

För And the Winner of the 2011 Commencement Challenge Is… också från Vita huset kan vi se att den plockar ut personerna åtminstone i den mening att de identifieras som just personer. I övrigt ingenting extra och om MP3 ens ska vara med känns tveksamt eftersom det innebär att vi inte kan särskilja när något handlar om MP3.

"Technology
mp3"

Vi inser att ett stort antal kategorier vi kan önska söka och tagga efter blir värdelösa om vi inkluderar teknik som råkar uttrycka tekniken i ord - bild, ljud, tal m.m. är ju vad beroende på hur du publicerar ibland gör det och särskilt på bloggtjänster med Widgets och liknande.

Och om MP3 ska vara med varför är inte ex. html det också?

Detta är en oerhört begränsad uppsättning kategorier, relationer och taggar. Det är anmärkningsvärt att någon ens halvstor och här stor nyhetsproducent inte klarar att nå mycket längre bara med dimensioner på det egna datat i befintliga databaser och flera hundra gånger längre genom att arbeta motsvarande som när jag tog ut entiteter:

I antal relationer - och antal är viktiga därför att det ger exakthet när vi önskar det och viktigare en prestandamässig görlig väg att söka relationer mellan områden - gissar jag att den undantaget personer vilket jag har tänkt att göra lite senare idag kanske har 5% av vad jag har i Knowledge Map nu och det är oräknat två lika stora parallella system från bransch inom publikationer respektive medicinska frågor (mycket större än just dom ämnena) som går att använda direkt utan att städa upp relationerna.

Givet Reuters resurser skulle man kanske kunna förvänta sig på att det utvecklas framåt. Men sådant hänger ju givetvis på att det används och att de har nytta av det själva. Jag tror inte riktigt på det utan gissar att de lämnar ut eller bort det här snart. Öppen-källkod eller liknande och gör en nyhet av det och istället köper in något mer exakt.

Därmed inte sagt att man inte ska pröva och se om det är vad man tillsammans med ett antal andra system och lösningar kan få ut värde. Mycket möjligt kan de kanske prestera bättre i något område än annat gör. Vidare finns ett värde att se hur i sig tydliga entiteter uttrycker sig relaterat till sådant här. Det ger oss referenspunkter att jämföra med och viktigare att vi kanske lättare kan dra nytta av publicerat material i övrigt vilket dock är viktigare för komplexa aktörer som EU.

En god gissning är dock att allt i detta finns att hämta i effektivare former från andra liknande system där problem och defekter uppdateras direkt.