Ett till vetenskapligt och tekniskt vekt EU-projekt skämmer ut Europa

2012-12-29

Utelämnande problem i gränssnitt och oförmåga att hantera inställningar (ex. engelska och inte svenska) stabilt tillståndslöst och endast betraktande den tekniska utmaningen i nyhetsanalysen är Newsbrief.eu ett bra exempel på ett problem i EU man förr eller senare kommer behöva lösa eller acceptera divergens för ökad konkurrensförmåga.


Problemet vi diskuterar ska vi givetvis förvänta oss i orsakerna är organisatoriskt relaterat och i det betvivlar jag starkt att det är drivet av enskilda medarbetare. Därav ska vi inte utesluta att vi har likartade instanser av problemet i också väldigt annorlunda områden (ex. relaterat ekonomiskt samarbete i politik resp. i förvaltningen quality assurance och risk management av ländernas åtaganden resp. dom potentiella problem och risker samarbetet kan skapa för dem). Det vore dock en mycket mer omfattande uppgift än en ensam person ens heltid klarar att försöka bedöma över annat än ett fåtal områden EU berör.


Teknikområdet Newbrief rör är insamlande och analys av nyheter. Ett område jag utmärkt kan både genom att byggt modeller, arkitektur och genom att jag praktiskt gör nyhetsanalys. Det var relaterat det praktiska arbetet jag uppmärksammade tjänsten med viss förhoppning att den tillsammans med några likartade kunde minska ner antalet tidningar (och andra news providers) nyheter för analys samlas in i vilka när analysen går som mest brett handlar om tio tusentals källor. Det rör många fler news provider typer än Newsbrief är inriktat mot men kan den och liknande ersätta en stor andel av de typer som är mer traditionella tidningar är det troligt god optimering genom att de publicerar mycket mer per tidsenhet.



    Komplettering: Här är ett till strunt-projekt runt EU:s nyhetsnalys också på nivån vad ett par studenter troligen hade gjort bättre både i presentation och ännu mer analys (troligen användande en sund datakälla istället för Newsbrief's collocations för event-detektion vilket når långt innan det är dags att förstå API:et till Google Map för att få det att se korrekt seriöst och avancerat ut):

    Men hur är det man brukar säga runt militära-IT-projekt som inte klarat tillräckligt i tid och behöver mer budget? Put it on a map even if it isn't.



Samma typ av optimering har för affärsområden som är mer kundnära varit möjliga att optimera likartat genom att inhämtning av pressmeddelanden generellt snarare än företag som specifikt följs varit möjliga att ta tillräckliga stickprov av enklare från särskilda sajter som återpublicerar dessa.


Den tekniska lösningen relaterat dom pengar som spenderats på den här tjänsten är dock för området väldigt junior. Tittar vi på deras collocations där besläktade nyheter samlas fungerar man på samma nivå med när jag förra gången tittade på tjänsten, och här ligger man endast i att man klarar att samla news event besläktade nyheter med tekniska metoder som endast tycks bestå av att detektera upprepade mönster. Att en specialist-tidskrift adderande särskilt värde kring en event mindre redundant än större flertalet nyheter mer likartade använder annorlunda och ovanliga ord är att förvänta. Ingenting i närheten av att klara hantering av det märks. Faktiskt gissar jag att tjänsten egentligen inte "begriper" vad nyheterna handlar om utan endast detekterar ord eller ord-kombinationer.


Besläktat men tror jag för de flesta tänkbara användare mycket mindre av ett problem är att de endast tycks klara att analysera just text. D.v.s. att se samband i mening och betydelse mellan visuellt och skrivet ser vi inga tecken på. Det är dock endast intressant som indikation runt ribban man klarat att nå.


Den analys av nyheterna tjänsten presenterar motsvarar av allt att döma den tekniska nivå de ligger på. I statistik är koncept- och relationer-obefintliga, och i statistiska metoder handlar det om enskilda ngram (ungefär motsvarande den statistik Harvard och Google analyserade ut från världens "alla" böcker för att ge statistik att använda i språkmodeller för översättning, tolkning av tvetydiga ord - Avtrycken av Google och Harvard i böcker, nyheter och på internet - och nyligen uppdaterad: Ny Google Ngram annoterad: Klassbaserad prediktion i n-gram tycks möjlig.


För att använda uppgifterna om nyheter och nyhetshändelserna rationellt effektivt som ett verktyg inte minst tillämpat politiskt i EU, och i EU:s verksamhet ex. för att se möjligheter till bättre och mer effektiva lösningar och inte minst för att identifiera möjliga risker tidigt, räcker inte denna statistik. Faktiskt går det så vitt jag vet inte ens återanvända statistiken för mer avancerade tester därför att information kastats bort på vägen.


I övrigt gäller också att tjänsten inte i något verkar nått längre än NGRAM-detektion vilket är bare minimum om något. Vi kan t.ex. se att man indikerar personer som omtalats i nyhets-collocations men ex. inte där eller i övrigt i något indikerar att man klarar att se och förstå deras relationer med varandra, eller mer avancerat men helt inom vad vi borde kunna förvänta oss av en tjänst som denna om den ska vara ett betryggande tecken på att EU-folket har kvalitativa verktyg kunna ta godtyckliga collocations och/eller en eller flera av indikerande aktörer i dem och sätta dem i relation till utvalda ämnen, situationer och/eller aktörer ex. ett tekniskt fokusområde inom EU, ett land man har politiska relationer med, ett företag vars kontakter med verksamheten man vill förstå genom att se samband mellan deras produkter och de politiskt utformade reglerna.


Förutom att detta exempel liksom de tidigare här omskrivna inom EU:s forskning och innovationssatsningar i områden jag följer regelbundet ska man allvarligt reflektera över risken att dessa projekt mer än att slösa pengar faktiskt hindrar och stör innovation. De tenderar alla att uttrycka sig väldigt likartat, strukturera sina s.k. leverabler på webben på ungefär samma sätt, samarbeta mellan organisationer av olika typer och över landsgränser likartat men oavsett hur många år de håller på är tyngden på vad man presterar inte vad som rör sig framåt jämfört med aktörer utanför.


Excellent för att förklara vad det för mig tycks handla om är att jämföra med långsiktiga teknik- och forskningssatsningar inom militära-tillämpningar. Men med den viktiga skillnaden att oavsett hur många miljarder man slösat på dessa projekt genom åren här är det ändå inte vad som ens är jämförbart med den budget-nivå försvarsprojekt haft genom åren. Där kan det fungera bra ibland även om det i antal miljarder oftare misslyckas. En till viktig skillnad är att försvarssatsningar handlar om national security vilket gör dem speciella.


Saken här är att genom att EU startar upp nya projekt inom nära besläktade områden borde dessa röra sig framåt jämförbart med teknik området globalt även om EU-projekten var för sig inte levererar värde. Men det gör dom inte utan man tappar avstånd, och ännu mer - direkt pinsamt för mig som en av Europas många EU-finansiörer - märks det när de gör något praktiskt tekniskt tillämpat för egen användning.


Just här var ju nivån att man med ett par datorer inköpta för cirka 20 - 30 kkr utmärkt kan klara att sampla 5 - 10 ggr fler nyhetskällor än vad EU gör liksom att göra nyhetsanalys många gånger mer avancerad med inte mer än att köpa lämplig referensbok ex. Jurafskys och Martins utmärkta Speech and Language processing som trots några år gammal är svårslagen som referensbok. Gör man sedan besvär att följa aktuell forskning kan man ta det några gånger till uppåt eftersom hela forskningsområdet utanför EU (med ett mycket fåtal undantag) rör sig väldigt snabbt.


Ett praktiskt test man ganska enkelt kan göra av en aktörs förmåga till nyhetsanalys är att identifiera ett konkret problem hos dem av sådan typ att de rimligen korrigerar det alt. men omvänt indikerar ett värde. Mest triviala nivå är att indikera direkt i titel. Företag m.m. även utan egentligt stöd brukar klara detta genom att använda nyhetsbevakning på enklare tjänster eller sökmotorer. Tekniktunga entiteter klarar dock också att fånga upp detta när det ligger inlagt. När jag testade det på ett par större företag inom IT kunde jag ex. konstatera att den oftast ansett ledande av de två mycket riktigt noterade det snabbt. För den andra trots just i Sverige många fler medarbetare behövde det upp ungefär på titelnivå. Hur man skulle göra samma test mot en organisation som EU där aktuella områden ej är karriärs- eller ekonomiskt känsliga på sätt som skapar drivkraft vet jag inte. Märker man möjlig korruption kanske man kan pröva med det och se om motsvarande land börjar sabotera samarbetet för att motverka utredning de kanske misstänker är på väg. Men mer realistiskt går det inte för de bryr sig egentligen inte. Det är mycket mer av en egen värld där man själv definierar vad som är bra (det mesta man själva gör.


Vad som egentligen stör mig mest med det här mer än våra pengar som kastas bort på att addera dö-vikt på Europa är att det skämmer ut oss. Oavsett vad vi nu kan tycka om EU åligger det oss alla nu att göra något vettigt av det.


Här i ett forsknings- och tekniktyngt område blir vi utskämda liksom hela Europa nyligen (tills engagemang av bl.a. United Kingdom, Sverige och Frankrike delvis balanserade det) i en politisk fråga när Italiens dåvarande statschef inte bara snuddande vansinnigt utan fullt publikt fjantade runt med den nu avrättade tidigare diktatorn av Libyen, och enligt andra uppgifter utanför kamerorna betedde sig än mer olämpligt. Om något tycks EU-samarbetet hindra Europas länder från att uttrycka sitt ogillande. Man vill ju inte få det politiska arbetet ännu mer flyttat till politiskt lugna oväsentligheter adderande till vardagens alla särintressens inbillade behov och icke-behov, av att Italien saboterar annat arbete.


Oavsett risken att man stör ut faktisk innovation och slösar pengar, ser jag att EU bäst i projekt ser till att prestera kvalitet på sådana nivåer man påstår sig sträva mot för att säkra Europas långsiktiga förmåga till att hantera miljöförstöring och säkerställa ekonomisk tillväxt. Mycket hellre avstår man från projekt och gör färre vi kan uppleva som föredömen och som inte blir till skämt inom tekniska specialistområden runt om i världen.


Nu när jag skriver detta kom en till jämförelse av lite samma sak. Vi har dels politiska prioriteringar i EU relaterat miljöarbete samtidigt som deras interna hantering av lokaler och färdmedel ligger på nivån att man är beslutoförmögen att avsluta helt meningslös belastning på miljö och kapitalslöseri genom att sluta flytta folk fram och tillbaka mellan Brussel och Strasbourg.


Gällande projekt-leverablerna och deras redovisande kan vi jämföra med IT- och informationssäkerhet jag arbetade ganska många år med. En enkel grupp av säkerhetshål har identifierats och är allmänt kända. Tekniktung bedömning av värde förekommer knappt alls ej relaterat värde som ges till projektet eller indirekt runt dessa, och det går därför bra att prestera strunt så länge man gör sin webbsajt, samarbetar lite på också konkreta möten mer än elektroniskt, och publicerar ett antal välstrukturerade rapporter vid slutet (och färre vid stegpunkter) utan behov av tekniskt värde men i titlar o.s.v. uttryckande ungefär de leverabler man identifierade i början av projektet.


Det finns faktiskt ett typ-område där dessa projekt av och till har en eller annan medlem som över-presterar. Tråkigt nog hör detta typ-område till vad jag brukar betrakta som varningstecken på "fetma": mycket energi med få krav. Dessa projekt ska ju egentligen vara mer praktiskt inriktade med idéen om innovation längre fram. Området folk kan överprestera i hör dock till det filosofiskt långsiktigt också jämfört med universitet (som ganska ofta i dessa områden är ganska praktiska) - men helt opraktiskt oftast (alltid?) på nivån att alla vet att det är koncept som aldrig kommer ha värde men som är intresseranta att få berättade på mötena av någon känd väldigt duktig person man kan nätverka lite med.


Något fascinerande har det verkar för mig när jag följt projekt relaterat språkanalys - men ej vad jag försökt verifiera mer formellt - att när man tittar på Tyskland i detta (många andra part of whole delar i dessa områden brukar jag numera skära direkt utan att läsa annat än maskinellt) att vi kan se kulturskillnader som också motsvarar resp. forskningsinstitut övergripande. Max Planck som ett av flera exempel är ex. närmare egentlig målsättning i sådant här oftare praktiskt inriktade. Max Planck övergripande oavsett EU är också närmare praktiskt inriktade. Ett par andra tyska entiteter (båda för Tyskland mindre universitet) som är allmänt ytterst lärdoms-opraktiska - på nivåer av vad vi i Sverige så vitt jag vet som ett litet land saknar inom teknik och tillämpad forskning - inte presterat något i projekten jag kan tänka mig någonsin går att ta praktiskt och åtminstone flera gånger ungefär samma sak man presterat i andra projekt genom åren i eller utanför EU relaterat diverse specialintressen man har runt en eller annan tes.


Jämfört med andra områden där Spanien ju märks mer negativt avslutar jag med att peka på att dom jämfört med EU oftare är praktiskt inriktade i verklig mening (utanför dokumenten). Långt ifrån alltid är det vad jag tycker håller hög kvalitet men det har nästan alltid vad jag tror åtminstone byggt kunskap med hög meningsfull tillämpbarhet inom industri och forskning. Av och till har kvaliteten dessutom varit tycker jag hög och det är ovanligt för dessa projekt. Möjligen gäller detta också United Kingdom men det är där upplever jag mycket svårare att klara att avgränsa och rått tolka ut var EU-pengar börjar och slutar relativt annan finansiering (ibland vad som verkar mer vara vad universiteten lägger i en stor pott och sedan använder samlat). UK har dessutom en osund tradition i att publicera mindre av projektens verkliga leverabler. De sitter oftare och håller på vad de egentligen presterat genom att göra det bökigare att kringgå. Ett "lexikon" åtminstone delvis EU-finansierat jag nyligen fick visade sig föga förvånande helt motsvara den lite ovanligare idéen och koncept-idéen projektet och personerna haft och är som exempel mycket intressant men kanske symptomatiskt på samma sak bedömer jag helt meningslöst för praktisk tillämpad text mining och analys trots många års arbete. Det verkade inte ens skapat utifrån perspektivet att nå fram till det.


Sverige också nationellt ska se upp med detta så att det inte blir tradition här.
Praktiska leverabler och tillämpning är viktigt, och ännu viktigare är att sätter man sådana ska man se till att de kompetent blir bedömda av personer som verkligen kan området och som inte är direkt eller indirekt associerade (d.v.s. för Sverige när det ej handlar om småsummor att man tar någon från annat land eftersom universitet, myndigheter m.m. är oerhört personligt kors-kopplade som förväntat av ett litet land).