Lerigt Google-vatten gör att massor av manuellt surfande krävs

2015-06-16

Komplettering: Jag ser att Northwestern rent av länkat till Plos one artikeln. Kanske var det rent av till nackdel? Ibland är det ej så men andra gånger tycks det för djupa-sidor ex. universitet vara till nackdel därför att de ej propageras färskt.


Här finns Clearpond: clearpond.northwestern.edu. Data relaterat likhet i "ljud" (och tycks det gående in morfologiskt i mening av att jag anar att man kanske härledde relaterat morfologiskt - kanske) och hur tätt andra ord med i "ljud-mening" hög likhet (similarity) ligger runt resp. ord. Men hur hittar vi information om formatet deras datafil har när man upptäcker att gammal nedladdning av artiklar publicerade om datat, hemsidan datafilerna låg på, resp. datafilerna saknade denna information? Hur kan detta problem lösas med Google? Går det alls att lösa om mer än att hitta universitets-sida med filerna krävs? Eller klarar sökmotorn rent av att peka ut en sida där informationen jag behöver finns?


Söker vi information om en samling data om ljud i engelskan (och holländska resp. något mer om jag minns rätt) gäller det att lägga till database i sökningen snarare än något relaterat språkljud om man ska komma rätt. I exemplen nedan är jag mest fascinerad av att den ej förstår sambandet mellan databasens centralitet i form av närmare officiell plats filerna finns på och artikeln publicerad i Plos One. Självklart kanske man ej ser värdet att riktat utnyttja deras publicering i XML (som jag själv absolut inte skulle föreslå är enklare än att parsa ut samma information från deras HTML-sidor: Tvärtom håller jag för Plos XML representationen som bökigare p.g.a. av implicita rekursiva konstruktioner svåra att se enkelt slut på medan givetvis slöare parsning som XML troligt för de flesta är för dyrt om man vill extrahera data från "alla" journaler man når via nätet) men det är ju väldigt svårt att undvika nära nog standardformat för hur skribenter anges bland journalerna (även om jag tycker mig minnas någon med något underligt krävande en aktivitet för att såväl se författarnas hemvinst som att få den i sidan som ej inkluderade en ganska uppenbar länk att begripa).


Hur kan detta ej vara en jämförbar relation (enklast att förstå vad som gör det underligt från att ofta nog anges rent av e-post-adresserna explicit till författarna) med de kanske överanvända länk-konstruktionerna för att härleda samband och distribuera flow i trust-modeller?


En effekt av att förstått samband om vi antar en tolknings-begriplighet av Plos artikeln är att oavsett relevant information hos Norwestern University om Clearpond hade man begripigt att kanske koncept relaterade språkets ord och deras "ljud" varit mer relevanta söktermer än just databas (databas står på sidan därför att datarepresentationen finns där). Istället för databas hade en mängd koncept varit jämförbara och hade jag ej vetat att det hela hette Clearpond hade jag kanske försökt kombinera en mängd av dessa med relevanta ord rörande vad jag vill ha i datat.


Att istället träffa på journalartikeln är inte alls bra. För automatiserad analys är det enormt enklare att reda ut vad för datarepresentation de pekar på (jag gör det själv ibland off-line från arbetsdator som kan sådant när givit upp för hand på internet-datorerna) heter och var de finns åtminstone när färska. Senare över tiden flyttas de runt. Ofta pekas de heller inte någonsin ut explicit i själva artikeln utan ligger i bilagorna i form av noteringar eller att hitta via mer allmänna url. Dessa bilagor kan ha nästan vilket dokument-format som helst och underligt gäller att även om artiklarna ofta finns att få (normalt så) som PDF är det hos flera vanligt med DOC-format (orsaken bör vara att journalerna prioriterade utseende gör artiklarna estetiskt från förenklade dokument-representationer på ett standardformat medan författarna sitter med Linux ofta inom vissa ämnesområden och annars med Windows vilka båda ger enkla möjligheter som typiskt i kontorsmiljö till de vanligaste Microsoft DOC besläktade formatet vilka journalhusen klarar att läsa). Så ett sökresultat där jag hamnar på journal-artikel kan vara bara frustrerande: Jag vet att det jag behöver finns men ser inte ens om det är data författarna i dumhet sitter och okynneshåller på för sig själva, är data som en gång funnits på webben men försvunnit, finns fortfarande men ej är angivet var o.s.v.


Att såväl Google som Bing ej spindlar dom stora universiteten djupt längre (en hel del av äldre material kommer ej längre synligt och med början kanske någon gång 2014 tidigt för Google märker de ej eller hanterar ej sidor som flyttats runt hos dem när djupt ner: Omflyttning har hos dessa varit vanliga eftersom de allt mer prioriterat upp branding där hemsidorna allt mer fått som primära motivation att hantera potentiella studenter medan material för befintliga studenter, kontaktytor för forskare m.m. tryckts bakåt ibland via särskilda kanaler med skilda domän-namn).


Så får att uppmuntra Google såväl som Bing ska sådana begränsningar vi ser exempel på här korrekt ses och uttryckas hånfullt. Någon som gör så här kan inte mycket. Vidare för att skapa ett ekonomiskt incitament gör vi slutsatsen att detta knappast bådar gott för medarbetarnas optionsprogram. Mer balanserat tror jag dock vi ser ett allmänt problem där man allt mer ger upp inför mycket data genom att skära analystid snarare än att förbättra grundläggande algoritmer. Relationer från ex. journalartiklar ej överdrivet många år bakåt i tiden går för att tydliggöra detta göra ut från en ensam dator på någon vecka utan att ex. behöva bygga kontinuerliga BDB-prepresentation istället endast använda RAM-minne och hash-tabeller: Det tar lite tid men även på begränsad dator enormt snabbare än takten journalartiklar publiceras i. Har man som "regel" att alltid spindla allt sida per sida istället för att bulka ner data och hantera snabb access på samma dator (eller jämförbart) så blir det så klart ibland väldigt dyrt att göra analys av sådant som dåligt klaras genom vad man direkt kan propagera vidare där sett (som länkar m.m. av 1-stegs-natur ej krävande slutsatser).


I den ordning jag sökte. Första två - tre är som jag valde att söka själv testande medan övriga mer var vad jag gjorde för att skärmdumparna skulle visa det jag önskade. Notera att förståelse av konceptet Clearpond saknas vilket annars (och jämförbart för massor av skapelser) hade kunnat givit relevanta sökresultat ersättande konstigheterna nu givna med sidor som förklarar vad CSV är. Ingen koncept-förståelse som hade kunnat gjort gissningar på att vilken ZIP-fil som helst med Clearpond data fungerat verkar finnas. Så det gäller om man tror sig minnas att när man en gång själv laddade ner dem förra gången (men saknade information om formatet på CSV-filen d.v.s. vad varje fält innehåller för data vilket inte riktigt är samma sak som att jag inte förstår att CSV "officlet" normalt är "," separerad ibland med fältet inneslutna av fnuttar men praktiskt oftast i vad som kallas för CSV-filer gjorda av aktörer bland universiteten när genererade av särskilda program snarare än Excell-applikationer istället är tab-separerade - ibland namngivna TSV istället för CSV men oftast CSV). Kanske är det många som laddar ner data likt det i Clearpond och begriper vad varje fält betyder men ej att det är komma separerat? Eller fastnar på att ej begripa att det är komma-separerat? Är det så folk söker då? Eller söker de på CSV + Wikipedia oftast kanske?

clearpond + format csv file Inget relevant resultat alls. Clearpond ej med överhuvudtaget d.v.s. ingen förståelse av vad Clearpond är i mening av sådant som att tillhörande något som kallas Clearpond finns data och datat är publicerat och i CSV-format. Detta förvånar mig som företeelse allmänt därför att som diskuterat tidigare är det enkelt att bygga kunnande om.

clearpond + tsv + site:edu Vi verifierar att den heller - i ev. brist på förståelse likhet csv och tsv - ej heller klarar denna sökning. Inget resultat alls.

clearpond + zip + site:edu Här får vi nu Clearpond på position ett. Zip är angivet på sidan som länkar till zip-filer. D.v.s. just data som ges direkt spindlande sidan utan behov av någon egentlig analys.

Förstår den vad Clearpond är? Inget av dessa resultat pekar på det. I några fall får vi träffar på Plos one artikeln men ej datarepresentationen på hemsidan hos universitet som skapat det hela och gjort huvuddelen av arbetet med den representationen.

clearpond + sound
clearpond + speech
clearpond + speech sounds
clearpond + similarity

Medan clearpond + database går bra precis som zip gjorde.

Av detta lär vi oss att det är bättre att söka på diverse olika filformat, förkortningar för databas-format från export m.m. hellre än information som beskriver vad datat är och gör. Därför står det ej på exakt samma sida som filerna finns att ladda ner alternativt att sidan ligger med mycket meningsfull url-struktur ej djupt hos universitet (ex. ej djupt är en ej gammal subdomän - gamla universitets-subdomäner hos de stora fungerar dock jämförbart eller ibland bättre än deras www-subdomän).


Dock för att jämföra med webcam diplomati presterar Google bättre än Bing gjorde (se Hans förklarar världen: Vad är ""microphone" resp. "webcam" diplomati? - Även om jag i detta inlägg såväl som detta försökte vara komiskt är sökresultatet Bing direkt från den förråade verklighet som förutom att skrämma slag på känsliga personer som jag helt säkert inte är alltid helt stabilt i nivå kunskap nödvändig för att tolka vettigt kontra vad barn har - Dessutom även om barn eller ungdomar klarar att tolka översta sökresultatet kanske det distraherar från ex. ett skolarbete relaterat diplomati man sökte information till). Vi förstår från resp. exempel (de ovan resp. det med Bing) att flexibel tolkning av vad begrepp avser går att få till lika dåligt som att ha låtit bli.



Även om Bing har inställningar relaterade risk för pornografiskt-material vill jag nog mena att när barn ska rekommenderas sökmotor är i allmänhet Google fortfarande "säkrare": Dessutom även om Bing numera inte alls avviker lika mycket i defekter är Google's defekter ofta som här när jag möter dem mer relaterade "kunskaps-djupa tråkig användning" medan Bing kan bli underlig på sätt som barn kanske inte alltid rätt begriper att tolka.


Skärmdumpar av sökresultaten

Vilka jag vill ta till vana att alltid ta med eftersom jag så smått börjat samla till ett bild-corpus för den här typen bildfiler med text i. Det finns en hel del data jag hittat i oftast PDF-filer där bild-dumpar ligger inkluderade snarare än direkt tolkningsbart data att ta ut till text-format. Oavsett om jag tvingas skriva något själv för sådant eller behöver testa något färdigt (det senare känns väldigt mycket mer motiverat än göra kod bildanalys själv) vill ha jag några hundra med data lika tydligt avgränsat som söktermer och är riktiga ord men som typiskt inte är just meningar eftersom jag inte vill råka på ett program som verkar bättre än det är så länge saker är vanligt språk men underpresterar senare när man använder det på riktigt på stora tabeller med ex. en massa ord med tillhörande mätvärden.