HANS HUSMAN OM MEDIA

Visar inlägg med etikett Citeseerx. Visa alla inlägg

Från ScienceDirect till CiteSeerx: Från defunct till ett löst problem

2014-01-13

Och bara med den försvarliga tidskostnaden att överhuvudtaget hamnat på ScienceDirect utan att ha betalat för något som är gratis.

Mitt design pattern för att komma ut ur tids- och penning-brunnen för att kunna gå vidare och lösa mitt problem:

Komplettering: För att inte utan att tänka på det uttrycka ett bias vad skrivet och ej skrivet som kanske förstås som verklighet ej fallet gäller här att jag hittade till artikeln via Microsofts Academic Search : bellegarda 2004.

Sök sökresultat är tycker jag helt acceptabla medan länkarna till artiklarna tråkigt nog ganska ofta går till ej fungerande sidor, sidor med bibliografiska sammanfattningar med stort bara titeln och i övrigt rent av mindre information än Microsoft Academic Research har.

En helt annan fråga är givetvis vem som egentligen är den viktigaste kunden under den här tjänstens tidiga år. Att bygga bas i användare till antalet tar ju tid medan jag spekulerar att en del journalhus är ganska stora kunder i övrigt. Jag kan spekulera att både möjlighet till spindlingsresurser för artiklar såväl som intresse att se till att sidorna för artiklarna har fungerande länkar till läsbar information korrigerar sig med tiden om nu inte projektet dör bort. Sedan kan man så klart resonera att vi i övriga som mer för att lösa verkliga problem också är Microsoft kunder kring annat.

Även om jag för att vara ärlig egentligen inte är fullt trygg i att det här inte är en återpublicering universitet betalade (säkert orimligt mycket för) och som sedan indexerats och tagits upp av Citeseerx's (The Pennsylvania State University: citeseerx.ist.psu.edu) databas av lokala kopior till vad man länkar från sidorna med meta-information om de publicerade artiklarna (vilket samtidigt är en god vana eftersom de så ofta försvinner från där de först publicerades).

Vad gillar med CiteSeerx är deras dumpar, api:er och vettigt access-bära i övrigt för titel och abstract. Möjlien finns det enkelt att nå maskinellt för ScienceDirect & Co men jag klarade inte av på min nivå av internets vanligare lite enklare nivå på vettig tid. Jag är ej överdrivet intresserad av att bli expert på diverse legacy-system med indikerad kostnad praktiskt strykande det mesta i övrigt av jämförbart utan önskar enkelt att ta ner meta-informationen för statistiskanalys.

Resp. (egentligen viktigare eftersom jag redan nu är tämligen rik i 2 - 3 T statistik för den här formen av information) när jag söker artiklar att ej att någon försöker utnyttja min okunnighet om tillgänglighet som funktion av kostnad (ofta gratis att läsa hos universitet eller propagerat till CiteSeerx eller liknande) som ett till hån efter att redan förslösat min tid när jag råkade klicka ScienceDirect istället för något för något bra medverkande till vad jag försöker lösa när söker med Google eller liknande (allt mer brukar jag börja med Arxiv.org (Cornell University) så slipper med ScienceDirect m.m. som skulle kosta mig lätt många $100 US per dag jag söker journalartiklar kring referenser eller fakta i ett område:

Arxiv: Löser problem - Sparar tid
ScienceDirect: Är defunct - Kostar tid adderande till problemlösning och försöker få mig att betala för saker som är gratis.

Engångsmobiler: Att övervaka och databehandla stora mängder samtal utan vetskap om ägarens identitet

2013-09-04

Kommentar jag gjorde i Is Bitcoin a currency? (Washington Post, 2013-09-01, Brian Fung) att spara här...

"Meta data doesn't require för existens association to a person id provided nor some technical platform by itself.

Can we follow language of the channel by itself it will appear as non-temporal data. Knowledge of clusters i.e. started from detection topics or just words indicating terrorism or such. From that you can build on keeping state reaching more exact.

Given such association to person is just the last stadge given appearing i clusters indicating danger. Perhaps even in the wave word of language (sound) easiest providing similarity to someone you follow ongoing. Expensive here still if your topic-clusters good enough to that many voice sign. to search for.

Finding geo position of the one is easy while still I guess often hard if used short times. But here some centrality of use probably often do appear.

I remember right are only the forrest guards in DHS around 150 - 200 000 federal agents. Counting out-from that and to collaboration local police a well done system and operation will provide. I doubt anything quite near this lever just yet."

Begränsningar här är om du kan området funktion av hårdvara och indata. Mer indata här kan för behov snabbt blir ganska stort under tidiga generationer för att etablera goda cluster. Där kan ju juridiska begränsningar också vara realitet.

Data kostar när det handlar om mycket. Lite spekulerande beroende på hur någon intresserad entitets programmerings-kultur är: närmare så i riktade egna lösningar resp. långsammare nära eller praktiskt användande Matlab för ex. matrisoperationer kan ev. ganska stor skillnad komma i möjlighet att utveckla riktad hårdvara som gör allt tungt förarbete nära strömmen av data (tror jag men är inte säker på vad skillnaden säkert är jämfört med t.ex. PC-clusters).

Och vi inser här ganska grundläggand viktigt att om våra mängder av cluster vi följer är baserade på mening behöver det inte reducera värde på den nivån om vi har en eller tio okända personer i samma kluster. Är meningen relaterat - kanske var för sig oberoende innovativa tankar om att svetsa om en gammal oljetanker till ett slagskepp och skjuta ner Frihetsgudinnan - är det jämförbart hot approxiativt i allt antagligen innan hantering så långt man i bästa fall kan ta det och / eller med jämförbara verktyg att kanske söka association till köp av via andra kanaler (jämför här även köp kontrollerade kemikalier via "skalbolag" - vad jag avser förstås säkert - för bombtillverkning eller kanske oftare syntes av narkotika). Tidpunkt och vad kan ibland tänkbart betyda mycket även utan geografisk plats, organisationsnummer, identitet på person eller full förståelse av målet.

Dock även om en resursstark aktör just har förutsättningar här vet jag bredare att samma typ av aktörer gärna tidigt köper in sig på lösningar egentligen underpresterande i nutid om än bra förr man lätt stannar i därför att de fungerar tycker man bra och göra något nytt är alltid jobbigt och kräver betydande summa initialt. Om det gäller NSA vet jag inte. Men glömmande att de är ganska gömda för oss i verksamhet och bara se dem som myndighet med ganska få restrains och uppföljning av budget är dom i risk för sådana problem (mycket uppföljning håller nog mången besökare från det politiska lagret när de träffat en matematiker som tagit sig tid några timmar att förklara korrelationsmönster läckande igenom något gammalt ryskt chiffer och hur man över mängder av data kan bevisa matematiskt att man förr eller senare ser en approximation av nyckel och S-boxar om dessa inte förändras). Samtidigt läcker så mycket från dem pågående sedan år att förstå att de inte helt sällan kommer tidigt i användning av algoritmer. Och efter att ha läst för värde såväl som analyseerat mindre delar (inte just PDF-dokumentar maskinellt) vad som publicerats hos Dtic.mil från den militära forskningen inom språk oh statisktanalys ska man ha klart för sig att särskilt längre bak i tiden föregriper värden som först långt senare tagits upp bredare ibland direkt till algoritm eller lösningssystem - ibland indirekt i rapporter tycker man delvis ca 1980 beskrivande vad man kan fundera ungefär kan motsvara hur de första iderna kring Wordnet kan ha sett ut men ej där eller i liknande direkt relaterat. Värde man sett om jag minns rätt rörande Wordnet fem eller kanske upp till åtta år innan det arbetet påbörjats.

Rörande Dtic.mil vill jag ska cokså kompletterande tips längre bak om dem på bloggen säga att när det gäller corpus vetenskap för att se utveckling och etablera vad som blivit inarbetade koncept är jag ytterst säker (utan att ännu fått tid eller sett värde nog för det givet att jag gjort det några kommer förr) en betydligt större potens jämfört med t.ex. CiteSeerX eller Arxiv.org. Jag brukar med hopp om framtiden spara allt jag läser hos dem (när jag kommer ihåg: men pdf-filerna varande fotostat-kopierade har jag inte ens prövat att försöka ta ut något från där det just är den regelmässigt i det ytterst troligt brutalt problematiska fösättsbladet man önskar med namn, sammanfattning, datum, dokumentsnummer, finansieringsindikationer, när gjort fritt att publicera).

Mycket trevligt projekt. Osäker på om de är tvinade att publicera det när ej längre hemligt. Tycks för mig dock inkludera en del intern forskning och inte bara finansierad forskning hos universitet (där en del juridiskt fanns åtminstone förr mycket möjligt ej alls aktuellt för äldre studier eller militärt: har aldrig förjupat mig i dom lagarna).

Så snabbare kanske i att ta upp värde. Men ej heller aldrig i domämer nämna att jag sett något väldigt banbrytande relativt tiden. Ibland kan man enkelt se att värdet tagits praktiskt genom uppföljande studier och kanske engagemang av deras egna kulturbärare (bl..a om jag kommer ihåg rätt deras forskare och expert rörande att uttrycka förenklat generellt språk rörande bl.a. verb: Minsky kanske är rätt person där - blandar lätt samman de vanligaste språken och deras skapare).

Semantiska nätverk intressant nära mitt underliggande nät

2013-07-17

Neurally Implementable Semantic Networks (Mars 18, 2013) är konceptuellt mycket nära Blue light tidigt och troligt nära unikt så. Förutom grundprinciperna fann jag perspektivet man kort också tog från några principer kända från djurmodeller baserade på zebrafinkorna intressant om än här tyckte jag särskilt bidragande (även om jag tycker att egentligen annat där var mer intressant när jag tittade på det för ett par år sedan).

Vad jag både upplevde irriterade och lugnande är att hela konceptet som uttryckt i artikeln är före praktisk verklighet. Normalt när något kommer nära ett koncept jag har etablerat får jag ut åtminstone något från artikeln när så noggrann och ganska omfattande som denna men ej så här. Det gav viss irritation men är antar jag naturligt för ett av mina äldsta mest grundläggande koncept.

P.s.s. var det lätt lugnande därför segmentet där man troligare kan få ut något ligger i det mer komplexa praktiska. Konceptet är ju så elegant tilltalande i dess grundprincip uteslutande föga samtidigt som det mesta är möjligt. I princip. Svårigheterna - väldigt mycket större - ligger praktiskt i att:

Etablera matematik i form av operatorer för att kunna utnyttja nätverken till dra slutsatser.
Beräkningseffektivt ta fram den statistik som krävs för att driva operatorerna.
Hantera överföringen från relationer i ögonblicket - ex. så precis som i deras exempel för en enskild scen i något tänkt pågående - till etablerad långsiktig inlärning d.v.s. vad jag ser som Blue light relativt inlärningen pågående i Symbol mind (vilken förövrigt fodrar sina operatorer därför att vad vi lär från är verklighet också väsentlig för analys jfr ex. Egypten: Att tala tydligt igen nyligen).

Just den binära principen för förekommande noder anslutna ett koncept etablerande vedertagen inlärning (jfr Blue light) tillsammans med situationen just nu illustrerar den enorma skillnaden mellan idé och verklighet. När en Blue light är etablerad med mycket hög kvalitet i relationer (och där ligger mina koncept beroende på hur en Blue light tagits ut utifrån krav minnesåtkomst o.s.v. inte sällan på ett antal relationer varande flera tusen upp till om jag minns rätt som mest på nuvarande hårt optimerade cirka 24 000 på en av de största). Där är ex. similarity helt oviktat förvånandsvärt funktionellt även om jag normalt inte på flera år gör similarity riktigt på det sättet eller sedan cirka två utan också vikter per noder och staitstik på co-occurences.

Steget att uttrycka Blue light som expanderande och lärande från situationer i ögonblicket är vidare vad man visst gärna vill tro ska gå att göra via enkel förekomst som byggs över tiden. Men åtminstone när vi ser vår värld i ögonblicket som "alla" nyheter på engelska har vi fenomenen kring emergence (kort diskuterat igår i Egypten och Markov: Vi står där vi faller men en hel del längre bak över sista åren finns även omag avpublicerat en del) och hur värderingen av intensitet i ögonblicket hos människor ej direkt översätter till påverkan på befintlig inlärning. Vidare besläktat gäller att vi etablerar enorma kunskapsmängder via skola, universitet, utbildningar av andra slag m.m. som tas för given och ej uttrycks statistiskt jämförbart dess implicita inverkan på koncept och deras relationer som uttryckta i nyheter såväl som ex. fullt corpus av allt Plos givit ut.

Värt att peka på är att jag kompletterat Blue light med ett antal semantiska nät ovanför inkl. nät med konkreta named relations och kategorisystem för att förklara vad ett mindre antal koncept (cirka 300 MB koncept med deras relationer och kategorisering) är i en förenklad mening. Jag ser dessa huvudsakligen som en presentationsfråga där dom underlättar och optimerar när det kommer till att förklara en del relationer tämligen vanliga. Inte minst för att enkelt kunna göra meningsfulla och lätt tolkade grafer (se ex. Sverige-grafen). Vidare har jag en del mer parallella lösningar ex. Visual light som egentligen är ett underrum till Blue light (endast cirka 5 MB stort i koncept och relation utan associationsvärdena) inriktat på visuella relationer ex. scenarier vi kan ha i nyheter för att fylla i resp. förstå. Samt också en väsentligt större som fortlöpande grundtillstånd för spreading activation.

Från Penn State University har vi också via dess cache-funktion av forskningsartiklar praktiskt mycket användbara citeseerx.ist.psu.edu även om jag kunde önska att Google Chrome som default visade dem i webbläsaren hellre än att tvinga nedladdning (troligt något relaterat hur PDF-filerna skapas av Citeseer) och därefter öppna den nedladdade filen i webbläsaren problemfritt (om man inte använder Adobe's fetare applikation istället som egen process) även om jag inte är 100% säker på att det egentligen är tänkt att det ska gå heller i Chrome givet dom tycker jag ganska över-uttryckta varningarna om dessa pdf-filers risker för min dator.

Corpus för hela Citeseerx (inkluderande titel, sammanfattning och referenser men oavsett om tillgängligt eller inte ej brödtext) som cirka tror jag andra kvartalet 2012 eller alternativt fjärde kvartalet 2011 var vad jag prövade som en statistik källa till co-occurance tillsammans med ett större antal liknande. Dess omfång över koncept var emellertid inte större än att det gav föga och givet en del andra problem ej relaterat statistik källan brydde jag mig inte om ta in det datat alls (varande tämligen litet jämfört med hela samlingen använd och parallella metoder) vilket är vad jag tror är en mycket talande indikation om ungefär datamängderna, områdes association (här för området forskning och associerade områden med alla dess koncept), metoder o.s.v. som krävs för att etablera "associations- / närhetsmått" mellan koncept i Blue light eller jämförbart.

Jag tror dock det kunde vara ett spännande och givande projekt för Penn State University att göra något jämförbart på hela verkliga CiteSeerX inkl. deras cach:ade PDF-filer av artiklarna (annars är det föga) hanterande enligt olika varianter gärna artikel-komponenter som undertitlar, bildtext, sammanfattning, titel o.s.v. särskilt men ej i relation till sådan hantering heller utelämna brödtext (ex se avgränsad brödtext mellan en titel och nästa som ett under-händelse-rum eller liknande). Och givetvis publicera data för det också mer raw.

Lycka till med det. Och verkligen att få projekt man kan sysselsätta sig med är så glädjande och utvecklande som att ta fram statistik från feta-corpus. Man både lär sig mycket om sitt område såväl som hela världen. Verkligen vad en två - fem doktorander skulle minnas hela livet som något riktigt kul att ha gjort. Föga av känslor relaterat misstankar om att man torterar sig själv och gör det därför att man egentligen är mentalt eller emotionellt skadad eller akuta drömmar om att datat är levande konspirerar mot dig skärande bort delar av hjärnan finns någon risk för. Bara sund glädje och avslappnad förnöjsamhet. Vi vet ju alla att bigdata är kul och samhällsnyttigt: coolt och utvecklande för ungdomen hålla på med. Hade jag inte så mycket annat roligt att göra skulle jag själv tveklöst spindla ner alla Citeseerx PDF-er och göra det själv. Kanske att belöna mig till jul med om ingen annan tycks ha påbörjat det eller om så ligger i erfaret god fart mer än för erfarenhets-tidiga sådana lösningar ligger närmare sex månader eller längre tiden.

Att göra samhällsvärde av kulturskribenten

2013-02-10

Kanske kan en betydande andel av alla problem våra tidningar berättar att de har relateras till att många av deras skribenter inte är vad läsarna upplever samhällsviktiga? Ska vi nu betala för att läsa en tidning vill vi givetvis mer än att få nöje själva känna att vi bidrar till något viktigt spridande kunskap bland ungdomar, äldre m.fl. med ett tydligare behöv att lära resp. uppdateras. Sajter som Wikipedia, Plos.org och arxiv.org (sorted expert training ovanpå Citeseerx hellre än sökfunktionen eller mänskligt arkiv - trots det vad som drar horder av läsare från DN, BBC m.m.) tar allt fler läsare och en till recension eller funderande om könsroller, ideologier, tv eller konst lär inte lösa det.

Mer än att som allt vanligare krympa populationen kulturskribenter (vi som ett första ex. utgår från: men mycket mer onyttigt finns givetvis) finns verktyg som utvecklar stocken. Det kritiska är att varken se dem som offer eller vilka som själva kan klara att lösa problemen. Vi behöver som samhälle förädla dem till nyttiga verktyg som ger oss ett verkligt värde mer än att vi mest för vi tycker synd om dem efter att ha läst deras senaste otäcka rapporter från en biotyp i utrotning kanske lössas ha läst tidningen men helst ännu mer slipper.

Ett perspektiv och en kunskapsmängd ofta grundlagd ("har fastnat" men ska gå att skaka loss) smalare idéer om nöje, kultur, familjeproblem av de enklare slagen med föga samhällskostnad, semester o.s.v. med föga egentligt samhällsvärde - i bästa fall onyttigt nöje - gör att vi måste förstå att det lika mycket ligger på vårt ansvar att anpassa vårt språk mot dessa som för dem att lära nya ord och begrepp.

För att förklara lätt-tillgängligt (och därmed mer energieffektivt och troligare med större spridningseffekt d.v.s. samhällsvärde) illustrerar (bra ord både vad samhällsnyttiga i industri och forskning resp. kulturarbetare och kulturskribenter upplever sig förstå) med ett exempel:

Texten märker vi har verkstyngd och kunskapskrav vida högre än recensioner av tv-program, romaner och flick-skvallriga krönikor och familj och kändisar klarar att stimulera skribentens kognition till utveckling och med ökande ålder bibehållen tankeförmåga (hög ålder och "fördummande" artikel skapar nog ibland en ond-cirkel). Men för att liva upp och ge koncept mål-personen kan anknyta till exemplifierar jag med hemvanda begrepp. Först mer eller mindre en artikelplanering några veckor framåt i ex. Dagens Nyheters kulturbilaga (att den är vad jag upplever mer läsvärd och intressant i DN ursäktar inte att den inte bidrar till rikets tillväxt och uppmuntrar till viktiga samhällsbyggande framsteg).

Exemplen citerade nedan (eller klicka bilden ovan för att förstora...

"Slutligen / kompletterande kan vi också tänka oss att ett mindre antal färdigt givna koncept kan ges anropande som markeras dessa (ev redundant sig själva ibland). Ex. vulgär-kultur, manligt revirtänkande och patrikaliskt kvinnoförtryck, matematik, skog, buskar och natur, färger och konst m.m.

6.4. Ev. i övrigt existerande koncept ej med i 6.3. och ej instansierade låter vi finnas kvar ungefär som spreading activation bryggor / collocation markörer / geografiska formationer o.s.v. Vi tänker oss dessa ansluta till instaniserade koncept, hierarkiska noder resp. varandra med en egen tunnare linje / eller med mer vitt i bakgrund ungefär. Lite som lymfan vs. blodkärlen. Viktigt men inte poesi potential i det."

Notera också hur jag en bit nedanför använder en poesi-referens - rent av uttrycker mig poetiskt. Detta är inte onyttigt eller för eget nöje. Det är viktigt:

Ett av kultur-skribentens få verkliga expertområden.
Den kan både uppleva ett erkännande av något de spenderat mycket tid på som intresse och kanske fått artikel-pengar för eller ett bidrag från staten eller fond för att ge ut något om.
Och kompenserar slutligen för den känsla av otillräcklighet som annars föga konstruktivt kan konvergera till nedstämdhet, uppgivenhet och en känsla av att vara underlägsen i ett upplevt svårt område.

Målet är ju att uppmuntra till att skriva om något nyttigt även om det kommer med en ansträngning där något nytt behöver läras. Vi vill därför inte genom att ej tänkt igenom saker tillräckligt trycka ner kulturskribenten utan uppmuntra denne. Precis som ex. med hundar och barn (eller forskare med diverse symboliska priser) ger det mer att glatt som i ex. uppmuntra istället för att kritisera deras oförmåga. Deras misslyckande är verkligen lika mycket den kollektiva impotens som fått oss att acceptera tidningarnas infertila subkultur.

Musiken saknades i ex. men den kan man mer passande lägga i en ljud-slinga (ex. inspelning eller som i video-klippet vad man presterar själv). Det är säkert inte främmande för kulturskribentens mer "hippi-ostrukturerade" arbetsplats (vinande eller värre ska dock aldrig accepteras) jämfört med hur den kan se ut om några år efter dessa tips och mer spännande vi säkert kommer få se på vägen mot den goda industralisering som kommer ge medias "landsorts-folk" och samer det moderna samhällets alla värden.