The Big Dog förklarar vad stort data är: Så nära allt av data maximerande scarce och värde möjligt

2014-03-07

Nedan har vi ett spännande ex. på att out-of-context skryta för personer som knappast särskilt är intresserade eller troligt intresserat sig alls för området. Just här för min läkares medarbetare i något näraliggande kompetensområde önskande ändra inbokad tid med min läkare. Ett uttryck tror jag dels av alla problem med denna stat-db skapelsen (kraschde diskar och diverse annat ett par gånger) resp. att jag börjar känna mig mycket nöjd med hur det ser ut givet att jag fick upp disk-som gick ner för några dagar sedan (förutom enstaka filer som den ogärna ger ut hela för) möjligen utnyttjande dess egen konsistens-kontroll (lätt osäker varför den gick upp denna gång), kompletterade data utgående från att inget ej närmaste veckan efter men givet en del återskapat direkt efter i nya områden resp. låg-uttryckta koncept samt flera mycket goda datakällor jag hade tänkt använda i nästa export. Resultatet är riktigt god kvalitet.


"Korrigerande något du säkert inte bryr dig i men likväl för att inte verka big felaktigt liten:

'Jag bygger statistik db från 2.5 T byte krävande en titt var 5 - 7 timme resp. viss kodning men att flytta runt det är väldigt trivialt om jag vet det ungefär någon dag innan.'

Är det 2.5 T titel, motsvarande abstrakt eller kortare och av och till category eller tag om science publication eller motsvarande Digg. D.v.s. det data mest scarce. Ej en massa brödtext från Wikipedia-sidor i denna import. Det är viktigt upplever jag att vara stor-big om inte någon likt jag av och till hån-ler lite åt vad refereseras som mycket stat-data.

Den 7 mars 2014 12:34 skrev Hans Husman :
Jadå.

Meddelar du dagen innan kan du flytta tiden också. Jag bygger statistik db från 2.5 T byte krävande en titt var 5 - 7 timme resp. viss kodning men att flytta runt det är väldigt trivialt om jag vet det ungefär någon dag innan.

Den 7 mars 2014 11:39 skrev [Red. Hans tar bort information - Här är din privacy ett ledord när vi kommer ihåg.]:
Hej Hans,
Går det bra för dig att komma kl. 10.00 istället för kl. 9.30?

Med vänlig hälsning


Och särskilt mycket väl uttryckt association mellan koncept i titlar. Titel och titel-nära information har fördelen att association där mellan två distinkta ej i tyngd triviala koncept bär hög mening.


Samtidigt är språket (givet engelska) titel mer generellt allmängiltigt än för ex. kategorier som ex. för artiklar journaler uttrycker oftare och mer av "dialekt" lokaliserad journal ej uteslutande typiskt för forskningsområdet eller journaler (ex. relaterat att legacy-system publicering alt. management-beslut ger taggar endast som 1-gram eller i tron att det är bättre för sökresultat begränsande sig till ett fåtal taggar görande systemet som pagination oanvändbart och redundant normal strukturering).


Genom att innehåll utanför titel här begränsas endast till annan scarce (mängd nedladdningar för att skapa statistik innehållande en viss mängd relationer mellan koncept oavsett hur vi räknar är väsentligt större när vi just söker titel och titel-nära information) beskrivning direkt DO i min termonologi.


DO

Vad som kan ha haft primacy effekt inverkande för att ex. motsvarande sida abstrakt besöks eller där vara information föregående läsning övrigt). Ger förväntan påverkan tolkning och förståelse av efterföljande information.

Ex. just kategorier och taggar, eller resp. näraliggande detta relativt efterföljande artikel om man väljer att läsa den (ex. abstract eller snippet sammanfattning t.ex. given i RSS-ström).

Också kan man argumentera även om jag ej utnyttjat det här eftersom processande är för datamängden tidsödande samtidigt som population primacy-effect kan argumenteras för är svårare att beskriva och slutligen därför att relations-typen mer allmänt oavsett referenser, webb-länkar, eller liknande ej är vad jag i övrigt använder för istället en något mer tidsödande metod men med snabbare konvergens beskrivning och diffusiv-effekt i graf-mening artiklar vilka refererat aktuell artikel (d.v.s. titel igen om så uttryckt) resp. "looking back who referenced me" (att referera andra är en dokumenterad metod att bli refererad i journaler oavsett impact factor och 1-1 förhållanden eller nära det är mycket vanligt enligt några studier).

Intressantare analys mening men ej utnyttjat för statistik-db här även vissa typer av bildtext, redaktionella bilder uttryckande händelsen beskrivet eller något relevant som en person man samtalat med eller viktig plats för händelse m.m.


För statistik närmare tillämpning NLP är sampling enklare eftersom mängden av uttryckt språk d.v.s. mer av brödtext går enkelt att använda och mindre requests och nedladdning krävs. Men associationen övergripande mellan koncept är svårare att väl få bra mått på även när man hjälper upp genom att försöka sortera källor inom science övergripande eller utnyttjande kategorier bl.a. relaterat att vi lätt får en mängd varierade "kraft-nivåer" upp resp. ner resp. samma nivå mellan ett koncept och ett annat (motsvarande ex. ett övergripande huvudämne och en detalj-sak runt ett koncept medan vi i titel får koncept som sammantaget båda oftast är viktiga jämförbart även om ett ibland är viktigare).


Just för research är det svårt upplever jag att få allt publicerat med abstract o.s.v. Men jag tror att ag åtminstone fångande en acceptabel andel från någonstans med ett fåtal senare delen 1500-talet och fram till nu. En del goda källor med mycket samlat finns ( är excellent att läsa och har ordentligt i sin databas nåbar via Open archive API) och vid sidan om universitet, nationella db, större journal-firmor, särskild hantering säg ett 50-tal stora journaler eller liknande med "hording and barriar personality disorder" rörande abstract förutom artiklarna i dess helhet m.m. når man ganska långt med ett tiotal till stora men vad man verkligen skulle önska - också skapande vettig mening med konceptet - är att DOI går att hämta upp rörande allt utfärdat. Det känns för mig att det borde vara möjligt - en av få poänger med konceptet - förutom att försöka uttrycka en kontrast från kostnad kanske inducerande förtroende. Men jag såg ej på tiden jag var beredd att läsa hur och var om all (ett fåtal med subset av publicerade journal-artiklar finns dock - totala mängden utfärdade DOI måste dock vara gigantiskt idag och med tillgång kan man passera förbi sajt-lokaliserade legacy-vägar att indentifiera indexerbart innehåll).


Just därför att detta data är mycket scarce vill man bäst försöka komma nära allt existerande för prioriterade typer av kanaler (ex. allt publicerat journaler, eller alla nyheter i tidningar, eller alla pressmeddelanden företag o.s.v.). Mindre känns aldrig riktigt bra åtminstone när man är i resp. kanal och samplar (viss steg för steg sampling krävs dock givet tiden requests och logik mining) och blir konkret scarce fodrande här svårare än motsvarande för NLP approximationer för vad som saknas. Desto mer desto jobbigare men värdet växer väsentligt snabbare.


Men många miljoner för just journal-artiklar även om det samlade antalet samples ännu ej finns räknade. Kanske riktigt mycket rent av (hantering samma sample från flera kanaler gör det svårt att se korrekt antal innan sista stegen och jag har ej för annat än nyheter skattat för mindre del-mängd hur stor andel redundant publicering som gäller: nyheter i media kan ligga ganska högt från motsvarande telegramtjänsterna som Reuters m.m. vilka publiceras i många tidningar . där av att jag skattat ned det här kanske ganska mycket som insett från det mindre antal datakällor referade inte minst mängden universitet som utnyttjats åtminstone när standardiserad kanal finns vilka är ett par tusen ungefär).