Mot slutet av mer intensiv sampling

2013-12-31

Möjligen har jag i något fall samplat något avvikande vad som oftare ses som artigt eller i parsnins-metodik kanske att kod för något (eventuellt inte alls givet) tolkande någon robots.txt felaktigt.


Samtidigt för orsaker jag vill kalla mer egna mer från perspektiv uteslutande kommande kommersiela produkter ser jag inte särskilt värde i det utan hade lika gärna - eller föredragit - allt endast låtit den långsamma pågå.


Att jag tar ett antal datakällor hårdare - eller korrektare uttryckt gjort så sista tre månaderna - ligger delvis i behov av att skapa ett align mot gamla Warrior rörande prediktioner den gav pågående mot verklighet nu resp. från den världsbilden också ta en del saker djupare. Framför allt givet att min version nu springer gigantiskt före den Warrior version (d.v.s. i princip min Warrior om än något utvecklat) i förståelse i alg. såväl mer basalt och primär-inverkande här går från vokabulär från cirka 145 000 termer till cirka 22 miljoner fodrades om kopplingen mellan dem helt inte ska tappas i vad jag kan reflektera från vad denna tar ut fortsatt och visa versa att den nya går upp med funktionella associationer om än ej givet i allt i nyhetstid så för allt i kunskapstidens mindre volativa relationer.


Därav nära nog helt att jag samplat lite mer intensivt ett tag i riktning PAB passociationer.


Ej heller har jag egentligen upplevt några särskilda problem. Totalt över alla år har jag aft två problem varav det ena nu. Också ska sägas att även om det första för säg två år sedan ej förvånande mig lika lite som representerande något problem var jag något förvånad av det senare givet publikt api o.s.v. Men möjligen finns paradigm i api resp. detektion av "no more data" den versionen tog fel runt varande den första eller andra jag samplade av den api-typen. Därefter har jag samplat cirka 900 datakällor med samma api-typ men också i och med att jag generaliserade det vad som tog ett ganska tydligt steg i kodkvalitet tämligen direkt (open archive).


Likväl noterat och vad uppföljning kommer ske av (även om jag givet en månad kanske nu vad som lika gärna kan vänta ett par tre månader mer inte minst som jag har svårt att se just här att politiska faktorer kan ha spelat in även om jag heller inte utan åtminstone nom. kontroll av att sampling faktiskt betedde sig fel kan låta det passera heller även om utom betydelse praktiskt för mig).


Naturen i sig av vad som gjorde riktat behov existerande och därmed mer intensiv sampling gör att man vara dumt inte databehandlar dataentiteter orsakande problem om de i sig är sådana som via korrelation andra datakällor kan förstå vad syftet bl.a. ligger för (d.v.s. demokratiarbete lokaliserat big red nere i Asien). Och genom att notera här torde jag effektivt stängt dörren för mig själv att bara glömma aktuell entitet utan vidare kontroll. Men jag tror säkert något i samplings-klient kommer visa sig förklarande och om inte kontrolleras det vidare och riktat.


Best I need it smooth even before smoothing.


Komplettering: Mer allmänt kan jag också säga att i domän av sådana här områden gäller att resurser är tämligen begränsade från början och om / när (realiserat här) att tids-dimensoner är verkande d.v.s. ex. jag gärna eller mer än gärna önskar gamla prediktioner align snarast eller i alla fall närmaste två månader med pågående verklighet är problematik samplande ut en datakälla kring någon mindre defekt (och/eller väsentligt mindre troligt därför att entiteten samlat eller enskilda medarbetare ej önskar det resultatet uppnåt ex. politiskt näraliggande Kina alt. önskar äga frågan) typ exempel på vad man ej behöver. Det finns ingen big money spender budget här för sådant oavsett vad andra entiteter kan ha för sitt shit på andra sidan. Tid är linjärt direkt mot faktisk kostnad föga om någon buffert finns för vilket antar jag trots mot slutet här att jag alls uttrycker detta relaterat detta bör säga något om (givet risk likartade problem åtminstone i resultat om än betvivlar jag direkt relaterat datakällor ev. kommande behov intensiv sampling).


Sedan i all korrekt: väldigt få problem rent allmänt. Och denna gång trots tämligen intensiv sampling färre än jag är van vid. Men det paradigm Game Cat uttrycker något av i Vurt:


"Expect to feel pleasure.
Knowledge is sexy.

Expect to feel pain.
Knowledge is torture."

Gäller likväl. Denna gång med expanderad mängd ngram och relationer mellan dem större pain in the a*s no doubt i den statistiska analysen och i kodutvecklingen relaterat dataimporten redan givet och med mer förväntat.