Varande på gått humör var jag rent av lite små-ärligt rolig: Håller det i sig kanske jag roar upp mig själv mer genom att dela lite av det data som redan roat mig kring noun-fraser. Det känns alltid via inbyggd moralisk funktion när man får möjlighet att både dela något och vara ett bra föredöme för barn, ungdomar eller sämre (motiverade) vuxna. Vi får se. Föredömes-betydelsen gör att jag gärna innan vill kontrollera igen så att något missat fel inte stör Sveriges framtid genom att vara ett defunct föredöme. Sådant tänker jag på naturligt: Det känns helt enkelt spontant lite fel att riskera när är publik och verkligen att man ibland får tänka till vilken orsak kognitionen i bakgrunden detekterat.
Surfande över lingvistiken i publicerat data och studier (jfr RT: "Frekvens" vs "emotionell intensitet" för adverb och adjektiv i NP modifierande intensitet) hittade jag dessutom en algoritm som möjligt (om den fungerar bra nog) kan vara oerhört praktiskt.
Problemet när språk samplas är att antingen samplar vi nära relaterat ett område och får praktiskt bra statistik. Fortfarande behöver vi resten av mänskligheten samplad också därför att andra termer kommer förekomma i området vi tittar närmare på samtidigt som många användningsområden kan beröra sådant som att identifiera likheter, vägar till ny teknik, kopplingar tekniskt, mellan personer, vetskap, forskning m.m. exempelvis att man i område a utnyttjar en teknisk-lösning sedan flera år som kan tas ut till område b sparande sådant som forskningsbudget sedan flera år på att lösa problemet.
Det senare löser man genom att sampla allt mänskligt eller kompromissa och nöja sig exempelvis med engelskan. Välkänt stort sample är Google N-gram som jag i min sampling tog sista fyra år eller så därför att jag redan hade tämligen ordentligt samplat längre bak (särskilt var jag redan översamplad från cirka 1960-talet och en bit in i 1970-talet och rörande recensioner, "forskning" - som de kallade det då - vissa former artiklar inom religion och filosofi tämligen täckande alla tänkbara behov från cirka 1550-talet och framtill 1900-talet). Generellt utsmetat språk likt Google N-gram kan vara en bra grund men vad jag prioriterade 95% av all tid på när jag expanderade det förra året var riktad sampling in till forskningsområden eller områden i vetande resp. sampling riktat specifikt mot för mig existerande koncept (ex. en person, ett verktyg eller växt - totalt cirka i andra varvet 2 miljoner koncept som samplades riktat mot meta-funktioner likt ex. access-lösning till bibliotek, uppslagsböcker m.m., militära databaser, - och Yahoo, Microsoft höll jag på att skämta men jag tror inte att jag samplade något som åtminstone inte hade en subdomän ej omfattat av robot.txt - samlat kanske 500 meta-källor och cirka 2000 databaser med artiklar, forskning o.s.v. av "enklare" typ (mer begränsad som för ett universitet), samt cirka 50 riktigt stora.
Svårigheten såväl när allt ska föras samman som när en riktad representation för ett område ska göras är hur datat ska värderas för resp. källa. Jag hade tydliga kontinuerliga lågintensiva problem med att hitta en problem lösning trots att jag av och till prövade en del över dom sista fyra månaderna jag fortfarande samplade. Uppenbara vägar är sådant som Zipf såväl som att ta hänsyn till storleken i antal termer man samplat riktat, antal termer man fått (det sista är sundare), största värdet m.m. En del gör också smoothing men jag kände inte förutom viss långt senare (mindre än normalt) att det särskilt troligt skulle addera mer värdera än det tog bort givet att jag nu ändå samlat ville ha egenskaperna som de är - mitten så att säga - och samplade nog för det.
Jag hittade två mycket lovande förslag på hur problemet kunde lösas. En - eller rättare sagt två relaterade - artiklar från kanske tio - 30 år bakåt. Men det fungerade ej bra för mig. Vidare såg jag en formel i en färdig datakälla med språksstatistik relaterat ett universitet i Tyskland som jag kunde se skulle kunna fungera. Men jag klarade inte helt bra att ta den till det för mig mer kritiska området av att ha koncept snarare än ord eller likt Google fasta fler-gram utan hänsyn till vad det är (när jag samplade Google på några år processades resp. menings-fragment i filerna och koncepten i dem identifierades och propagerades). Det hade säkert gått att göra men på den tid jag upplevde var för mina naturliga förutsättningar att må bra av att göra matematik bättre lämnade jag det.
Det var då ej ett stort problem att strunta i därför att jag byggde den större mitten. Grundstatistiken man kan lägga under varje anpassad databas till ett område så att allt ej samplat ändå kan fås men med mer "utsmetad över all kultur och kunnande värden".
Dock problem kvar att lösa. Och lite genererande att egentligen inte ha klarat att löst bra. Men det var väldigt mycket på tiden övergripande runt detta på att få samplingen och räknandet på data att fungera: Massor av problem man råkar utför man (jag i alla fall) hade räknat med skulle bli aktuella. Någonstans efter några Tera-byte ngram-detekterat data börjar problemen gå smärtsamma över redan lätt-plågsam men övergående nivå när relationerna mellan koncepten ska börja räknas samman. Och man inte trivialt kan ha en tråd räknande på en bit och en annan någon annanstans.
Och tråkigt nog är det exakt sådan matematik som ofta inte blir bra för mig. Går ej att visualisera och är ej uteslutande vad koncept från information science jag redan kan sedan många år direkt fungerar för, och är ej heller teknik och algoritmer använd inom krypteringsanalys eller neuroscience för statistik, bildanalys o.s.v.
Och jag tror det inte ens var tyskar den här gången som gjort en möjligt fungerande algoritm utan folk från Benelux. Och inte bara det: Här finns en färdig redan propagerad datakälla till det som möjligen kanske täcker upp en del lågsamplade koncept. Ej liten som sådant här normalt är. Mycket stort är dock av föga värde för mig i alla fall: Ex. håller jag värdet för stora datakällor gjort av spindlad webb som ej värt att addera därför att det stör intressantare områden som teknik, forskning, politik o.s.v. där föga färdigt finns. Jag har ej kontrollerat var de fått data från men såg att en mindre representation var baserad på språk från film vilket jag tyckte verkade lovande (avgränsat, ett särskilt område med sina egenskaper så sunt att ha separerat, genom tänkt data dessutom, och gör man det själv kan man rent försöka ge sig på att koppla statistik till ekonomiska värderingar utifrån framgång för film även om det just för film är mycket svårare än för en del andra områden).
Jag blev faktiskt allmänt lite små-imponerad av allt möjligt jag bara såg rubriken på medan jag sparade ner till hela. Så möjligen blir jag besviken om några månader när jag ev. synkar in någon del möjligt värdefull om nu copyright o.s.v. tillåter det.
Och kanske att dom gjorde det delvis från Zipf-koncepten. Det vet jag är sunt även om jag trots flera försök aldrig kom så att jag blev nöjd.
Hur löste jag då detta problem för den samlade representationen från alla enskilda samples? Jag adderade direkt propagerande. Hade jag samplat på mer normal storlek och försökt föra samman flera källor är det potentiellt problematiskt för termer som kan vara viktiga och som har otur att förskjutas problematiskt. Liggande mer representativt i det mindre men föga uttryckt i det större medan termer det mindre saknar (kanske p.g.a. av riktad sampling eller att de normalt aldrig diskuteras där) förskjuter saker än mer.
Samplar man mycket nog kan man dock göra som jag gjorde. När du känner att alla dina - eller i alla fall en gedigen hälften - 2 miljoner viktigare koncept av fler existerande (upp till 20 miljoner för mig) har fått åtminstone någon riktad sample så att deras relationer kan skattas från något givet kontext om de nu inte redan naturligt förekommit.
En del tror säkert att de kan lösa sådant endast med smoothing. En del algoritmer bygger ju på samma principer också jag anar att man utnyttjat här. Men det beror verkligen också på hur du har samplat - eller här vilka olika metoder för sampling som används. Vad jag särskilt behöver där detta står nu är verkligen ingenting som gör smoothing utan vad som kan skatta tillväxten från antalet samplings-punkter oavsett om dessa ses som antal ord eller koncept detekterade i datat eller mer komplext dom termer som samplades riktat.
Sampla mycket - varande på bra humör ger jag mig på att skämta osmakligt antydande kanske något om den åttande största datakällorna eller så av dom tio största inom vetenskap - dör en del av faktiskt. Kan utlösa självdestruktivt beteende när vad man givit möjlighet att visa upp sin del av världen så att de betyder något och ej är osynliga får för sig att det är ett federalt ärende. Men för den som samplat mycket innan är det känt att sätter man sig ner och läser igenom allt rörande api:er, kontrollerar subdomäner, laddar ner och tittar på alla robots.txt, behöver man inte alltid sitta och dumpa ner deras databaser med journaler från universitetets bibliotek utan kan nöja sig med att utnyttja saker de någon gång antagligen trött när de byggde det folk skulle använda och om jag gissar rätt därefter varit väldigt sällan använt. Tills den läraktiga svensken kom och samplade det närmare en miljon gånger från spridda IP-adresser runt om i världen utan att göra annat än exakt som förskrivet.
Det förbannade Elsevier står jag baffled inför här såväl så ofta när jag själv vill läsa något. Bra ofta finns artiklarna inte publicerade i övrigt att hitta med Google heller. Jag har dock svurit på att aldrig betala dem en krona för en artikel redan för en nio år sedan och lär inte börja nu. Verkligen användarfientliga gränssnitt trots alla möjliga små applikationer de utvecklat över åren. Tråkigt nog ej värt besväret trots en av världens mest intressanta datakällor inom forskning: Förr eller senare vad man får lösa på något sätt. De täcker bitvis områden som jag inte ser något annat uppenbart till. Jag tänker att ser man över möjligheter noggrannare än jag gjorde förra året (med en lång lista på också annat investerande begränsad tid när deras filosofi visade sig vara världsfientligt defunct så kan nog kanaler såväl som alternativa datakällor finnas: Just att utnyttja sekundära ej korrekta kanaler eller sampla rough avstår jag från som regel så att med metoder byggda med visst kunnande om nätverk utnyttjande universitetens access - där jag känner många runt om i världen - är ej aktuellt).
Library of Congress var ett fint exempel på datakälla där de hade som dedikerat en hel subdomän säkert avsedd just för automatiskt samplande. Ty den var ej inkluderad i robots.txt och hade alla gränssnitt och api:er övrigt hade också. Mitt medan jag samplade den såg att Google också låg och troligen samplade den intensivt ty dynamiska sidor läckte av och till ut i index med alla möjliga ovanliga sökningar under några månader tror jag. Jag har svårt att se vad de kan ha träffat på som kan ha lett dem naturligt in i dem. Inga enorma taggningssidor över sök-kombinationer hitttade jag på dom vanliga subdomänerna. Hur som helst ganska ok data som komplement till mycket annan excellent statistik som finns att hämta från Library of Congress. De stödjer många dataformat och har genom åren investerat tid och kunnande - såväl som absolut inte vara teknik-fientliga eller önska ha allt data själva. Deras representationer över böcker med meta-information är ett exempel på excellent data tämligen unikt (när jag samplade det första gången: Numera finns en del liknande också att tillgå) svårt att ersätta med annat: Utmärkt exempel på vad man kan använda för riktad koncept-sampling givet att meta-informationen om ämnen, relationer mellan ämnen, såväl om man hanterar Library of Congress riktigt själva böckerna (ej innehållet).
Så i sammanfattning: En del bra folk i tyskland och Holland (om jag inte fattade informationen fel på sajten sist), även USA när det gäller bibliotek är meningsfullt dragande sitt strå till stacken för en bättre värld, Svenskarna skäms jag över att behöva säga ej gjort det uppenbart på den timme jag lade förra året för hur man samplar ner DISA m.m. men dåvarande regeringen var åtminstone inte defunct i accesstid samplande deras publicerade dokument m.m. som finns på webben (ingen som störde genom att störa access: Vilket jag förövrigt endast drabbats av två gånger totalt varav båda är hanterade nu - Ingen stor sak heller efter jag uteslöt viss möjlig annan problematik med det jag tror jag kort diskuterade det här vid tillfället).
SUBTLEX
Jag ser nu att det var Belgien och ej Holland. Belgien konsultade jag förr en del i. Först för en svensk bank relaterat informationssäkerhet och senare rörande en del annat teknik-relaterat inom data.
http://crr.ugent.be/programs-data/subtitle-frequencies/subtlex-nl
http://expsy.ugent.be/subtlexus/
Mycket lovande utan att tittat ens på hur stort datat är att de insett problematiken och betydelsen av att kunna normalisera samplings-regionerna. Det är sådant som normalt aldrig diskuteras av vad jag sett i referensböcker eller artiklar kring data samplat eller metoder om dem. Vanligen har man inte användningen efteråt tillräckligt riktad med samtidigt behov av väldigt stort eller samplar så stort såväl som region varierat att det krävs. Så här indikerar det åtminstone tror jag att man samplat ganska seriöst och kanske också ganska kompetent rörande hur man skapat värden om nu algoritmen fungerar. Man tror kanske at det är en lätt sak att lösa men mycket diffusa utmaningar som dyker upp och matematiserar ens humör till att känna sig lite avhumaniserad.
Fungerar inte algoritmen bra ska jag leta rätt på en review sajt och för första gången göra en rewview.Efter att surfat review sajter några miljoner gånger känns det korrekt att ge tillbaka och delande mitt kunnande med andra som samplar subjektivt-bias, testar detektion av betald review, eller samplar det äldre datat där mycket mindre av sådant finns 8för flera år sedan).