More eller Most? Kanske finns svaret hos barn (eller varför inte om någon mätt på dem vuxna gediget över 35 år för ålderns visdom)

2015-05-12

Experimenterade med mängd koncepten utifrån:



Ger vikt till mängd värde när jag utelämnar emotionell intensitet faktor vid sidan om "IDF-måttet" (men ej baserat just på dokument utan mer associationen till näraliggande ord) resp. ett entropi-liknande mått som funktion av sannolikheter more snarare än most som kommer högre. Jag kan förövrigt notera att läggande väsentlig vikt vid mer konceptuella nätverk vilka trots att ord som dessa numera finns med verkligen inte är avsedda att ta ut värden på (snarare mer som "brygg-noder" för att möjlighet till snabbare omräkningar i spridd via co-occurence förekomster) att koncept likt something m.fl. vi kan "skriva" om som ord_1-ord_2 prioriteras upp tydligt.


Jag prövade förövrigt att ej utnyttja mina mätvärden för sannolikheten. De hårdsamplades stort för att få goda mätvärden av mer konceptbetonade flergram som vetenskapsområden, personer, länder, orter m.m. vilka är väldigt scarce och därför har jag märkt lite i skal- och norm-mening relativt överdrivande vanliga ord jämfört med om vi kastar flergrammen och (också i all annan erfarenhet sundare rörande verb, adjektiv, adverb, PP och nouns som ej är personer m.m.) att för att testa det använda 1-gram värdena från:



Den var för denna användning - ej helt förvånande där jag säkert pekat på varför tidigare - inte riktigt perfekt. Medline N-gram är genererat från medicinska koncept och data följande tydlig ämne medicin såväl som medicinsk strukturering. Det gör att vi får medicinska koncept mer värderande än är riktigt önskvärt rörande mer funktionella allmänna ord. Rörande emellertid adjektiv och adverb är deras N-gram data möjligt beroende på vilken bredd man har ambition för vad man effektivt utnyttjar försöka vikta om mot ett mer allmänt språkligt koncept: Det är aktuellt för mig i alla fall givet att jag redan har kategoriserat upp dessa bl.a. just för medicin om än inte brutalt finmaskigt jämfört med komplexitets-nivå för mer allmänt använda adjektiv och adverb: post-opera. Ett exempel på mer konceptuell utmaning i tänkande där är hur kanske mer generella koncept och algoritmer relaterade temporala- (tids-) koncept bra går samman med det medicinska. Vi har några exempel på medicinska adjektiv och adverb från The Specialist just argumenterat havande en tidsdimension:


Ett akuttillstånd (en del-komponent där vi har en form av tidsdimension) som uppstått efter ett medicinskt tillstånd innebärande om jag minns rätt att blodkärl expanderar ut och kanske också läcker blod men oavsett det senare tänkbart reducerande normal funktionalitet allmänt. Och så tillståndet vi hamnat i: Blodbrist. Här är vi i närmare vad vi vill se som ett noun-koncept:

acute post-hemorrhagic anemia

Själva del-komponenten post-hemorrhagic är emellertid i sig "ensam" (jag skulle ovan inte vara främmande för att ta ut samlade vikter om de ej finns färdigt projiserade från tillräcklig relevant sampling parsa noun konceptet ovan som fras) och existerar i The Specialist (varande just brutalt komplett för allt medicisnkt) som egen representation:


{base=posthemorrhagic
spelling_variant=posthaemorrhagic
spelling_variant=post-hemorrhagic
spelling_variant=post-haemorrhagic
entry=E0049206
 cat=adj
 variants=inv
 position=attrib(3)
 position=pred
 stative
}

Det sena språket med fortfarande ganska nya koncept specialiserade för medicin ger oss att koncept ofta används oerhört återanvändande över adverb, adjektiv och verb. En indikation på det ovan ser vi i markering av stativ. Vi kan bild verb-varianten post-hemorrhaging (vilket vi ser stative indikationen om som tillräcklig indirekt referens mot i The Specialist).


Och föredömligt jämfört med ex. tidigare ej angivet emotionella kategorisering har vi varken ex. anti-white / anti-white americans saknande anti-black (och ej heller anti-black).


Tydligare släktskap över ordklasser:


{base=anteriorise
spelling_variant=anteriorize
entry=E0332530
 cat=verb
 variants=reg
 tran=np
 nominalization=anteriorisation|noun|E0232091
}


{base=anteriorisation
spelling_variant=anteriorization
entry=E0232091
 cat=noun
 variants=uncount
 compl=pphr(of,np)
 compl=pphr(by,np)
 nominalization_of=anteriorise|verb|E0332530
}


{base=anteriority
entry=E0523105
 cat=noun
 variants=uncount
 compl=pphr(of,np)
 nominalization_of=anterior|adj|E0009299
}

{base=anterior
spelling_variant=anteriour
entry=E0009299
 cat=adj
 variants=inv
 position=attrib(3)
 position=pred
 compl=pphr(to,np)
 stative
 nominalization=anteriority|noun|E0523105
 nominalization=
anteriorness
|noun|E0597130
}

{base=anteriority
entry=E0523105
 cat=noun
 variants=uncount
 compl=pphr(of,np)
 nominalization_of=anterior|adj|E0009299
}

{base=anteriorness
entry=E0597130
 cat=noun
 variants=uncount
 compl=pphr(of,np)
 nominalization_of=anterior|adj|E0009299
}

{base=anteriad
entry=E0009298
 cat=adv
 variants=inv
 modification_type=verb_modifier;locative
}

Och från det i bästa fall vad som ger meningsfull förståelse - eller bättre uttryckt indikationer för betydelsen till koncept som saphenous vein graft to the left anterior descending artery vi också har i The Specialist.



Vi får när vi räknar vidare i kontextuell-association ut från orden (från 3-gram filen) också som funktion av 1-gram sannoliketen ex. något cardio koncept (eller just cardio) mycket högt. Det är tveklöst som så ofta att man vinner märkbart här på att etablera en särskild statistik databas korrekt normaliserad och korrigerad för mängd-ord. Mycket möjligt kan vara mätvärden jag också för att pröva praktiskt utgår från för att normalisera ner till detta: Det mycket mer begränsat jag sett små-betraktande den ger en känsla av mycket hög kvalitet.


Helst vill jag inte använda min EMI som faktor här även om som välkänt emotionell-intensitet i ord är mycket påverkande faktor när vi läser särskilt titlar därför att:


  • För ett antal ord just relevanta kring våra "mängd-liknande" (set theory i en mer flummig subjektiv vardags-språk mening: ex. all hela mängden definierad av kontext, nothing den tomma mängden o.s.v.) ligger samplingen efter andra ord därför att de under ett par år låg som stopp-koncept därför att jag hade brist på dator-resurser (sådant växer exponent med mängden grund-symboler vi accepterar som vidare multiplikativt linjär med hur vanliga de är så a m.fl. gör skillnad att kasta). Jag hanterar inte det därför att det gav så oerhört mycket värde för övriga koncept relativt omräkningstid hanterande dessa ord att lägga på gamla statistik-db på det nya. Detta påverkar EMI men inte sannolikheter m.fl. mått (mer kostsam att beräkna p.g.a. av projektioner från olika regioner i samplade text-dokument till koncept).
  • Jag vill också ha ett till normaliseringsmått som är oberoende av EMI som används för fraserna för att bestraffa komplexitet från längd och där något ej utnyttjande heller grammatiska relationer resp. för dessa koncept ej heller ordlängd (det senare tillsammans med grammatiska ger för de stora mängderna ord ej som här i stor andel för undergruppen alla väldigt och jämfört korta: a, an, the, all, any o.s.v.

More ligger emellertid ovanför all vilket praktiskt tillsammans med en del annat pekar på att faktiskt ta viss hänsyn till om vi anger ett absolut mått eller en förändring.


Vidare är dessutom many - som man kan uppleva besläktad i all rimlighet med more och most: Ger kontext en jämförelsegrund där A är fler än B så är A relativt B många åtminstone vid något tröskelvärde fler.


Roar oss att lämna alla de senaste åren av publicerade journal-artiklar där universitets-medarbetare efter universitets-medarbetare ofta sitter och löser sedan evigheter väldokumenterade problem med lösningar i någon variant (eller exakt samma av och till) med en av preferenserna i dom statistiska modellerna med värden etablerade från mätning på skrivet språk och istället går tillbaka till psykologins (snarare än psykiatrins som vi har nu) guld-ålder i att etablera stora delar av den seriösa grundkunskap vi har (d.v.s. i den vetenskapliga psykologin snarare än flum-segmentet baserade på att forskare eller "medicinskt" medarbetare känner sig) gjordes mätningar på barn:


  • Barnen fick vid olika ålder förklara hur många av diverse ex. few, lot, some m.fl. var.
  • De få värden jag har ännu refererade (jag ska försöka leta rätt på fler och kanske med tur någon modern större studie) är inte ointressant.

Vid grades 10 - 11 börjar many ungefär (figuren i The psychology of thought and judgment är ej perfekt) kanske vid 26 st. Innan slutar lot som tycks börja ungefär vid 19. Innan ligger some (och det överraskade mig något: Ev. indikerande att jag ännu ej klar med dessa delar riktigt inte har perfekt känsla för orden eller lika troligt nästan att de förändrats lite i preferens över åren) som föregår several börjande "sent" på 14 - 15 (d.v.s. some är ganska vilket jag också upplevde kanske mer "förväntat" när man väl har sett det men inte direkt vad jag utan sett värdena skulle resonerat mig fram till).

Och several tillsammans med many är har det längsta intervallet aktiv. Kanske kan vi lite vågat uttrycka det som att more kanske faktiskt är mer än less också för längden på intervallen där de är aktiva. Innan som sista figuren i boken hade mer har vi few som liksom some är tämligen kort. Den ser ut att sluta på 7.

Innan man tittat mer på original-studien och mycket gärna senare kanske större resultat ska man verkligen inte tolka in för mycket i det här. Resultatet boken refererar är från 1948: Mycket gedigna arbetet gjordes också då även om jag upplever det som något av ett kvalitativt paradigm-skifte när vi går in i 1960-talet. Framför allt för studier med den här åldern kan de vara väldigt små. En förklaring till 1960-talets paradigm-skifte var hålkortet möjliggörande dataanalys av mer. Brotherton, Read och Pratt är referensen som jag p.g.a. brist på ljus ej utvecklar vidare.

Risken är att jag inte redan har artikeln lokalt i mina arkiv då det för mig tar ett stort steg upp i andel och mängd från och med 1960-talet (som förövrigt i relativt mening är vad jag bättre samplad än 1970-talet p.g.a. visst intresse för informationsteorin, AI, cybnernetiken o.s.v. - såväl som den vetenskapliga psykologin - 1970-talet är inte vad jag upplever riktigt presterade i dom symboliskt mer välkända insatserna jfr Wiener tidigare vad jag eller antagligen särskilt många andra har någon nytta idag oavsett hur i nöjes-mening läsvärda en och annan skildring är över hur Leary med kamrat överraskar en sovande influensa eller feber-sjuk kollega med en injektion - eller liknande - LSD för att "bota" honom: Mycket bra om ego men lite konkreta resultat man kan räkna med eller verifiera medan informationsteorin utvecklad under 1960-talet nådde oerhört långt jämfört med var den stor idag).

Datakvalitet inom lingvistik

The Specialist

Varande en korrekt team-player som bjuder till när en aktör som National Institute of Health skapar och fritt-delar en till excellent datasamling för språkanalys har jag i del två ovan letat upp några fel. Dessutom som en amerikanskt myndighet borde gilla stimulerar jag ju det amerikanska företaget Google's business genom att uppmuntra NIH till att använda Google Translate så att de upptäcker defekten såväl som några jag antagligen postat tidigare genom åren. En poäng för mig postande sådant här också är att jag är lite i det lilla intresserad av att notera något kring dom nya versionerna att ha kvar "loggat" så att säga så jag kan följa ungefärlig utveckling. Så mycket ambitiöst tidigt klingar gärna av vilket man vill så några år innan de helt lägger ner uppdatering. Dessutom är det typisk aktör som ger auto-genererade svar vilket jag inte ids hålla på med. De får nöja sig med att jag marknadsfört dem av och till mot svenska folket (vilket faktiskt är viktigt för dem: Budget numera tenderar att ibland vara scarce fodrande insatser att motivera nya koncept adderande till tidigare stöd).

Emotionell polaritet kan auto-skapat ge inkorrekta bias långt in i det socialt problematiska

Möjligt i dagarna ska jag dessutom posta en bunt underligheter - ej icke-typiska - för auto-tränat emotionellt data diverse aktörer genererar fram utan att läsa igenom det. Fascinerande i att feltänk kring vad de utgick från tidigt skapade en mängd koncept resp. koncept ej med vilket tillsammans gav en tämligen ett rasistiskt bias (bl.a. vilket är jätte-vanligt därför att man laborerar med väldigt små-corpus: För sådant här ska man göra stort. Genererande emotionell intensitet körde jag mot abnorma mängder data - inte några 100 MB eller vad det kan vara reviews från nätet utan flera tera-byte artiklar inom flera grupper för att få representativt data: Då slipper man att det vita amerikanska folket verkar mer rasistiskt än vad det faktiskt är). Så mycket mer där också. Det är svårt att komma ifrån att man behöver gå igenom allt man genererar upp manuellt. Och just denna - och om jag inte blandar samman den här - också använd sekundär i annan forskning av andra personer - havande så ovanligt mycket av just sådant här.

Efter en tio skärdumpar av diverse bl.a. runt det svarta och vita mänskliga lade jag den ifrån mig. Ej för jämförelse detekterande fel jag har i polaritet vad jag kände att jag ides med att handkontrollera (det har värde att handkontrollera annat faktiskt delvis därför att man alltid missar fel vidare därför att dessa system vanligen - eller alltid - är väldigt få med ganska få fler än ett par tusen kanske med den lite större externa jag sett havande cirka 10 - 12 000 koncept genererade via Amazon's mechnial-turk för enklare mätning på personer (som kvalitativt ligger kanske i mitten eller något under jämfört med kortare motsvarigheter jag gissar just varande kortare kanske handkontrollerades bättre).

Och det handlar verkligen inte i datat att bias är korrekt: Jag vet.

Fler emotionella problem associerade data från personer skapande emotionella kategori- och vikt-system

Ska man diskutera problem med dessa är ett till område jag själv delvis är för fallen till att ej hantera ut adverb och adjektiv separat (för min del är det nära nog förändrat nu): Man vinner på det vilket jag annat ända sedan jag läste Osgoods-arbeten från några år sedan. En av flera värden det ger är att man kan vara trygg i att eventuell "riktnings-preferens" man tillskriver ett adjektiv med en polaritets-indikation faktiskt håller (varande möjligen ej ett noun som resonerande riktning ej behöver vara funktionellt givande förväntad polaritet) samt även temporala-stabilitetsindikation hos adjektiven jag ej är säker riktigt håller på noun alltid när de också förekommer som adjektiv (d.v.s. adjektiv:ed som effekt av händelse, adjektiv:ing som en mer pågående polaritets-dynamik kanske i aktuell discourse o.s.v. upp till mest stabilt en tillskriven egenskap hos något Hans big weakness is that he cares to much about his readers / The weak Hans couldn't any longer as in his younger years lift the small Opel Cadet..

Dessutom - vilket jag ej provat - kan det vara möjligt att förutom mer frekvent omräkning av emotionell intensitet hos adjektiven (varande viktigare för att etablera bra värden på emotionell intensitet hos egentligen viktigare koncept som forskningsområden, företag m.m.) mycket möjligt göra det snabbare än när man gör det allmänt för alla koncept och ord detekterade som projektion av aktuella kontext är möjligt mot (om jag inte tänker fel: Jag hör verkligen till dom som behöver pröva sådant och prov-räkna i något eller några av praktiska användningsområdena såväl som manuellt titta på värden och områden jag är van att hålla ett öga på innan jag stabilt riktigt vet).

Att våga acceptera en moralisk och etisk risk för att försvara feminismen med min manliga dådkraft

Mindre korrekt för egen del har jag förövrigt tillsvidare tagit bort cirka 10 indikerade polaritets-koncept rörande bl.a. det "gender-politiska" även om de argumenterat korrekt kanske ska vara där de hamnande (bl.a. strong kategori): Det var väl som en ev. tillfällig åtgärd (jag ska följa upp det lite i data och kontrollera korrektheten djupare) inte 100% motiverat av övertygelse och moral utan mer en bild av någon kommande pinsamhet eller problematiskt kundkontakt rörande något kvinnlig marknadschef som inte alls tycker att ett par manliga relaterade koncept ensamma utan motsvarande kvinnligt bör ge mer boostade värden än när hon och andra kvinnor skriver det.

Generellt är det antagligen för särskilda svårbalanserade fall vad man lägger i konfiguration diskuterande dem i tillhörande böcker. Jag vill hur som helst varken rörande det gender-politiska, etniska-grupper eller dylikt ha några preferens-indikationer jag inte följt upp verkligen är korrekta från data och om så ha kontroll över dem dokumenterat. Det finns så mycket i egenheter i data där något område kan ha samplats mindre balanserat i egenheter svåra att övergripande innan se (som att vissa koncept används abnormt mycket en tidsperiod: Likt diverse idag föga accepterade benämningar på afro-amerikaner längre tillbaka inom sociologi, psykologi och politisk-forskning.

Hans skämtar: Självklart med undantag av grekerna där jag manuellt lade till lite negativt. Men herregud: Vi kan ju alla tänkas semestra där åren som kommer och någon dryg uppblåst bartender som byggts på sig less-service-mind efter att ha vunnit över EU är då inte vad jag vill behöva uppleva. Man vill ha dem motiverade - lite hungriga av alla skulder - såväl som submissive havande lärt sig att de betett sig i alla dom här åren och behöver göra bot med snabb service serverande billiga drinkar.

Undangömt - kanske skumma - Black-op data hos Missouri State University

Andra förklaringar än den jag gav kanske är tänkbara. Samtidigt när de så uppenbart generellt prioriterat webben och indikerar att man verkligen är kvalitetsmedveten måste man i all rimlighet kunna ta dem på allvar. Och det gör min förklaring att man mer lokaliserat försöker mörka kvalitetsproblem mycket tänkbar:

Det är ju också tråkigt för alla besökare att ödsla tid på att försöka reda ut varför filerna inte laddat ner. Och kanske behöva kasta bort tid med någon halv-management på pressavdelningen som knappt vet vilka grupper av forskare och institutioner man har (och jag vet: Havande skrivet många år om forskning i media har jag en god generell känsla av hur kontakt kring sådant här går till - Rapp och korrekt respons med lösning på rimlig tid inom några dagar gäller endast yngre forskare som precis publicerat något viktigt inför deras kommande fortsatta karriär: Annars är det slött, förvirrat med diverse personer som vet ingenting).

Och här tycker jag att det luktar lite. När data försvinner från diverse EU-finansierade projekt involverade ex. tyska-forskare (låtande sidor, arkiv m.m. dö bort projekt-levererar man enligt finansierings-villkor ska publicera) gäller snarast det omvända: Då vet man att det fanns något kanske praktiskt bra i datat. När amerikanerna som är mycket mer medvetna om betydelsen delande av studier såväl som data växt till de sista åren försvinner med sitt data är det ingenting som har riktigt värde i nivå med annat senare eller har problem.

Likväl vill jag se datat och om inte har jag förhoppning om ett konstant evigt problem man av och till kan använda som ex. rörande diverse företeelser. Något som annars ofta rörande IT-företag som bl.a. Google, Microsoft, IBM m.fl. blivit svårt sista åren där problem man ser möjlighet att få redaktionell-nytta av många år korrigeras sjukligt-otrevligt snabbt. Ibland inom timmar tänkbart p.g.a. av data mining de gör på webben.

Visst värde finns väl i att saker korrigeras men jag gillar också att ha lite problem hos stora aktörer att dra upp av och till genom åren. Utan att rationalisera varför så gillar det helt enkelt: Visar vem som egentligen är eller i alla fall borde vara The Big Dog.

Ett harmlöst nöje man förnekas p.g.a. av en dryga över-motiverade go-getters ska visa sig duktiga. Kanske bra för dom kan man tro: Men jag har alltid förr haft en känsla av att när det slutligen går upp för aktörer att de haft ett väsentligt problem som blivit som implicit känt över åren och folk haft roligt åt är moraliskt uppbyggligt för dem. Lär dem att kvalitet är viktigt och ska prioriteras något dessa över-aktiverade IT-företag går miste om.

Eller ärliga mindre cyniskt-komiskt är jag ganska imponerad. Det är inte om man gör automatiserad detektion av sådant bredare på webben (andra förklaring kanske också finns: Några av dessa har en hel del folk surfande åt dem. För Sverige blev det första för bra många år sedan två stycken åt Google medan det numera antagligen är fler (jag följer inte Google's organisation egentligen - och ej heller då rörande sådana positioner även om jag av och till följt rekrytering resp. folk som gått nära teknik resp. marknadspositioner högre upp). Och på engelska webben är de ganska många. Så förutom att följa upp kvalitet och kanske oftare att Adsense-partners följer riktlinjerna kan de ju också kanske ha i uppgift att hålla ett öga på vad folk är missnöjda med rörande Google. Medan det är för ett annat ej i listan indikerat också större IT-företag - och inte helt otroligt egentligen också Microsoft där jag i alla fall förr hade en hel del kontakt med ganska många arbetande i så fall Sverige som i Palo Alto även om de senare nog är pensionerade ny med tämligen generations-skiftad central press-organisation - är ganska troligt att de satt bevakning på att få meddelande om när jag skriver om dem) inte 100% trivialt.

Missouri State University har jag dock en fin känsla av att få ha flera år som kvalitetsproblems-exempel. Inte otroligt ska jag för att garantera att jag inte obalanserat är elak mot dum se till att mer bredare titta över data de publicerar, kanske referens-nätverk runt artiklar, finansierade forskningsprojekt m.m. Mycket troligt visar det sig att det är en gedigen bra aktör där problemet jag såg här var ett undantag kanske bara p.g.a. en IT-defekt. I så fall ska jag självklart dela det. Kanske kan bli något återkommande ett par gånger per kvartal att surfa runt och titta över vad de pysslar med när jag känner emotionellt-behov av att göra något bra för universitetsvärden.

Ibland kan jag känna mig som liten och osäker (jag tror det är ganska normalt): Att göra något engagerat bra för världen tycker jag kan hjälpa bra och särskilt som i Missouri State University: Varför inte publicera kvalitetsproblemen mer än bara ta bort data? (2015-05-12) våga ta dom komplexa och svåra men problematiska frågorna rätt in i "särskilda" kvalitetsproblem.

Det får mig att känna mig lugn och stark minst flera veckor ibland många månader när man riktigt fått möjlighet att trycka till något litet skit kvalitetsfel som tror sig vara för stor i annan kvalitet för att någon ska slå till felet rätt på näsbenet. Sedan jag skrev inlägget om Missouri State University har jag verkligen känt mig stark och kraftfullt uppåt: Dådkraftig. Ett bra tips för alla läsare om ni känner är svaga, osäkra eller trötta! Piggar verkligen upp.

Jag vill dock säga att även om jag valde att prioritera Missouri State University för att göra något bra för världen och samtidigt stärka upp mig själv gäller för tidigare refererade The Specialist och felet jag pekade på där att inte alls samma sak. Deras data är nära nog felfritt på nivåer ej jämförbart med något rörande språk. Allt rörande språk som kommit från National Institut of Health (kanske formad av den medicinska mer noggranna traditionen rörande data kontakt med myndigheter) är kvaliteten i mening av korrekt och precis helt lösa just de problem man avgränsat sig till i resp. delat (om än ingenting i övrigt vilket jag gillar: Hellre fullständiga kvalitetsmässiga föredömliga lösningar rörande det primära än små-delar kring annat som aldrig gjorts klart ej har sämre datakvalitet huggande en i ryggen om man bedömer kvalitet från det annars mer primära). Om något alls luktar sämre i National Institut of Health (som möjligen en del kanske mindre än nödvändigt dyra processer rörande godkännande av läkemedel) är det ingenting relaterat data de delar rörande lingvistik och deras ontologer.