Visar inlägg med etikett Lingvistik. Visa alla inlägg
Visar inlägg med etikett Lingvistik. Visa alla inlägg

Ingen invändning visade sig vara att komma göra

2018-01-24
Vad är nu negationen av invändning? Avsaknaden av invändning eller att man håller med?

Och hör jag ingen invändning kan det vara från att invändning finns med den var ej värd besväret att tala, att vi ej hört invändning men har sökt den, till att upp till ett tydligt med-hållande fanns.

Sedan kan man självklart göra uttryck som bär mer av efectos especiales - specialeffekter - så som att två sina händer inför publik, göra sken argumentation med dem o.s.v. Ett av kännetecknet för spännande tider.

Konceptet död-mans hand delar något av naturen hos ingen invändning. En aktiv levande invändning krävs för att vi ej ska göra. Lite som terrorbalansen förutom att man ej behöver bry sig i några konsekvenser för egen del när man definierar payload.

Självorganiserade kartor: We have just folded space from Ix... Many machines on Ix.

2016-07-29

Grundalgoritm (en anpassning av Kohonens självorganiserade kort) hittas via SOM med grundtänk i Att bygga den relativa korrelationen (den icke-linjära komponenter) under träning av självorganiserade kartor. Den problematik (eller kanske möjlighet) relaterad SEO diskuterad senare berörs kort där och har även kommenterats vidare i ett par till inlägg i SOM-kategorin (första länken, och bl.a. det kryptografi- och IDS-relaterade inlägget).


Ett alternativt - i riktighet beroende av hur vi har fördel att betrakta resonerande - sätt att se på den icke-linjära komponenten i SOM-algoritmen diskuterad i Att bygga den relativa korrelationen (den icke-linjära komponenter) under träning av självorganiserade kartor (med utgångspunkt bl.a. PCA - och även om jag kommit att förstå att många använder grund-algoritmen data-dumt på nivå att man ej naturligt får ut ex. bra representationer bilder - tvärtom ännu mer udda är det ganska vanligt med standard-applikationer att skapa helt topologiskt obegripliga representationer av ämnen - gäller att det är i den visuella enkla skepnaden vi enklast förstår såväl organisationen övergripande via inte minst meningsfullheten i distansen mellan tränade tillstånd, förändringen mellan tränade tillstånd lokalt, och när applicerat - och delvis tränat - på många skepnader ritade eller fotograferade av objektet det gemensamma i helheten som gör ex. klassificering såväl görlig som förvånande snabb när just det mest "talande" organisation och delarnas förändring sammanfattats ner) är att se vad som uttrycks (uttrycks därför att det ej är givet att vi behöver se det uttryckt för att detta ska existera lika riktigt) i vad populärt bland "tillämpade matematiker" (inkluderande fysiker, vissa datavetare m.m.) önskas se som bas-algoritmen i Kohonen-nät viker rymden (ex. Topology Preservation in Self-Organizing Maps, K Kiviluoto - 1995 - cis.legacy.ics.tkk.fi).


Praktiskt vad jag tycker vi beskriver som ett "avbrott" i hos annars förväntad "rakhet" (avbrott och rakhet tycker jag läsaren kan förstå som ett uttryck för den folkliga svenskhet jag tycker är mycket viktigare än den matematiska subkulturens senaste buzz-word för egentligen samma sak vi svärdat och kolmilat i Sverige sedan vikingatidens enforced-trading utan en massa onödigt strunt må det vara EU eller särskilda ord för hur vi hugger huvudet av problemet så länge det dör, kvinnorna beundras av metoden och munken har något av data-värde - skattkarta? - envorded out innan "terminated" att ta med sig). Något jag tror mina läsare jag genom åren förstått har mycket sämre ordförråd än jag har uppskattar ) i en topologi där en distans som uttrycks också blir en distans som är "rak" linje. D.v.s. avbrott där distansen säg mellan position 1 och 2 och 3 är lokalt sorterad riktigt men vi kan ha distanserat utanför det omedelbara lokala som avviker i att närhet till position kan skilja sig från positionen omedelbart bredvid där brytande topologi (om jag nu rätt uttrycker i ord vad jag praktiskt får ut i tabeller). Givetvis utan annan särskilj hantering än att träna mot närmaste är det ytterst rimligt att detta med slumpmässigt initierade vektorer ej uttrycker något i indata högre-dimensionellt men rätt gjort gör de det. Meningsfull distans existerar likväl men i värld med fler dimensioner än vi laborerar med direkt i tillståndens ordning.


Just begreppet av att se det veckat känns ej naturligt för mig. Hellre känns det närmare tillhands för mig att se det från några vanliga begrepp möjliga räkna på under träningen.


1. Sannolikhet, mängd, exakthet, och fler nära besläktade koncept för en arketypisk ex. ordtyp. Lokalt för mängden av dessa ord (enklast beskrivande med alla ord lika sannolika) kan vi hanterande grannskap få dem sorterade uttryckande linjärt exaktheten bestämning till närmaste dimension ger oss. D.v.s. här ligger också en koppling mellan sannolikhet att dra resp. träningsdata och exaktheten. Såväl som "andelen tränade" tillstånd vi träffar i mening av likheten till resp. med ett ord när tillstånden tränats färdigt till ordets globala allmänna sannolikhet (om det nu var denna sannolikhet som utnyttjades under träning: Havande själv ordentligt stor statistik sannolikhet är en faktor mer påverkande när tydligt den exakthet jag önskar för olika koncept-typer - Praktiskt egentligen nästan helt ingrepp av typen att se till att enorma mängder personer förekommande offentliga corpus ej för alla system som tränas upp ockuperar överdrivet många tillstånd).


2. Komplexiteten från en kanske egentligen utopisk eller lokalt praktiskt för en tillämpning för enklast en typ av ord till hur det via uttrycken språk i corpus till för de samplings-vektorer (säg via HAL, eller gruppen LDA-lamda-eigen-value-linje-skattningar-algoritmer) och slutligen möjlighet funktion beräkning distans.


Ett upplevt av typisk person komplext ex. ämne kan mycket väl ha låg komplexitet - lätt att sampla och ger mycket korrekta representationer hela vägen - vilket är fallet inte minst för medicinska områden (jag ser detta såväl egna corpus från bl.a. medicinska journaler, ontologier (inkl. biologi) som GO m.m., och referensböcker, såväl som också några färdiga vektor distributioner jag prövat: Men emedan jag vet att det går relativt bra att utnyttja Wikipedia corpus åtminstone efterföljande deras kvalitetsprojekt medicin med sampling journaler, ontologier o.s.v. har jag även noterat en hel kvalitetsproblem i halvfabrikatet Yago såväl som - kanske del-förklaring Yago-problem - Wordnet där också den senare har en viss ytlighet som heller inte motsvarar en funktionell ytlighet i mening likt en vanlig persons ytlighet jämfört med en specialist som håller sig uppdaterad ny forskning).


Hög komplexitet gäller emellertid bl.a. allt gambling relaterat när utgångspunkt är internet-corpus p.g.a. SEO. Trots nästan pinsam nedsmittning egentligen alla färdiga distributioner jag tittat på oavsett typ (inkl. två från ett par sökmotor-aktörer: Emellertid vet jag föga om koppling till praktiska sökresultat där lika lite som jag ser någon koppling här till vad man diskuterat när publicerande artiklar d.v.s. det kanske inte är vad man brytt sig i eller heller ev. är vad man vill korrigera för och därmed bäst för att ej verka ytlig i artikeln avstå från att diskutera ordentligt) är det ej svårt att hantera oavsett utgångsdata eller som jag hellre över-tiden vill betrakta detta hörande till operationer som ej hanteras indata eller tidiga steg utan efter att de första ordvektorerna skapats (vilket ev. kan upplevas lite svårare att göra om ej någonsin tränat dem vidare till ex. SOM-representationer där man får en representation enklare att förstå via en mer "begripligt sorterad" natur). Att ha samplat en av sökmotorernas sökresultat (egentligen många - ett tag närmast ätande sådant data lite tvångsmässigt - fler men en av the big dit vi ej skulle räkna ex. Lycos och jämförbart) medan den fortfarande hade ordentligt med spam-lokaliteter har jag också vissa kvantifieringar av hur det kan se ut (vilket mer är vad upplevde naturligt att använda hitta mönster snarare än direkt till någon sannolikhets-driven-funktion förekomst kombinationer även om mängden associerade ämnes-gruppen är vad som enkelt översätter tid eller beräkning att investera så är det i övrigt ej ovanligt vilka kombinationer som helst relevanta eller ej så).


I kontrast kan man dock bara manuellt surfa normalt av och till detektera egenheter utan tvivel relaterade viss abnormitet i vektor-representationer koncept. Jag har givit några exempel sista åren av och till och även om jag kanske inte uttryckte det ämnes-specifikt här så beskrev jag dem tämligen noga och åtminstone för en där jag upplevde att den stora valen införde något nytt jag upplevde likhet från till vissa diskussioner publicerade av en av deras experter med några uppföljningar upp till kanske 1.5 år (när jag råkade på rest-effekter fortfarande: Har ej reagerat därefter på länge så troligen inarbetat nu). Området här i perspektiv konvertering av sökmotortrafik ligger givet förutsättningar givet ett enormt internet-corpus att detektera problematik indatat föregripande träning mer i att detektera existerande promiskuösa kombinationer av ord för normalt (tar jag som givet här men har ej gjort mer än så) topic en lokaliserad avgränsning exakt som eller jämförbart hanterad med en sida på en sajt i ämne självklar relativt omgivning sajt p.s.s. som en Wikipedia-sida och mindre topic-styrd som för nyheter d.v.s. jämförbart med det lokala kontext som title och / eller kategorierna (utlänkar sida till dessa) ger för övergripande tolkning topic, medan jag är mer osäker hur motsvarande inlänkar mellan sidor på sajten påverkar här.


Flera algoritmer skapande ordvektorerna blir promiskuösa i likhet till andra ord av spam påverkad sampling. Ej olikt (delvis med säkerhet relaterat auto-skapat innehåll ex. där det går att skriva till, ändra, eller skapa sidor, något på internet där ord-uppräkning kan förekomma jämförbart) samma promiskuösa egenskap diskuterad med ex. svampar påverkade av vissa typer av Wikipedia-sidor (ej 100% att svamp-exemplen kom från dem eller dessa ev. var vad jag bedömde hade historik internet sample från stora biologiska art-organisations-sajter ev. för dessa något auto-skapat mot robot tänkbart eller om det var något annat likartat jag sökte orsaken till) diskuterat tidigare i Att bygga den relativa korrelationen (den icke-linjära komponenter) under träning av självorganiserade kartor (se även första stycke detta inlägg).


Tänkbart gäller här att speciell kunskap jag hade innan gav mycket större förutsättningar att detektera och hantera problemet. Det är föga om alls detekterat när representationer publiceras eller algoritmer diskuteras. Och ännu har jag ej sett att hantering publicerats. Just att expandera runt ord innan ej existerande efterföljande från skapade vektorer andra ord man vet förekommer med okänt ord är tror jag den närmaste för något funktionella operationer som kommer närmast att beskriva den skada som mer SEO-text-uppradande sample orsakar (medelvärde av för brett område och trots normalt tämligen promiskuöst språk när SEO-text ger skadande indata vilket ej alltid gäller viss meningsfullhet i kombinationerna resulterande i ett fält som kan visa likhet med allt möjligt). Trivial operation ibland användbar inom allt möjligt att subtrahera bort vektorer från vektorer, eller resp. "medelvärden" av dem, är helt icke-funktionellt för alla typer av representationer jag sett. Däremot under organisation vidare där såväl linjära-egenskaper som icke-linjära utnyttjas går det desto enklare (även om visst mått av helt annat data ej i vektorerna för SEO troligen underlättar väldigt: Liksom viss erfarenhet av hela SEO-affären):


Och med den diskussionen önskade jag uttrycka att komplexiteten ligger i försvarlig andel mer i vad vi kanske korrekt kallar för den algoritmiska komplexiteten träning resp. tillämpning. Medan åtminstone för ord och flergram-koncept komplexitet data i mening av svårighet att få det vettigt sorterat m.m. när vettigt indata finns egentligen ej varierar i magnitud i sammanhang av samlat tämligen tidsödande träning när vi laborerar språk allmänt med några miljoner eller fler koncept. Det kan kräva många fler av samma grundläggande operation men antalet operationer samlat är ändå väldigt väldigt många.


Slutligen ligger emellertid en fråga vi kanske ska sortera med komplexitet när det kommer till kunskap som uttrycker upparbetat värde som är komplext att skapa men som naturligt språk dåligt levererar samma värde för. Ex. ontologier över expertområden (DNA, arter, kemi, politik, geografi o.s.v. Mängder av exempel på sådana system hittas genom åren bakåt från när jag byggde Bluelight från många tusen - snarare tiotusentals när thesaurus, stora system av kategorier m.m. räknas in - sådana där viktiga eller intressanta diskuterades av och till). Enormt kompletterande värde ges när man börjar med samma ordvektorer och för koncept gör representation SOM från ex. orden i namnet och samutnyttjar det med SOM som skapas upp från relationerna till konceptet i ontologin (för mig Bluelight). Övergripande förståelse är för språk uttryckt i text (betrakta gärna ämnes-komplexitet krav läsare i nivå med vad som kräver hög grundkunskap för att vara begripligt att läsa) förväntad hos läsaren och adderar när gjord explicit (i för mig approximation som beskrivit) ibland enormt större beskrivning och exakthet jämförelser och rangordning.


Metoder som för in hierarkier eller uttrycker sense, kategorier m.m. för entiteter hittad i en text prövade jag ej. De känns problematiska genom att de adderar för sammanhanget onödig beräkningskostnad hanterade varje stycke indata. Vektorrepresentationerna i resp. steg klarar att hålla nog information i resultatet för ex. aspekter som sense finns med där och utnyttjande slutligen ex. för mig SOM-representationerna kan de tas ut där som önskat. Grundkonceptet utnyttjade jag dock för flera år sedan för prediktion nyhetsämnen (som ex. via exakt vad svårt eller omöjligt att bedöma görlig tid väderfenomen resulterande i omfattande skada någon del av östra USA och ej enormt utsträckt fenomen som detekterats på väg utan jag var helt ställd vad som i någon kombination av nyheterna i data som givit prediktionen vilket spoked med för ända gången någonsin relaterat dataanalys, datorer o.s.v. - en del mer fredliga demokrati-protester från mer begripliga ämnen månaderna föregripande m.m. - och om jag minns rätt här med en luddig tid ungefär normalfördelad med femte dagen framåt i tiden som topp och nere väldigt lågt fem dagar därefter - och om ej så ej givande alls korrekt prediktion för något styrd av metoden förändrande indatat i nyheter indikerad) genom att för varje koncept (fler-gram) förekommande i varje nyhet expandera det med alla dess relationer i Bluelight förutom konceptet själv d.v.s. för aktuell-version Bluelight (ej inkluderande annat än fåtal - upp till tiotusen kanske - personer, och ej småorter bromsande en bit ovanför kanske ej långt under 1/2 miljon personer om ej känd ort av andra orsaker) 20 upp till några tusen relationer (länder var för denna version ej lika gigantiska som de är idag). Mycket kostsam metod för mina dataresurser oavsett hur egentligen trivial. Interferens ges när stabilt nät representerande samlad vetskap från bl.a. samma koncept och deras BL-relationer (såväl som andra typer av relationer som samförekomst under olika tidsperspektiv bakåt upparbetat för systemet externa system) får statistiska värden av nyheterna uppbearbetande per för mig varje dygn (och görande väder-prediktionen med liknande efterföljande försökande demonstrerande för mig själv att den var en slump - stör mig fortfarande idag flera gånger per år när något får mig att tänka på det: Jag kände inte att världen ska fungera så här att det är bortom mig att se vad som indikerar det i fullt läsbara för människa skrivna nyheter ännu lite underligare eller i alla fall indikerande något om tids-komponentens exakthet ej fullt korrekt hanterande tidszonerna från RSS-sampling nyhetssajter: Faktiskt hälften av tester kastades all information förutom datumet d.v.s. ej räknande om till samma faktiska datum - Ingen sampling mot väderprognoser alls heller utan stora nyhetssajter cirka 10 000 - 15 000 motsvarande tidningar runt om i världen plus cirka 100 000 andra RSS-producerande lite tyngre sajter med ej intelligent då hantering fel-uttryck, om resp. nyhet ges i sin helhet eller sammandrag, om reklam eller motsvarande stoppats in). För löpande nyhetshändelser (ex. för en längre hela dynamiken för Arabiska våren, Sydsudan-konflikterna ej inkluderande sista två åren m.m.) ger som förväntat viss skattning framåt i tiden om än naturligt som vi vill ha världen påverkat av sådant som att en stridande part försöker överraska sin fiende vilket är oftare passerar förbi som en förändring intensitet m.m. ej förutsätt korrekt.


För resp. expansion gjordes ingen föregripande sense-bestämning för försöken ovan (även om jag gör det ibland annars). Däremot skedde det implicit i mening av att inget sense eller motsvarande någonsin antas ej gälla eller verka men att hela texten sammantaget (och ev. underliggande rubriker och stycken: Minns ej hur jag gjorde exemplet vilket var nu många år sedan. För optimerad snabb bearbetning nyheter kan det vara vettigt att göra bearbetning titel, ingress och ev. kategorier eller liknande, medan något likt en Wikipedia-sida kan vinna oerhört på djup analys med hänsyn organisation av sidan) bygger ett uttryck för interferens där implicit en skattning sense ligger (vi skulle åtminstone under antagande ett hanterbart sense resp. koncept - en del koncept kan ha relationer vilka ej uttrycker ännu alla sense eller kunskaps-områden konceptet förekommer i - för nyheten, samt om endast en representation utan hänsyn nyhetens organisation görs kan förvisso resp. sense uttryckas men ej vilket uttryck i nyheten det handlar om) möjlig att räkna fram från den (eller när önskat bättre räkna jämförbart men exaktare och snabbare direkt om samma typ av grundmetod ska användas). D.v.s. förekomsten av relationer samlat där gemensamma mönster uttrycks kan indikera sådant som att ett ämne är troligare än ett annat. Trivial algoritmen mest omedelbar (men tämligen begränsad om än ganska snabb) är att betrakta koncept förekommande samman i nyheten och p.s.s. relationerna samman nyheten, kombinerat statistik lokal detta (ex. hela nyheten och/eller lokalt stycken, rubriker m.m.) med global stabil statistik (ex. internet-corpus), med tidslokaliserad system-global-statistik, och som jag gjorde det ej begränsande detta till frekvens och sannolikhet utan utnyttjande vid tiden tror jag 15 - 25 st viktsystem (bl.a. systemet som föregrep emotionell intensitet (inkl. det isomorfologiska viktsystemet jag här använde parallellt EMI: Ev. finns den här och om inte publicerad annan plats), tidig version bluelight intensitet / BLI ett av några exempel värden publicerade i samband med nya beräkningar vikter), några entropi-vikter, "flödes-hastighet" lokalt i tiden (några dagar, en vecka, månad och sist kvartal) rörande hur ordet växer eller minskar i ytan över de koncept det förekommer med i nyheter.

Att skapa distribuerade vektorer för flergram koncept från distribuerade vektorer för ord

2016-07-11

Detta är ett arbete ej helt slutfört för mig så för nu avgränsar jag till några intressanta egenskaper.


Poängen med att utgå från distribuerade vektorer ord är effektiviteten. De blir relativt begränsade i antalet: För mig cirka 500 000 ord medan bara givna flergrams-koncept jag hanterar som kända är närmare 3.5 miljoner. P.s.s. lättare att sampla. Vidare om begränsningar detta innebär kontra flergrams-koncept kan hanteras går det att se som en väl separerad datatyp med föga avancerad inverkan ej nödvändig om bättre tillgängliga alternativ externt kommer att göra själv.


Vi vill därför se ordrepresentationen som given konstant under längre tid medan det är önskvärt för flergrams-koncepten att kunna kontinuerligt räkna dem från ex. varje dags data (efter viss grundkörning).


För vektorkvantifiering (där jag använder en egen variant med första utgångspunkt SOM / Kohoonen men för att fungera bra för 3.5 miljoner grund-koncept under förträning resp. diverse obestämt större mängder title-headings). I princip har vi tre enkla sätt att skapa varje flergrams-koncept från ord-vektorerna avseende data vi skickar in i SOM-algoritmen (andra varianter inkluderande neuronnät, träning av diverse vikter m.m. finns publicerade varav viss vikthantering kan ge något värde även om själva den efterföljande processen ersätter mycket av behovet - huvudsakligen för mig viss förståelse av konceptens uppbyggnad snarare än träning ex. mönster i Wikipedia-kategorier för snabb-parsning: Persons from Sweden born 1811 ... EVENT ... o.s.v.):


1. För flergrams-koncept naturligt bestående av avgränsande "noun-topics" är det mycket rakt på sak att addera ord-vektorerna för efterföljande normalisering. Blandning i underliggande samplings-värde kan ge störningar. Med de vanligaste algoritmerna för att skapa ord-vektorerna kan låg-samplade ord tendera att uttrycka högre snarare än lägre likhet ej avspeglande nivå osäkerhet i data (vilket ej känns praktiskt att försöka lösa genom viktning sannolikhet: snarare medvetenhet om risken så att sämre data ej propageras).


2. Vi kan vidare kombinera i vad jag kallat min datatyp för som korrelation. Tänker vi oss ett koncept bestående av två ord kan vi reducera resp. ords förmåga att föra vidare nivå på information uttryckt över resp. position i vektorn utifrån nivån av det andra ordet på samma. Det går att göra mycket funktionella varianter här som kombinerar positionerna med övriga dimensioner i tur och ordning och summerar det hela (diverse standard-koncept från linjäralgebra visar sig här - för första gången efter mer än 20 år tror jag direkt motsvara en algoritm såväl vara vad jag eftersökte i den samma kursboken).


Emellertid är de slöa och för de vanligaste typerna av distribuerade ordvektorer adderar här tycks det för mig föga värde jämfört med att göra det samma endast position mot position. Operationen i sig här via multiplikation är ensam ganska begränsad. Dess värde är det samma som när vi beräknar likhet med cosinus-similarity (d.v.s. co-correlation skattat som kvadraten) medan begränsningen är att det i sig ej bra fångar mängden information vi vill att den ska begränsa meningsfullt formad till det del-orden tillsammans mer har tillsammans.


Man kan uppleva att behovet av det övriga värdet är vad man enkelt ska hitta några enkla standard-funktioner i relevanta artiklar att testa. Emellertid är mycket publicerat snarare mot andra användningsområden än vi söker här bl.a. med stort fokus träna enskilda konstanter eller definiera operatorer för sådant som adjektiv-noun operationer krävande att dyrare matriser skapas upp (samma problem som min första variant: långsamt). Att se den summerade ej normaliserade utsträckningen av orden som hela rymden att styckvis begränsas av multiplikationen med när genomfört normalisering fungerar emellertid utmärkt för att skapa denna typ av indata till algoritmen (är det snarare slut-resultatet kanske man vinner en del på att introducera tränade konstanter i summeringen eller någon annan operation än multiplikation där jag förövrigt prövade van vid det från en massa annat man gör på data utan särskild teori att beräkna co-variansen på vektorernas positioner vilket fungerar något lite bättre men ej nog motiverat utökad kostnaden: Lite samma sak inser).


( x(i) * y(i) ) * ( K1(i) * x(i) + K1(i) * y(i) )


En udda variant jag ej använde skarpt men prövade på testfallen är att ta endast multiplikationen och förflytta den till samma storleksordning som indata. För två-gram att ta roten-ur resultatet. Indata sträcker sig [-1, 1] för mina vektorer vilket kan hanteras ex. via polära-koordinater (om vi ej bara flyttar ut minustecknet vilket är ej helt fel men ej seriöst jämfört lika lite som övrigt i denna variant med övriga metoder) som ju är ofta använda inom bl.a. elektricitet-fysik och dylikt där man kan återupptäcka en mängd räkna-exempel på vektor-fält m.m. medan man söker lämplig funktion för detta.


3. Ordvektorerna direkt. Vi kommer inse lättare i andra steget under själva träningen att detta såväl fungerar som uttrycker något önskvärt kompletterande resp. övrig metod för att ej (riskera skriver jag för att gardera mig mot att kanske ha fel) tappa information.


4. Representationer skapade från de relationer resp. flergram har med andra ord. Jag har här min vetskap om dessa samlade i min större datatyp Bluelight med tror jag några hundra miljoner förstådda relationer för nuvarande använd version här ca 3.5 miljoner flergram. Förstådda i mening generellt som att relationer är upparbetade från organiserat data d.v.s. ex. kategori-system, thesaurus m.m. (många tusen sådana), Wikipedia, journaler o.s.v. samt att brutal data-sampling datakällor internet har statistik samförekomst för resp. koncept i relation med varandra.


Detta höjer värdet kraftigt på ordvektorer genom att tillföra sådan information som ex. tas som given att man förstår i en text och därför ej uttrycks. Uttrycks informationen ej i texten samman med ordet ord-vektorn skapas från kommer den ej med. Mer praktiskt tydligt här i följande steg snabbar det upp såväl som ger adderad exakthet i resultatet vi får genom att relationer till koncept uttryckande ex. vad ett koncept här finns, relevanta händelse-datum (för fältslag m.m.), relevanta geo-platser o.s.v. För ett koncept likt ett land som typiskt har väldigt många och varierade relationer (kontra ex. konceptet location som är i särklass störst i antal relationer men där relationerna är mindre varierade) har vi ofta några tio tusen relationer som data samförekomst finns för.


Dessa fyra representationer där vi i varje fall efter varje beräkning in-vektor från ord-vektorerna har 400 positioner (minsta antal jag kände mig trygg med) tränas separat (jag har prövat en del andra varianter utnyttjande två tillsammans samtidigt men det är mindre effektivt och ev. ej fungerande sunt) enligt följande SOM-variant:


1. Vi önskar den topologiska organisation Kohoonen-näten ger därför att detta kan vi här använda för att få mycket mer av meningsfullt förstådda vektorer i slutresultatet (stegen efter träningen). Vi kan ta en vektor och förstå den ungefär direkt vilket gör diverse andra algoritmer utnyttjande datat enklare att utveckla och underhålla.


a. Den visuella kopplingen som är vad jag tror mer än andra värden gjort Kohoonen-näten populära ser jag föga värde med här. Istället tränar och bygger vi en meningsfullt organiserad "kurva" (kurvan ges när vi efteråt reducerar ner varje tillstånd till ett ensamt värde för ett koncept ex. via similarity och skapar den nya vektorn från dessa tillsammans i samma ordning).


b. Ofta diskuterat värde med Kohoonen är att organisationen gärna tenderar att uttrycka distributionen på datat. Emellertid tror jag att vi för denna typ av indata med försiktighet utnyttjar metoder annars vanliga i form av reduktion konstanter och grannskap kontinuerligt med epoker. Detta förenklar resonemang distributionen. Vidare när en epok nu går över ca 3.5 miljoner flergrams-koncept där förvisso grupper som hör samman finns görande tänkbara reduktioner i antal sample per epok möjliga men ej heller självklara att kvantifiera innan vi ex. gjort något motsvarande just vad vi gör är hela konceptet att reducera grannskap och träningskonstant med antal epoker tämligen esoteriskt. Det tar tid att gå igenom 3.5 miljoner koncept. Mycket funktionellt är att efter kanske viss brett grannskap några timmar tills hyggligt meningsfull sortering (geo-koncept tycks komma efter varandra, person-namn olika kultur efter varandra med ej konstig sortering skärande mot geo-närhet d.v.s. kinesiska namn med kinesiska, engelska namn med engelska o.s.v. och asiatiska namn-kulturer bredvid varandra o.s.v.) sätta det på en tydligt lägre konstant än vanligen normalt diskuterat (något relaterat antalet koncept kanske) och slumpa så gått det nu går (jag kör konstanta filer skapade slumpmässigt för ordningen men som ej skapas om alt. för en grupp fil sorterade alfabetiskt där jag slumpar antalet koncept som hoppas över medan BDB tenderar att vara för långsam för mig) så att vi ej skadar korrelation vi vill samla med mer självklar men ointressant sådan (ex. få en dimension med alla personer som har förnamn Peter) såväl som konstant grannskap.


Värdet grannskaps-spridning är förutom att se till att vi får meningsfull sortering här också att:


1. Tagande bort hela problematiken med outliers vi ofta annars får vi clustering. D.v.s. ett tillstånd initieras eller sätts via koncept avvikande mer utifrån någon bedömning för att visa sig bli ensamt. Spreading activity mellan tillstånd kommer åtminstone vid konstant grannskap och konstant tränings-konstant garantera att det ej uppkommer (om ej antalet tillstånd är samma som antal ord).


2. Tid för meningsfull konvergens eller clustering reduceras.


3. Problem lokala minimum eller förflyttning mellan två eller ett fåtal tillstånd blir lätt att hantera. Denna problematik tvivlar jag starkt på är möjligt att få på all görlig tid när så många koncept indata tränas. Men för färre samlingar ser man det ibland (ex. nyligen några tusen ord - ej flergram - relaterade information såväl information science som bibliotek och slå i böcker m.m. vi gör eller resonerar). Adderande på några fler relevanta ord under förutsättning spreading löser regelmässigt det hela utan att man tycks ta någon utökad annan kostnad i tid.


I min variant definieras grannskapet ej endast av omedelbara grannar som för de vanligare 2D Kohoonen-näten utan fallande från antal steg vi är från det tillstånd som segrade. Det är svårt att se att nivå effekt av grannskapet är särskilt känsligt (helt annorlunda från att köra några tusen ord-vektorer på 10 till 300 tillstånd: Här för koncepten används alltid 300 vektorer vilket är mitt högsta - där stor skillnad går att se) och jag har inte lätt på totalt kanske som mest följt 20 - 30 miljoner tränings-operationer se någon relevant skillnad mellan att göra grannskap enligt:


Vinnare: 1.


Närmaste granne resp. sida 0.5 eller 0.25 (ibland hanterar jag rand-tillstånden genom att beräkna distans modul antalet tillstånd men ej för dessa).


Därefter om distans är större än något tröskelvärde exempelvis för bättre prestanda 5 - 7 eller säkrare men dyrare kanske 20 - 40 steg returnerar vi 0.


Annars beräknar jag typiskt värdet med antingen 0.5 eller 0.25 delat med distansen. Det ger en ganska vettig reduktion med resp. steg. Normalfördelad reduktion d.v.s. användande en exponentiell funktion tycks populärt. Summerande reduktionerna över alla träningsoperationer bör dock normalt ge normalfördelning vid konstant träningskonstant och grannskap. Någon poäng med här större värde av att hålla nere grannskapet samtidigt som vi har en topologisk-dimension med att använda funktioner finns heller inte. Vi kan för-beräkna varje konstant och hårdkoda.


Tidigt reducerade jag normalt med 2-potenser. 1/2, 1/4, 1/8, 1/16. Men tror varianten ovan är sundare åtminstone i mening att det är lättare att se såväl som att föga samman med storlek grannskap meningsfullt (vi kan ju med resp. variant inte ha hur stort grannskap som helst och räkna med en effekt påverkande därför att pay-load efter några steg blir för låg - naturen av detta skiljer sig något från när vi istället för mer begränsat indata vi kan köra flera hundra tusen gånger).


Resp. tillstånd av de 300 segrande i mening uttryckande högst similarity enligt två algoritmer (en för samtliga utom den använda relationer som använder två) och viktigast cosinus-similarity (på normaliserade vektorer så summan av multiplikationer för resp. position) får modifiera tillståndet på vanligt sätt för alla varianter av vektor-kvantifiering (och för den delen ganska likt en den del Newtons åldrade algoritmer för att beräkna integraler).


Färdigt har vi 300 * 4 dimensioner. Framför dessa kan vi nu exempelvis träna perceptroner eller annat hebbianskt meningsfullt exempelvis om man önskar ha en beslutspunkt om ett koncept är person (vi kommer här eftersom utsträckning tillstånd avspeglar distributionen koncept ha mängder av dimensioner relaterade geografiska koncept såväl som historiska såväl som nulevande personer) genom att träna perceptronen att värdera samtliga person-dimensioner (oavsett association namn-kultur eller tid i historien, eller roll) medan övriga får föga eller 0 i vikter. Jag har ännu ej sett annat än att snabba varianter med en vikt per tillstånd snarare än igen göra motsvarande vektor-kvantifiering genom att stega de 400 dimensioner ger perfekt (0 defekta beslut över test 200 - 400 000 ord resp. cirka 80 000 två-gram koncept) resultat vilket gör denna träning fascinerande snabb jämfört med föregående steg (någon minut eller två kontra flera veckor).


Vidare har vi utgångspunkten att skapa vektor-representationerna för godtyckliga koncept. Oavsett om title-heading, ett fler-gram koncept av samma typ vi tränade på (ex. vector quantification) eller för den delen ord, får vi representationen exempelvis genom att beräkna likheten mellan indata för konceptet gjord efter vettig metod (vi är föga begränsade här så länge vi ej ogenomtänkt jämför mellan olika metoder) med varje tillstånd vilket maximalt här ger 1200 dimensioner (praktiskt lär jag reducera ner en gång till i ett sista steg men detta är ej gjort och det återstår att se hur det om så görs.


Viss dynamik träder in rörande ord kontra tydligast fler-gram koncept med representationer skapade med summerat och normaliserat. Ord som är platser kan ex. för dimension de är mest lika av och till hamna på dimensioner som egentligen för flergram kommer vara dominant begränsade till orter med tilläggs-data så som något från ort och varianter av det. Medan motsvarande problematik ej är vad jag typiskt upplever stör omvänt. Oavsett vilket vi gör - flergram till ord-tränade dimensioner eller tvärt-om - gäller dock att vi får mycket mer förståelse av vad det handlar om av att betrakta mer än just bara vinnande dimension (ord till flergram att vi har likhet över flera geo-associerade dimension men kanske ligger lågt på person-koncept förklarande ut ev. högt värde på ex. något som för fler-gram samlat koncept med personer, händelse och platser inom en stad) och för fler-gram kan vi ej utgå från att vi klarar oss med färre i utgångspunkt inför efterföljande beräkning och tolkning än vi har ord (och snarast fler än så).


Speciellt i samma kontrast är vidare att ord i träning oftare är sämre förstådda. Flergram koncept är typiskt "punkt-vetande" i större ämnen (physical chemistry inom kemi o.s.v.), entiteter så som personer, platser, varumärken, företag, organisationer, eller "punkt-vetande" positionerat i händelse, tid och rum, eller vilket ibland friare såväl som kanske oftare (men absolut ej unikt just för detta egentligen) kombinerar mellan allt sådant som är kultur-relaterat där en större andel ibland dominant så kan ligga på den abstrakta beskrivningen av något. Ord kan dock ofta ta olika roller. De kan motsvara koncept närmare entiteter eller punkter men kan ofta lika gärna användas för att beskrivna något. Vidare har vi ju operator-ord så som tydligast kanske för ex. if, the, and och or. Ordets varierade natur inte bara avspeglar aspekter av dess mening genom samtidigheten andra ord utan också omfånget och densiteten av denna.


Det är lätt idag att förstå detta omfång och densitet felaktigt när externa datakällor används. Vi värderar ju ex. tämligen unika ord men ovanliga normalt högre via sådant som inverse document frequency. Sådan användning ställer dock krav på en sund grundnivå i förståelse av det data man samplar. Jag noterade några ord-distributioner byggda externt som liksom jag själv (tills detekterat felkontrollen tämligen tidigt testande just ovanliga ord) fick enstaka problematiska ordvektorer. Orsaken ligger i ofta använda datakällan Wikipedia.

Wikipedia har förutom själva artiklarna kategorisystem resp. listor. Båda kombinerar relaterade koncept med varandra. Sådant som växter, djur m.m. Ibland abnormt ovanliga i löpande text. Kan där samförekomma med ordentligt många varierade ord i bästa fall inom ett ändå avgränsat ämne men via kategori-systemet förutom listan också av och till breda koncept i flertal såväl som bildtexter föga relevanta. Beroende på algoritm dimensions-reduktionen görs med kan detta ge mindre men märkbara problem (de två jag använda såväl mer kända LSA resp hotelling-transformationen samt i två en variant sannolikhet som utnyttjade halv-fabrikat data redan reducerat tänkt att ta externt data) eller vill jag tro (men kan ej bedöma det havande ej kört dessa algoritmer alls själv) mer för den lite nyare jag ej minns namnet på nu men tror någon medarbetare som har bluelight relationer Microsoft Research (men ej framgår om arbetat där) såväl som Google medan algoritmer har BL-relationer Google också direkt. Den finns också ofta länkad till en sida associerad Google. Jag är nästan 100% säker på att det är samma person som publicerade några artiklar med exempel på additionen och subtraktioner med ordvektorer så som kung minus man + kvinna för drottning: Mikolov är det och Google's sökförslag ger oss word2vec vilket helt säkert är namnet jag sökte och mer exakt är det kanske CBOW delen det handlar om.


Dessa ord-vektorer blir promiskuösa. Ofullständigt data ger sannolikt oftare överdriven likhet än som normalt önskvärt som princip reducerad sådan. Något av linjär-reduktion där exponentiellt snabbt fallande hade varit säkrare kanske. Finns nu något annat område man kan spekulera vi kan se samma sak? Av betydelse i mer spännande områden som big-money, cloak and dagger, och övervakning av alla jordens världsmedborgare istället för mer nördiga ord som bara förekommer som del av latinska blommor eller svamp-organismer? Det finns ingen mening som jag ser i något besläktat vad jag beskrivit här (d.v.s. koncept-vektorer - betänkt ex. namn, orter m.m. där kopplingen kultur, mening, namn och språk är uppenbar) att använda ordvektorer bara för ett språk. Utan vi utgår givetvis från ordvektorer för om inte alla språk så för ett försvarligt sample av de ej helt små (så kan man också roa sig med sådant som att köra in UWN cross-culture Wordnet (som jag sorterade den medan jag såg nu att Max-Planck ser den mer som cross-language vilket utan tvivel är korrektare) Wordnet-varianten och få namn förekommande idag i svenska, norska, danska, engelska positionerade långt före spanska m.m. när reduceras av mängden 1100-tals engelskan - inflyttnings-antal betyder allt här).


Ty ej olikt hur UWN skapats automatiskt lär sig alla möjliga maskin-intelligenser att översätta (såväl äldre som färskare algoritmer). Och ofta nog kan definition av ett ord i ett språk vara mager fullt naturlig. Eller expanderad ganska onaturligt egentligen likt våra växter och svampar. Wiktionary såväl som Wikipedia och tänker jag nog fler Wiki-projekt är fantastiska datakällor här. Och i denna domän tänker jag nog ett och annat similarity-överdrivande från samma mekanism algoritm såväl som Wiktionary-indata kan uppstå (jag hittade upp till ett tusental: själva metoden inkluderar nu manuellt tittande på rangordnade ord där man storligen begränsas av dom egna språkkunskaperna så lätt spekulerat från att mindre vanliga ord enligt mitt data olika aspekter internet d.v.s. uddare språk tenderar att vissa högre likhet än jämförbara tyska.


Vi får hoppas att muslomanerna ej utnyttjar Wiktionary's pro-stalinistiska kategori-struktur för att införa teokrati här i Sverige. I bästa fall har totalförsvaret tänkt igenom detta och krigsplacerat åtminstone ett hundratal bibliotekarier som kan gå inom svenska Wiktionary om förändring statsskick i andra mindre språkområden gör hotbilden mer aktuellt.


    Kriget var hårt men det kändes bra för alla när vi åt lunch att en av oss hade behövt slå upp ett fakta i en tryckt bok: Då vet man att det är en trovärdig kategori man stärker upp det svenskhets-mur-segmentet ordet representerar. Faktiskt fick Bosse cykla hela vägen från Boden till "sitt" länsbibliotek hemma i Flen där han mindes var boken fanns i hyllorna. "Den finns nog bara på dom gamla biblioteks-korten" sa han och cyklade iväg. Bosse's hjältedåd räddade oss alla där andra svenskars lata kontinuerliga kultur-förräderi ej skrivit ordet naturligt på flera hundra år görande sund sampling möjligt. Sådant klarar inga bibliotekarier från Stockholm vana vid buss, tunnelbana eller rent av miljöfarlig icke-kollektiv eller cykel-transport och kommunalt bredband av utan för det krävs någon formad av landsortsbibliotekets dagliga primitiva helvete för att orka.

Ett statligt kommun-bidrag säg kombinerande hanterande flykting-arbete med strids-beredskap är förslagsvis sunt så att hela Sverige med alla dialekter kan försvaras. Då kan man ju få in moderaternas idé om att även flykting hemmafruar ska lära sig svenska (i övrigt står jag förvirrad om tankarna: Om jag har en hemmafru från en kultur där det ännu inte försvunnit är det då verkligen bra för familjen att hon ska lära sig språket i den flum-vänster-kultur som den svenska blivit när det kommer till familj-värderingarna? Är det inte bättre att vi respekterar att hon villa leva ut sina val hemma med barnen och matlagningen? Kan vi kanske förstöra något fint och vackert med svenska-undervisning? Jag som feminist kan känna det). Hemmafruarna lär sig svenska, feminist-skapar än mer som bok-soldater, och sprider svenska kunskapen vidare självorganiserat via biblioteket på sikt tagande bort kostnaden för organiserad svenska undervisning. Och efter några år när dessa hemmafruar nått ut med denna massa flyktingar på biblioteket kan säkert staten skära bort hela bidraget utan att kommunerna vågar säga upp dem. Effektivt - kostnadseffektivt - Försvarat. Sedan får vi svenskar ta att man inte alltid lär förstå vad de säger skapande upp naturligt samplings-data för ovanliga ord med det är nu en fråga för grundskolans moral-undervisning i svenskheten att förklara för folket som den glädje det korrekt är. Och kanske är just länsbiblioteket med dess obligatoriska besök av skolklasser dessa kvinnors naturliga hemvist några timmar mitt på dagen när hemmet och familjen så tillåter?


Ett mycket allvarligt område som ej bör trivialiseras på det sätt jag tänker ungdomarna gör när de funderar över yrkesval.
Vektor-kvantifiering är inte primärt att coolt rädda världen eller en väg för bibliotekarier att få en myckenhet av romantiska belöningar därefter utan ett hårt kvalitetsarbete fyllt av rädsla för att enstaka fel ska innebära att ett litet kultur- och språkområde som Sverige dör ut ersatt av det muslimska språket.


Självklart kan vi kanske roligare se värde hos enskilda medarbetare som får mer övertidspengar p.g.a. fler falska språkträffar (om vi reflekterar NSA påstådda analys-projekt). Något av samma natur (för att försöka få till en mjuk övergång till ett till skämt egentligen) som när individen upplever att Trump mer pratar till dem på Twitter där han uttrycker bredare ämnes-träffar mer varierade om så vill mindre stilistiskt tränade kultur-korrekta i det spontana utan att de nödvändigtvis bär mening just i det icke-emotionella där effekt kommer. Vi jämför talande och tror jag mycket korrekt (kul om det blir av att rita någon gång) med våra italienska första eller andra-generationens (bedömt engelskan) invandrare serverande Lufsen med kvinna, i Lady och Lufsen, mat: Han pratar med mig.


I övrigt har endast följande två inlägg publicerats av mig relaterat Trump:



Ska något från primärvalen adderas jag reflekterat i övrigt är just större variation spontan och mindre stilistisk på samma sätt som typisk för politiker i samma område (därmed inte sagt att Trump ej har något av samma sak men ovant för publiken). D.v.s. större diskriminerbarhet kommer naturligt när Trump implicit jämförs mot den inlärda bakgrunden för hur typiska budskap och typiska ord från politikerna direkt presenteras. Emellertid kompletterande den direkta diskussionen om Trump vs Hillary rörande vad Hillary-folket kan behöva fundera över kan läggas att Hillary nu faktiskt - mindre konkret tydligt vid tiden för inläggen kanske - har mött en Trump-variant om än i vänster-paketering och bör så väl behöver om hon ej mycket väl ska förlora presidentvalet lära av det. Fantastisk möjlighet hon gavs verkligen. Jag svårligen tänka mig motståndare som bättre kan förberett henne för Trump än Bernie Sanders gjorde. Vänligt av honom att ta tiden trots föga trolig segrare. Och verkligen tränande upp henne hela vägen utan när delvis vek prestation hos henne var tydlig släppande henne sista delstaterna.


Nå jag lär väl sammanfatta en del erfarenheter här några gånger till. Det har värdet att jag lättare minns det utan att behöva använda anteckningarna. Några exempel känns meningsfulla för läsarna där jag tror ett par existerande om än ej överdrivet stora grupper kanske rent av är lite intresserade av det här området allmänt. Den intresserade kan reflektera korrelations-vektorerna föga kommenterade alls. "Medelvärdes vektorerna" som indata har viktigt sido-värde att uttrycka distributionen av indatat i tillstånds-representationen också i mening av de i dom förekommande orden vilket gör att de behöver göras. Korrelationsvektorerna bör emellertid komplettera dessa för vissa koncept genom att också kraftigt smalna av dem (de visar annars natur i form av typisk likhet mer med vektorerna för orden - nästan exakt samma form - medan medelvärdes-vektorerna som väntat gärna spontant hamnar högre tagande in mer. Men jag har prövat mindre med dem post-träning ännu och jag tränar dem ej likt medelvärdes-vektorerna på alla koncept utan har bl.a. uteslutit två-gram (elegantare med givet mängden tre-gram och större tror jag det samma hade jag kunnat uteslutit personer uttryckta med två-gram resp. varande det samma som ord-vektorer såväl som medelvärdesvektorerna 1-gram).


Optimalt använder man dem konceptuellt motsvarande relationerna adderande utökad vetskap när meningsfullt men ej förvirrande annars. D.v.s. någon smart dimensions-reduktion krävs på det hela vilket återstår att inse hur man bäst gör så att daglig addering av nytt data kan pågå.

More eller Most? Kanske finns svaret hos barn (eller varför inte om någon mätt på dem vuxna gediget över 35 år för ålderns visdom)

2015-05-12

Experimenterade med mängd koncepten utifrån:



Ger vikt till mängd värde när jag utelämnar emotionell intensitet faktor vid sidan om "IDF-måttet" (men ej baserat just på dokument utan mer associationen till näraliggande ord) resp. ett entropi-liknande mått som funktion av sannolikheter more snarare än most som kommer högre. Jag kan förövrigt notera att läggande väsentlig vikt vid mer konceptuella nätverk vilka trots att ord som dessa numera finns med verkligen inte är avsedda att ta ut värden på (snarare mer som "brygg-noder" för att möjlighet till snabbare omräkningar i spridd via co-occurence förekomster) att koncept likt something m.fl. vi kan "skriva" om som ord_1-ord_2 prioriteras upp tydligt.


Jag prövade förövrigt att ej utnyttja mina mätvärden för sannolikheten. De hårdsamplades stort för att få goda mätvärden av mer konceptbetonade flergram som vetenskapsområden, personer, länder, orter m.m. vilka är väldigt scarce och därför har jag märkt lite i skal- och norm-mening relativt överdrivande vanliga ord jämfört med om vi kastar flergrammen och (också i all annan erfarenhet sundare rörande verb, adjektiv, adverb, PP och nouns som ej är personer m.m.) att för att testa det använda 1-gram värdena från:



Den var för denna användning - ej helt förvånande där jag säkert pekat på varför tidigare - inte riktigt perfekt. Medline N-gram är genererat från medicinska koncept och data följande tydlig ämne medicin såväl som medicinsk strukturering. Det gör att vi får medicinska koncept mer värderande än är riktigt önskvärt rörande mer funktionella allmänna ord. Rörande emellertid adjektiv och adverb är deras N-gram data möjligt beroende på vilken bredd man har ambition för vad man effektivt utnyttjar försöka vikta om mot ett mer allmänt språkligt koncept: Det är aktuellt för mig i alla fall givet att jag redan har kategoriserat upp dessa bl.a. just för medicin om än inte brutalt finmaskigt jämfört med komplexitets-nivå för mer allmänt använda adjektiv och adverb: post-opera. Ett exempel på mer konceptuell utmaning i tänkande där är hur kanske mer generella koncept och algoritmer relaterade temporala- (tids-) koncept bra går samman med det medicinska. Vi har några exempel på medicinska adjektiv och adverb från The Specialist just argumenterat havande en tidsdimension:


Ett akuttillstånd (en del-komponent där vi har en form av tidsdimension) som uppstått efter ett medicinskt tillstånd innebärande om jag minns rätt att blodkärl expanderar ut och kanske också läcker blod men oavsett det senare tänkbart reducerande normal funktionalitet allmänt. Och så tillståndet vi hamnat i: Blodbrist. Här är vi i närmare vad vi vill se som ett noun-koncept:

acute post-hemorrhagic anemia

Själva del-komponenten post-hemorrhagic är emellertid i sig "ensam" (jag skulle ovan inte vara främmande för att ta ut samlade vikter om de ej finns färdigt projiserade från tillräcklig relevant sampling parsa noun konceptet ovan som fras) och existerar i The Specialist (varande just brutalt komplett för allt medicisnkt) som egen representation:


{base=posthemorrhagic
spelling_variant=posthaemorrhagic
spelling_variant=post-hemorrhagic
spelling_variant=post-haemorrhagic
entry=E0049206
 cat=adj
 variants=inv
 position=attrib(3)
 position=pred
 stative
}

Det sena språket med fortfarande ganska nya koncept specialiserade för medicin ger oss att koncept ofta används oerhört återanvändande över adverb, adjektiv och verb. En indikation på det ovan ser vi i markering av stativ. Vi kan bild verb-varianten post-hemorrhaging (vilket vi ser stative indikationen om som tillräcklig indirekt referens mot i The Specialist).


Och föredömligt jämfört med ex. tidigare ej angivet emotionella kategorisering har vi varken ex. anti-white / anti-white americans saknande anti-black (och ej heller anti-black).


Tydligare släktskap över ordklasser:


{base=anteriorise
spelling_variant=anteriorize
entry=E0332530
 cat=verb
 variants=reg
 tran=np
 nominalization=anteriorisation|noun|E0232091
}


{base=anteriorisation
spelling_variant=anteriorization
entry=E0232091
 cat=noun
 variants=uncount
 compl=pphr(of,np)
 compl=pphr(by,np)
 nominalization_of=anteriorise|verb|E0332530
}


{base=anteriority
entry=E0523105
 cat=noun
 variants=uncount
 compl=pphr(of,np)
 nominalization_of=anterior|adj|E0009299
}

{base=anterior
spelling_variant=anteriour
entry=E0009299
 cat=adj
 variants=inv
 position=attrib(3)
 position=pred
 compl=pphr(to,np)
 stative
 nominalization=anteriority|noun|E0523105
 nominalization=
anteriorness
|noun|E0597130
}

{base=anteriority
entry=E0523105
 cat=noun
 variants=uncount
 compl=pphr(of,np)
 nominalization_of=anterior|adj|E0009299
}

{base=anteriorness
entry=E0597130
 cat=noun
 variants=uncount
 compl=pphr(of,np)
 nominalization_of=anterior|adj|E0009299
}

{base=anteriad
entry=E0009298
 cat=adv
 variants=inv
 modification_type=verb_modifier;locative
}

Och från det i bästa fall vad som ger meningsfull förståelse - eller bättre uttryckt indikationer för betydelsen till koncept som saphenous vein graft to the left anterior descending artery vi också har i The Specialist.



Vi får när vi räknar vidare i kontextuell-association ut från orden (från 3-gram filen) också som funktion av 1-gram sannoliketen ex. något cardio koncept (eller just cardio) mycket högt. Det är tveklöst som så ofta att man vinner märkbart här på att etablera en särskild statistik databas korrekt normaliserad och korrigerad för mängd-ord. Mycket möjligt kan vara mätvärden jag också för att pröva praktiskt utgår från för att normalisera ner till detta: Det mycket mer begränsat jag sett små-betraktande den ger en känsla av mycket hög kvalitet.


Helst vill jag inte använda min EMI som faktor här även om som välkänt emotionell-intensitet i ord är mycket påverkande faktor när vi läser särskilt titlar därför att:


  • För ett antal ord just relevanta kring våra "mängd-liknande" (set theory i en mer flummig subjektiv vardags-språk mening: ex. all hela mängden definierad av kontext, nothing den tomma mängden o.s.v.) ligger samplingen efter andra ord därför att de under ett par år låg som stopp-koncept därför att jag hade brist på dator-resurser (sådant växer exponent med mängden grund-symboler vi accepterar som vidare multiplikativt linjär med hur vanliga de är så a m.fl. gör skillnad att kasta). Jag hanterar inte det därför att det gav så oerhört mycket värde för övriga koncept relativt omräkningstid hanterande dessa ord att lägga på gamla statistik-db på det nya. Detta påverkar EMI men inte sannolikheter m.fl. mått (mer kostsam att beräkna p.g.a. av projektioner från olika regioner i samplade text-dokument till koncept).
  • Jag vill också ha ett till normaliseringsmått som är oberoende av EMI som används för fraserna för att bestraffa komplexitet från längd och där något ej utnyttjande heller grammatiska relationer resp. för dessa koncept ej heller ordlängd (det senare tillsammans med grammatiska ger för de stora mängderna ord ej som här i stor andel för undergruppen alla väldigt och jämfört korta: a, an, the, all, any o.s.v.

More ligger emellertid ovanför all vilket praktiskt tillsammans med en del annat pekar på att faktiskt ta viss hänsyn till om vi anger ett absolut mått eller en förändring.


Vidare är dessutom many - som man kan uppleva besläktad i all rimlighet med more och most: Ger kontext en jämförelsegrund där A är fler än B så är A relativt B många åtminstone vid något tröskelvärde fler.


Roar oss att lämna alla de senaste åren av publicerade journal-artiklar där universitets-medarbetare efter universitets-medarbetare ofta sitter och löser sedan evigheter väldokumenterade problem med lösningar i någon variant (eller exakt samma av och till) med en av preferenserna i dom statistiska modellerna med värden etablerade från mätning på skrivet språk och istället går tillbaka till psykologins (snarare än psykiatrins som vi har nu) guld-ålder i att etablera stora delar av den seriösa grundkunskap vi har (d.v.s. i den vetenskapliga psykologin snarare än flum-segmentet baserade på att forskare eller "medicinskt" medarbetare känner sig) gjordes mätningar på barn:


  • Barnen fick vid olika ålder förklara hur många av diverse ex. few, lot, some m.fl. var.
  • De få värden jag har ännu refererade (jag ska försöka leta rätt på fler och kanske med tur någon modern större studie) är inte ointressant.

Vid grades 10 - 11 börjar many ungefär (figuren i The psychology of thought and judgment är ej perfekt) kanske vid 26 st. Innan slutar lot som tycks börja ungefär vid 19. Innan ligger some (och det överraskade mig något: Ev. indikerande att jag ännu ej klar med dessa delar riktigt inte har perfekt känsla för orden eller lika troligt nästan att de förändrats lite i preferens över åren) som föregår several börjande "sent" på 14 - 15 (d.v.s. some är ganska vilket jag också upplevde kanske mer "förväntat" när man väl har sett det men inte direkt vad jag utan sett värdena skulle resonerat mig fram till).

Och several tillsammans med many är har det längsta intervallet aktiv. Kanske kan vi lite vågat uttrycka det som att more kanske faktiskt är mer än less också för längden på intervallen där de är aktiva. Innan som sista figuren i boken hade mer har vi few som liksom some är tämligen kort. Den ser ut att sluta på 7.

Innan man tittat mer på original-studien och mycket gärna senare kanske större resultat ska man verkligen inte tolka in för mycket i det här. Resultatet boken refererar är från 1948: Mycket gedigna arbetet gjordes också då även om jag upplever det som något av ett kvalitativt paradigm-skifte när vi går in i 1960-talet. Framför allt för studier med den här åldern kan de vara väldigt små. En förklaring till 1960-talets paradigm-skifte var hålkortet möjliggörande dataanalys av mer. Brotherton, Read och Pratt är referensen som jag p.g.a. brist på ljus ej utvecklar vidare.

Risken är att jag inte redan har artikeln lokalt i mina arkiv då det för mig tar ett stort steg upp i andel och mängd från och med 1960-talet (som förövrigt i relativt mening är vad jag bättre samplad än 1970-talet p.g.a. visst intresse för informationsteorin, AI, cybnernetiken o.s.v. - såväl som den vetenskapliga psykologin - 1970-talet är inte vad jag upplever riktigt presterade i dom symboliskt mer välkända insatserna jfr Wiener tidigare vad jag eller antagligen särskilt många andra har någon nytta idag oavsett hur i nöjes-mening läsvärda en och annan skildring är över hur Leary med kamrat överraskar en sovande influensa eller feber-sjuk kollega med en injektion - eller liknande - LSD för att "bota" honom: Mycket bra om ego men lite konkreta resultat man kan räkna med eller verifiera medan informationsteorin utvecklad under 1960-talet nådde oerhört långt jämfört med var den stor idag).

Datakvalitet inom lingvistik

The Specialist

Varande en korrekt team-player som bjuder till när en aktör som National Institute of Health skapar och fritt-delar en till excellent datasamling för språkanalys har jag i del två ovan letat upp några fel. Dessutom som en amerikanskt myndighet borde gilla stimulerar jag ju det amerikanska företaget Google's business genom att uppmuntra NIH till att använda Google Translate så att de upptäcker defekten såväl som några jag antagligen postat tidigare genom åren. En poäng för mig postande sådant här också är att jag är lite i det lilla intresserad av att notera något kring dom nya versionerna att ha kvar "loggat" så att säga så jag kan följa ungefärlig utveckling. Så mycket ambitiöst tidigt klingar gärna av vilket man vill så några år innan de helt lägger ner uppdatering. Dessutom är det typisk aktör som ger auto-genererade svar vilket jag inte ids hålla på med. De får nöja sig med att jag marknadsfört dem av och till mot svenska folket (vilket faktiskt är viktigt för dem: Budget numera tenderar att ibland vara scarce fodrande insatser att motivera nya koncept adderande till tidigare stöd).

Emotionell polaritet kan auto-skapat ge inkorrekta bias långt in i det socialt problematiska

Möjligt i dagarna ska jag dessutom posta en bunt underligheter - ej icke-typiska - för auto-tränat emotionellt data diverse aktörer genererar fram utan att läsa igenom det. Fascinerande i att feltänk kring vad de utgick från tidigt skapade en mängd koncept resp. koncept ej med vilket tillsammans gav en tämligen ett rasistiskt bias (bl.a. vilket är jätte-vanligt därför att man laborerar med väldigt små-corpus: För sådant här ska man göra stort. Genererande emotionell intensitet körde jag mot abnorma mängder data - inte några 100 MB eller vad det kan vara reviews från nätet utan flera tera-byte artiklar inom flera grupper för att få representativt data: Då slipper man att det vita amerikanska folket verkar mer rasistiskt än vad det faktiskt är). Så mycket mer där också. Det är svårt att komma ifrån att man behöver gå igenom allt man genererar upp manuellt. Och just denna - och om jag inte blandar samman den här - också använd sekundär i annan forskning av andra personer - havande så ovanligt mycket av just sådant här.

Efter en tio skärdumpar av diverse bl.a. runt det svarta och vita mänskliga lade jag den ifrån mig. Ej för jämförelse detekterande fel jag har i polaritet vad jag kände att jag ides med att handkontrollera (det har värde att handkontrollera annat faktiskt delvis därför att man alltid missar fel vidare därför att dessa system vanligen - eller alltid - är väldigt få med ganska få fler än ett par tusen kanske med den lite större externa jag sett havande cirka 10 - 12 000 koncept genererade via Amazon's mechnial-turk för enklare mätning på personer (som kvalitativt ligger kanske i mitten eller något under jämfört med kortare motsvarigheter jag gissar just varande kortare kanske handkontrollerades bättre).

Och det handlar verkligen inte i datat att bias är korrekt: Jag vet.

Fler emotionella problem associerade data från personer skapande emotionella kategori- och vikt-system

Ska man diskutera problem med dessa är ett till område jag själv delvis är för fallen till att ej hantera ut adverb och adjektiv separat (för min del är det nära nog förändrat nu): Man vinner på det vilket jag annat ända sedan jag läste Osgoods-arbeten från några år sedan. En av flera värden det ger är att man kan vara trygg i att eventuell "riktnings-preferens" man tillskriver ett adjektiv med en polaritets-indikation faktiskt håller (varande möjligen ej ett noun som resonerande riktning ej behöver vara funktionellt givande förväntad polaritet) samt även temporala-stabilitetsindikation hos adjektiven jag ej är säker riktigt håller på noun alltid när de också förekommer som adjektiv (d.v.s. adjektiv:ed som effekt av händelse, adjektiv:ing som en mer pågående polaritets-dynamik kanske i aktuell discourse o.s.v. upp till mest stabilt en tillskriven egenskap hos något Hans big weakness is that he cares to much about his readers / The weak Hans couldn't any longer as in his younger years lift the small Opel Cadet..

Dessutom - vilket jag ej provat - kan det vara möjligt att förutom mer frekvent omräkning av emotionell intensitet hos adjektiven (varande viktigare för att etablera bra värden på emotionell intensitet hos egentligen viktigare koncept som forskningsområden, företag m.m.) mycket möjligt göra det snabbare än när man gör det allmänt för alla koncept och ord detekterade som projektion av aktuella kontext är möjligt mot (om jag inte tänker fel: Jag hör verkligen till dom som behöver pröva sådant och prov-räkna i något eller några av praktiska användningsområdena såväl som manuellt titta på värden och områden jag är van att hålla ett öga på innan jag stabilt riktigt vet).

Att våga acceptera en moralisk och etisk risk för att försvara feminismen med min manliga dådkraft

Mindre korrekt för egen del har jag förövrigt tillsvidare tagit bort cirka 10 indikerade polaritets-koncept rörande bl.a. det "gender-politiska" även om de argumenterat korrekt kanske ska vara där de hamnande (bl.a. strong kategori): Det var väl som en ev. tillfällig åtgärd (jag ska följa upp det lite i data och kontrollera korrektheten djupare) inte 100% motiverat av övertygelse och moral utan mer en bild av någon kommande pinsamhet eller problematiskt kundkontakt rörande något kvinnlig marknadschef som inte alls tycker att ett par manliga relaterade koncept ensamma utan motsvarande kvinnligt bör ge mer boostade värden än när hon och andra kvinnor skriver det.

Generellt är det antagligen för särskilda svårbalanserade fall vad man lägger i konfiguration diskuterande dem i tillhörande böcker. Jag vill hur som helst varken rörande det gender-politiska, etniska-grupper eller dylikt ha några preferens-indikationer jag inte följt upp verkligen är korrekta från data och om så ha kontroll över dem dokumenterat. Det finns så mycket i egenheter i data där något område kan ha samplats mindre balanserat i egenheter svåra att övergripande innan se (som att vissa koncept används abnormt mycket en tidsperiod: Likt diverse idag föga accepterade benämningar på afro-amerikaner längre tillbaka inom sociologi, psykologi och politisk-forskning.

Hans skämtar: Självklart med undantag av grekerna där jag manuellt lade till lite negativt. Men herregud: Vi kan ju alla tänkas semestra där åren som kommer och någon dryg uppblåst bartender som byggts på sig less-service-mind efter att ha vunnit över EU är då inte vad jag vill behöva uppleva. Man vill ha dem motiverade - lite hungriga av alla skulder - såväl som submissive havande lärt sig att de betett sig i alla dom här åren och behöver göra bot med snabb service serverande billiga drinkar.

Undangömt - kanske skumma - Black-op data hos Missouri State University

Andra förklaringar än den jag gav kanske är tänkbara. Samtidigt när de så uppenbart generellt prioriterat webben och indikerar att man verkligen är kvalitetsmedveten måste man i all rimlighet kunna ta dem på allvar. Och det gör min förklaring att man mer lokaliserat försöker mörka kvalitetsproblem mycket tänkbar:

Det är ju också tråkigt för alla besökare att ödsla tid på att försöka reda ut varför filerna inte laddat ner. Och kanske behöva kasta bort tid med någon halv-management på pressavdelningen som knappt vet vilka grupper av forskare och institutioner man har (och jag vet: Havande skrivet många år om forskning i media har jag en god generell känsla av hur kontakt kring sådant här går till - Rapp och korrekt respons med lösning på rimlig tid inom några dagar gäller endast yngre forskare som precis publicerat något viktigt inför deras kommande fortsatta karriär: Annars är det slött, förvirrat med diverse personer som vet ingenting).

Och här tycker jag att det luktar lite. När data försvinner från diverse EU-finansierade projekt involverade ex. tyska-forskare (låtande sidor, arkiv m.m. dö bort projekt-levererar man enligt finansierings-villkor ska publicera) gäller snarast det omvända: Då vet man att det fanns något kanske praktiskt bra i datat. När amerikanerna som är mycket mer medvetna om betydelsen delande av studier såväl som data växt till de sista åren försvinner med sitt data är det ingenting som har riktigt värde i nivå med annat senare eller har problem.

Likväl vill jag se datat och om inte har jag förhoppning om ett konstant evigt problem man av och till kan använda som ex. rörande diverse företeelser. Något som annars ofta rörande IT-företag som bl.a. Google, Microsoft, IBM m.fl. blivit svårt sista åren där problem man ser möjlighet att få redaktionell-nytta av många år korrigeras sjukligt-otrevligt snabbt. Ibland inom timmar tänkbart p.g.a. av data mining de gör på webben.

Visst värde finns väl i att saker korrigeras men jag gillar också att ha lite problem hos stora aktörer att dra upp av och till genom åren. Utan att rationalisera varför så gillar det helt enkelt: Visar vem som egentligen är eller i alla fall borde vara The Big Dog.

Ett harmlöst nöje man förnekas p.g.a. av en dryga över-motiverade go-getters ska visa sig duktiga. Kanske bra för dom kan man tro: Men jag har alltid förr haft en känsla av att när det slutligen går upp för aktörer att de haft ett väsentligt problem som blivit som implicit känt över åren och folk haft roligt åt är moraliskt uppbyggligt för dem. Lär dem att kvalitet är viktigt och ska prioriteras något dessa över-aktiverade IT-företag går miste om.

Eller ärliga mindre cyniskt-komiskt är jag ganska imponerad. Det är inte om man gör automatiserad detektion av sådant bredare på webben (andra förklaring kanske också finns: Några av dessa har en hel del folk surfande åt dem. För Sverige blev det första för bra många år sedan två stycken åt Google medan det numera antagligen är fler (jag följer inte Google's organisation egentligen - och ej heller då rörande sådana positioner även om jag av och till följt rekrytering resp. folk som gått nära teknik resp. marknadspositioner högre upp). Och på engelska webben är de ganska många. Så förutom att följa upp kvalitet och kanske oftare att Adsense-partners följer riktlinjerna kan de ju också kanske ha i uppgift att hålla ett öga på vad folk är missnöjda med rörande Google. Medan det är för ett annat ej i listan indikerat också större IT-företag - och inte helt otroligt egentligen också Microsoft där jag i alla fall förr hade en hel del kontakt med ganska många arbetande i så fall Sverige som i Palo Alto även om de senare nog är pensionerade ny med tämligen generations-skiftad central press-organisation - är ganska troligt att de satt bevakning på att få meddelande om när jag skriver om dem) inte 100% trivialt.

Missouri State University har jag dock en fin känsla av att få ha flera år som kvalitetsproblems-exempel. Inte otroligt ska jag för att garantera att jag inte obalanserat är elak mot dum se till att mer bredare titta över data de publicerar, kanske referens-nätverk runt artiklar, finansierade forskningsprojekt m.m. Mycket troligt visar det sig att det är en gedigen bra aktör där problemet jag såg här var ett undantag kanske bara p.g.a. en IT-defekt. I så fall ska jag självklart dela det. Kanske kan bli något återkommande ett par gånger per kvartal att surfa runt och titta över vad de pysslar med när jag känner emotionellt-behov av att göra något bra för universitetsvärden.

Ibland kan jag känna mig som liten och osäker (jag tror det är ganska normalt): Att göra något engagerat bra för världen tycker jag kan hjälpa bra och särskilt som i Missouri State University: Varför inte publicera kvalitetsproblemen mer än bara ta bort data? (2015-05-12) våga ta dom komplexa och svåra men problematiska frågorna rätt in i "särskilda" kvalitetsproblem.

Det får mig att känna mig lugn och stark minst flera veckor ibland många månader när man riktigt fått möjlighet att trycka till något litet skit kvalitetsfel som tror sig vara för stor i annan kvalitet för att någon ska slå till felet rätt på näsbenet. Sedan jag skrev inlägget om Missouri State University har jag verkligen känt mig stark och kraftfullt uppåt: Dådkraftig. Ett bra tips för alla läsare om ni känner är svaga, osäkra eller trötta! Piggar verkligen upp.

Jag vill dock säga att även om jag valde att prioritera Missouri State University för att göra något bra för världen och samtidigt stärka upp mig själv gäller för tidigare refererade The Specialist och felet jag pekade på där att inte alls samma sak. Deras data är nära nog felfritt på nivåer ej jämförbart med något rörande språk. Allt rörande språk som kommit från National Institut of Health (kanske formad av den medicinska mer noggranna traditionen rörande data kontakt med myndigheter) är kvaliteten i mening av korrekt och precis helt lösa just de problem man avgränsat sig till i resp. delat (om än ingenting i övrigt vilket jag gillar: Hellre fullständiga kvalitetsmässiga föredömliga lösningar rörande det primära än små-delar kring annat som aldrig gjorts klart ej har sämre datakvalitet huggande en i ryggen om man bedömer kvalitet från det annars mer primära). Om något alls luktar sämre i National Institut of Health (som möjligen en del kanske mindre än nödvändigt dyra processer rörande godkännande av läkemedel) är det ingenting relaterat data de delar rörande lingvistik och deras ontologer.

Är "man" verkligen större än "woman"?

2015-03-26

Vi skriver normalt man and woman indikerande att man är större än kvinna precis som för ett antal liknande konstruktioner.


Frågan är nu om det egentligen verkligen stämmer. Jag lutar ganska tydligt åt att det stämmer huvudsakligen från att första och sista konceptet i en lista vi minns är jämförbart lättare att minnas (d.v.s. görande efterföljande diskussion vad som berör något jag ser som möjligt men ännu ej är visat eller vad jag tror kommer visa sig stämma: För mig handlar detta om att göra befintlig algoritm för NP-konvergens än mer kraftfull hanterande bl.a. också suffix så att låg-frekventa ord med hög-frekvent base korrekt värderas vilket jag får erkänna ej är vad jag ännu upplever direkt trivialt).


Men antar vi att första koncept-boost ej gäller i NP-fraser riktigt fullt ut har vi också möjligheten att man först kompenserar för i kontext mindre sannolikhet för woman. Därför vi kan tänkbart se wo som ett prefix till man medan man såväl indikerar manlig människa som människa. Och att pre-aktivering av man från första ordet ger woman en boost i konstruktionen praktiskt kanske närmare till att likställa det med man vilket kan argumenteras kan vara rimligt för en lång rad av mänskligt and mänskligt konstruktioner.


Tråkigt nog får jag erkänna att jag inte kan bedöma det här bra än. Åtminstone vill jag se att samma principer är funktionella för ord byggda av suffix kontra base är funktionella via jämförbar princip som ord i NP-fraser. Och just här medveten om att jag ännu inte har sådan konvergens-algoritm funktionell kontrollerade jag heller inte generell - över all kontext - sannolikhet för man resp. woman.


Rent praktiskt gäller dock att vi handhar möjlighet till konvergens för såväl base tillsammans med suffix som kombinationen i sig. Detta är inte oviktigt eller något som mer sällan har betydelse. Tvärtom har vi en mängd konstruktioner likt adverb och adjektiv med i sig låg sannolikhet vars effekt i effekt utan tvivel överstiger skattning utan hänsyn till sannolikhet för base i sig (ex. base: A i un-A-able).


Sociolingvistiken hör nu inte till det mest kraftfulla vetenskapsområdet associerat språk när det kommer till seriösa kontroller av teorier och jag har heller inte följt upp hur man där man kan ha förklarat att man föregriper kvinna heller. Men även om tanken här eventuellt stämmer innebär det inte nödvändigtvis att ett för dagens samhälle defekt bias för mannen på bekostnad av kvinnan inte finns: Snarare att fenomenet agerar därför att detta finns och kompenserar det på ett sätt som fortfarande definierat kontext utifrån mannen (ty text tidigare tenderar i min erfarenhet alltid till att definiera kontext mer än senare text: nära nog alltid).


Relaterat till övergripande gemensamma problemområdet:


Helsinki English Studies: Läsvärt (ovanligt så) om "into" i kontext av mellan-mänsklig påverkan

2015-03-14

Från grammatiska mönster ungefär (som ett och det mest typiska exemplet i antal jag såg) enligt:


MÄNNISKA ELLER LIKNANDE MÄNSKLIGT VERB ANNAT HUMAN:ISH into something

Jag kom att kategorisera verb (inkl. event:ish bredare) ungefär som att vad som inträffar är en förändrad attityd eller preferens (när done and done). Några exempel på en subgrupp relaterat att vi (eller någon annan) motiverar någon (kanske jag eller du eller vad helst mänskligt) till "into something":



motivate
stimulate
shame
encourage
compel
smother
incite
dare
prod
soothe
goad
impel

sweet-talk
palaver

Ex. Hans shames EU into black market Greece to Egypt (jag kanske är grekiskt-sur tolkat av diverse entiteter med instabila egna lån eller investeringar oroande sig över kortsiktiga Grekland-problem om de inte nu när de börjat följa sin egen lagstiftning rörande beskattning m.m. och därför önskar en massa pengar av Tyskland med flera. Men jag har varit i Grekland och betalat för lunch såväl middag under all rimlighet i kvalitet jämfört med vadhelst annat - jag har verkligen aldrig ätit så illa som i Grekland relativt kostnad och traditionell matkultur: Jag är öppen inför att lämna det bakom oss men vill ha säg 600 kr + inflation (och något extra: säg ett typiskt myndighets-jobb där jag får lån utan att behöva besöka, eposta eller skicka brev med Grekland likt tiotusentals greker idag som säkert inte ens gjort sig besvär att små-håna Grekland som jag gjort ganska länge nu) vid av Grekland i så fall - Tills dess får de stå ut med sådant här givet att det knappast varken här eller relaterat liknande problem de haft var som ett ärligt misstag utan mer av omoralisk vana ansträngande sig göra sämre än rimligt).


Finland små-imponerande mig lätt jämfört med bra mycket jämförbart i UK, Tyskland och USA jag oftare läser

Sökande prospekterande runt kring den här into konstruktionen fick man den normala lätta brus-responsen i artiklar publicerande över åren i olika journaler som ofta egentligen inte tillför något praktiskt att ha läst (från mitt intresse här och vid det år vi är så att säga).


Men jag träffade också på en artikel publicerad vid en universitets-egen journal i Finland som jag först efter att sökt mig mer direkt fram till into insåg från att jag tänkt fel för hur jag kategoriserade verben här (vilket jag förr eller senare insett själv men det hade kunnat kommit tydligt senare slösande tänkbart tid i onödan runt det). Det handlar ju snarast om beteende-preferenser vilket verkligen inte är samma sak men precis som attityd-preferens, tros-preferens och mycket liknande tämligen nära till att propagera upp till analys "preferenser" i bredare mening där man nog vill kunna separera här.


Jag blev mer överraskad av att artikeln faktiskt var en anmärkningsvärt bra sammanfattning av ett relevant större område. Väldigt stringent uttryckt utan att artikeln blev mindre läsbar vilket är en mer ovanlig egenskap hos skribenter med engelska som naturligt språk men jag av och till också sett bland svenskar. Det händer regelbundet men det är inte det i närheten av vanligare att man träffar på seriösa i vetskap djupare (inkl. att man pekar vidare till riktade fördjupningar) som sammanfattar ett område väldigt nära en praktisk tillämpning. Varierat med område och hur behov såväl som vad man kan är de ibland värda hur mycket som helst. Just här är det inte riktigt fallet men värdet är heller spekulerar jag att när jag går vidare att tar ut fler mönster utnyttjande PP-operatorer att jag inte tänkbart sparar en del tid från att ha läst den.


Vidare läsande runt mer i journalen hittade jag några till artiklar åtminstone potentiellt värdefulla (från ett praktiskt perspektiv inte alltid vad man vet förrän området är mer omedelbart aktuellt och man tittar över arkiv med relevanta artiklar). Och överhuvudtaget ganska läsbar även om jag också gärna pekar på att närhet till praktiska tillämpningar inkluderande analys av text (och liknande saker jag gör) kan prioriteras upp ytterligare en bit (skärande ex. av mer sociolingvistiska eller grammatiska områden som ej har en omedelbar praktisk koppling av sådan typ jag söker).


Jag brukar försöka tipsa om mer generella källor som skiljer ut sig även om det varit mindre sådant något år nu. Sista riktade området jag gick igenom var färdiga common sense representationer praktiska för sådant som named entity identifikationer diskuterande bl.a. New York Times databas, Concept net, Yago, och The Guardians lösning jag tror är mycket mindre tillgänglig numera än den säg tre - fem år sedan var (även om den som jag minns det ej heller var vad som fanns i form av filer att ladda ner), och en del liknande med fokus news providers (inga av lösningar är egentligen bra men tillsammans är de en god grundbas att stå på när det kommer till inarbetade koncept som typiskt ej ändras som länder, städer, kända personer m.m. medan utmaningen verkligen är mest typiskt nytt folk som blir kända där allt sådant här typiskt faller direkt oavsett om du söker uppdatera en eller flera av dem som källor: Men att lösa sådant är vad framför allt Wikipedia är tillför).


Något lite mer jämförbart än common sense med det här finländska (men mycket större såväl som potentare i samlat värde för mig) och ovanligt ofta av och till genom åren vad jag tittar i är Stanfords plato.stanford.edu. Den jämförelsen är dock lite orättvis. Rättvisare vore att jämföra med jämförbara svenska prestationer man råkat på men förutom några enstaka examensarbeten från Sverige jag noterat av och till varit i jämförbar domän som något delsystem jag arbetat på men aldrig överraskat med värde mer än förväntat för examensarbeten (d.v.s. ingenting för ett område man bevakar och utvecklar i regelbundet) har jag ännu att träffa på något alls från Sverige inom delområde lingvistik jag minns alls (och jag brukar säkert söka publicerat journaler här åtminstone för varje delsystem som nått en etapp och är klar och vid problem pågående under det: flera gånger per vecka periodvis). Så trots hälften (har jag för mig) antal innevånare är de tills jag råkat på något användbart svenskt oändligt mycket bättre (från mitt perspektiv: sådant jag sökt d.v.s. praktiskt användbara saker mer än underliga i detaljer ibland rent av lite felaktiga esoteriska lingvistiska resonemang om kopplingar mellan grammatik och sociologiska svenska universitets-lokala koncept där jag minns ett par hoppas jag ej representativa - i all rimlighet inte representativa om inte varje kontroll-mekanism utanför internationell publicering är defunct).


Hur som helst har vi artikeln jag träffade nedan:



Och journalen:



Finländarna rent allmänt efter jag läste mer verkade ganska kompetenta i hela området. Kompetenta på nivå att jag tror att jag kan söka dem riktat vid behov inom en del områden i framtiden och brukar jag göra med ganska få ens prövande ett antal gånger innan en del från det fallet bort om det ej är vad jag hittar värde i på vettig nivå (d.v.s. att starkt värde hittat visade sig vara väldigt avgränsat utan större kompetens dynamik man kan hämta värde från). Jag blev lite imponerad faktiskt. Det är ju ändå precis som Sverige ett litet land med ganska små universitet: D.v.s. det är mindre förväntat att man riktat kan söka värde från dem men jag tänker nog att kanske topp-domänen fi är värd att pröva runt lingvistik faktiskt. Tycks vara något finländskt "idiot savant" område (eller vad man korrekt kallar det när det nu inte är idiot savant utan de mer kollektivt är duktigare än förväntat på storlek allmänt: Det tycks för mig i självkritik att jag uttrycker mig mindre trevligt än jag kanske oftare gör men något problem finns kanske inte med det heller).

Telic för människo-komplexa händelser

2015-03-01

Är kanske inte alltid helt perfekt som utgångspunkt. Desto mindre omfång i person, tid och rum desto bättre utgångspunkt att se en dynamisk händelse som telic. I någon mening inträffad utan nödvändigtvis att vi söker efter annan indikation på det.


När händelsen är komplex med fler människor, tid och rum tenderar det åtminstone för flera händelser vi kan försöka uttrycka med ett verb en fråga om perspektiv ledande till lite underliga slutsatser.


Finland invaded Norway.

Och kommer finländaren kanske norrmannen säger just det. Därmed har ju också invasionen inträffat: Norge lär referera till det att det inträffat.


Men processen lär fortsätta långt efter det. Vill man bli lätt esoteriskt kan man rent av se en del händelser inkluderande människor i större komplex och antal fortgå långt efter att de verkligen i allt konkret avslutats: I form av en historisk lärofas de flesta nog tror att det är nyttigt för barn att lära sig mycket om tillsammans med kanske matematik (jag om nog tror på det riktiga i destruktionen på skolresultaten sommarledighet visat sig i forskning: Tid bättre spenderad till att räkna och lära sig en massa nyttigt om politisk-moral från Andra världskriget).


Problemet är att vi har boundary inbyggd: Invasion är gjort vid någon punkt. När vi går över gränsen kanske. Men ett lika - eller här i allt mycket korrektare om vi nu är intresserade just av invasioner som sådana - är att processen fortgår.


Emellertid om det hela inträffade för väldigt länge sedan kanske det verkligen är avslutat (förutom ev. bitterhet, en massa nyttigt folk kan lära från det hela m.m.). D.v.s. en fråga om common sense eller alternativt att data in - säg nyheter - kommer om att invasionen har avslutats.


Jag har inte prövat vikter för verb befintliga för mig kring det här. Det är möjligt att andra numeriska vikter relaterat verb än direkt relaterat samhälls-scope kan detektera vad som motsvarar att konkret mycket verkliga skilda perspektiv på händelsen eller troligen korrektare som utgångspunkt antal personer och geo-utrymme det berör.


Liknande men kanske svårare

För detta lilla problem har jag inte några perfekta verb-exempel på när problemet kan tänkas uppstå men jag får alltid en lätt känsla när jag ser dem parsas att vi har konstruktioner vanliga i nyhetstitlar när de försöker uttrycka mycket kompakt som kan skapa dem. Vi tänker oss därför att vi har verbet brackets som dummy exempel.


Nu säger vi att en flod svämmar över och börjar följa en naturligt intorkad flod. Skapande som ett "bracket" (inte ett perfekt verb som sagt) runt plats A: Vi får skapandet av en naturlig gräns.


Vad "gör" nu floden? Om vi ska referera till den direkt lite som om den vore en människa?


The flood brackets A.

Men är floden klar? Har den nått perfekt runt om A om vi tänker oss att bracket när färdigt uttrycker en omgärdande "gräns"?


Och är översvämningen klar för dom som befinner sig i A eller kanske springande framför floden i flodbädden?


Kanske inte och argumenterat indikeras heller ingenting att processen är klar. Men å andra sidan behöver vi inte se det som en process utan kan också se det som uttryckande tillståndet att floden omgärdar A i varaktigt fortgående: Som det normalt är.


Normalt i text uppstår inte problemet annat än otroligt. Men just i nyhetstitlar har jag en stark känsla av att liknande - inkl. det här - förekommer. Särskilt som att det att är ganska vanligt att referera till stora naturfenomen som människor (inkl. att ge dem namn):


Bill (a flood overflooding) brackets A

Kanske inte ett problem om inte någon vid A ringer och frågar oss om det finns någon landväg därifrån och vi förklarar att floden omgärdar A och så har det varit tycks det länge nu.


Situationen i telic och atelic

Är ganska praktiskt och tycks det väldigt populär som utgångspunkt. Jag tror jag egentligen bara läst en sak som pekat på en del problem (möjligen kanske besläktat något här: minns ej exakt - något att läsa om):



Vars verb-kategorisering också är minst sagt populära i referenser men som för alternation rent praktiskt snarare än något djupare intresse i hur verben grupperar sig relaterat sådana faktorer åtminstone till försvarliga andelar kan lösas tämligen enkelt. En av flera källor emellertid om man behöver samla verb relaterade något ämne även om man kan tycka att ett arbete så citerat borde fått flera doktorander och forskningsassistenter tilldelade för att bygga vidare på kategoriseringen till något riktigt stort man gör tillgängligt för hela världen att verbalisera till något bättre och mer förstått. Det borde idag vara alla inte helt ovanliga verb som fanns i en trevlig struktur enkel att importera från. Tänk om alla som håller på med verb vid universiteten gjorde det till ett nyårslöfte att beskriva sju nya verb dagligen. Hur mycket bättre hade verb-förståelsen inte varit då?


Jag har också hört att många blir lite misstänksamma när de träffar på verb i böcker. Det är så långt ifrån verbens syfte att de tror att de mest är satta där för att irritera. Jag kan hålla med lite här. Hur många är det egentligen som alls läser verb i böcker? Ska man skriva verb ska de förstås skrivas i CSV-filer så att man enkelt kan göra något praktiskt med dem. Att bara ha verb kategoriserade i tryckta böcker när de är många är lite konstigt även om kanske inte vad man tror är samhällsomstörtande på någon mätbar nivå kortsiktigt. Verb i XML och liknande har jag förövrigt också hört att många upplever som vulgärt: Något folk gör bara för att verka coola när det är populärt.


En lista på nätet finns nedan men är egentligen inte bra (notera bl.a. begränsningen skriven överst samt att en del andra problem finns särskilt att en del utveckling i alla fall skett över åren och i aktiv användning finns ibland mer samt korrigerad kategorisering) i mening av att innan man använder det automatiserat behöver det kontrolleras:



Hos samma universitet [Red. Såg jag fel för. Ett annat universitet att döma av domän.] hittar vi ju också LCS från vars filer (om jag nu minns rätt jag tog ut Levin kategorierna från). Och om det nu var källan jag använde också något kompletterad och expanderad.



LCS är bra därför att det är många verb. Många verb är bra: Annars fattas det verb därför folk använder verkligen många olika verb. Även om LCS är störst tror jag tycker jag nog att den borde fått stöd och motivation från resurs-donerande resp. involverade till att bli flera gånger större.


Mer om att begränsa händelser:


Existentiella trivialiteter

Vi tar exempel:


Mr ABC moves from London to Paris.

I den "verklighet" vi accepterat tillsvidare som verklighet tycks att:


  • Mr ABC existerar.

Det är än så länge inte en fullständig trivialitet eftersom vi har alla möjliga meningar som skiljer i det direkt menings-lokala om vad refererat existerar (oavsett realis vilket i all "verklighet" är en annan fråga än vad vi söker för propagering). Ex. följande mening (som förövrigt ganska speciellt av okända orsaker inte kommer ut korrekt för mig i parse: ganska mystiskt):


Mr ABC's flowers flowers from May to December.

Där vi i alla fall kan gissa att de existerar just nu oavsett månad även om de kanske inte blommar. Men själva blommornas blommor tycks existera mer tidsbegränsat (det finns bättre liknande ex. men de är alla borta för mig just nu).


Rörande vår förflyttning kan vi också säga att ABC varit i London även om vi kanske inte kan säga när. Och p.s.s. för Paris.


Tänkbart vet vi att ABC existerade innan meningen och vi kan därför se det som att han existens "bekräftats" eller "indikerats" vid den aktuella tidpunkten. Likartat kan vi säga att existensen (ev. med boundary temporalt från inte mer exakt än när text publicerats) bekräftats spatiellt i London och Paris.


Sådan "bekräftad" existens är ju "dummare" än annan tillståndsinformation man i all rimlighet också propagerar om man nu kan ta ut denna. Men kanske kan man också få värde av det kanske i och för sig otydligare i parallell ev. delvis för att minska begränsningar defekta tolkningar i övrigt kan innebära.


Den uppmärksammade när jag publicerat dumpar av arbetsminne för pågående tolkningar ser att förutom ett under tolkning indikerad fras för ex. en NP finns multipel ngram recognition tillåtande flera alternativa samtidiga representationer. Mer filosofiskt övergripande egentligen allt vi tolkar i språk är ju skillnaden mellan "symbolen" (Mr ABC, ABC) och vad vi avser. Gör vi en defekt tolkning av vad som är symbolen eller om korrekt vad som avses propagerar vi defekt information om vem som varit var.


Om det senare visar sig väldigt viktigt att veta var ABC tänkbart varit kan den mindre exakta fria "existens" formen vara en mycket dyrare väg att söka interferens men samtidigt billigare än att faktiskt processa om all text över kanske flera år sökande ABC. Det ger ju i alla fall ett antal tidpunkter där existens rörande något som kanske är ABC understrukits för vilka indata text kan processas om (eller om man ev. rent av sparar referenserna till indatat: Jag är i allmänhet när jag propagerar mindre exakt information ytterst obenägen att göra sådant eftersom det tenderar att alltid växa upp och ut mycket mer än man tänker sig när det känns praktiskt att stoppa in något till om det behövs - Redan att göra sådant här om entiteter accepterande både i titel, ingress / första stycke accepteras äter diskar1).


Säg nu dessutom att något mer händer:


Mr ABC grows to 1.75 m (SI-unit meter)

[Red. "SI-unit meter" adderat för att uppmuntra läsaren att inte vara försiktig med att tydliga både det ena och det andra. Det finns ingen som inte gillar sådant!]

Eller om han helt enkelt i Paris visade sig vara lite längre. Nu har vi exempel på vad man kan förledas att tro är constraints för vad Mr ABC representerar. Praktiskt varierar nu sådana faktorer såväl naturligt som manipulativt för barn såväl som vuxna. Likväl är det ett av en mängd ex. på "surface properties" (som jag kallar dem för de mycket färre som för mig är välkända sådana: färg, textur, längd, bredd m.m.) om vi nu är intresserade av att se hur ABC varierar rörande vad som potentiellt kan särskilja en person bakom symbolen ABC jämfört med en annan.


Tråkigt nog höll jag nästan på att säga snarare än en möjlighet man kan uttrycka riktat undvika problemet vi annars får: Att meningsfullt identifiera properties förutsätter åtminstone att vi innan identifierat dom för typen symbolen nu gäller för större (ex. människa). Redan för människa är det spekulerar jag långt fler än jag spontant identifierar resp. tror att jag har ex. i surface properties m.fl. besläktade relevanta. För allt möjligt annat blir det lätt en aning begränsat om man inte helt enkelt propagerar alla egenskaper identifierade tillsammans med exist (ätandes hårddisk).


Det intressanta här oavsett problem är emellertid att vi kan se sådana surface properties när välkänt relevanta som adderande till symbolens mening. Ex. vad vi kan se som:


Mr ABC 1.75 tall drove from London to Paris.

Är skapande annorlunda?

Exempel:


Mr ABC drives a swedish car.

Mr ABC och swedish car (notera att vi här har samma sak som för Mr ABC 1.75 tall) existerar. Nu skapar Mr ABC en bil vi (i brist på spontan kreativitet nog att komma på ett bättre exempel) vet ej existerande innan:


Mr ABC creates a car.

Antagande att Mr ABC är klar med creates upp till nivå att det är en bil existerar den.


Någon egentlig skillnad med den upplösning och löst uttryckt syfte finns egentligen inte. Emellertid propagerar man mer exakt tycks logik rörande om bilen han skapade vid tidpunkten det var klart jämfört med en bil körd innan ge en del möjligheter.


Rörande en del föremål vi kan göra något med kan skapande vara implicit. Något har skapat det och eventuellt skapades det så nära tidpunkt refererad att det i allt praktiskt är samma sak (men inte alltid behöver vara det). Vanligt exempel är något tillagat vi äter: Kanske skapade vi den innan eller så köpte vi det färdigt och åt det kallt.


Givetvis kan man tycka en ren trivialitet. Samtidigt vanligen när existens diskuteras för språkanalys är det just denna typ av väldigt konkreta skapelser som avses. Inget problem med det finns i sig så länge man inte glömmer alla implicita existenser såväl som implicita skapelser (i den mån de är intressanta).


Är förstörande annorlunda?

Det är det knappast. Om Mr ABC förstör något 2015-02-01 förutsätter det rimligen att det också existerade 2015-02-01.


Att se världen just så för den mindre exakta existens vi diskuterat behöver inte vara ett problem för något som är "mer intressant". De dyker ej upp "oförstörda" vid senare tillfällen (men däremot inte otroligt diskuterande skadorna på dem: ex. för statyer m.fl. konstföremål förstörda i Syrien).


En mängd vardags föremål blir det så klart potentiellt lite underligt kring om denna existens är samma som vi använder för att riktat resonera kring vad ABC gjort och hur det påverkat annat m.m.


Samtidigt gäller att av samma anledning som existens är intressant att också propagera mindre exakt rörande information runt om (men istället för fler tänkbart relaterade symboler) kan det argumenterat vara jämförbart intressant för destruction. Men det är ju bara att propagera om så med destroyed.


Någon ens tänkbar situation för data vi får från nyheter, journalartiklar m.m. där vi har exakthet i brödtext uttryckande skild tidpunkt för resp. är för allt normalt otrolig. Undantaget är historiska händelser vilka vi i vilket fall bättre utnyttjar befintligt vetande för i common sense. Under förutsättning att vi har ett rimligt (som jag valt att se det tills ev. behov visat sig) minsta gemensamt tidsscope på saker och ting (datum men ej klockslag: delvis relaterat att tidpunkt är vad vi kan se formas i ett gemensamt uttryck av över väldigt många nyheter som skriver om det från publicerings-datum där emellertid tidpunkt ger en del intressanta utmaningar den uppmärksammade inte otroligt sett hos alla större nyhets-aggregerings-sajter när de försöker avgöra hur många timmar sedan något publicerats eller jämförbart - Datum normaliserat stämmer ofta bra men tidpunkt sämre så - förutom all idioti kring standard här: sunt vore samma datum- och tidsformat alltid enligt samma punkt i världen så får klienterna översätta det lokalt efter behov istället för nu varierade format efter olika punkter som ej framgår för läsaren och hanteras regelmässigt defekt eller inte alls av klienterna).


Att peka runt i graferna

Praktiskt finns en del löst relaterat det här man kan göra en del fascinerande saker med utnyttjande fria pekare. Min erfarenhet av att ta upp strukturerna i Perl är generellt att det är i nära nog allt är överlägset C (med försvinnande liten skillnad i prestanda just här - Filaccess är dock beroende på hur man gör det tydligt sämre - även som tolk) men fria pekare i träden ska man se upp då åtminstone i den Perl-version av tolken jag kör nu kan det korrumpera tolkens tillstånd (säkert för ett par fall jag fått inkluderande möjliga säkerhetsproblem). Så jag brukar undvika implicita representationer i "större" strukturer när de verkar "utanför" ett meningsfullt lokalt sammanhang (som en enskild mening eller åtminstone en nyhet korrektare sagt). Man kan hoppas att koden är övertydligt skriven om man någon gång skulle vilja addera till några särskilda operationer hanterande en del liknande problem under körning ex. tvinga den att göra garbage collect ty ibland tycks den göra det inte alltid i bästa situation. Man kan misstänka lätt att om man kan tvinga den att rensa maximalt efter en avgränsad hantering av ex. nyhet kan risk för att den förvirras och börjar skriva sönder sig själv minska också när strukturerna över tiden blir större. Samtidigt: Fri och kreativ användning av pekar i grafer för att just tillåta dem att kunna peka lite hur som helst efter behov kan spara tid nu men min erfarenhet är att om något väsentligt problem ligger i sådan logik eller något tydligt behöver till gäller i hälften av fallen att det kostar mindre tid att kasta den gamla koden och skriva ny för det.


Dessutom ligger här en fullt lösbar utmaning i prestanda. Försiktighet att pekar-notation i graf inte fritt tolkas just som pekare i minne är tämligen viktigt eftersom grafen i all verklighet utanför ett fåtal noder (säg upp till några hundra tusen) finns i minne utan på disk. Fria pekare efter behov kan ge read access utspritt över disken istället för som ett chunk rörande en entitet vid säg en tidpunkt ligga samlat och inte större än vi läser in direkt.


Men detta är faktiskt det ändå som Perl-tolken skadat sig på odefinierat några gånger: Just stabiliteten rörande sådant här och mycket annat är ett starkt argument för att använda Perl. En till ex. på stabilitet är möjligheten att ha konfigurerbara kontrollfunktioner för hantering av fel vilka vi när vi kör skarpt sätter till att strunta i felen. Perl har här den trevliga egenskapen att det ofta klarar detta utan att krascha själv. Kan ge enstaka underliga värden men på det stora hela är det normalt ovanliga fall som dock när vi processar mängder av indata av och till uppstår och därmed åtminstone för propagerade tillstånd inte påverkar annat än ibland för väldigt ovanliga symboler.


Fotnot 1

Och fragmenterar dem växande om man inte enkelt kan ta ur dem från aktiv användning. Man tror inte att det ska fragmentera som de gör - eller egentligen alls - när "korrekt" gjort tagande kostnad i diskutrymme för att få färre stora filer. Men om fragmenterar ändå med ett av de sista Linux filsystemen som dock i övrigt hade en del bra egenskaper jag gillade prövande på en disk (rörande hur den raderar / gör ändring eller väntar med att radera / gör ändring vilket faktiskt blir snabbare). Men jag kan så klart tagit fel: Jag vill egentligen inte behöva lära mig en massa om diverse filsystem men av och till är det en målsättning man för prioritera ner om man inte istället ska expandera budget med något mer stiligt att lagra på. När så sker gör jag normalt inte en fördjupad liten insats där jag lär mig allt om någon detalj relaterat OS eller filsystem. Snarare så lite som möjligt.