Visar inlägg med etikett Mängdlära. Visa alla inlägg
Visar inlägg med etikett Mängdlära. Visa alla inlägg

Att förstå begränsning hos händelse och effekt

2015-02-21

Vi utgår för det mest grundläggande från en enkel mening för vilken vi under analys antar ingen vetskap i common sense lika lite som historik i form av pågående diskussion kring händelsen:


Prince Ingvar angers Queen Victory with a letter

Effekt på Queen Victory "tillståndet"

Vi har nu en effekt på Queen Victory (inbärande ungefär att "she angers over "the cause""). Denna har vi i meningen i sig ingen indikation om var begränsningen finns.


Ofta för många effekter på något kan man när exakt avslut saknas med ganska god rimlighet anta en exponentiellt avtagande kurva följande vad som är typiskt för situationen. Utan mer information än i meningen är det dock inte helt stabilt att göra:


  • Personer kan uttrycka känslor i pågående nyhetshändelser snabbt passerande.
  • Medan som vi vet annan irriation kan kvarstå hos individer under väldigt lång tid.

Så effekten är här [unbounded].


Bounded men Unbounded

Antar vi nu att vi istället har meningen:


Prince Ingvar angers people with a letter

Är vi nu i effekt även unbounded avseende de entiteter effekten antas orsakas på. Vi vet ej hur många dessa "people" är och ej heller när effekten på resp. avslutas (eller ens i genomsnitt).


Orsaken: Bounded

Prince Ingvar är dock begränsad till en person:


Prince Ingvar angers [...] with a letter

Det hade i kontrast istället kunnat varit fastlands-kineser besökande Hong Kong för att shoppa som gör Hong Kong bor arga (jag har får jag erkänna aldrig tittat närmare efter hur det rationaliseras kring varför det blir mer sådant - folk som kommer utifrån och handlar brukar ju ex. i Sverige ses som bra - utan har bara antagit det som avspeglande mer "unbounded" dynamik kring polarisering). I vilket fall effekten blir unbounded-bounded som funktion av:


  • Om antalet personer besökande är bounded .
  • Eller om vi så väljer antalet personer besökande är bounded under en specifik tidsperson.

D.v.s. i all praktisk exakthet vi får med antaganden vi gjorde om vetskap är vi här unbounded i mening av orsaken. Finns ett samband mellan effekt och orsaken, och orsaken i morgon blir tillräckligt större än idag tycks det rimligt att ej utesluta att effekten vi då ser blir större.


Är brevet bounded eller unbounded?

Det kan tyckas att effekten i parametrar för orsaken är bounded rörande brevet Prince Ingvar skickar. Det är åtminstone ett brev (vi antar vidare ett specifikt brev) som gör proto-patient argare jämfört med hur hon var innan avseende proto-agent Ingvar.


I kontrast kan vi ju istället ha:


Prince Ingvar angers Queen Victory with letters

I vilket fall inte bara effekten av det första brevet är unbounded avseende Victorias tillstånd utan Ingvar kan dessutom skicka fler brev efter det orsakande även de effekt.


Irriterande nog kan Ingvar givetvis för fallet med a letter också göra bland annat:


  • Springande av och till hållande upp samma brev framför ögonen på Queen Victory
  • Skicka samma brev flera gånger (d.v.s. vi - eller bättre sagt: jag - har implicit gjort common sense antaganden i diskussionen här trots att vi skulle avstå från det).
  • Kanske påminner externa personer av och till drottningen om brevet trots att det skickades en gång. Mycket vanlig situation rörande nyheter eller uppslagsböcker där det mesta redan inträffat man kanske då bedömde från ex. några grammatiska samband borde ha varit bounded.

Så låt oss sammanfatta vad vi har för effekt-parametrar i bounded

Jag kan tänka mig att vi kan förenkla ner en del här rörande hur denna typ av meningar ofta uttrycks men kan också tänka mig att det kan gå fel av och till utan riktigt uppleva att jag kan ta ut test-fall tillräckligt. Därav uttrycker jag detta "ungefär" enligt nedan (en del av rymden framgår inte den del av "arbetsminne" vi ser):



STATE_EFFECT är effekten meningen indikerar. TOWARD uttrycker de dimensioner förändring är förväntad att gå att uttrycka via (samt just nu tillfälligt är dimensioner förändring kan sägas gå mot som konvergenser i mening av "nya händelser" - ex. CONFICT - inkluderade, och primärt ovan UP för ökad aktivitet (är du är arg är du mer aktiverad) och NEGATIV rörande bl.a. men ej uteslutande attityd från patient till agent (mer avgränsat attityd för pn_negative och förhoppningsvis här ej med pn_positive).


OVER indikerar drivkraften till hur denna effekt uttrycks och realiseras. Här satt till CAUSE. Vi kan förstå OVER via här transformation till menings-typen:


Queen Victory angers OVER Prince Ingvar with letter

Queen Victory angers TOWARD positiv, negativ, ... OVER Prince Ingvar with letter

Queen Victory "activity = process of agentative change" TOWARD positiv, negativ, ... | IN=angry (IN ≈ i mängden av effekt-förändring vi avser som möjlig) OVER Prince Ingvar with letter

Queen Victory is angry over Prince Ingvar with his letter.

o.s.v.

IN uttrycker fuzzy den yttre "tolknings mängden" effekt verkar i. Detta är vad vi när händelser förs samman kan välja att expandera, beräkna similarity med som begränsning o.s.v. mer kostsamt. Utanför det är syftet och direkt så att uttrycka antagande i ett begripligt koncept för den som läser utskriften (d.v.s. i allmänhet jag) och därav att det skrivs om till NP (vilket rörande similarity är nödvändigt: verb-formen hade fungerat lika bra).


CAUSE definierar "agentativa" orsaker d.v.s. här proto-agent Prince Ingvar tillsammans med verktyget letter.


ON definierar vad effekten induceras på. Här proto-patient i form av drottningen.


Här implicit definierat gäller därför att vi har en stycken aktivitet. Vi hade också kunnat uttrycka det som två aktiviteter: Att proto-agent gör något resp. effekten det orsakar på proto-patient. Emellertid gäller att vi när meningar uttrycks så här att man kan uttrycka dem just förenklat som en aktivitet där jag upplever att man skapar onödig komplexitet uttryckande dem som flera: Konkret praktiskt har vi implicit den orsakande processen i CAUSE.


Vidare gäller att aktivitet här har en komplicerande faktor (egentligen två stycken: dessutom ett verktyg) - jag misstänker föll bort från körningen skärmdump kom från ovan - genom att STATE_EFFECT ej självklart kan ses som bounded till proto-patient. Begränsar vi till förändrings-effekter gäller att:


  • Prince Ingvar tänkbart blir mer "UP" (mer aktivitets-benägen) själv av att lyckats reta upp proto-patient.
  • För resp. positiv och negativ (generellt för mina exempel när uttryckta utan avslutande e för resp. samt utan ev. för epitet som pn m.m.) gäller att default-perspektiv för dimensionernas giltighet står ovanför proto-agent och proto-patient mer eller mindre inkluderande resp. D.v.s. vi kan förvänta att "mirror" eller "spill-effekt" rörande förändring mot det negativa kan uppstå här också för proto-agent. Bland annat genom sådant som:

    • Andra upplever honom som mer negativ retande upp proto-patient.
    • Proto-patient i kommande händelse retar nu upp honom för att "balansera världen".
    Det sista är vad "TOWARD - CONFLICT" indikerar (tillfälligt instoppat där tillsammans med core Human nature).

Enklare uttryckt: Retar person A upp person B behöver upplevelsen av det ej vara begränsat till B. Det kan indirekt orsaka negativ upplevelse även hos A när B reagerar tillbaka.

Abstrahera från konkretiserat

Slutligen även om händelsen indikerar i en ensam mening i allt är entydigt bounded gäller att normalt aldrig uttrycks för det faktorer "hanterande" abstraherande av möjligheten:

  • Att i ex. proto-patient blev uppretad av proto-agent indikerar möjlighet att generellt reta upp samma proto-patient.
  • Möjligen ej vad som kräver att samma proto-agent och/eller brev används.
  • Kanske inte ens samma proto-patient som mål utan snarare ex. kategorin drottning.

Men det är nu sådant som analys av många nyheter kan lära oss en del om resp. så väl införande en del "förenklingar" / "bättre upplösning" i analys av enstaka bitar från vad vi allmänt vet om människan. Just här kan vi använda följande förenkling indikerande att dimensioner existerar annat behöver hantera:

  • Proto-agent är också EMO_STIMULUS (eller enklare STIMULUS följande Verbnet's grovare roller).
  • Proto-patient är EXPERIENCER d.v.s. upplevande.
  • Och bedömande på det om pay-load i upplevelsen är positiv eller negativ.

Rörande sådant generaliserar det normalt till allmän-mänskligt men kan ha specifika faktorer uttryckande bounded tydligare än vad som är meningsfullt att från söka det abstrakta uttrycket för. Trivialt ex. tidigare att reaktion från proto-patient till proto-agent givet att proto-patient blir arg p.g.a. vad proto-agent gjorde är vad vi generellt kan vänta som möjlig.

Bounded / Unbounded för NP-fraserna i teoretiska ramverk

De två gånger jag uttryckt logiken kring bounded av NP-fraserna i händelser (d.v.s. här proto-agent, proto-patient och instrument) har jag upplevt det som något jag ej tidigare sett i teori. Emellertid är det ej riktigt så utan ganska troligt att jag såg det första gången (såväl som helst säkert andra gången) berodde av att jag tidigare sett hos Jackendoff (ex. att läsa i Saeed, Semantics, 9.6.5 som jag sett också finns i sin helhet på nätet). Emellertid tycks för mig att Saeed kanske missade delar av poängen av det i hur han uttryckte det genom att begränsa för mycket till diskussion endast av NP.

Vidare gäller att för mängder och grupper gäller praktiskt ofta att vi ej kan se dem som bounded för händelse utan annan indikation. Gäller effekten på ex. the beach så får vi möjlig dynamik:

  • Bounded över the beach.
  • Vilket emellertid förutsätter att location the beach är det väsentliga.
  • Handlar det om tio st nävar sand på the beach har vi ingen känd begränsning rörande effekt-sannolik om tio st är angivna.
  • Och om tio st. nävar ej är angivna vilka har vi ej annan begränsning än all sand på the beach vilket vi inte med någon common sense någon har kan skatta för någon strand.
  • Eller om det gäller alla nävar sand möjliga på stranden är det ej heller beräknings-bounded.
  • Vidare är det föga troligt bounded av sanden så mycket som själva händelsen i övrigt: Ex. om händelsen inkluderar personer görande något med sanden antalet personer.

Diskussionen ovan är inte helt bra: Bättre sagt gäller idéen att mass noun, count noun och group noun säger något om bounded under antagande att bounded är funktion av antal (snarare än vikt, emission eller vad helst som saknar samband med det). Vidare retar A upp group B och storleken av group B går mot oändligheten för den form av händelse retar upp är så är endast effekten A har i mening av antalet personer som retas upp en begränsande faktor: Kristna och Muslimer är två grupper unbounded.

Vidare som jag avstod från ovan - såväl som kod ännu i alla fall - kan vi tänkbart beroende på argument-ordningen (proto-agent orsakande upplevelse hos annan alt. hos sig själv) tänkbart implodera dimensionerna kring bounded utifrån vilken bounded den som skriver typiskt antar och avser. Jag vågar inte riktigt göra det idag.

Förövrigt PCS i bilden kan sägas stå för Process Componential Analysis d.v.s. i huvudsak hur jag representerar delvis skapande nytta av Jackendoff hur såg på "händelser" såväl som desto mer senare arbeten. Den intresserade kan ex. jämföra med tidigare diskuterat kring Dorr's LCS (eller från manualen på nätet: LCS documentation) som åtminstone delvis är mer begränsat än vad vi uttrycker ovan (men kanske fortfarande så fångar mer i vissa områden). Något - upplevde jag - fascinerande tycks från något jag läste att Department of Defence, US, kan vara på väg att beställa annotated corpus för LCS. Jag kan förvisso förstå att de kan få ut värde av LCS men jag ser inte att man inte direkt (givet att kopplingen direkt till språk just är abstraherad) kan parsa om annan annotated (vanlig treebank) till LCS-form. Jag tvivlar ju stark på att fel-andelen just kommer ligga i den processen om man ska skapa nu annotation med nya saker att bedöma ifrån för åtminstone jämförbart stort corpus medan fel-nivån rimligen enklare kan kontrolleras bara genom att parsa och sedan gå över några tusen till tiotusentals resultat.

Yago: Wikipedia-kategorier är inte subclass till Wordnet-koncept

2013-07-22

Åtminstone inte i någon enkel mening med mindre än att man inför givna definitioner av resp. kategori och från dessa avlägsnar delar i form av kategori-kopplingar och artiklar som ej passar in. Idag gäller ju att variationen och också det relativa avståndet från särskilt för artiklar sådana som ligger långt ifrån vad vi oftare tar som mer "naturlig" tolkning kan vara stort.


Det är därför lite vådligt att addera flera Wikipedia kategorier man anser mer exakta eller avgränsade under ett Wordnet-koncept man antar omfattar dessa i mening. Kategorierna kan ju ligga tämligen långt utanför.


Väljer vi hellre en statistisk tolkning med viktmatriser och sannolikheter o.s.v. givet vilket kontext aktuellt för vad vi bedömer något från blir det en helt annan sak. I den mån outliers vi spontant inte ser hur de passar in (och av och till är fel-placeringar eller riktad marketing i irrelevanta segment av Wikipedia) har värde detekterar vi det om våra statistiska källor är tillräckliga för vår användning med dess krav på korrekthet.


Wordnet mycket mer inriktad på ett fåtal koncept i form av 1-gram - och som sådana vanliga ord - kommer den enklare avgränsningen mycket mer naturligt. Det är jämförbart magnituder enklare att göra en bruksordlista funktionell för att slå upp alla vanliga ord vi kan träffa på och behöver kunna tolka riktat för tolkning i meningen eller ännu smalare i den medan det i en uppslagsbok som ej utesluter någon kunskap är fråga om ett gigantiskt arbete.


Därmed inte att jag säger att det är fel att göra som i projektet Yago vid Max-Planck-Institut Informatik i den mån användningen i sig är mycket lokal och man inte förväntar sig en exakthet i kategorierna som inte finns där. Och vidare minst lika viktigt:


Att man organisatoriskt och i management generaliserat av Wikipedia inser att det inte går att generellt ha färdiga definitioner av kategorierna.


Jag betvivlar dock att det problematiken är trolig även om många aktörer som söker smalare värden av Wikipedia som datakälla för att lösa konkreta problem man ser nu i användning av semantiska relationer gärna vill att Wikipedia försöker i så mycket som möjligt uttrycka sig i färdiga kunskapsdimensioner.


Också om de semantiskt i skisser semantiskt mer definierade idéerna gärna för de flesta spontant känns oerhört rätt (strukturellt kanske likartade med hur vi resonerar övergripande givet just den kunskap vi har aktualiserad för en situation aktuellt just nu om än kanske inte kunskapen samlad) tror jag en stor praktiskt realitet finns från att de flesta skribenter och läsare egentligen struntar fullständigt i Wikipedia som datakälla för annat utanför just väldigt kontextuellt smala och varande i artiklar givna sammanhang (typiskt infoboxar resp. delvis kategorier av enklare typer av instanser som olika typer av personer i list-former där ju meningskontext i dessa just ger kontext ex. Kvinnor födda i Berlin politiskt aktiva under 1930-talet (för ett påhittat ex. men mycket typiskt för dessa kategorier).


Återvändande till Yago ligger ju tolkningen här också relaterat hur vi definierar subclass. Varande själv mer intresserad av förutsättning statistiska funktioner vill jag gärna se det från mängdlära. Och visst är det funktionellt om vi hellre ser det som sannolikheten varande i mängden för givet kontext vi vill använda det i (ex. tolkande mening av ett ngram förekommande i en nyhetsartikel). Notera de tre viktigaste ganska löst definierade underrum i dimensionsmening kontextuellt vi har här i Wikipedia: Subclass may refer to. Datalogins perspektiv förutsätter definitioner tillräckliga för att klara resonemang utifrån mängdlära och besläktade matematiska kunskap men är inte i någon annat än kunskapsriktade specialiserade ontologier (ex. gener eller i bredare omfång Gene Ontology (GO) database inkluderande av cellbiologin) där ett givet etablerat kontext gemensamt etablerad med början grundutbildning vad jag någonsin sett.


Vidare relaterat hur Yago gjort kastar man bort odefinierade dimensioner för kategorierna. Man säger att ett kategori-koncept kan vara undermängd (om vi väljer mängdlärans perspektiv) ex. till person i viss mening där ju dimensionen hos det senare ger indirekt (och troligt praktiskt funktionellt oftast utan att engagera sig i det närmare) men också ligger ofta mening i kategorierna som avgränsar eller expanderar kategori-mängden utanför denna eller tar det till dimensionsrum där det senare kan vara praktiskt odefinierad. Vi kan ex. tycka ett en manlig figur i en fabel eller just av manligt kön men vill vi tillämpa principen inom det ekonomiskt största segmentet för dessa system d.v.s. medicinsk och biologisk forskning är det inte funktionellt.


Egentligen är detta inte ett problem hos Yago som det oftast tycks använt - eller för den delen DBPedia m.m. likartat - i lösningar vi kan se men för mindre webb-publicerade proof-of-concept eller just uttryckt av datat i sig snarare än som grund för logik, intelligence, statistik m.m. är medvetenheten viktig och det är i forskning ett allmänt föga berört område där man hellre ser system där man infört någon beteckning som indikerar entydighet för ett koncept (ex. Wordnets synset9 som att frågeställningen på något sätt är löst generellt.


Vi kan med ett mer unikt ex. också mer praktiskt funktionellt än de många publicera relationerna lösningarna förstå vad jag avser med webb-publicerade proof-of-concept. Betraktar vi Google's söktjänst har de börjat publicera sådana här enklare fakta bredvid sökresultatet. Där är ju dock ett kontext redan inverkande sökresultaten givet. Antingen bara det skattat typiskt önskade - mest troliga mening - för den som söker eller personen mer avgränsat givet kontext av tidigare sökningar (Google typbestämmer bara från det första i någon påverkande mening runt detta och undviker annat än som instansierade mer generella koncept passande detta ex. om du söker på ett personnamn och det finns en känd person många är intresserade av så kan du födelsedata m.m. liknande fakta om denna även om du egentligen letar efter en ort med samma namn sedan en timme med olika sökvarianter runt den - en antagligen ganska vettig lösning varande en färsk lösning och givet att Google generellt arbetar runt kontext-påverkan som bedömt sökresultatens förändring resp. en del bredare forskningsprojekt, engagemang från entiteter inkl. Google m.m. och etablerad kunskap i segmentet).


Egentligen gillar jag nog mest denna tradition. Jag har en del koncept och implementationer här och vet av erfarenhet att det kan vara sunt utvecklande att göra dem själv och därför vad jag inte tycker dom här projekten ska försöka göra någon lösning av som kanske ändå inte blir särskilt riktat bra. Men indikerade det ändå därför att jag gärna skulle se att någon av projekten som gör komprimerade extraktioner av Wikipedia skapade relationer från kategorier till andra inkluderande fler i dimensionsmening. Jag påbörjade det själv mer riktat för att ta in dimensioner relaterat personlighet, sociala koncept i grupp, medicinska och genetiska aspekter av människor, men givet mängden hand-filtrerande där bokstaven "a" till cirka hälften klart manuellt tog ett antal timmar för en ganska begränsad mängd koncept kände jag inte för att göra klart det.