LDA och LSA med Noise-Kohonen: Samt buffer-overflow-outing Ubuntu's CM för 32- vs 64-bitars kompilering

2017-03-25

Efter att det blev av att betrakta närmare PCA - Kohonen jämförelsen - att se Kohonen som en mot en stream men i övrigt kanske onödigt tidskrävande variant av PCA om man egentligen vill göra det - fick jag min anpassning av Kohonen (som jag alltid gör linjär - endimensionell, och numera med 300 double per tillstånd längs linjen - att göra intressantare något som otvetydigt kan konvergera och normalt gör så mot LDA resp. mindre intressant p.s.s. som jag tycker PSA kopplingen är det LSA).


Intressantare och antar jag trivialare för något som arbetar fel kring sådant här. Och med fel menar jag att tänka sig att man i metodik börjar med att sitta och härleda något runt matematiska relationer som när implementerade är triviala, snarare än att börja med att för enkla ekvationer testa igenom alla uppenbara varianter av dem som inte gör beräkningarna relevant mer komplexa. Så slipper man fundera över varför en av de mest effektiva composition operatorerna för semantiska vektorer ej mer beräknings-komplex än egentligen addition och multiplikation tillsammans ej berörs i publicerat om det nu inte är därför att p.s.s. sätt varför den blir blandningen av linjärt och icke-linjärt så lär den vara direkt smärtsamt svår att bevisa samband för eller rörande icke-bevisad konvergens referera till alla tusen artiklar refererande detta för Kohonen allmänt (för jämförelse snarare än just relevant composition oftast) är att jag ändrat default formen för min tidigare Kohonen-anpassning.


I princip för exempel betraktande min 300-WW variant d.v.s. ord vektorerna vilka är cirka 300 000 st (medan 300-CC och 300-FF över flergram är ett antal miljoner) för ord i indata och tänkande oss att vi tränar något där vi önskar antingen konvergens för tillstånd mot tematiska cluster eller POS. För de senare är min erfarenhet för mina 300-WW (minns ej hur det var i mina 400 stokastiska LSA vektorer de gjordes av) att få konvergens mot POS är en fråga om förhållandet mellan L1 och L2 (med 300-WW dim. reducerade via min Kohonen från 400 dim LSA i sista steget klara görande en kvadrat på varje sim värde mot resp. tillstånd och därefter L2-normerande dem, och ej betraktande normal skew för allt neuralt eller gradient som vad jag behöver hantera saknande annat än undantagsvis negativa värden med rymden efter kvadrat ungefär med medelvärde SIM på 0.5, konkret görande just kvadrat som jag senare fick gå tillbaka att verifiera eftersom det slog mig att kvadrat istället för X * abs (X) kanske inte är helt bra för värden fördelade möjligt [-1,1]) utnyttjar jag noise.


Se det så här. Clustrande eller dimensions-reducerande med Kohonen accepterar vi givet med problemet en ökad mängd smoothing / inexakthet eller hur vi vill se det. Vi får en centralitet utryckande ex. ett ämne allmänt potentiellt istället för en mängd enskilda vektorer. Lite som att se det som att vi skär en mängd decimaler. Med mina 300-vektorer gjorda Kohonen är varje dimension meningsfull att betrakta för människa. Och för något där som också var en vinnare (emedan jag för 300 dimensionerna färdiga ej hanterar vinnare annorlunda - bara likheten mellan 400 tillstånd concept och 400 tillstånd utnyttjas) inser vi att det samlade similarity värdet kan ta en försvarlig mängd slumpmässighet upp eller ner i relativ mening mot det absoluta värdet (så mycket som 10% gör relevant skillnad för vem som vinner bara för en mindre andel när vi är nära i tid - säg sista 20% av tiden d.v.s. för 300-WW cirka 2 veckor men absolut att det går att göra snabbare men jag hade 10 - 20 liknande processer som gick).


Men det är ej noise på sim jag arbetat med utan noise på hur tillståndsvektorn flyttas. Men jag vill gärna se detta jämförbart. Vi har ett utrymme runt resp. troligt korrekt tilldelad vektor som normalt oftast också är en korrekt tilldelning. Genom att addera in noise som slumpmässigt hamnar någonstans i detta utrymme täcker vi också in detta.


Säg att jag utnyttjat detta när jag gjorde mina 300-WW. Jag har cirka 300 - 400 000 400-dimensionella vektorer in och gör ungefär lika många 300-WW. Varje ord (samt en hel del URL:er också för den delen samt säg 50 - 100 000 flergram faktiskt skapat med bindestreck då jag tyckte det var lika bra praktiska skapande topics samt härledande konstanter för composition som jag trodde ev. behövdes) som finns i denna värd är en vektor så vad skulle värdet vara? Värdet är att blandningar av ord uttryckande ex. en nyhet eller ett ämne blir bättre. Det existerar en oerhörd mängd vektorer som ej är existerande ord som kommer förekomma praktiskt.


Två idéer förklarande värdet (lämnande att hindra överträning vilket ej varit en fråga för mig förrän nyligen) jag reflekterat men ej metod-defekt begått misstaget att sitta och matematisera är att:


1. För 300-WW kan vi tänka oss att ett cluster väsentligt kortare än 300 dimensioner - säg 30 - 60 eller mindre - utnyttjar i huvudsak 1 - 10 st. 300-dimensioner styrande ett tema. D.v.s. variationer på lågt värderade dimensioner kan existera. Kanske är dessa uttryckande en hel del likhet för ett ej helt litet antal i praktiken påverkande en del ej rörande mängden vinnare men när vi ställer den färdiga dimensionen relativt alla vektorer som i verkligheten kommer in inkluderande också kombinationer av många ord. Med noise kommer dessa i absolutvärde små dimensioner ej inverka om noise är ej helt litet jämfört med säg för varje vektor minsta värde.


2. Enligt som diskuterat tidigare att en stor yta / sträcka ut från de flesta sim-värden finns också samma dimension oavsett om just varje värde existerar för ett ord gäller att höga värden snarare är sällsynta exempel på vektorer som kan förekomma praktiskt vilka också är ord.


Om jag adderar noise för en position på vektorn i Perl med:


    ( rand ( 0 ) - rand ( 0 ) )

Inser man att Ubuntu's configuration management igen är helt defunct och rörande ett ämne (separera 32-bitar och 64-bitar kompilering) som till sin natur pratar buffer overflow nära nog var helst. Men praktiskt är ungefär för mig den yttersta gränsen om tränings-konstant är låg och vi är nära klara som kan accepteras (64-bitars Linux - Perl från Ubuntu apt-get utan tvivel då definition av rand är upp till argument som största värde kompilerat felaktigt: Kontrollerande Perl manual har de noterat risken här för rand men har troligt fattat det hela delvis felaktigt. Säkerhetsriskerna är dock primärt i mängd ej lokaliserat Perl då det demonstrerar att Ubuntu CM är defunct bortom all rimlighet om ansträngande sig ens litet och begripande något lite i grunderna i minne och vad det har att göra med kompilering: Jag menar varför inte kompilera allt 32-bitar och därefter kompilera om allt 64-bitar som ej gick att starta på en 64-bitars Linux? Jag hade ej gjort så normalt även om jag kanske ej ids kompilera om eller ladda ner rätt Perl på debug-datorn men är du dum i huvudet, okunnig gör du kanske så eller om mot all förmodan ej aktuellt Ubuntu är något Ubuntish annnat).


Men oavsett 0 som argument är formen för noise det jag använder. För att fånga tänkbart värde 2. i mitt resonemang förklarande värde från experiment utnyttjar jag varje position för indata-vektorn värde som övre-gräns. Vidare utnyttjar jag det minsta värdet över hela vektorn. Samt i flera varianter kvadraten av varje absolut-värde. Ett polynom antar jag att en matematiker skulle uppleva att det blir men praktiskt snarare tre olika lösningar som söker addera tre olika värden som tänkbart har betydelse.


Praktiskt resultat i särklass tydligast är:


  • Från träning cirka 30 - 50 000 ord fördelade 60 dimensioner.
  • Gäller nära klart att för höga similarity värden mot resp. tillstånd för alla 300 - 350 000 ord som har vektorer.
  • Att oavsett om resp. sådant ord är vinnare under träningen eller ens existerande bland träningsdatat är det vad man upplevt naturligt hör dit om tilldelad vinnare för tillståndet beräknande för alla ord. Samma fenomen märks när vi tilldelar värdet sim oavsett vinnare eller inte men cirka 0.05 - 0.10 i off-set similarity ovanför att vi ser några underliga (för mig typiskt off-set html-taggar, forum-talspråk, nummer och liknade vilka ej förekom alls i träningen).

Medan frågan om avvägning bias / förmåga att inkludera korrekt / antal felaktigt tilldelade först börjar bli något som existerar som fråga nedanför (säg riktigare alla dim. 0.35 +/- 0.05 - vid 0.40 finns inga för någon dimension jag sett) men tveklöst similarity av 0.35 - 0.40, med genomsnitt alla vinnare. Skillnaden är värde är enorm.


Men värdet är ej unikt för denna metod. Om jag tränat 50 000 st. lika mycket utan detta hade jag fått något jämförbart i ej felaktigt höga. Och också om överträning och andra ej helt olika problem relaterade ex. om ej Kohonen utan vanlig vektor-kvantifiering den negativa termen när felaktigt tilldelat under träningen är väsentligt svårare att hamna i för Kohonen hade vi dock (och jag har prövat just för detta exempel) haft brutala värde-reduktioner p.g.a. just sådant här d.v.s. en mängd (tiotusentals) ord-koncept som korrekt borde vara höga för en dimension som ligger lågt - och detta oavsett om körande Kohonen-anpassningen utan grannskap eller vektor-kvantifiering med cirka 20 - 30 000 av träningsdatat med cirka 10 000 tveklöst felaktiga.


Typ exempel på hur värdefulla metoder man praktiskt har nytta av ser ut: Snabba, ej adderande komplexitet kod och allt jämförbart. Men där värdet jag avser ej har med dom värdena att göra. Utan dessa värden är mer typiska kännetecken för vad som ger stora värden typiskt i övrigt.


I övrigt betraktande exempel variationer av Kohonen publicerande kännetecknas dessa av att författarna haft svårt för att Kohonen ej är vektor-kvantifering och försökt göra en variant av Kohonen som fungerar som vektor-kvantifiering. Delvis antagligen därför att de känner sig tvungna om publicerande något alls att behöva härleda diverse vilket de upplever svårt om ej klart från start som för vektor-kvantifiering.


Jag vill dock föreslå - oavsett att en del upplevt att de bevisat att det ej är så - att det går att bevisa att Kohonen kan konvergera. Nu är jag direkt värdelöst på hela området matematiska bevis och har egentligen ej varit i kulturen alls sedan teknisk fysik. Men jag fick för mig att jag gjorde det anpassande konceptet för något helt annat. I någon mening kan vi (kanske: vi använder troligen kanske och i någon mening fortsatt lite överallt) se Kohonen som Markov-processer. Vi vet ju också att ibland kan vi bevisa något om vi kan visa det för n resp. n + 1, eller något liknande. Vändande på tilldelnings-ordningen via Bayes sats (n kontra n+1), uttryckande det som Markov-process, och därefter visande konvergens för n och n + 1, och därefter räknande tillbaka visa Bayes-sats har vi förutom att ev. / något jag trodde att jag kanske gjorde då visat konvergensen har vi kod-logiken för vad jag gjorde anpassningen för. Svårt för mig givet tid att säga säkert eftersom jag vet att det som jag parametriserar för 300-WW/CC/FF att det alltid konvergerar. Jag lär ju ej sitta och göra samma sak för algoritmer där något praktiskt kan visa mig felaktig eftersom jag ej känner till några jag behöver där frågan är öppen teoretisk.


Hur som helst får vi samma utökade värde görande LDA med Kohonen-anpassningen med noise. Här gäller dock att man / jag tveklöst kommer få mycket större värde genom att generera noise följande statistiska distributioner från språket i nyheterna.


QED. Eller hur det ibland känns som något fint för läsarnas utveckling att visa vem som är the Big Dog (så kan andra med ibland framtränande osäker självbild se hur man korrigerar upp det). Och för att understryka det lite extra - och kanske för framtiden stimulera NSA eller liknande som tänkbara kunder systemet genom att peka på hur bonus-give-a-ways ser ut: Förutom att jag nu publicerat OpenSSL defekterna redan för år sedan - outing Ubuntu.


Noise, noise, noise. == Information, information, information. Även när perfekt slumpmässigt strikt lika med mer korrekt information samlad i resultatet. Här i alla fall.


PS. PSA får mig alltid att tänka på Nobelpriset (i Kemi tror jag). 1993 - 1994 kanske? Förkortningen är troligen lite fel dock. Vad vi ex. använder för att få fler exemplar av ett stycke DNA-information. Var och lyssnande på dem föreläsande om det i Uppsala minns jag.

Mongoliet är viktigt: Styrkan i ett härdat folk behöver sina bröder för att bevisa att vi är människa och ej varelse

2017-03-24

Men kan då ingen hjälpa dem här med pengarna de i rimlighet har att förvänta. Det är ej instabilt i mening möjligt energifrilösande kanske sämre kanske bättre utan bara nötande sönder när urban och rural samtidigt saknar någon region av folk flertalet ser likhet i som ej är under vad vi i rimlighet ska förvänta är nedre undre nivå. Mongolia är mycket potentiellt på så många sätt. Mycket fin infrastruktur. En del nya projekt externt-finansierade på väg. Naturresurser ej utnyttjande och fantastiskt bättre än Kongos gigantiska oupptäckta oljefält (menar jag utnyttjande mina prediktionssystem ej seismiska) saknas jungel-berg-no-cheap-road o.s.v. i utmaningen.


Det är ett så världskulturellt viktigt folk att det är fyskam att det ska behöva gå så här illa utan att någon räkt ut en ärlig arm och dragit upp dem till mänsklig nivå. Inget korrekt och inget rimligt finns i att acceptera att en hel region besmittas av den amorilska varelsen som parasiterar Mongoliets södra granne. Människorna - de av oss homo sapiens som accepterar mänskliga värderar - kommer som en när faran hotar.


"Approximately 200 ethnic Mongolian herders in Southern Mongolia have been protesting in front of government offices, demanding to be paid the subsidies they had been promised due to the grazing ban."

Från: Southern Mongolia: Herders Protest Lack of Subsidies After Grazing Ban )March 23, 2017) | UNPO.org

Egentligen är Mongolia tänkbart en mycket plattform för att kompletterande landsbanor lite västerut. Asien är inte bara Afganistan, Irak och hela det området definierat mess uppenbart för var och en av den mentala förruttnelse kult som spridit och sprider sig bland dess folk. Mongolen är annorlunda. Ett stort och modigt folk. Likt hur de en gång gav Ryssland, Iran, Indien, Kina och i ärlighet stora delar av övriga Europa indirekt ´struktur stat såväl många hundra år härskare knoppande av hästjordarnas folk (varför vi har draktronen såväl som påfågelstronen och dess tre syskon: även om vad indikerat i värdering av släktskap - vem som bär historisk rätt till en tron ej kan ha bestått länge).


Mongoliet är viktigt. Mongoliet är viktigt i typ sorterande i vissa aspekter i Persien typen. Kulturen definieras ej av landets gränser. Storhet i historien vad vi kan lära av världskulturerna är alla folks gemensamma arvrätt och här gör det oss heder att ge med båda händerna över landet, över kulturen och göra dem starka. En mur i norr.

Bokförings-tysken vs Trump: Waste / Vast sums of sums of money

2017-03-19

Konceptet att Tyskland har en "skuld" - vast sum of sums of money - har självklart mycket att göra med vad man avser med ex. skuld. Knappast en fordran så mycket som en önskan att bibehålla och stärka militärslagkraft kanske finansierad via NATO också (vilket har såväl för och nackdelar: Nackdelen är att ett lands försvar med eller utan Nato är för stora geo-områden beroende av direkt självkontrollerade styrkor. Fördelen ser vi i det gigantiska kaos av olika vapensystem resp. samma vapensystem ej alltid fungerande med samma någon annan tillverkad).


Vi kan emellertid se hur President Trump kan fattat fel på vilken arbetsinsats som krävs för att få en tysk att ta fram plånboken bara någon månad efter de gjorde det sist. Råkar vi skriva waste sums of money vilket självklart är ett fel vi kan förlåta om nu tankarna på den amerikanska "överkostnaden" i Europa är vad som är "Trump:ed up" för åtgärd. Och åtminstone jag om jag inte mött vår i Europa "särskilt" (jämfört med vi andra) nogräknade accounting-kultur förr hade tagit det för en enkel sak att få dem att bidra upp (här ska Trump tänka sig för: En del får pengar med det kommer som tyskar med "på köpet" som anmärker på din bokföring och tycker du ska lätta ner ditt jordbruk: Vill han inte få en bokförings-tysk är det säkrast att säga till tidigt så att de inte "skrivs in" och blir vedertagen sanning. Vi får tänka på greken här: Nato är den ända vilan från bokförings-tysken i mellan-statligt samarbete de har):



Det gäller som sagt att vara försiktig när man har med mät-tysken att göra. Nu fick jag detta sökresultat överst på waste sums of money. Typexempel på vad kan ge dig en bokförings-tysk. Det ska bli spännande att se vad i den grekiska erfarenheten av vad som fungerande eller egentligen mer som inte fungerade med tysken som Trump kan dra nytta av. Grekerna var ju också väldigt bombastiska (relativt EU-politik-normalt) i media av och till.


¨
20 ways Americans are blowing their money - USA Today
www.usatoday.com/story/money/personalfinance/2014/03/24/...money/6826633/
Mar 24, 2014 - Making subtle changes in our lifestyle can greatly diminish the amount of money we waste, and can result in having more financial security ...

Emedan den förespeglade europeiska budget-källan är svårare att hitta på vast+sums+of+money.

Våra nya mynt gjorda för högre konsumtion

2017-03-04

Och vi har fått nya mynt vilka förutom att dra mindre energi att transportera (och möjligen - tycks rimligt men jag vet nu föga om var kostnaderna egentligen ligger - billigare att tillverka).


Särskilt tillsammans med mynt automaterna i kassorna bör de dessutom ej alls helt litet öka konsumtionen. De är mindre och skillnaden mellan tidigare typisk storlek resp. värde är ej liten. Förutom förväxling mer från vana än att man tror att det mindre myntet är en krona istället för 2 eller fem kronor kommer de naturligt en tid uppfattas som mindre valör oftare. Vidare kommer värdet av hur vi uppfattar mynt-värdet varaktigt gå ner:


  1. Via vad vi kan kalla reset-av-tidigt-inlärd hos äldre som lärde sig värde av en krona som yngre.
  2. Hos alla rent från storleken relativt vad lärt.
  3. I rent absolut mening där mindre alltid ger en tendens jämfört mot en globalt i kognition relativt förbindelse ej lätt att uttrycka rationellt.

Vi skulle här (utnyttjande termer motsvarande mina vikt system i delsystem more-or-less) säga att vi kommer se ökning UP i konsumtion från ökad UP i det vi säger är "effektivitet" (och det sista är allmänt ett svårare viktsystem rent praktiskt om vi istället som här rent resonerat ligger i sådant vi behöver göra text-analys för att bygga bild av verkligheten: Emedan UP allmänt över stora mängder text går att hantera enklare - rent av men sämre utan parsning per mening eller emellan bag-of-word uteslutande och det parsning titel med ingress, eller utnyttjande annan kunskap inkluderande något relaterat sådant som taggar eller kategorier mer i regel-parsning än ämnes-vikter för stora news-providers - gäller att effektivitet oftare än annars kräver parsning och mer komplex användande av det: Emedan vi i bag-of-word över mycket text kan ex. approximera mindre som DOWN gäller det nu inte effektivitet, och effektivitet mindre uttryckt relativt sådant som UP och DOWN har ej någon motsvarande enkel motsvarighet givet få egna ord).


Sedlarna vill jag ej säga något om. Det behövs tydligare som jag upplever det att jag tar in och mäter data för Sverige (vilket känns tämligen irrationellt för något egentligen oviktigt där det ej finns behöv av att föregripa annan statistik som ej kräver egen analys). Jag har fått för mig att de är mindre men har ej suttit och jämfört för annat än 500-kronors-sedlar där jag fått prioritera inväxling ett antal månader för att slippa extra besvär utnyttjande annat än butiker (och familj). Samtidigt har vi nu andra kända personer på dem. Långsiktigt möjligen något som påverkar även om jag tror att kultur-områdets lugnare natur (mindre kontroversiellt kanske även om förespeglade "kvinno-hataren" Bergman - om än nu inte Strindberg - på 500 kronors sedeln istället för kvinna kanske kan upplevas som kontroversiellt av någon: Men ej så i nivå där jag tycker det är intressant kontroversiellt - Folk blir arga publikt mer än att skriva något surt ex. slår Riksbankschef på käften) troligen gör det till tämligen icke-påverkande här efter ganska kort tid. Motsvarande aktiva år samt ej levande gör det också föga påverkande på medel-lång-tid i något som annars kan inverka genom att göra allt runt med intressantare och väcka länge pågående önskan av att uttryckt så. Färg är också annorlunda: Möjligen balanserar det närmare 1-1 att de blivit mindre. Finns något tekniskt bättre än andra länder är det bra men spekulativt kanske vi troligare ej är sämst tidsmässigt men knappast ej bäst heller (jag tror det var Australien som lade till plast-delar med vissa egenskaper kanske tidigt 1990-tal - om inte rent av ännu tidigare), och vi hade åtminstone för säg 5 - 10 år sedan (möjligen före det också vilket då ej var något som intresserade mig - Men spekulativt tänker jag som Uppsala-bo - Uppsala var ju 1980 och kanske in god bit in på 1990-talet men osäker här nyckel-komponent i förflyttning av folk från bl.a. den persiska-kultur-sfären - att det nu kan ha varit så en längre period bakåt också) associerade med problematik runt passen (men återigen även om en del pass åtminstone före de senaste var bättre så var och är många länders pass sämre).


Praktiskt faktorer kan påverka oftast när de irriterar i vardags-moment inlärda. Jag har ej märkt något här (ända möjligen men föga troligt ej inverkande allmänt är att de är lite men ej mycket svårare att rulla - krävs fler gummi-snoddar också). Om något är effektivare och underlättar kan det vara bra och påverka hur vi värderar det men det krävs mer här för att det ska vara förändring som vi märker. Vanligen har det lättare betydelse när konkurrerande val vi gör medvetet finns och en kostnad ej trivial finns. Att något blir lite bättre i vardagen utan att det är associerat med ett beslut om val vi gjort eller ska göra påverkar sällan hur vi värderar något. Det kan tyckas kanske att faktorer som storlek borde vara av samma sak. Men det är känt ej så i latent påverkan (där mer krävs i det senare). Orsakerna här har jag ej sett spekulerade eller teoribildade men kan tänka mig åtminstone för här där vi tänker rent motoriska moment att hur referens-punkter i ren perception resp. perception och motoriskt i agerande ger oss detta när vi tänker oss two-pathways här dopamin inverkande i det senare där därmed en naturlig referens ges och därmed görande filtrering av icke-relevant lätt samtidigt som omvänt också för när motoriskt är inblandat att resonemang om värdering mer konkret inkluderande prefrontala (som ju har den egna transporten direkt men ej lika lätt utnyttjar vad den andra medverkar i att medföra) blir svårt i nivå mening av det är mer komplext (därmed att försämringar som irriterar kan påverka så mycket: De kräver mer av vad som allmänt kallas impulskontroll vilket mer eller mindre står linjärt till dopamintransporten till prefrontala cortex - varför missbrukaren som slutar med sin drog av de tyngre typerna går ner mot noll i impulskontroll emedan användningen av drogen i missbruk i sig ej lika självklart behöver öka impulskontrollen även om medicinska doser av metylfenidat - Ritalin / Concerta - gör det åtminstone vid ADHD men utan tvivel skulle göra det oss alla i jämförbara doser kanske rent av 1-1 i procentenheter d.v.s. hos personer utan egentligt behov kanske upp till en ej rationell lite hämmande nivå motsvarande möjligen metylfenidates ibland uttryckta bieffekt av att öka inslag av vad vi kalla lite "autistiskt" eller natur lite som vid aspergers syndrom men jag vet mindre om de senare)


Just fenomenet med storlek och effekt för hur vi uppfattar något är för mynt (vilket rent allmänt är en faktor när den kan tas upp oavsett situation / ämne som kan användas som indikation om att större sampling / mätning av något är meningsfullt) utan tvivel mer välkänt (om än troligen i en sämre egentlig förståelse av sambanden än korrekta därför vad här bygger på gammal dåligt gjord forskning ofta i äldre handböcker felaktigt förklarat också än vi lärt sista tio åren) p.g.a. av tidiga försök bl.a. på barn just med mynt. D.v.s. vi kan tänka oss att det är något som folk rent allmänt kan se en poäng av att försöka manipulera om ej andra negativa effekter tycks uppenbara.


Vi kan rörande ökande konsumtion via mynt-pengarna spekulera om värde-neutrala fördelar av det. Med värde-neutralt avser jag här att frågan om ökad konsumtion rent principiellt är bra eller inte oavsett frågan om ökad konsumtion är bättre för "ekonomin" (d.v.s. mer omstritt inom hard-core-naturrörelsen - movements och belief), resp. om ökad konsumtion är vad ekonomin mår bättre, sämre eller ej påverkas av. Att vi omsätter mynten mer utan att kräva fler mynt i sig har värdena att:


  • Minska behovet av fler tillverkade mynt.
  • Mycket tänkbart hos de aktörer som har störst behov av mynt öka deras intagande från konsument mer än hos andra. D.v.s. varuhus med flera. Vilket jag tror minskar behovet av transport av mynt. Och ej bara därför att de oftare har mynt-automater.
  • Görande betalningar i flytande gräns för vad vi köper kanske mer benäget. Vad som kanske gör vad vi kanske kan beskriva som att en mer exakt yta av vad vi köper uttrycks med pengarna vilket ev. ökar effektiviteten i köp (mer än prissättningen där den ev. kvarstår eller rent av lättare blir mer "avrundad"?).
  • Att vi mer benäget betalar fler varor med mynt men p.s.s. sätt kommer ta fler mynt för det som växel. Detta som del av föregående. Det blir lättare att lämna in mynt men med sådant som 200 kronors sedeln får vi i fler situation mindre lätt mynt tillbaka.

För punkterna sist här kan jag resonerat fel. Inget jag är van att resonera kring.

Värdet av promiskuösa noder utanför det lägre som feature omedelbar diskriminerbarhet

2017-03-01

Följande från en handbok data mining är värt att diskutera:


"Removing pizza nodes (i.e. very high-degree nodes) is likely to be an essential prior component to get useful results. Intuitively, a pizza node is likely to be a large impersonal entity like a pizza parlour or an electricity supplier: the fact that two people both communicate with the pizza node gives us no reason to think that they are linked socially."

Eventuellt (jag läste ej artikeln i detalj där länken fanns som jag nådde från nyheten sist d.v.s. dokumentet två steg ifrån denna) är dokumentet ej publicerad korrekt utan del av något läckage av information. Det tycks dock fått text genomgående borttagen rörande detaljer organisationer m.m. resp. rör ämne där det är troligt och normalt (och troligen ekonomiskt resp. från perspektiv konkurrerande andra entiteter som en givet stor och stark entiteter effektivt genom att stimulera kunskapsbyggande i samhället allmänt man kan utnyttja - ej heller tekniskt särskilt avancerat eller särskiljande sig i nivå eller erfarenhet från allmän kunskap) så jag kan tänka mig och tror det troligast att det publicerats korrekt.

Från: HIMR Data Mining Research Problem Book, OPC-MCR, GCHQ (PDF)

De kan emellertid vara utmärkta som generella features för att beskriva entiteter meningsfullt för typbestämning. Kommunikation mot ex. en uppsättning stora entiteter av myndighetstyp kan tillsammans ge indikation av sådant som medborgarskap. Tjänsteleverantörer tillsammans för geografisk lokalisering. O.s.v.


För 300-FF har vi exempel på det genom ingen särskild viktning diskriminerande dessa typer av noder (och viktning via förekomst tillsammans resp. likheter via de 400-längd vektorer som används som indata vid träningen) vilket tycks mycket funktionellt utan problem. Utnyttjande annat men besläktat common sense med varje form av sense mellan namngivna kategorier (vilket är allmänt för många: Innan ungefär följande för struktur Wordnet) och clustrande resp. dessa med 300-FF och Kohonen med fast antal cluster grovt grupperade efter hur vanliga de är eller hur breda de är (6 st vanligast, små-kategorier 3 st, samt ett fåtal 12 st). Totalt cirka 10 - 20000 kategorier indata för lokal clustering. Därefter clustrande resp. av resultaten tillsammans och vi har fortfarande i utdata inget problem att få geografisk-gruppering, gruppering personer, roller och övriga entiteter, resp. ej heller mer av topic-natur som matematiska begrepp.


Vilket jag tror men har inte försökt prövat om det stämmer skulle vara mycket svårare utan att från början inkluderat de stora noderna. Det ger ju något gemensamt över många noder utan behov av att expanderande bygga träd nedanför direkta relationer d.v.s. mycket lägre komplexitet. Samtidigt som när relationen ej är binär utan bygger på förekomsten det kan fungera diskriminerande också där. Du kan (för att ge exempel för en typ av relation ej aktuell för 300 riktigt på samma sätt utan mer på applikation av handboken jag citerade) tänka dig att du får indikation för relationerna att en entitet är person och svensk medborgare men också en medborgare (han / hon tycks ha "hög bandbredd" mot svenska institutioner) men han uttrycker låg intensitet kontakt med myndigheter (d.v.s. exempelvis enkel-person rörande deklaration o.s.v. Skatteverket, föga kriminell så som känt, ej politiskt intresserad o.s.v.) så antingen en ekonomiskt-effektiv medborgare (eller kanske misstänkt välanpassad) och / eller mycket tråkig.


Så som exempel clustering av Earthlight kan vi se möjlighet att betrakta relationerna som vad som kan strukturera sig mellan varandra i närmare ontologisk-mening där stora (nästan promiskuösa noder givet en population: Så ex. om vi redan vet att en person är svensk faller en del av meningen bort här - Samtidigt vet vi ej enkelt innan vad dessa relationer här kommer säga i övrigt) där stora noder kan uttrycka djupare / bredare möjlighet till exakthet från smalare mer diskriminerande relationer (de senare vad som normalt bör ha mycket högre inverse document frequency i mening av att behandla varje nod som ett dokument och varje relation som en frekvens förekomst ev. viktat med förekomst - och de första mycket låg idf).


Också gäller vilket är praktiskt enkelt att förstå om vi fortsätter tänker oss ett land (men oftast normalt gäller allmänt för allt mänskligt relaterat i grafer) stora noder gärna uttrycka spridd av aktivitet som är resulterande detekterbart nära dem. D.v.s. om ex. en nations militära organisationer börjar agera mer är det att förvänta att vi ser omedelbart i noder i nära relationer till nationen (ex. deras övriga statliga funktioner såväl som företag m.m. inom landet, medborgare o.s.v.) högre aktivitet nära i tiden. Medan över hela grafen för människan över världen och historien mindre troligt ser särskilt höjd aktivitet på större distans. Medan aktivitet för mindre noder när spridd aktivitet av någon aktivitet vi kan se som uttrycka något vi kan betrakta som en aktivitets-typ klarar att nå något förändrande i ej trivial mening ej alls självklart eller troligt ser det nära inpå dem: Ex. i den mån en person klarar att förändra något i världen som märks där vi bryr oss är det föga troligt något i hans omedelbara relationer av vad som där är typiska relationer för honom (ex. aktivitet inom familjen så som att han mördar en familjemedlem är ytterst sällan vad som kommer bli märkbart) utan märks det är det snarare på större avstånd (i samma mening som för nära relationer: Medan distansen i mening av antal steg om vi ej som föreslaget i citatet kastat promiskuösa noder mycket väl kan ha omedelbar kontakt) ex. byggt ett företag påverkande alla möjliga städer där de har kontor eller stora kunder eller som utbytesstudent i annat land flyget ett flygplan in i en stor byggnad. Jag är osäker på om någon koppling till (eller möjlighet till argumenterbar rationalisering av potensen stereotypen Small and Spreadable har).


Det tycks troligt för mig att promiskuösa noder är nödvändiga eller användbart för att försöka bedöma var ev. / tänkbar större aktivitet för ej i sig promiskuösa noder (där det mig är givet så även om säkert andra vägar enklare finns här lika bra) utan istället små noder med få relationer. Preferensen allmänt kulturellt sedan många år för att när features identifieras och utnyttjas använda de mer diskriminerande och värdera dem högre (ex. som med idf) är dock mycket stor. Och förvisso att det förenklar saker och ting men det har också gjort att mindre arbete skett för att få ut värdet av promiskuösa noder.


Man kan ju löst relaterat se att i skogen finns träden. Och ett träd kan vara en nod vi expanderar ut till dess omedelbara relationer. Och en del av skogen är den spridning och konvergens av aktivitet vi där ser mellan träden. Och att en skog i ett land ej uttrycks med samma ord som i ett annat. Benämning av saker och ting är inte alltid så självklara när de ej förklarats i detalj som man kan tro från hur begrepp används allmänt i en kultur man har given. Särskilt utmanande blir det när samma begrepp används för samma lösning med båda verkande. Därmed inte sagt att jag har någon preferens för att tro om tolkningen i artikeln nedan rörande algoritm är korrekt eller inte (särskilt har jag inte läst dokumentet citerat först i detalj eller något alls i övrigt relaterat det - utan mer en allmän reflektion från vad min känsla är för vad man kanske troligare använder från egentligen föga information hos mig etablerat sista fem - sju åren eller så, och osäker här om implicit inkluderat analysen jag gjorde för väldigt mycket data bl.a. relaterat inköp av saker och ting vilket bl.a. - och allmänt just nätverk med sensorer - var mycket talande rörande etablering av infrastruktur avlyssning för trafik till och från USA långt innan något konkret blivit känt).



Rörande journalisten diskuterad inser vi ju förövrigt att i ett givet subset av entiteter som entiteter kan ha relationer till kan han kanske ses som en promiskuös nod. På tema av samma exempel-typ som tidigare med bland kan vi tänka oss relationer till honom av viss typ (ex. personer han skrivit något om) uttrycker features för dessa som motsvarar något relaterat till journalistens preferens för ämnen och organisationer han skriver.