Pakistan sticker upp

2017-08-16

Kompletterade Dags för det att komma ner på jorden med följande länk:


Pakistan reiterates its support to China's stance on Tibet, South China Sea


Och: "Pakistan: Själva orsaken till varför vi ska ta interceptor och Aegis i Indien givet."


Förövrigt tillsammans med Afghanistan antagligen bland de mest icke-civilt över-flugna länderna (eller varför inte överflygna i försök att vara kul). Rimligt kan man tycka att någon lösning från det innebärande att världens tillstånd inkluderande instabiliteten Pakistan havande kärnvapen tas till historien.

Pump up the Jam

2017-08-15

And the jam is pumpin'
Look at here the crowd is jumpin'
Pump it up a little more
Get the party going on the dance floor
Seek us that's where the party's at
And you'll find out if you're too bad


Dags för det att komma ner på jorden

Det tycks klokt kan man tycka. Indiska armén har stridit kontinuerligt i dessa geologiska omständigheter och snarlika områden sedan evigheter med såväl Pakistan som muslmiska extremistiska infiltratörer.


“The PLA will not seek to fight a ground war with Indian troops early on. Instead it will deploy aircraft and strategic missiles to paralyse Indian mountain divisions stationed in the Himalayas on the border with China,” a source told the newspaper on condition of anonymity.

Från: India and China 'preparing for armed conflict' if Bhutan solution not found | Independent.ci.uk

Samtidigt ska Kina fråga sig var man står varaktigt tiotals år som kommer om flygplan och missiler helt eller delvis skjuts ner. I vilken annan fråga som helst där man litat åtminstone lite på intrycket av sin militära doability.




Komplettering:


Pakistan reiterates its support to China's stance on Tibet, South China Sea


Pakistan: Själva orsaken till varför vi ska ta interceptor och Aegis i Indien givet.

Nordkorea problematiken känns kanske ej optimalt kalibrerande här och nu: Xi behöver växa upp och ta ansvar istället för att skapa en massa osäkerhet för att göra sig märkvärdig

2017-08-12

Så låt oss sammanfatta här. De förändrade förutsättningarna Nordkorea har överraskar oss. Jag tror jag rent av gav ungefär den här tiden när jag kommenterande analysen om jag minns rätt amerikanska försvaret gjort av när Nordkorea möjligen skulle kunna leverera kärnvapen med missil längre distans, resp. som jag också ev. kan ha kommenterat deras förutsättning att ta mindre potent kärnvapen till vätebomb eller jämförbara "tekniska-mellanlösningar". Jag vill påpeka det för att från det här addera att jag ej upplever mig ha någon information alls egentligen visande något om Nordkorea annat än vad som ger media. Därmed inte sagt att jag just tidigare bygga från något där. Dessutom tror jag att det känns bra för mina läsare när jag tycks - eller som jag vill minnas utan att gå bak och detalj-läsa allt - det ger då åtminstone mig alltid en varm mysig men stärkande känsla.


Situationen är oacceptabel. Transformerar Nordkorea från nuvarande diktatur-familj till ej mer sammanbrott utan en ny diktatur eller diktatur i mellanlösning från säg en grupp yngre officerare eller kulturbärare bland värnpliktiga soldater (propagandan i Nordkorea upprätthåller ej längre myten så alternativen är kända: Vidare är affärsvärdet och de fördelar i ett mycket magert land makten ger allmänt kända - Många medborgare tar direkt del i verksamhetens realisering av lyx för härskare). Oavsett hur instabil och problematisk nuvarande diktator är - och jag tror han är värre än många tycks anta: Mån hänger sig till att rationalisera åt honom. Jag tror att han precis som al-Gaddafi periodvis rent av kan vara i kokain-inducerade psykotiska tillstånd. Makt är en stark high men som andra sådana snabba byggs tolerans också här trots en långsammare kognitiv broms när vi lämnar skalningen small-group (lilla människoflocken på savannen) helt och ger oss in i att marschera stora delar av nationen nedanför oss. Kokain är populärt bland diktaturer lite varstans. Gäller att kontroll över kärnvapen hos en grupp av militär i sönderfallande maktkamp med eller utan egentliga stridigheter (lokalkontroll ett stycke här av några o.s.v.) kan upplevas vara vad som avgör. Stor kraftsymbol - gigantisk doability om använt. Man behöver inte ens kunna avfyra den. Räcker bra med tillhörande kärnkraftverk att ta ut kärnan och ge sig på att försöka bränna den till saltföreningar så är södra Kina och det mesta i övrigt i näraliggande länder gemensamt i fara. Kommunalt vatten är så tilltalande men rörande en del är det sämre: lite väl enkelt att föra in gifter i - bara att borra upp röret.


D.v.s. själva slagkraften måste bort. Och ganska omedelbart. Det är ingenting att dra ut på tiden med heller. Jag kan inte tänka mig att tekniska förutsättningar att göra det acceptabelt säkert saknas.


Kina behöver se över sin närhet här. Risken för dem är jämförbart hög. Jag tror oavsett allt relaterat vad kärnvapnen kan leda till att nordkoreanska regimen faller före Beijing. Den rent fysiska Xi-egna risken av vad kärnvapnen kan leda till för Xi själv med familj bör mediteras noggrant.


Också behöver man se närhet i andra riktningar. Västerut och lite nedåt. Bhutan. Såväl som norrut lite västerut också. Liksom betänka sin önskan att etablera sin silkesväg till Europa. Jag tror förövrigt det var på Hans Husman om Information warfare jag för några år sedan: 2008 kanske. Gjorde en analys av bl.a. det projektet utifrån en tänkbar väg till en större väpnad konflikt med geografisk centrering i och runt hela området där vi också har Pakistan, Afganistan m.fl. länder mellan Indien och Kina som största länder. Muslimska väpnande radikalister är ju problem både i Kina och Indien opererande tämligen fritt från de "tunna" länderna som är buffert mellan Kina och Indien. Indien har som jag förstått det vissa garantier från några år bakåt och är som det verkat för mig väldigt redo att ta den här konflikten så långt de upplever att de behöver.


Alternativet att Kina annekterar Bhutan och humpar in det med Tibet och kanske ungefär samtidigt Mongolia för att därigenom etablera monopol på den gyllende urnan (där diverse gamlingar bland munkarna - s.k. buddhor står redo att gå vidare ner i jorden eller kanske de mer krigiska bland dem om några fortfarande finns till den åttonde Buddhans himmelrike: Ami Amida Butshu. Äre vare Amidha Buddha.). Indien vill verkligen inte att Bhutan blir kinesiskt. Och känner att det tycks vara det troliga alternativet: Antingen en bit eller givet det rent topologiska fallet nedåt i höjd över havet vad som snabbt gör det nödvändigt att ta hela nationen (samma höjdfall som via omvandling rörelseenergi hos vatten till elenergi potentiellt representerar en del mer konkreta värden något år framåt i tiden: Ett av de större eventuella kinesiska projekt som antagligen ej blir av som det verkat ett tag).


Kina behöver se faran med Nordkorea för egen-del. Och också förstå att andra tekniska lösningar förhindrande eller begränsande risken Nordkoreas kärnvapen ställer närområdet i högre risk än gissar jag / spekulerar från en del jag läste några år sedan declassified forskning rörande bl.a. bunkerkonstruktioner och hur man slår ut dem.


Det är viktigt att Xi ej skapar osäkerhet genom att ej uttrycka sig genomtänkt. När problemet blir löst d.v.s. vi antar vad jag tror måste ske för hela den större regionens säkerhet är det viktigt att lugn i hur man gör det finns. Annars är risken att man känner sig tvingad att välja en sämre lösning ställande kanske i värsta fall risken för att en nedsida för Kina finns i verklighet. En sak här är informationen om hur konstruktioner egentligen ser ut utanför vad man kan se från luften. Det finns redan viss felmarginal där och en god teknisk-lösning bör ej behöva försämra ett område för att reducera annan helt onödig osäkerhet eller risker.


Jag är heller ej nöjd med mycket annat Xi ytterst är ansvarig för senaste månaderna. Lite längre fram ska jag återkomma till det. Men jag tänkte jag först borde fundera ut något karma-balanserande där för allt tillsammans. Något den svarta Buddhan gillar. Xi behöver helt enkelt lugna ner sig ordentligt. Xi går runt och muckar bråk med halva-världen. Mycket fint kan komma ifrån det. Just nu är det dock bättre att han lugnar ner sig. Sansade personer i Kina behöver prata igenom det här med honom och förstår han inte konkreta risker och sannolikheterna för honom byta ut honom. Just nu är vad jag annars ser som ett av worst-case Kina i mellan-transformation i form av militärdiktatur att föredra. Jag kan se möjligheter till en långsam transformation i samarbete omvärld och egna folket där som kanske tillochmed ej bara bättre p.g.a. av Xi-Nordkorea-osäkerheten utan även på andra sätt.


Det går inte att få harmoni och lugn om alla ens grannar hatar en samtidigt som man behöver hantera att ens livegna bönder och nära familj tycker ganska ofta riktigt illa om en själv såväl som massa-bossmen. Det blir för mycket. Man sträcker sig för brett. Och det slutar i värsta fall med att helt oskyldiga grannar i form av andra länder behöver städa upp hela området till stora kostnader. Här i Europa ska vi betänka vad bara Jugoslavien kostade oss och fortsätter kosta. EU behöver göra tydligt för Kina att det inte blir några infrastruktur-möjligheter om det ska komma till priset av annekteringen av Bhutan och Mongoliet. Resp. att Nordkorea ska tillåtas bygga en gigantisk slagkraft i massförstörelsevapen utan att vi korrekt avlägsnar faran. Det är ingenting någon gör för nöjesskull. Att avlägsna risken här kostar bara i slitage flygplan, bränsle, och pay-load kostar styck gigantiska summor. Fullständigt sanslöst.














Ljud är inte bara kul samtal utan kanske kan skada vår hörsel: I det fördolda efter weaponization av kubanska diktaturen

Jag kan tänka - och havande en översiktlig kunskap om än inte djupare - att resp. expert har rätt i vad de uttrycker:



Samtidigt är jag inte säker på själva uppgifterna i övrigt. Jag tar det för inte alls troligt att något som incident faktiskt skett och från ganska god kompetens om vad som är möjligt och inte bedömts inkludera ljud. Medan uppgifterna och tolkningen de föranleder rörande mer direkt vad de gav upphov till kanske är lite enklare eller uttryckts förenklat på sådant sätt att de egentligen inte är inkorrekta men undviker en exaktare bild som kanske kan för de drabbade upplevas mindre än nödvändigt otrevlig att se läst.


Själva domänen som sådan är utmanade att se tillförlitlig information om. Min bild - en liten lek på en subdomän jag skulle kunna tänka mig från tid passerat relaterat ett annat land Kuba eventuellt långsamt men i viss utsträckning byter kunnande med möjligen var vad aktuellt.


Jag gjorde en liten skiss. Men struntar nu i alla fall att slutföra inlägget då jag behöver reflektera hur man korrekt och bra skriver detta. Det kan ha viss poäng samtidigt är tillförlitlighet inte direkt där vi är i evidensbaserad medicin (likväl om hammaren tycks kunna slå ner spiken och du bedömer information av det rimlig och kan se hur det fungerar kognitivt som konsekvens av perceptionen...), och vi hade min längre artikelserie i Riktad information som jag huvudsakligen valde att avsluta efter några år då jag på goda grunder bedömde att den förutom efter viss post-bearbetning till andra format som tänkt tillförde värde i diktatur för transformation demokrati också (vilket aldrig slog mig skulle ske: Visst att det ej är orimligt men själva kanalen vald här är ju publicerad med "tryck så att säga" så den når ungefär de som har ett särskilt intresse av att läsa mig samt en del ströläsare som långsamt arbetas upp. Den kommer naturligt bara från struktur inlägg svårligen märkas indexering sökmotorer. Men Libyen revolutionen var antagligen vad som tog in dessa läsare: Mängden skärningen intresse och kontinuiteten månaderna före tills månaderna efter - ev. sommaren 2011 ganska sent.) en av de svensktalande åtminstone förr levande i management ISIS (varför för att balansera också diskuterande hur vi med Koranen kan visa att ISIS väl stämmer med den särskilda prövning som Satan ska göra när vi närmar oss jordens avslut. Också om jag inte gjorde det själv hade det kunnat blivit så. Jag tror han är död nu men vet ej trovärdigheten uppgifter: Ev. som högst nummer två i själva Kalifatet).


Så jag vill inte vara oförsiktig i att endast göra något därför att det tycks ha potential för addera värde i en sak lämnande övriga världen när jag egentligen ej är i ett område jag ser att lägger tid eller del av mig naturligt över tiden ens (och därför ej heller egentligen kan bedöma värde kontra risk). Kort sagt tycks det olämpligt att riskera lära IS med något nytt djävuls-skap om nu Satan ej givit dem direkt.


Kort för den seriöst intresserad mer i bakgrundskunskap man antagligen naturligt behöver se över här (jag brukar behöva göra det var gång jag ej varit i området på något år) är vad jag väljer att kalla strukturell-inlärning i hjärnan. Ev. mer spekulativt är vi mer i serotina-systemet som signalering. Vi etablerar naturligt - och det konkret intressant själva poängen - strukturell / hierarkisk-inlärning som konsekvens av kontinuerliga fenomen i perceptionen. Trivialt de flesta kan ha mött gäller att besvärande ljud vi initialt ex. flyttande någonstans möter "försvinner" efter en tid. På en hierarkisk eller strukturell-nivå (i mening att något kan finnas över som kan etablera sådan inlärning ex. släckande ut brus-fenomen: Meningslös information oavsett om brus i mening konkret slumpmässigt enligt någon fördelning eller bara meningslös information för de strukturer "ovanför" detta i sin tur har en meningsfullhet för). Åtminstone en nödvändig "refresh" för mig själv då det var ett tag sedan jag sist var där man kan hämta inspiration mänsklig inlärning så här väldigt nära neuronerna (vanligen får man ut mer tillämpbart textanalys från respons i form av språk, dialoger, samarbeten small-groups, inlärning korta sekvenser eller grupper av enskilda ord, bedömning ord o.s.v. Och nära direkt praktiskt värde implementation nästan alltid så där det rent av kan ge uttryck som kan användas del av generering viktsystem ord som exempelvis data ord-association eller skalfria-egenskaper för tid rörande viss inlärning / minne: Jfr exempelvis Sverige är viktigt och förtjänar en lista på några tusen vapen att i lugn och ro hemma välja ut något bra att köpa från (2016-10-24)).


Meningsfullhet om vi tänker oss ex. inlärd utsläckning kan dock brytas. Lämnar vi fenomen så som hypomani varande en långsamt etablerad biverkning ibland förekommande bland serotonin-återupptagningshämmare (kanske relevant om man försöker förstå inlärningen: Jag tyckte det för några år sedan när jag betrakta en förenklad modell eller vad som blev det förklarande inlärning från idealiserat samspel serotonin och dopamin - Egentligen sammanfattande bort en mängd andra signalsubstanser), eller akut mani p.g.a. exempelvis mycket höga (i mening av vanliga människor: Eftersom vi är i snabbinlärning under kortare tid gäller att abnormt hög tolerans byggs under dagar hos aktiva missbrukare) doser kokain under några dagar till veckor i sträck här via den snabba tidens dopaminsystem - finns också sådant som närmare friskt - eller konkret friskt när det stödjer vår överlevnad - kan bryta normal meningsfullhet och gå utanför strukturer lärda. Exempelvis för de starka här:


  • Indikation fara i information som kommer i perceptionen: Danger i mina "More or less" (ML) viktsystem för ord.
  • Att informationen är nog för att ge indikation men samtidigt är sådan att fara om verklig ej presenterar sig med all information klar till personen. Dold. Unknown i ML.
  • Högre grundaktivitet rent allmänt kommer linjärt stödja föregående.

Så länge dold fara är trovärdig och personen ej bränt ut sig så bryter vi förutsättningar vi annars accepterar information vi tar in och söker mer förutsättningslöst efter tänkbar risk.


Detta är nu en kreativ process. Den tillåter att vi naturligt för att förstå det rätt kallar association här. Men association till kopplingar annan strukturellt inlärd information där drivkraften fara tillåter att domäner, avstånd mellan objekt / händelser o.s.v. kopplas samman på sätt annars ej naturlig. Landar ett rymdskepp på fotbollsplan du åker förbi och du naturligt från personlighet eller tillstånd just då hamnar att du tolkar akut fara kommer association friare gå till orimliga förklaringar inklusive diverse från vulgärkulturens SF-filmer. Medan samma person i lugna omständigheter - kanske mitt på dagen snarare än natten seende filmkameror m.m. - hellre förstår det hela som just filminspelning.


Går den processen självgående och ej stannar av är vi i vad jag kallar hypo-aktivering (men jag vill ej påstå att vi 1-1 överensstämmer med termen inom klinisk psykiatri även om vi troligen i psykolingvistiken ligger synkroniserade).


Så frågan är kan vi ta ett kognitivt tillstånd dit genom att utnyttja tid under en kort eller lång tid? Kanske kan frågan omställas till att svaret är ja om vi kan bryta barriären i perception mellan ex. ljud och bild hos personer ej havande fenomen liknande vad vi har vid



När ämnet kommit tillbaka till mig från långtidsminnet så får vi se hur vi spekulerar vidare här från egentligen mer begränsad information initialt. I domänen jag ser här är vi dock ej i vad vi kan göra normalt omedelbart utan en kontinuerlig tid krävs. Det bör dock vara för angriparen trivialt för varje normalt hem åtminstone när det kommer till flerfamiljshus.

Tidsanalys - Microsoft: Alla tidpunkter är viktiga

2017-08-10

Förra bärbara datorn tog först skada nog för att fungera ok givet att jag tog bort Windows. Därefter ok givet att jag körde Linux från extern hårddisk (Puppy) Slutligen krävde den också en extern skärm efter att trampat på den inbyggda.


Den nya (första datorn på närmare 15 år som ej var DELL) blev en lockvara som typiskt för tyska Mediamart krävde att jag själv letade upp var de gömt de fåtal exempel faktiskt existerande. Jag köpte min mobil (närmare 1100 kr billigare än normalt) där också. Det krävde faktiskt inte att jag själv letade upp den men däremot att jag flera gånger insisterade på att den existerade i verkligheten och att jag skulle bli tvungen att ringa tyska it-avdelningen och förklara deras "produkt-existerar-system" felaktigt. Jag gillar den här egenskapen hos Mediamart. Annars - om vem som helst bara kan promenera in och handla en av en ej trivial liten mängd exemplar - hade det aldrig varit så udda billigt av och till (givet förlusten de gör på dessa varor ty de jag avser här är ej +/- 0 varor som de annonseras ut). Och jag gillar att man behöver leta upp var de gömts resp. ges möjlighet att stylta upp en generisk (kanske genetisk) svag självbild genom att besegra en vägg av män försökande stoppande en från att ta förlust varan till kassan (och hellre åtminstone en vara de gör någon symbolisk vinst på). Skyltfönster kan prövas men jag tror de slutat med det. Numera krävs ibland att man tittar själv i lagret. Vid tiden för datorn förra året räckte det dock bra att leta i lokalen där den gjorde upp skylt-konstruktionen (för en lätt dyrare och sämre dator) men ej existerande i övrigt (och jag slapp skyltexemplaret jag erbjöds i brist på "existerande exemplar" för samma pris).


Nå så denna kör jag fortfarande Windows. Som nyligen gjorde ny större uppdatering. Jag lät den boota med alla applikationer jag startat avstängda. Vilket visade sig skära uniform cirka 1.5 vecka från aktivitets-tid. Inklusive besvärande mig Google Chrome's historik rörande besökta länkar. Jag spekulerar (stämmer ungefär i tiden med att den började försöka få tillstånd av mig att förändra inställning av att ej dela information från min dator med Microsoft: Vilket uppenbart ej gick direkt felfritt att börja göra.).


Vad som passerar över sedan år definierad kanal besvärar av och till videotittande. Eller så misstänker jag kan vara fallet. Jag lutar dock lite mer åt att det antagligen ej är kanalen. Det tycks orimligt att de givet alla år skulle börja falla på en given förlorande procent av användare (många av oss kör egentligen bara Microsoft numera på rena nöjesdator där gratis bredare i utbud teve och film är en dominerande del).


Tidsstämplar i den symmetriska världen vilket bättre än den asymmetriska motsvarar generella risker och behov / lösningar mer allmänt på OS-nivå lär vi annars bäst genom att följa Kerberos i historik från sent 1990-tal tills idag. Något tidstypiskt sammanfattande utmaningarna relevanta än idag asymmetriska resp. i appendix symmetriska.

Revolutionens musik i en liten dharma cirkel

2017-08-09
Vi bör se att en skillnad i hastighet som behöver motsvara kontext av relevans i hur meningsfullt resp. upplevs. Tydligast i skillnad kanske 1 och 2 upplevs. 1 snabbare och också upplevd mer meningsfull för ett kontext likt Amerikanska inbördeskriget där saker sker snabbt under den första tiden före inledning resp. efter precis börjat. Medan attityd-förändring rasism eller precis vad helst kan ta väldigt lång tid.

1. (to) Alarms - To Arms




2. (Onto) Sköldlinjen




3. (Backwards) Under förlust




4. Long-term pre / repeated equilibria / Up mood




5. Påminn dom andra och vi om 1. som kommer




The day is coming fast
And the time is here at last,
When each yeoman will be cast aside before us,
And if there be a need
Sure my kids wil sing, "Godspeed!"

Och så tillbaka till 1.

And my God. Horade jag bland unga revolutioner i min ungdom. Har jag som räknat färre än tio barn bland dem skulle det förvåna knappast bara mig.

Trump och arvet efter Obama: Malcolm X / Dr King - The Boondocks / Brickleberry

2017-08-07

Vi har två stora kulturella artefakter som ännu ej återställt till jag / vi / mänskligheten: The Boondocks och Brickleberry. Den första lyckades genera i vad som hade kunnat vara min (icke-existerande) föreställning om att känna Nordamerikas problematik om fördomar felaktig men desto mer så sent som sista säsongen överraskande mig ett potent stycke propaganda-sång som oavsett hur välkänt var vad jag totalt missat. Oavsett tidigare på så många sätt potenta värden var det starkt...




Freedrom ride or die visade sig på alla sätt vara bättre än dokumentärer jag tittade på efterföljande.


Jag ska nu inte bara påstå att skapelsen Black Jesus vi kunde se efter Boondocks slutat saknade värde för det gjorde den absolut inte. Emellertid var The Boondocks högkvalitativ på det sätt som något likt Black Jesus aldrig kan bli.


Det vore fel av mig att säga att The Boondocks och Brickleberry är ett arv efter Obama som nu åligger Trump att visa att det republikanska partiet bättre kan hantera. Men det är knappast heller oriktigt.


Dessutom för The Boondocks kanske vad som krävs i den mån möjligheten alls visar sig finnas vad som ger nästa presidentval. Bringing the Boondocks back to Husman och alla andra. Jag har hur som helst tröttnat på att bara sitta och vänta på ett mirakel.



If a man hasn't something" worth dying for


I brist på citat Malcolm X ovan Dr King (också Freedromland). Givetvis hade värdet av Dr King varit ytterst mer begränsat menar jag utan kontrasten till Malcolm X. Själva den kontrasten som gjorde Dr King attraktiv för en försvarlig andel av marginalen som föredrar att gå i motsatt riktning in i icke-förändring så fort de upplever osäkerhet (inför förändring). Du behöver rovdjuret såväl som jesus för att skapa ett nytt equilibrium. Dr King må också passat många av de färgade formade in i en slavmentalitet ännu bättre vid den här tiden. Malcolm X är oavsett roll och värde emellertid den överlägset starkare talaren.

Miami Vice

2017-08-05

Inte överdrivet långt ifrån verkligheten även om konceptet av två icke-korrupta poliser i Miami under dom stora kokain-åren känns tveksamt. Och vi kan så klart lita till Crocket att bevisa korrektheten i min tvekan när han några år efter Miami Vice fastnade i tullen med en ej liten mängd kokain i bilen.





Sweet preacher







Nordkoreas kärnvapen och risken för felbedömning

2017-07-29

D.v.s. om korrekt så har mening mer allmänt skiftat från flera år fram i tiden Nordkorea når USA till att det möjligt är så nu. När jag sist gav min tolkning / skattning att det antagligen låg nära-inpå var vi fortfarande i att det sågs flera år fram i tiden. Frågan här liksom ibland annars om det endast är det konkreta som påverkat var viktning för skiftet gått inverkande till förändring. Utan tvivel är det inte endast konkret i form av provskjutningarna som inverkat då förändringen började långt innan (räknat från när jag sist påtalade här).


Även om jag nu själv får anses del av en tidig del av skiftningen ( under period 1 - 3 år sedan ungefär ) finner jag sådant här i allmänhet problematiskt. D.v.s. att informationen man bedömer ifrån ej framgår. Publicerat som här duger utmärkt oavsett sådant för att skatta förändring och från det skatta konkret slagkraft. Men det är om man gör sådant också mycket önskvärt att kunna göra fördjupade kontroller av och till i ämnen som är långsiktigt återkommande. Och i ämnen av denna typ med mindre att vi involverar människa med vissa egna kunskaper (d.v.s. mig själv här) blir ämnen som dessa problematiska därför det ej framgår information som går att processa vilka inverkat på bedömningar refererade. Generellt (och kanske inte alls här skiftande från mig och diverse andra som föregriper det där föregående i sig påverkar andra i deras bedömning kompletterande deras ev. konkreta fakta med flummigare black-box användande av andra när efterföljt i tiden det bekräftas i en serie konkreta händelser framtill första nya provskjutningen) kan vi inte anta att en eller flera entiteters bedömning i sig oavsett information de ger som ska antas inverkat på deras bedömning är okänd inte kan flytta andra personers bedömning om begränsade kända fakta därefter lösare på annars en för låg nivå talar för att de haft rätt.


Vi är i riskdomän av förgiftad information där analys kan önskas styras genom att ge ej egentligen ej korrekta bedömningar - eller korrekta mycket bra bedömningar som gång på gång visar sig riktiga för att längre fram göra en bedömning ej rationell från några kända fakta men som kan skapa en önskad verklighet (ev. vilka ej är sällsynt alls också bekräftande den bedömning gjord).



Min känsla är hur som helst fortsatt att jag tror det ej är ovanligt att Nordkoreas slagkraft i domäner som dessa såväl som förmåga att förbättra den samma underskattas från faktorer så som hur de klarat att underhålla taktiska styrkor. Värre sorters kärnvapen är kanske ej vad vi ska ta som givet ej kommer finnas i år. Om så är det ytterst allvarligt.

Muren faller

2017-07-22
2017-07-22

http://senaste-nyheter.blogspot.se/2011_08_16_archive.html

"Listening post Hawaii"

Efter under flera år av och till - ej ofta men säg i genomsnitt kanske ett antal timmar 1 - 2 ggr per år - "aktivitet" när jag kom och tänka på det var att försöka återfinna utnyttjande också (eventuellt men ej säkert - mindre troligt kanske - källa till det) ett stycka text refererande till ett som jag velat minnas det hela när jag långt senare såg en annan tolkning till det hela (det lilla jag någonsin minns förutom själva textformateringen ungefär i Emacs - och udda nog något om min ej relaterade emotionella allmänna grundtillstånd vid tiden): gemensamt projekt Kina och USA, "listening post Hawaii" (och dessa ord har givit mig när jag sökt webben runt det diverse ganska konkret egentligen potentiellt oroande funktioner ev. ej orelaterade: Och egentligen är jag ej så otypisk svensk som man kanske ibland får intryck av om man ej väljer eller kan se konkreta risker som egentligen rena sammanträffande i livet fått mig att uppleva viss engagemang i där värdet vi i riskbedömning söker skydda är människor vilket upplever jag normalt lätt gör mycket mer allmänt kulturellt till ren bakgrund i hur man ser och värderar saker. Jfr Den of Snow som sprang ut från Hawaii några år senare landande i Hong Kong och har menats för mig referande bilder besökte PLA fastlandet under tiden där: Jag har ej, ser ej "värde" nog motiverande det, värderat eller kontrollerat detta: Det är egentligen mer intressant betraktande processer konsultinköp amerikanska myndigheter ty i den frågan bor svaret på om "moralisk phreak-event" gäller eller om systematisk risk kvarstår).


Faktiskt att jag många år senare hittade några av orden exakt samma i en nyhet ungefär från tiden. Som jag något år trodde var samma. Men senare kom att inse plötsligt - eller så upplevde antagligen / möjligen troligen mer var en ren slump. Senare och säg att vi nu är någonstans 2008 - 2010 kom jag att publicera lite tagande upp en sido-blogg till denna innan huvudsakligen använd relaterad vad vi kan kalla internet marketing sedan något år att jag indikerade risk visst läckage information vars källa ej enkelt visade sig. Möjligt helt orelaterat egentligen. På vissa sätt givet ej så men att A givit upphov till aktivitet B och aktivitet B visar något som det sunt försiktigt värderande sinnet (d.v.s. ej "konservativt undervärderande" utan sunt från förståelse av att problemet alltid finns och att det alltid är så att om vi finner problemet och korrigerar det kvarstår problemet alltid i annan person eller annan teknisk-funktion) känner luktar osunt (utanför att allt alltid luktar illa för det försiktiga sinnet: Det är så. Saker har aldrig varit bra något år jag betraktat Kina i världen. Inget någon större aktör har annat än luktat illa på nivå att de läcker om inte allt så det mesta till dem på alla sätt inkorrekt ej sällan förutom moraliskt också juridiskt).


För att ej göra litet / mycket till mycket här. Hur säljs konsulten till större entitet med regelbunden budget sådana inköp? Den säljs genom att man rekryterar seniora personer till konsultföretaget från den inköpande aktören. D.v.s. seniora personer i "arbetsför" ålder man räknar med att sälja och med gott rykte (eventuellt - ej säker - mindre intressant här) man kan sälja ex. säg någon teknisk-funktion, man rekryterar personer som haft ganska upp till höga chefs-positioner eller varit ansvariga för stora skapande projekt där ej över året mer "pool-köpta" / "halv-konstanta" konsult-inköp kommer i, och man rekryterar mycket seniora personer som ofta ligger post-"arbetsför ålder" som ex. suttit i Styrelse eller tidigare varit CEO, CFO eller liknande och ger dem en exempelvis direkt motsvarande funktion (d.v.s. troligare Styrelse eller annat ej krävande massor av timmar) tillsammans med ett ekonomiskt incitament.


Vill vi ta ut information från entitet A över en längre tid är en strukturell metod att ha person X1 som är mer "junior" och ej beslutar om access till något. Exempelvis att X1 ej beslutar om var han arbetar o.s.v. X1 är dock den som gör praktiskt arbete. Vi behöver med andra ord en mer senior person som beslutar var X1 arbetar. Det är det ibland mer krävande att få till. Arbetar vi i företaget kan man tycka att det ska vara enkelt: Och visst att det kan vara det. Emellertid gäller tror jag oftare för troligare och större entiteter att det snarare är en jobbigare väg. Du har normala säkerhetsfunktioner betraktande dig under längre tid utan att du är skyddad liggande i en extern funktion, du har arbetskamrater / karriär-konkurrenter m.fl. som betraktar dig. Och mer grundläggande är det inte överdrivet många roller som är flyttbara naturligt. Sådana roller hanteras ofta via konsultinköp. Viktigare om den vägen ska utnyttjas är att kunna välja konsulten under tillförlitliga avtal (från säljande aktörs perspektiv) d.v.s. senior-person hos konsultföretaget (som kanske arbetade många år tidigare i karriären hos myndigheten: Säg NSA för konkret exempel). Vi förutsätter här hur konsultaffären i alla normala omständigheter fungerar hos leverantören (vilket kanske inte alltid är uppenbart alltid hos alla roller associerad inköpare). Men vi som varit i dom affärerna från båda håkllen vet (där jag alltid varit konsulten men också som senare den ensamma konsulten post-det större konsultföretaget köpt konsulten från konsultföretaget "missbrukande" mitt vetande om hur konsultaffären fungerar för att gynna kunden förvånande bättre än normalt för ex. företaget Telia även om ganska många år sedan och föregripande detta. Dock affären är väldigt arketypiskt må det vara USA eller Sverige: Och jag tar på alla tänkbara goda grunder att den är helt jämförbar med föga skillnad i något jämförande NSA och Telia. På många sätt ganska lika tänker jag.).


Och inte bara från detta men att bara detta givet att ett flertal allvarliga läckage av information är kända inklusive sådana vars källa ännu ej visats finns finner jag att Booz används (kvarstår leverantör - och för ej balansera ner utan mer upp att antagligen mycket kvarstår myndigheterna som borde ha försvunnit än mer motiverat: Gissar jag) något som tycks skapande av strategisk infrastruktur:



Antingen var Snowden moralisk-pheak-event eller så ligger en strukturell kvarstående risk. Även om det första finns diverse läckage ej förklarade - inklusive sådana som resulterat i döda - ej förklarade vilka kan vara relaterat samma myndighet (den konservativt försiktigt betraktande information tappar dock ingen. Medan den för andra går åt i tiotal). Detta är ej en liten sak. Leverantörerna känns ej verifierade som sunda. Jag kan verkligen tänka mig att en senior person i området av en större grupp leverantörer är olämpligt rapporterande Kina. Det tycks som att övriga förklaringen givet mycket är föga troligare i jämförelse.


Egentligen gillar jag inte bra mycket annat utanför det konkreta händelser / möjliga läckage. Så som hur potentiella risker hanterats efter dem. Man borde funnit mycket mer. Men gör det ej. Jag tvivlar ej på att borrar man ner finner man. Den som söker skall finna. Men ibland är det svårare att från vissa utgångspunkter entitet kunna göra just detta. Man stirrar sig hemmablind. Och om det som ej är hemma dessutom är vad som umgås regelbundet med övergripande beslutsfattare i entitet kan de kanske för den hemmablinda vara svåra nog att se.


Jag gillar ej att vi ser för vissa leverantörer tappade kontrakt och så senare tecken på att de används mer igen. Jag tror ej de kontrollerats nog.


Förövrigt. En del stora konsultaktörer är impulsiva när de kritiseras. Jag tror ej som här uttryckt men antagligen om jag engagerade mig här djupare att resulterat kan bli döda för alla amerikanska myndigheter. Det är som inte målet här eller syftet här så mycket som att peka på ett hanterbart problem någon tittat på men tror jag ej nog. NSA är svår i sådant här genom att de av allt att döma hämtar in information lite varstans. D.v.s. läckage där kan inkludera läckage av känslig information andra egentligen äger ansvarig för den skada som kan induceras från denna om känd bredare. Men värt att uttrycka eftersom länkande direkt in i Booz webben. Men ev. om försvårande / bromsande processen kanske en bra lösning. Vi avslutar med så att allt ej blir så allvarligt med Join the Navy (lyrik inkluderad trivialt förgiftad information):




Good luck.

PS

Något rörande ursprunget bortklippt tidigare och oediterat. Mest reflekterande minet för mig själv men kanske intressant: "Om man tänker sig en mer alternativ tolkning / gissning källan än en underligt fel-formaterad press-release som flaggades bland tränings-data och gick ut och betraktades mig - då körd på min vid tiden äldsta dator inhandlad från Dell säg 2002 och kasserad helt och fullständigt säg 1 - 2 / 3 år innan reflekterade något efter att börja fundera av och till givet annan information vad i helvete den där texten egentligen var - och någon gång seende att även om ej görlig att se arkiverat data alls tekniskt så ev. på diskarna nedanför refererat om stora noga och där inseende att körd den äldsta av gamla datorer använda i detta och där dessutom förutom kasserad med vid den tidens och ännu mer nu liten hårddisk varande så gammal och hårddisk körande massor av data skapande och raderande diverse filer även om nu inte en fil per ex. nyhet processad - men kasserad och man kan mena att man ej ska räkna bort en sådan hårddisk ändå - fragmentering kan om bara ett stycke meta-data ger svaret bevara fakta evigheter också under dessa omständigheter och om mer kompetens och teknik än jag har rent personligen finns så eventuellt att kanske rent av en 5 till tio överskrivningar på samma topologiska platser kan hanteras."


PS igen: Spekulerar svaret 2011 här även om kanske elektroniska funktioner tycks troligare (och visst uppenbart där: Men rent allmänt oavsett något specifikt refelkterar man varför vissa aktörer indirekt drivet tycks som alternativ mindre trolig tolkning kanske i de subjektiva sannolikheterna att området märks mer: Vad är poäng med det? Men verkligen att att jag ej såg något av det innan jag fann detta som tänkbar). 10. En 3-letters-acronym kan verka den andra lik för vem som helst annat. Men så klart om A gör B och problemet är i B betraktas A. Men säg att C associerad A betraktar A som del av ett projekt A ej känner till och ej heller FBI känner till. Tja då är konsultleverantörer till C också vad man ska gå över. OPch man söker till man finner. Så har det alltid varit hos de som ser rätt. Tills man finner. Därmed inte sagt att jag just spekulerar att NSA avlyssnade CIA's kommunikation Kina.

Låt oss "rita" neuronnäts-konceptet ganska annorlunda

2017-06-17

Säg att vi har "neuron" a, b och c i vad vi kallar lager i.


I lager två har vi "neuroner" av en annan typ där vi har en st som opererar på tillståndet / utvärdet / jämförbart från nod a och b. En som gör det nod a och c. O.s.v. i alla möjliga kombinationer föregående lager.


Vi väljer nu att sluta kalla neuronerna av typ två för neuroner. Istället kallar vi dem relationer / anslutningar. Och knoppar av vårt utvärde som vad vi sorterar utifrån någon eller båda neuroner de utnyttjar i föregående lager.


Varje sådan relation uttryckande / lärande sig mest nära tillhands att tänka sig korrelationen mellan dem ev. under en verklighet någonstans i andra lager efter oss önskat.


Givetvis kan man införa en tredje sorts neuron som hanterar en bunt tänkbara relationer till neuroner bakom dem abstraherat som samlat där. Kanske rent av mer naturligt om ens bas-datatyp är matris i Matlab, matematiken, eller jämförbart. Medan som skissat innan känns tror jag mer naturligt om vi tänker oss preferens i graf-datatyper och representationer.


Jag tror också att det kanske oftare är mer uppenbart vad den första strukturerings-typen egentligen gör. Samlar korrelation mellan två stycken saker. Vilket vi givetvis kan göra också per position i resp. ex. tillståndsvektor där. O.s.v.. Än när abstraktionen är en kallad neuron där en mängd sådana anslutningar via vikter i en matris mer "gömt" via gradient descent typiskt lär sig resp. vikt anslutnings-kombinationer.


Men jag har å andra sidan aldrig upplevt neuronnät som typiskt uttrycka naturliga för mig. Backpropagation tycker jag är en vettig inte helt ovanlig värdefull primitiv som jag förövrigt flera gånger använt utan att tänka på att det är samma sak som backpropagation. En bra ofta antagen mer magisk - och ovanpå det inlärning man helt unikt valt att kalla gömd för mellan-lager i neuronnäten emedan vi varken i hårdvara eller mjukvara pratar om gömda delstegment annars - men kan inte för allt i världen förstå hur man annat än att rita om ett neuronnät kan se hur och var det bygger sin korrelation. Jag kan ej visualisera mentalt som neuronnät men däremot grafer.


Korrelation mellan givet sorterade datakanaler, resp. och / eller positioner data där, och / eller positioner och datakanaler i varje kombination. Ev. abstraherat mer kämpat kanske tydliga kanaler eller tidsförskjutningar i korrelationer mellan korrelationer etablerade mellan kombinationer redan. Så som vad som händer tid i i mening korrelations-skattande till tiden i, och vad helst som uttrycker sig och vi önskar. Väldigt vanliga koncept i mängd varianter för en ej nod-bred värld i sådant som stokastiska processer, wiener processer m.m. Sedan är självklart begrepp som Deep Neuronnets helt icke-specifika. Medan koncept som Wienerprocesser tor jag har väldigt stor preferens att just göra operationer mellan "lager" (d.v.s. ett 1-dim. värde vid dag A, ett vid dag B, någon vikt kombinerande dem vid värdet idag o.s.v.) betraktade gärna som diskreta tidpunkter. Jag vågar ej riktigt stanna på egen-konvergens av att förstå koncepten Deep här som i princip vara processer över vad vi kan se ligga i vilken som helst preferens representation graf- / neuronnät / rörsystem för vatten-transport / eller vad helst nästan enligt tidigare. Det är väl kanske tecken på att det oavsett vad konceptet är i övrigt ej egentligen är mer resonemangs-optimerat än ANN var. Vill man ha magi man klarar att acceptera idag - och kanske rationellt stimulerande en del bra blackbox-tänk - är kanske representationer så som uttryckta i neuronnät kontra mer begripliga som är exakt samma sak.

Kineserna måste börja ta ut sina sopor: Det är ej rätt att det ska stinka för mig här i Sverige.

Jag upplever att det ej är rimligt att i någon praktisk beslutspåverkande mening utanför vad det nu har lokalt i diktaturens struktur eller Hpng Kong entiteten att mena att "PLA vairt och relevant storlek" giviet Hong Kong stabilitet många år. Rimligare är att mena att påståendet är desinformation och lögn.

PLA Helps Guard Hong Kong in ‘Challenging Times’


Ser vi PLA göra just vad man menar att de hållit på med redan en evighet spekulerar jag att man kan komma att tidigt se att förflyttning styrkor Hong Kong var ett felbeslut. Därför att det visar sig att dom hade behövts fastlandets storstäder. Mängden automatkarbiner tillverade industriellt i Kina är högst väsentligt. Jag kan inte annat än tro att bra många av dem genom åren gått ut i spreading activation. Samtidigt tycks så få hamnat i brottslighet. Så var är dom? Jag tror att medborgarna Shanghai och Beijing har dom hemma hos sig. Eller kanske i något community organiserat gemensamt litet förråd.
>/p>

Stadskriget är speciellt. Väldigt oönskat när goda vägar finns. Men också intressant i att det är ytterst utjämnande mellan aktörer. Har du automatkarbiner räcker det mycket långt kontra nästan vad som helst. Pansarvagnen är en dyr lösning som kan göra ingång lättare trots utspridda självorganiserade medborgare. Samtidigt föreslår jag att tunga kultor med i forskningskärnkraft skapade tunga grundämnen existerar skjutbara via vanligt standardgevär gående igenom allt, och lämnande omedelbart alla i dom döda från inandningen gaserna. Arena luften kan jag inte på samma sätt som arena enstaka personer taken kontra stridsvagnarna en utmaning. Men varande heller ej någon expert - knappt nedanför på nivå att jag kan namnen på åtminstone flertalet av de svenskar - avstår jag från att uttrycka varför jag det tycks så en icke-fråga.


Som en intresserad ej omedelbart där utomstående person i världen skulle jag välkomna att se hög intensitet. Jag tror kinesen skulle må bra av långsiktigt reducerande den moraliska kostnad de bär av att låta den risk-mängd diktatur över världens största nation nu spyr ut över världen därför att medborgarna Kina ej gjort vad moraliska förpliktelser kräver av dem och städat upp "statsskicket" deras förvirrade år tidigt 1900-talet lämnat efter sig. Om det nu kräver att de gör det med vapen är det knappast mitt ansvar att ifrågasätta eller lägga tid på söka hitta en lösning jag om mitt land hade tyckt varit bättre. Och mer spekulativt tycker jag kulturen känns "staled" - fastnat i någon lokal avart utan att orka därifrån - och jag kan uppleva det som kanske en egentligen effektivare och bättre lösning för dem att ta tag i det hela ordentligt nu utan att förvänta sig att fler år kommer visa på någon bättre lösning. Det är mitt perspektiv om jag argumenterar detta i år såväl som förra året: Jag tycker ni ska skaffa fram lite vapen och göra revolution.


Så kanske är det bra med PLA gående in i synligt stort antal in i säg Hong Kong. Eller vad helst nog i effekt-upplevelse för att få kulturbärande medborgarna där nere att resa sig istället för att sitta och vänta på att världen ska städa upp soporna åt dem.


Partiet kan visa sig i praktiskt verklighet lite av en gemensam riktnings-uppmuntrande entitet. Upplevelse av likhet i det avstånd kontra ideal önskade större än vad annars vanligt oavsett preferens statsskick kontra korruptionsutbetalning via partimedlems-lön eller liknande. Även om självklart väpnad making it happend för tror jag säkert mig såväl som dom där är det ej egentligen önskade - ej målet. Hong Kong bär också något av trojanen alla år sedan den kom åter från UK. Men vad kan den som sådan vara annat än vad som inducerar intensitet? När givna naturlagar om vad för intensitet som självklart kan leda till exakt rätt förändring. Gör man massor här finns möjligheten - ett smart, välutbildat folk fastland såväl som Hong Kong så jag tror nog det. PLA kan vara the shit här även om partiet utan tvivel alltid kommer ej våga just det steget utan snarare nu såväl som tidiga års strategi allmänt söker etablera närvaro i stort antal relativt domän steg för steg.


Jämför i kontrast gärna ö-skapandet kontra båtande ner två givna battle-groups och en halv som nu kommer i delar utanför det i USA's rörliga strategi vars värde är just när och var behövd men som ej kan vara sustainable på samma sätt som en fast struktur likt en ö - eller diverse militärer man bit för bit för in HK. Men lössna här. Jag kan aldrig argumentera rörelse här från en massa ej synligt marscherande in militärer innan de får dem där samlade visande upp sig. Det senare är nästan bättre då det kommer med spooking, plötsligt oväntat dykande upp, dold fara man ej såg o.s.v. Stor dynamik här hur man vill ha dem komma ut för att få igenom vvad vi kanske kan se som ett beslut men egentligen tycks vi se någon form av självorganisation troligt given när så oerhört många människor i aktuell nation handing out the guns som ej vidare diskuterar. Jag vill inte påstå att kinesen är lat lika lite som svenskarna. Men jag tänker att antagligen om 40 år givet att egentligen har kin esen ej för vad som är världens äldsta "civlisation" kommit sig för att få fram ett demokratiskt moraliskt sunt statsskick får man åldrad dom sista två - tre åren troligt kvar göra sig lite besvär och komma ner görande det hela åt dom. En krutdurk på nivå det är ska inte vara svårare än att man svär lite på flygplatsen över att rollatorn ej kommit av flyget för att nationen ska bränna sig ren från diktatur-sopberget. Ej svårt. Men det kan vara kollektiv kulturell feghet snarare än att dom kulturellt eller biologiskt är ett det lata folket i världen.

L1- och L2-distans tillsammans: Reward / cost-funktion över-vektor skalande L1-modifikation i gradient descent icke-linjärt

Similarity eller distans som funktion av resp. antingen similarity cosinus eller L2 resp. L1-distansen. Ett uttryck jag av och till experimenterat i väldigt skilda delar relaterat de vanligaste av de vanligaste algoritmerna inlärning och clustering. Och har verkligen en mycket skild natur jämfört med L2 eller sim. ensamt. För mina 300-vektorer ord kommer det exempelvis när inducerat via påverkan på träningskonstanten (d.v.s. renare kanske att hellre se via en implicit funktion stående "bakom" inlärningskonstanten i ex. diskriminant derivatan av en föreställd funktion vi deriverar: men i min kod logik för inverkan lik denna ofta vad som vairt enklast att inducera genom att manipulera träningskonstanten i resp. operations magnitud om än ej dennas epokförändrade grund-storlek) ge ut clustering oerhört dominant (väldigt olikt normalt förväntat dem eller vilka som helst normalt topic-kontext dominerade ordvektorer skapade på normala sätt) i flera av givet antal totala cluster ordtyper. Och ej nödvändigtvis självklart begränsat till eller ens självklart (med självorganiserade koncept aktuella för mig här) ens oftare än mindre mer udda grupper först stora sådana som adverb eller adjektiv. Tänker man seriöst över vad ex. ett adjektiv är och vilka grundkomponenter dessa ord kan ha och vilka av dessa (ungefär fem st. förövrigt med två närmast alltid där och ett par ej ovanligt ej aktuella för ord men absolut heller inte mindre vanliga än att om jag minns rätt mer än hälften av adjektiven bär dem) så kan man uppleva att man förstå en del cluster jag sett från det och varför dessa stora och som koncept så väldigt vanliga när vi talar om språk ej troligare (men ej heller troligare) än många andra mindre i storlek och "betydelse" som de första som troiligast kommer ut. Praktiskt har jag inte sett någon poäng alls med sådan cluster-sortering: Jag har redan ordentliga listor med allt från vanliga ordtyper till allt i övrigt säkerligen ej överdrivet långt ifrån allt publicerat ej överdrivet speciellt. Och jag har ej sett något kommande ut i mina försök just här heller som ej när uppenbart drivet ordtypsnära tänkta egenskaper snarare än topic i mening tillför något eller inducerar nytt-tänkande förståelse hos mig: Utan vad man sett redan och om mot förmodan när man behöver det ej redan bättre gjort i ett oftare där troligare männnisko-skapad lista nog så kan jag säkert sortera ut det ex. automatiserat (eller manuellt) så här eller lika troligt bra eller rent troligare bättre egentligen utnyttjande viktsystem och sannolikheter. D.v.s. intressant därför att jag annars aldrig sett det komma så direkt och renodlat. Egentligen ej vad jag på rakarm mindes alls i övrigt när självorganiserande stora mängder ord där naturligt ämnes-topic alltid är att förvänta när antalet cluster ej är stort extremt troligt kommer. Ovanligt och därför intressant men med mycket av udda-nyheter eller numera vanligare kanske udda filmklipp (oavsett om nu surfande hundar eller en person i en uppenbart överskapad avbildning av karikatyr överdriven stereotyp som fascinerar miljoner varande en så fullständigt extrem nörd och så löjlig utan att själ förstå sig som annat än oerhört cool - Förövrigt ej framgående om man ej kontrollerar själv lite och har nätverken för det i SEO-branschen släkting till en välkänt framgångsrik Youtube traffic-collector. Minns ej om vår tjocka svärdsviftande nörd var kusin eller något annat.).


Sedan gillar jag personligen idén att utnyttja både L1 och L2. Vi känner ju praktiska värden med båda. Och alltid när man behöver göra ett hårt val upplever jag lätt att en period av att pröva allt möjligt runt två motsatta koncept blir verklighet. Finns någon - kanske rent av lite men ej märkbart så sämre rent praktisk - kompromiss av båda är jag sällan helt främmande för den. En del kognitiv-dissonans och bedömnings-osäkerhet som besparas. Varande en god idealiserad svensk har jag ibland rent av svårt att helt släppa dessa "gränsöverskridande" kompromiss-lösningar. En konsekvens av att växt upp under Kalla Kriget inkluderande grundskoleinlärning i läroböckerna av den svenska "modellen av världspolitiken": Världen med sina divergerade block är var för sig ej riktigt rätt. Mitt emellan dem på den rektangulära kartan - om än konceptuellt mer udda på en glob - finns Sverige. Det är möjligt och mycket med diverse exempel 1900-talet med början 1970-talet exempel man kan mena sig uppleva ev. är sådana indikationer finns på att resp. divergerat block konvergerad till deras mitt. D.v.s. Sverige. L1 och L3 normerna och distanserna skulle vi korrekt svenskt därför bäst se som två divergerade koncept som är på väg att konvergera till ett distansmått som utnyttjar både L1 och L2 distansen: Sverige-distansen i nuvarande mitten (Låt oss kalla den för Milstolpen från vad den mindre moraliskt korrekta - och / eller kanske modigare - granne släpat hem till trädgården och gillar att prata och visa upp).


Men varför när det ej egentligen tar det pröva det på något ytterligare en gång? När ändå samtidigt skakande om pågående träning hoppande träningskonstant mellan punkter i större steg där man sedans tår ett tag och skyfflar data in och ut. Säg i denna variant:


ZH är Sverige distansen. Vår milstolpe förklarande vad avståndet är mellan två punkter i svenska-mil. Och vi definierar den ej omedelbart från L1 och L2 utan cosinus istället för L2 därför att av och till finns en skillnad trots att vi kan räkna mellan dem (personer med preferens säg 0,1 normalisering utnyttjande exp exp ( gaussiskt-distans ev. varians // bandvidds-normaliserad) hade antagligen föredragit L2 då mer rationellt). L1 väljer jag förövrigt som ett av flera alternativ ha max-normaliserad över alla under träningen levande vektorer träningsdata. Konkret är Milstolpen: sim / ( 1 + L1-distansen ) == likhet. D.v.s. lite olämpligt att jag kallade den för distans då vi i denna form ej utnyttjande L2 mer får similarity med riktning. Annars är ex. L1 / ( + sim ) också funktionellt.


Vi gör beslut utifrån vad vi kan välja att se är ett distans mått per vektor-position för att få en gradient i varje träningssteg. För mig testat uteslutande vad som i grunden är gradient descend men med diverse modifikationer i och nära runt om som gör att grundprincipen gradienten ej säkert är lätt ens för en mycket säkrare matematiker refreshad i området att få ut en funktion som integraler av. V beräknar här nu för vektor vi modifierar ett tillstånd med i gradient descent också L1 och cosinus similarity för och från det Sverige-i-mitten-är-ändå-vad-USA-och-Sovietunionen-resp-är-mest-lika-till-resp (låt oss kalla det SIM - Sweden in International Model - eller vad man vill föreställa sig att det står för bland läsare firande och starkt troende på den goda medborgaren Hans som alltid tar chansen att lyfta fram Riket: "En fin riktig svensk utan något av Skåningen eller Norrlänningens halvt-icke-svenska okulturs-störningar i beteende och språk: Det är det fina med Hans i ett nötskal.") fortsättningsvis) måttet som indikation bildat från övergripande alla positioner men utan att cross-beroende (ex. säg cross-talk alternativt) mellan positioner utnyttjas explicit ändå en gemensam samlad indikation korrekt praktiskt utanför träning i sin naturliga dimensionsreduktion till en position mycket mer funktionell för mer övergripande beslut än representation information: Jfr jämförelse ord med varandra eller uttryck för sannolikheter ett ord givet ett kontext (ett decimalt-tal är vad vi avser en position). Men opererar i träningen på varje position vektorerna utifrån konkret när jag testade L1-distansen (under dis-constraint att till varje ord-vektor omedelbart innan ej normaliserat görs beräkning: uu(i) = uu(i) + rand ( uu(i) * 0.10 ) - rand ( uu(i) * 0.10 ).


Hela tänket gradient descent är ju att derivatan är viktig. Och är vi L1 här med L2 i egentliga funktionen kan vi ännu tydligare konceptuellt se hur vi flyttar oss närmare vid behov medan ex. mer av en medelvärdesbildning kan tendera att sämre bilda en gemensamvektor för just diskriminering. Trots det görs följande operation av mig på denna L1-distans tänkt att vara gradienten. log ( 1 + e ( L1 ) ). Jag hade verkligen utan annat än fördel kunnat välja att ersätta L1 distansen med detta när sent i träningen men ej riktigt sista epokerna. Större värde ges emellertid när vi istället:


Beräknar: log ( 1 + e ( SIM * l1-distansen just för aktuell position i vektorn ) ). Och viktar andelen av den normala gradient-operationer vi låter påverka tillståndsvektorn med kontra samma tillståndsvektor i föregående tidssteg. Bieffekt är mera smooth övergång vilket kan vara mindre önskat ev. tidigt i träningen eftersom vi för in föregående tidsstegs-vektor. Normalt är dock denna bieffekt önskad i sig (varför jag valde att låta effekten realiseras via denna viktning snarare än manipulerande den gradient som faktiskt används vilket är den som normalt L1-beräknande: Även om arbetande med L2 distansen väljande cluster o.s.v. ska man dock absolut inte vara rädd att pröva att bortse helt från tänket att man laborerar med en L1-distans som är en derivering av en L2-distans för att experimentera med allmänt numeriska algoritmer enkla standard-grepp som ibland ger värde. Ex. sluta med L1 och istället använda L1 skalat icke-linjärt för att ge större effekt av antingen mindre eller större skillnader för resp. position kontra tillståndet som tränas fram - åtminstone om sent i träningen - vilket verkligen oftare än annars för känt praktiska funktioner kan öka upp andelen korrekta sorteringar såväl som att reducera andelen falska koncept upplevda hörande till kategorin. Men jag önskade ha en svag medelvärdes-effekt verkande utan att just detta steg i logiken konceptuellt så korrekt tilltalande enkelt börjad expandera i antal rader kod börjande närma sig några hundra från vad som i grunden kan vara en rad. Och effektiviserade ner operationerna där det kändes enklare att göra ett par man troligare av och till kan önska av resp. på normalt som jag bedömer det i ungefär samma del av träningen - tillsammans. Medelvärdesbilda själva gradienten ska dock ej ses som vad jag självklart på något sätt här ej rekommenderar troligare som vad man kanske hellre bör tänka och arbeta med. Görande potentiellt p.g.a. struktur ett flertal förändrande operationer - ej fler än värsta fall åtta och normalt 1 och mindre ofta två eller tre - från ett slumpmässigt draget ord är det dock ej praktiskt bra att arbeta med gradienterna här krävande att man tryggt ej förväxlar i koden skillnaden mellan steg som operation resp. steg som nytt ord m.m. medan vi med själva resultatet ej behöver något nytt quality assurance i assertions för att kontrollera rimligheten.).


Jag vill ej spekulera om vad för värde någon annan får av just denna operation. Den är vad jag tycker man ska se som en av en bunt enkla små modifikationer man kan pröva rent praktiskt för en given tillämpning och se om det ger mer värde. Utan att jag tycker det sunt (om man alls ska se matematikern som roll som sund för någon normalt frisk ej matematisk-person) att man ska uppleva behov av något teoretiskt resonemang runt dem var för sig. Jag har några bra sammanfattande journal-artiklar tillsammans täckande upp några av de mer basala (i mening att vi ex. där kan hitta grundformen funktion jag utnyttjade här men ej att vi där har den fortsatta varianten av att vi utnyttjar en skalning från similarity) grund-operationer ytterst vanliga såväl välkända oftare än inte ger åtminstone något lite värde antingen exakthet eller beräkning totalt nödvändig att nå åtminstone en extrempunkt (oavsett dess förhållande i storlek till en eller flera av ev. övriga extrempunkter. Jag anar lite att med tänkt L2-distans som funktion och definierande data för funktionen som är levande flergram producerande kontinuerligt varje dag är kanske koncept som lokalt minimum meningslöst och mer att vi har praktiskt approximativt ett oändligt antal extrempunkter något så när i chunk-cluster jämförbara i magnitud. Men tänker kanske fel. Under antagande att annan logik / personligt beslut ej relaterat funktionen i sig vi antar att vi uttrycker beslutar om mängden och vilket indata vi just nu för kommande pågående timmar träning för in i systemet. Verkar nördar coolt för dagen för vi in dom. Har Trump hört av sig om att köpa information kring koncept relaterade Världs-President år 2020 kör vi in data relaterat det. Ska vi tydliggöra moraliska problem med person i parti-diktatur kör vi in data aktuellt där. Vi kan i det automatiserade av logik se ex. konceptuell möjlighet att nära användning är vad logiken följer upp konkret effekt av pågående tillämpningen av vikterna - Började folk ställa sig och vänta på att Trump kommer och ska president-tala inför kommande konceptuella skapelse av världspresident-posten? -
Om inte kanske vi börjar sampla annorlunda men ej för det annat än förlorar på att kasta tillstånden där vi står som är mer av något större runt gradienterna i insvängningen mot att få den Goda människan i ledning av världen så att alla folkmord världen skådat, alla kostnader för alltid förutom Mexiko oskyldiga länder mexikanernas butikssnattande runt om i världens städer orsakande svält, gravt eftersatta regler om tax-free inköp av alkohol och tobak resp. alkoholbeskattning många länder har där istället alkohol-subventioner vore det allra bästa för folkhälsan, den dåliga myndighetsinformation flera länder har om dålig hand-hygien orsakande den Diger Död som rätt trump-i-kortleken som världspresident kunnat förhindrat - ej riktigt bra - och kanske ej helt överdrivna uttryck för den lite skakiga relevans-rimligheten vi kan ha tidigt här - men ej meningslös information att arbeta vidare från) tillsammans med sampling från levande internet-corpus ).























































































Bättre gradient descent opererande på distribuerade ordvektorer med grov skattning information in via addition och information ut via subtraktion

2017-06-15

Komplettering: Jag tror jag får följa upp med något exempel här för att göra enkelheten tydlig. Enkelt är inte alltid enklare att bra förklara. I övrigt kan läggas till att effekt för mig överstiger övriga optimeringar nära själva gradient descent delen av logiken d.v.s. medelvärdesbildningar gradienter, utnyttjande moment, förändrande träningskonstant utifrån riktning gradienter nära i tiden (positiv eller negativ riktning) o.s.v. bland normala optimeringar. Någon anledning att tro att samma värde finns för data som ej kommer från språk tror jag inte riktigt på men å andra sidan tror jag värdet gäller utan just någon skillnad effekt eller metod för alla distribuerade vektorrepresentationer ord och flergram (eller ämneskontext) skapade med alla normalt förekommande algoritmer.


Poängen med gradient descent är att den fungerar och tillåter hög abstraktion för människan. Nackdelen är att fokus forskning optimering resp. skapelser tenderar att hamna uteslutande i antingen själva abstraktionen (d.v.s. avseende metoder så som moment eller medelvärdesbildning), steget från en tänkt funktion vi deriverar (och är tänket vettigt avseende vad vi skjuter in i algoritmen från logiska regler för anrop resp. motsvarande derivatan kan man om ett eget värde ej finns gå långt utanför att anta att funktionen existerar eller frågor om den ser ut i mening av att man kan saker längre här genom att temporalt gå över till "varianter" av derivatan jfr för vad jag började med att pröva just här som exempel: Tänkbar modifikation av algoritm kvantifiering vektorer att använda mot slutet av träningen. Men att något jag prövat här egentligen är värt besväret utan medvetenhet om informationens form är troligen i allmänhet mindre vanligt annat än för resultat tänkta att användas längre tid.), medan samspel med själva informationen vi för in lämnas.


I särklass vanligast tvivlar jag inte på är att man funktionen antagen att deriveras är L2-distansen vilket ger oss att modifikation som sker följer L1-distansen i resp. steg. För vektorn opererar vi nu per position lämnande frågan om hur informationen ser ut till övrigt. En mängd varianter jag mentalt sorterar i samma grupp utnyttjar mer övergripande över resp. vektor kontra övrigt similarity ovanför vilket vi kan se som ett exempel på hur vi kan utnyttja informationens natur.


Nackdelen med alla dessa algoritmer är givetvis inte att de i allmänhet är så väl tilltalande enkla som mycket levererande i resultat utan att de liksom gradient descent tenderar att lura oss - eller mig tidigare åtminstone - att missa det mer uppenbara när det kommer till våra ordvektorer. Betänk gärna de mest grundläggande och triviala måtten på hur träning clustering går: bias och varians som indikation på var vi ligger i att avskilja motsvarande träningsdatat (d.v.s. risken / nivån av överträningen) kontra risk för inkludering defekt men också chansen / möjligheten (vad åtminstone jag i allt aktuellt språk tar som grundvärdet sökt) att också ej träningsdata men vad som motsvarar träningsdata inkluderas.


Tänk att vi nu har vår principiellt enkla träningsalgoritm resp. en bunt sinsemellan ganska jämförbara koncept närastående ovanför (ex. vektor-kvantifiering) men att vi kan ha missat en i enkelhet och prestanda jämförbart koncept. Ett koncept som tar in hänsynen till informationen kompletterande similarity som utnyttjat och föga kostsamt prestanda (knappt märkbart alls).


Givet att jag hade missat att se möjligheten om ej för att egentligen allt jag gjort efter 1997 cirka. Ungefär när jag började skriva Kryptering från början till slut. Alltid inkluderat var gång ej helt borta att göra att betrakta som tum-mått informationen utifrån komprimering.


Och i träningen här: Hur mycket information går in? D.v.s. via additionen av relevanta samples för som aktuellt just nu för mig några av mina "ML" / More-or-less - Positiv / Negativ - i 1-gram cirka 6000 vs 9000 i följande bias-engelskan för större uttryck frekvens positivt men med fler ord för negativt och sist kontrollerade precis som det ska vara (eller adderar jag timmar korrigerande) för alla core-ml försvarligt större än något publicerat -, Known / Unknown (Unknown ska jag återkomma till här: När den föreslår mig utbyggnader under träningen får man ett fascinerande "negativt" perspektiv av vek ekonomi: Kopplingen i extremt stort under vektorerna corpus mellan unknown som grund definierat och ekonomi överraskar mig fortfarande pågående regelbundet) - resp. ganska små i 1-gram krävande fler två gram för särskilt unknown och båda cirka 3000 - 4000 st, UP / Down ~ Active / Passive - båda "gigantiska" redan i ord ovanför 10000, Trust / Distrust - mindre men besläktade positive-negative cirka 4000 båda om jag minns rätt). Samt informationen vi tar ut när subtraktion sker d.v.s. för mig antingen:


  • Riktat. I de flesta fall att ex. "positiv" tar bort information från "negativ" därför att negativ för en ord-vektor uppvisar att den defekt känner sig mer hemma med ordet än positiv. Vad som kräver human-work-unit Hans att av och till kontrollera det hela eftersom samma del av algoritmen skapande träningsdata ibland fört in koncept folk ej i corpus tillräckligt rent använt jämförbart (samt att enstaka underligheter kan vara fallet). D.v.s. koncept humor visade sig exempelvis ej bra att behålla i positivt. Troligen därför att för mycket diskussion humor som kommersiell-produkt stör saker, att komedi kan handla om för positiv problematiska ämnen, samt en här visade sig försvarlig mängd corpus vi kan nöja oss med att säga är löst relaterat till konceptet skadeglädje (satire har något lite av samma problem men i kontrast ej i närheten av nivå att man behöver ta bort det från positiv).
  • Kontra mängden ML allmänt. D.v.s. koncept tränings-data någon ML men ej den kategori aktuellt för ordet och ej dess "motsatta" ML.
  • Kontra mängden alla existerande koncept. Där jag praktiskt valde att endast inkludera ord följande A-Z resp. ord A-Z med "-" där "-" i mina ordvektorer motsvarar bigram som jag valde att ta med utnyttjande detta som notation. Övrigt lämnande etniska uttryck (jfr åäö för svenska ord eller i mängd desto mer allt möjligt från Indien m.fl. länder) är i hög andel funktionella motsvarigheter till "-" men uteslutande avspeglande vissa kanal-preferenser så som diskussions-forum, nyhetstitlar o.s.v. Nyhetstitlar är mycket funktionella för att expandera ord åtminstone när de indikerar första ordet i titel liksom p.s.s. (jämförbart funktionella) indikerande citat. Indikerat forum där själva ordet avslutas "..." är mycket funktionella för expandera med manuellt för starkt emotionella koncept medan hela gruppen i övrigt visade sig för ML sämre att utnyttja (det förvånande mig verkligen eftersom ML-kategorierna är så emotionella till sin natur och gruppen i sig är funktionell för ämnen inom åtminstone politik för expansion följande grundordet) vilket också gäller allt relaterat corpus som har med diskussion i text att göra.

Jag upplever att sista subtraktions-typen som jag använt det ej är orelaterad till eller felaktig att se som en form av variant (men via algoritm använd i övrigt) till att grovt subtrahera bort någon form av viktad medelvärdes-skattning av hela världen.


Struntar jag i all subtraktion och dessutom väljer givet hyggligt färdiga tillstånd addera allt modifierande resp. stegs träningskonstant med ordets similarity får vi en mycket god skattning av hur ord allmänt motsvarar kategorin i similarity. Men med begränsningen av att särskiljandet mot andra kategorier snabbt försämras. Vi hamnar i vad som inkluderar och för in information från allt vi vet i positivt träningsdata. Hade det endast varit världen är det ej ett problem men som är typiskt är en stor del av värdet att kunna särskilja mot andra kategorier. Det är - motsvarande min arkitektur här - det naturliga andra steget att utnyttja "dagens" träning av händelser fortlöpande givet det första stegets träning till att uttrycka distributionen. Första steget ger möjligheten att särskilja en ML trovärdigt medan det andra givet att den klarar detta kan koncentrera sig på den kanske enklare utmaningen att uttrycka diverse viktade distributioner (så som hur lik ett koncept eller en grupp av koncept är till en ML, eller troligt uttryckt i världen enligt dagen, nivå spreadability o.s.v. motsvarande egentligen alla viktsystem jag annars genererar ut av och till).


Det intressanta i kontrasten lager ett och lager två är att i lager ett kan vi skatta mycket nära till slutlig effekt nivå överträning kontra inkludering okända men tillhörande koncept resp. antalet ej upplevt tillhörande koncept som rangordnas högt i similarity utifrån mängden mängden information adderad resp. subtraherad. Hade vi nu med mängden information avsett sannolikheten för en given vektor med "höggrad av medvetenhet" om korrelation mellan positioner o.s.v. eller intressantare dess "effekt-volym" (eller vad vi kallar det) i mening av totala likheten det uttrycker med ett antal eller alla av övriga ord existerande, så hade det varit mindre intressant därför att det hade kostat ganska försvarligt i beräkning nödvändig. Men menar man - och jag gör det - att mängden information mer är av ett degenererat koncept utnyttjande grova skattningar hörande hemma i antaganden om diverse samverkande normalfördelningar vi inte ens behöver trovärdiga skattningar av rörande varians-moment för (utan sådant är mer något vi för tidiga moment kan beräkna samtidigt) är praktiskt på samma nivå som övriga koncept utnyttjade: Det kräver ej mer än gradient descent eller similarity.


Och hur laborerar vi då med detta? Och här är själva kärnan av värdet. Träningen gör sitt. Av och till. Ganska sällan. Inte ens en av tio epoker. Kontrolleras grovt vad genomsnittlig likhet - cosinus-similarity - ligger på för orden som tränats mot respektive kategori i övrigt. Ligger det över något värde. Drar vi slumpmässiga ord - säg 1000 till 100000 st - tills mängden informaton vi subtraherat går över tröskelvärde.


Personlig tumregel att vi alltid kan göra addition (implementerande med en vettigt sund grundnivå vilket inte är givet i mycket man ser publicerat där överträning som koncept tycks ha definierats helt opraktiskt som vad man tror sig löst med ett held-back-corpus definierande det som problem vilka endast kan manifesteras på samma abstraktionsnivå som algoritmen man tränar med vilket nu ej är verkligheten: Stor fördel här i forsknings-områden där clustering är mer av en praktisk metod använd i ett "större" huvudsakligt mål så som medicin kontra där det är huvudsaken) utan att riskera att överträna (men självklart förande in typiskt för varje koncept i träningsdata en viss mängd junk-informationen ej bra för idealiseringen tillsammans med värdefull information). Medan när vi börjar subtrahera givet addition kommer alltid risk för överträning vara fallet. Personligen tycker jag att det är en excellent start-punkt demonstrerande att del-komponenter fungerar som de ska tillsammans. Arketypiska ord motsvarande träningsdata ger höga värden medan allt i övrigt ligger nedåt negativt i similarity oavsett om konceptuellt relaterade eller inte.


Vad jag vill se det som sker i algoritm-steg här är att vi drar bort vad motsvarar en skattning av mängden "allmän" och orelaterad junk-information ordvektorerna var för sig i liten utsträckning för in tillsammans med information relevant för idealiseringen:


1. Sund och god informationen i dom men just här ej relevant. Kategorier positiv och negativ kan ex. grov-tränas adderande allt varefter kategorier UP / DOWN subtraheras från dem. Det tar nu bort aktivitets-relaterad information. Gör vi det endast för UP får vi starkt uttryck likhet mot positiva ord som ej inkluderar att man gör något: Tänker vi visuellt koncept som har att göra med att slött titta på något avkopplande storslaget (och själva orden motsvarar i äldre Flickr corpus sådana bilder), eller ej aktiverande positiva koncept som har semester att göra. Ord som är "serene" (som låg någonstans topp tio):

"Peaceful, calm, unruffled.  [quotations ▼]
She looked at her students with joviality and a serene mentality.
Without worry or anxiety; unaffected by disturbance.
(archaic) fair and unclouded (as of the sky); clear; unobscured."

Wiktionary.
Notera ovan också "archaic sense" som i ML-kategorierna diskuterande är starkt "KNOWN".

Detta är information vi kan välja att avlägsna från resp. ord - eller en skattning av den - också pågående under träningen. Det är vad jag experimenterat med att göra utnyttjande att tillstånden börjat närma sig färdigt och därför var för sig ger goda skattningar. Adderar jag ord till positivt kontrollerar vi om också en negativ sense-definition eller användning (kontext i corpus) existerar, och om så försöker vi ta bort en mindre andel av den följande övergripande vektorns positioner korrelation till den som förenklat och skattat via similarity (snarare än cross-correlation vilket tenderar att vara i allmänhet om ej prövat här lite starkare men ej mer än att det ej är i närheten av värt kostnaden i beräkning det innebär att göra) mot negativ-idealiseringen (jämför med de algoritmer för ortogonalisering med ej ovanligt praktiskt användning så som Gram-Schmidt där jag avstår att länka Wikipedia som jag här minns som tungt inne i matematiska koncept utan särskilt mycket om just något alls av de många bredare praktiska användningar normalt använd för. När matematikern kommer och visar upp sina lemma m.m. svår-begripligt och väldigt tråkigt ska man precis som man pop-up fönster relaterade gratis film vara på sin vakt.). Konceptuellt är detta kostsamt och på det stora hela givet en del manuell-tid det tycks kräva (för mig åtminstone) högst tvivelaktigt ger något man ej med bättre resultat gör i diskreta tidpunkter eller sist när övrigt är färdigt. Orsaken är det ej är så mycket denna information som är problematisk. Är det relaterat på nivå att vi kan göra detta är avgränsbar och vi kan välja när vi tar bort den. Och att ta bort den pågående innebär att vi gör antagande om att vår similarity-operation klarar detta tillsammans med som normalt en enkel subtraktion utan att vi tappar värde i övrigt (bl.a. ökande antalet träningsoperationer nödvändiga från att resp. idealisering här delar viss för dem var och en korrekt information att ha kvar) vilket förvisso är funktionellt men i nivå defekt är relaterat till antalet koncept vi har i träningsdata aktuell kategori resp. kategori som skapar de idealiseringar vi avlägsnar likhet till resp. antalet gånger vi behöver göra det. I kontrast till att kunna utnyttja alla ord vektorer finns för, ej ha beroende till någon idealisering, och dessutom ej ha större beroende till idealisering vi avlägsnar information från än att man kan avstå från att kvantifiera likheten helt (för att istället reducera ner träningskonstant ytterligare och öka på antalet slumpmässigt dragna ord).


2. En viss mängd information troligt ytterst irrelevant för vilken som helst idealisering aktuell men som kommer i "form" uppvisa likhet till motsvarigheter hos ett ej oväsentligt antal andra ord i samma ML eller andra ML aktuella. Detta är information ytterst svår att enkelt se. I någon mening sker träning för att som väsentlig del av det eliminera effekten av denna information. Detta är information som kan få ett ord positivt att uppvisa hög likhet med ett ord negativt. Likheten är i allmän mening ej inkorrekt men den har ej med positivt och negativt att göra. Är informationen irrelevant är det lyckosamt - lyckosamt på ett sätt vanligt för språk och engelskan är snarare bättre här än språk allmänt - om den också när grundläggande kategoriseringar tas ut gärna förekommer jämförbart i mängden ord ej inkluderande som ord som har något att göra med kvantifieringen eller clusteringen vi gör. För distribuerade ordvektorer är det lätt att se exempel här, och är så pass tydlig att många förfallet ned till att välja att se vektorerna skapade enligt normala algoritmer som uttryckande just denna större grupp, i topics d.v.s. de ämnes-kontext som sker över ex. som aktuellt här emotionella-dimensioner orden uttrycker, eller som ej aktuellt grammatiska preferenser i språket (startar man från LSA skapande ordvektorerna följande normala algoritmer är det ej fallet att endast ämnen enkelt ges av vektorerna utan försvarliga mängder information relaterad såväl syntax, ordformer, grammatik m.m. ges också ej linjärt d.v.s. att särskilja i similarity exempelvis grateful mot ungrateful är alltid möjligt men kan normalt kräva att man antingen gör efter-processande av vektorerna eller gör någon beräkning mer än cosinus-similarity direkt på dem. Mängden relevant information som kommer med är rent sanslös i storlek och vad som normalt utnyttjas är normalt försvinnande lite av den. Tänk här för de 400 positioner jag började på efter LSA och därefter tog ner till 300 att vi fortfarande är på 300 * 64 bitar: 2^64 hade för något mindre begränsats till 1.8446744e+19 och antar vi att ingen information alls existerar som uttrycker samspel mellan resp. position kan vi multiplicera med 300. Emellertid är det just samspelet och där redan i själva corpus-texten definierande resp. kontext-sample som är grundprincipen vi komprimerar och dimensionsreducerar utifrån - så hellre att vi ska sätta yttre gräns överdrivet men konceptuellt mer korrekt betraktande vektorerna som 300 st double d.v.s. 2^(300 * 64) bitar vilket nära nog rymmer vad som helst).


3. Slutligen en viss mängd relaterat algoritmerna som skapade dem men ej sunt återspeglande indatat - d.v.s. för mig i första steget en variant av LSA utnyttjande givna sannolikheter till 400 * 64-bitars double följt av dimensionsreduktion igen till 300 * 64-bitars double via en variant av Kohonen-nät förädlande också till en-dimensionell topologisk-sortering som Human-work-unit Hans manuellt kan korrigera när behov visar sig ex. dominerar namn ett antal positioner i dom höga värdena och skulle mot förmodan säg "the" visa sig ligga högt där är det enkelt att ta ner det till en sund nivå för positioner ungefär där säg it ligger: Den mänskliga sidan av IT är så viktigt vilket är så vackert illustrerat också i världsekonomin i all outsourcing till låglöneländer - många människo-timmar motsvarar bättre IT ty naturen av IT är ej att spara tid utan att göra saker ungefär som att "göra" titta på film kostnadsfritt vilket också kräver att man lägger tid på att döda fönster med reklam för ponografi, ekonomiska bedrägerier o.s.v. Lite timmar == Dålig IT) tillsammans med egenheter corpus som mer är att se som ej uttryckande verkligheten). Ett värde med LSA här är också dess nedsida (varför man just ska ta som självklart att man ej använder grundvarianten av LSA utan gör sundare viktning för sannolikheter) i att problem corpus tenderar att flaggas upp via övertydliga uttryck för den större gruppen koncept detta kan vara aktuellt för: Ord som är ovanligt ovanliga och relativt få kontext fanns för (många människor tycks ha som ovana att sätta sig att leta upp ovanliga ord och sedan gå ut på nätet och okynnes skapa icke-representativa "medelvärden" för kontext normalt förväntade av människor: Det är ett förbannat dåligt sätt men inte mycket man kan göra åt för väldigt ovanliga ord).


Grupp ett hanterar algoritmen och kvarstår något besvärande hanterar vi det jämförbart eller bättre sist. Övriga två grupper tycks bl.a. för mina ML vara funktionella att anta är representativa i alla övriga ord i mening av att drar vi dem slumpmässigt får vi en representation av hur detta ser ut i ej små kategorier av träningsdata. Och behovet är skattningsbart från hur faktiskt träningsdata uttrycker sig kontra konkurrerande kategorier. Och operationen i sig medverkar ej tycks det alls till överträning: Tvärtom testande det tar det bort överträning om man tillåter effekten av det hela gå högre än normalt annars fallet för det. Ej heller över epoker påverkar det negativt genomsnittlig korrekthet - och mindre väntat ej heller väsentligt genomsnittlig likhet mot egen kategori (vilket annars är ett funktionellt mått på att man får effekt av många operationer inkluderande subtraktion: Vi kan ta bort information och öka korrektheten men kommer tendera att reducera magnituden för vektorerna vi idealiserar och alla ord's vektorer åker därför gärna ner en bit i sin similarity). Bra samspel med gradienten och funktionerna den antar sig laborera på derivatan under verklighet av program-logikens beslut (d.v.s. sådant som att vi bättre ej låter den få mer data och operera på sin approximation om konceptet vi just då har redan tycks beslutas i rätt cluster: lätt fascinerande har jag många gånger tycks - självklart när vi betraktar vad vi gör som att komprimerar information och här ej önskar ett onödigt svårt problem genom att också stoppa in information vi ej behöver d.v.s. kan vi fatta rätt beslut för ett sample så utmanar vi ej algoritmen med det mer. Men betraktat från att approximera funktionen L2-distans utnyttjande derivatan L1-distans känns det lite speciellt - det lämnar frågan om hur vektorernas positioner samverkar utanför hur vi vill se det trots att det är högst verkligt påverkande).


För gradient descent clustering online. Jämfört med moment, medelvärdesbildning gradienter och/eller tillstånd m.fl. standard-optimeringar vi kan göra av gradient-descent för som här clustering får man här ut ungefär 10 ggr mer än de samlat räknat från samlad similarity korrekta kontra defekta ord genererade tillstånden topp tio tusen. Förutsättande för allt andra metoder hanterande detta med resp. ej medtaget för övriga. Moment, förändring alpha upp eller ner något från riktning gradienter sista stegen innan m.m. har jag också tagit bort, medan jag behåller medelvärdesbildningarna vilka fortsatt tillför märkbart (men ej i nivå: jag tror dock att för kategorier färre i antal ord och/eller naturligt krävande färre epoker att de troligt levererar mer än såväl denna metod som moment m.m. I princip tycks de för mig sudda ut nersidan av online-träning på ordvektorer utan att värdet av det påverkas alls - om ej startande från påbörjade tillstånd spekulerar jag också att när de första tidiga epokerna är gjorda att medelvärdesbildningarna också en tid levererar väsentligt mer. Dock är jag tveksam till poängen alls att utnyttja min metod här tidigt under träningen där jag gärna ser att det hela för in mycket information mindre diskriminerande medan den svårare förädlingen avlägsnande ut irrelevant information bättre görs senare när det är givet att vad irrelevant kvar ej naturligt från god-algoritmen gick bort av sig själv). Det är lite speciellt - och just exempel på matematiska konceptuella frågor jag tror är väldigt sunt att avstå från att engagera sig i - varför moment blir i princip föga meningsfulla av vad vi gör här. Själva formen på vad vi kanske kan tänka oss som en kurva - lutningen mot någon extrempunkt - påverkas ej på ett självklart sätt (men i all rimlighet är det väl just inflygningen som förenklas här - mjukare med mindre lösningar man upplever sämre än vad man önskat fortfarande tänkbara tydliga nog för att slöa ner eller frysa utvecklingen).


En fråga är kanske hur värdet ser ut när gradient descent utnyttjas tillsammans med back-propagation. Back-propagation är funktionellt - och har kanske sitt större praktiska värde egentligen - utanför de arketypiska typerna av neuronnäten. Har vi ex. besläktade ML-kategorier (utan att just prövat detta) kan vi utnyttja det för att låta en förändring i sig positiv-del-kategori-1 inverkar på positiv-del-kategori-2. Jag tycker det känns mer naturligt att se det som en metod relaterad spreading-activation över godtyckliga grafer. Det är ej självklart för mig om metoden är problematisk med back-propagation eller fungerar helt jämförbart. Backpropagation till sin natur bär ju mycket av mer uttryckt värde i segment där utmaningen att garantera att idealiseringen klarar att inkludera godtyckliga okända koncept (ex. som här tränande på i huvudsak 1-gram och några två-gram trots det få en idealisering som kan bedöma godtyckliga ngram, eller lika gärna ett ej överdrivet stort chunk med ord upp till två-tre meningar med rimlig ambition och test av om träningen är klar) är föga och vi snarare är i problem där mindre storleksordningar på träningsdata är aktuella görande problematik rörande överträning enkelt. Men sådant har kanske egentligen mer att göra med att vad backpropagation normalt används för - d.v.s. neuronnät - ej bra klarar mycket stora kategorier av ord och gärna kan hamna i överträning (resultat i "gömt" delsteg i algoritmen i form av "neuron" vars effekt ingen människa någon ser tränar sig till att uttrycka noll på allt utom en position efter en egentlig gigantisk arbetsinsats träning ersättande en enkel människo-gjord if-sats - för generiskt vanligt i klassiska prototypiska neuronnät även om utvecklingen gått framåt ganska ordentligt sista åren efter att föreställningar om hur neuronnät "måste" / "ska" se ut passerade ut).


Betraktar vi endast ord som sådana finns egentligen föga värde av att alls skapa idealiserade vektor-representationer. Man kan lika gärna - och bättre egentligen - utnyttja viktsystem för ord och hantera frågan om vad inkluderat eller ej genom att sätta sig en vecka vid behov och sortera ytterligare en 10 000 ord (den vinnande "third world IT-out-sourcing" metoden men gjort ännu lite smartare reducerande kostnaden ytterligare en bit skärande bort Bangladesh-IT-arbetaren genom att göra det själv - säkrare än varianterna att gå förbi universitetet och utge sig för att komma från GODTYCKLIGT-COOLT-IT-FÖRETAG-MAN-VILL-ARBETA-OSS för att göra en tävling man kan VINNA-EN-EJ-OTROLIG-SAK-I-DVS-RIMLIG-I-VÄRDE-OCH-DÄR-ALLA-KÄNNER-ATT-DE-MER-ÄN-ANDRA-KOMMER-GÖRA-SIG-BESVÄR och lämna ut A4-blad med ord man behöver sorterade stående bakom ett bord: Moraliskt kan man givetvis ifrågasätta den senare metoden samtidigt minns jag ett år när jag gästföreläste i krypteringskursen och någon av studenterna stal min Microsoft-penna i silver jag några år innan köpt i Palo Alto. Så åtminstone för mig är just moral ej en fråga här: They - studenterna: i affär av idealisering av en kategori är generaliseringen svår att argumentera mot moraliskt givet att konceptet av de enskilda objekten ej existerar - own me. Flera timmar om inte hela deras liv i alla fall. Jag känner mig fortfarande lätt irriterad över penna-incidenten. Min långsinthet imponerar som alltid och dominerar lätt i ett fåtal saker som vuxen mina samlade minnen uppväxt + vuxna-år. Vore inte mer än rätt att göra några omgångar student-mining men kanske mer i kodutveckling: Varför jag ska behöva sitta och koda sämre motiverad saknande min silverpenna medan dom okynnes festar finns ej ett bra svar på att hitta i åtminstone min powering-up med moral och etik management-lära).

Reducerande risk överträning

2017-05-19

Vi betraktar likheten som uttryckt via cosinus-similarity som en form av korrelation (om än ej balanserad från medelvärde vilket är mindre önskvärt). Vi ser också risken för överträning samt hur redan komplexa icke-standardiserade neuronnät (d.v.s. ej följande någon generell princip utan skapade manuellt för tyngre utmaningar man är beredd att tänka specifikt för) kan expandera enormt i komplexitet och beräkningskostnad så fort risker överträning måste hanteras i regler.


Vi menar vidare att vi sitter med nät som i princip adderar inkludering via addition medan avlägsnar icke-relevant information via subtraktion av icke-relevanta vektorer (ex. felaktigt bedömde tillhöra en grupp, via några alltid för varje addition, och/eller en svag subtraktion för varje vektor alltid när dragen om den ej hör till gruppen vilka är mindre tre huvudsakliga grupper).


Vi tillför på försök regeln Z_HH i samband med ytterligare expansion regler träning gjort att känslan är att redundans minskande risk för överträning bör tillföras. Där tänket är att denna regel ska avsluta behovet permanent:


  • Z_HH aktiveras alltid när subtraktion sker.
  • Vi drar n-stycken (säg 5 - 6 st) positiva för den kategori vi subtraherar från.
  • För sex st. föregående drar vi 1 st som säkert ej hör till någon kategori (troligast namn medan verb, adjektiv, adverb m.m. normalt hör till någon kategori) samt ett par st. vilka som helst som ej hör till egna kategorin, och ibland 1 st. som kan höra till en motsatt kategori.
  • Vi avlägsnar "korrelationen" indikerade negativa ord från de positiva genom att först medelvärdesbilda positiva och negativa och därefter beräkna cosinus. Inte helt olika med hör man ofta gör ortogonalisering.

Vi kör detta som positivt sample för kategorin vi subtraherar från. Och raderar den ej d.v.s. ingår nu permanent som en existerande given under träningen. Så som kod gjorts är det ej via någon regel givet att processen någonsin kommer 100% säkert kommer avstanna. Z_HH kan i sig innebära att Z_HH anropas om motsatt kategorin upplever den höra till sig. Att träningsdata som ej hör till kategorin används och får reducera skapat sample utefter korrelation gör dock detta till väldigt osannolikt inträffande ens 1 - 3 gånger.


Total tillgång positiva samples i form av vektorer för ord är cirka 20 - 30 000 st, med ej färre än 2000 för någon kategori tror jag. Träningen samlad antas ge funktionella resultat ej bara för kategorisering ord utan också varje form av kombination av ord oavsett samples eller ej. Oavsett detta tror jag nog metoden i olika varianter är funktionell rent allmänt.

Tänkbar modifikation av algoritm kvantifiering vektorer att använda mot slutet av träningen

2017-04-26

För kohonen-nät är mitt intryck att vi utifrån grannskap i någon mening begränsar - sätter kanske inte alltid förstådd eller eftersträvade - constraints vilka inte självklart behöver ha något just med den topologiska egenskapen i mening av kulturen att visualisera resultatet (vilken jag själv av vad jag sett folk gjort tycker verkar tycker verkar oftare än annars obegriplig i vilket värde det skulle ge: jag använder inte algoritmen själv för visualisering eller gör näten 2D utan istället en eller 1D-lager).


Säg att vi antingen gjort ett kohonen eller vektor-kvantifiering med antingen bara positiv-tilldelning eller eventuellt (kanske intressantare för diskussionen) också negativ-förändring (d.v.s. om vektor X för ett ord hör till hög-intensitet tilldelar vi tillstånd hög och ev. om ej viktande förändringen ex. med sannolikhet, intensitet och liknande med krav på hur det ska påverka effekten på likhet när klar bedömt viktigare än ex. än mängden icke-ämnes-korrekta ord som kommer ligga på hög likhet - om likhet med tillståndet är lägre än något värde för lugnare mer tillförlitlig konvergens inkluderande mer lättförstådd och predikterad effekt rörande mängden okända riktiga ord resp. okända defekta ord som kommer gå över threshold med samband till den utnyttjad här - resp. när effekten är negativ om låg-intensitet och/eller icke-hög-intensitet visar högre likhet än något gränsvärde eller för låg-intensitet om låg-intensitet visar högre likhet än tillståndet för hög-intensitet). Och att detta är klart.


Säg att vi tränade det klart utnyttjande för att bestämma effekten förutom träningskonstanten (epok-beroende) med skillnaden L1 mellan varje position i vektorn d.v.s. v(i) = v(i) + alpha * ( u(i) - v(i) ) (med v som vektorn för tillstånd och u för ord).


Varje position för en vektor oberoende av övriga och tillståndet värderas i vilken effekt det p.s.s. Något man kan göra sent i träningen (upplever jag som ibland meningsfullt men kräver att man tittar till det ofta) är att låta likheten och samma likhet som fick bestämma (som i kohonen-nätet) vilket tillstånd vi gör förändringen på. Gör man samma sak tidigt i träningen blir resultatet sällan bra ämnes-sorterat och konvergensen kan gå till vilket underligt gravt övertränat resultat som helst. Men sent med lågt alpha kan det ibland kanske ge något.


Det tycks troligt att vi sent kan ha vissa positioner i vektorerna eller samband mellan positioner som är mer värdefulla medan diverse andra samlat på sig junk eller bara är mindre meningsfulla. Vektorkvantifieringen i sig söker nu bestämma detta. Men kanske kan vi nå bättre finstämda konvergenser om vi mot slute söker värdera detta. Jag kan tänka mig väldigt bra sätt att göra detta på men varande mer komplexa över statistiska samband är min tumregel från erfarenhet att om de gör en enkel algoritm komplicerad kommer de ej otroligt förstöra mer än de ger och om inte ej vara värt tiden.


Men man kan ju också pröva något enkelt i sig lika lite tagande hänsyn till något annat än värdet för tillståndet och ordet för resp. position. Jag prövade lite med en variant av u(i) * log ( 1 + e(z(u(i)) ) p.s.s. sätt att mindre förändringar värderas ner absolut mindre än stora förändringar. Vilket jag ej märkte just något värde stort nog för att förändra sorteringen av orden i träningen utifrån similarity per epok.


Medan jag ännu är osäker på om denna variant kanske adderar en del värde. Startande från ett övertränat färdigt tillstånd på ett lågt alpha tycks det kanske ge något efter några varv. Men varande övertränat behöver det stå ett tag. Kan det få ut mer exakthet på något gravt övertränat bör det kanske visa det värt att pröva i övrigt.


1. Vi kan här anta att trots att resp. vektor position är [-1,1] att inga positioner varken i tillstånd eller vektorer ord är annat än ]0,1[.

2. Trots vanligt att göra så normaliserar vi ej vektorerna till att summera ett. Vi ser dem ej trots att varje position kan ses som kontext ej som sannolikheter konkurrerande med varandra (d.v.s. antar vi att en position uttrycker något runt namn och var de hör till olika kulturer, och ett annat arbete och roller, menar vi att de kan vara samtidigt verkliga såväl relevanta samtidigt).

3. Istället ev. men ej säkert teoretiskt skakigt ser vi resp. position som en sannolikhet approximerad av värdet (vilket är per vektor L2-normaliserade cosinus-similarity värden) för att igenkänna eller bedöma pureness av något för den, eller just här (för vektor-typen 300-WW) sannolikhet att vi ser dem i detta kontext (tror jag är vad jag minns rätt från när jag gjorde dem).

4. I någon mening har vi nu (tror jag) för varje position 1 st. fördelning som kan ha ett värde (här i träning medan världen är större för alla vektorer). Vi kan visst se alla värden för allt träningsdata per position representera fördelningen för målsättningen men det är den approximation vi nått när vi börjar här som vi kan laborera med utan att just behöva göra en massa komplicerat sparande serier av värden.


5. Beta (Mathematics Handbook) gav (ev. med någon notation rörande tvåan jag ej minns längre) summeringen av f(x) * f(x) * log ( f(x) / g(x) ) för KL-divergensen. Jag definierade om den till f(x) * g(x) * log ( f(x) / g(x) ) + g(x) * f(x) * log ( g(x) / f(x) ) (men kontrollerade inte att det blev som jag förväntade men antagligen ok).


6. Värderar vi träningens effekt utifrån denna divergens positivt är det något mer lämpat tidigare innan i princip klar med träningen. En uppsjö alternativ till att påverka effekten finns här utan tvivel i huvudsak bättre och de flesta antagligen om ej mängden data är gigantiskt eller konfigurationen komplex med flera parallella gradienter ej särskilt värdefulla jämfört med att låta det gå långsamt nedåt av och till kontrollerande det hela och vid behov gående upp igen ev. till ett tidigare mer sällan sparat tillstånd.


7. Värderar vi upp det hela får vi ej någon lokal effekt per position. Emellertid kan resp. värde del av summan utnyttjas per position. Jag prövade några stycken mer eller mindre uppenbara varianter av detta och körde ett tag på resp. tills jag nådde denna variant.


8.1. Vi inför först en särskild "distans" besläktad med en variant jag ofta har använt (men ej fungerade bra här - tränande vad som är tänkt att gå kontinuerligt fortsatt för att uttrycka intensitet i världen resp. ge skattningar som kan användas för dekomposition av ex. enskilda ords vektorer eller kontext - i just aktuellt här positivt, negativt, tillförlitligt, ej tillförlitligt, upp i intensitet, ner i intensitet, och fara men där problemen distansen mer lågt i ett antal breda ämnen associerade förändring rörande större världsproblem så som ex. religion, krig, hälsa m.m. där distansen gav en ej lämplig preferens mot sortering ordtyp ej önskad: L1-distans / ( 1 + cos-similarity) ): KL-divergensen-omdefinierad-Hans-för-alla-positioner-tillsammans / ( 1 + cos-similarity ).


8.2. Testkörning nu använder dock ej distans som beror av cos-sim då jag vill se effekten också utan detta, och ej är säker på att KL-divergensen kan skala cos--sim över många epoker utan att olämpliga konvergenser uppstår.


8.3. Distansen används ej för annat än att skala förändringen ett ord tillåts att göra på tillståndet.


8.4. Vidare för varje position skalar vi förändringen enligt: ( C - divergens(i) / max_divergens ) eller i besläktad variant ( C - max_divergens * 0.5 - divergens(i) * 0.5 ). Där max_divergens är det största värdet en position i ord-vektorn har för divergensen. Jag prövade också varianter utnyttjande medelvärdet: Dock utnyttjar vi ju redan summan i distans-måttet.


8.5. Sätter vi C till ett värde mindre än 1 kommer vi som vi använder måttet subtrahera för positioner som är kraftigt divergerade. Medelvärde divergenserna för ett ord ligger ofta runt 0.02 - 0.03 (och ej normalt ovanför 0.05) medan max-värdet ofta tycks (tidiga epoker) ligga 0.4 - 0.8. För åtminstone C mindre än 0.95 tycks det hela falla i bitar till något ej önskat. Varianter med lägre värden och ej utnyttjande negativa värden kändes ej heller bra. Jag tog därför C till 1.


8.6. Och tillsammans får vi effekt-påverkan KL-divergensen har som: ( C - max_divergens * 0.5 - divergens(i) * 0.5 ) / distans. Vilket vi multiplicerar med träningskonstanten alpha.


9. Allt för resp. förändring per position i: v(i) = v(i) - alpha * ( u(i) - v(i) ) * ( C - max_divergens * 0.5 - divergens(i) * 0.5 ) / distans


Att få båda världar samtidigt: Både träna tillståndet till att motsvara indata d.v.s. med nödvändighet förändra sig utifrån indata om ej perfekt från start, samtidigt som vi kan värdera upp indata och positioner vektorer som är bättre är svårt om vi ej vill utnyttja något annan vetskap än själv det tillstånd vi bygger upp. Jag upplever det ej som rimligt att kunna förvänta sig att det ska gå bra. Återvänder vi till mitt ex. att ibland pröva att värdera upp med cos-similarity är förutom riskerna med det kanske så normalt (ev. alltid för mig) att vad man sent under träningen ev. uppnår i huvudsak är att snabba upp konvergensen.


Samtidigt om vi ej låter algoritmen fritt välja tillstånd att förändra. Och ej utnyttjar ex. grannskap, eller håller flera "kurvor" av gradient-förändrade tillstånd som uttrycker något ex. kontextuellt eller tidsmässigt annorlunda men besläktat. Gäller att effekten alltid är till sin natur linjär. Emedan om vi behåller detta och adderar på en icke-linjär komponent oavsett ev. övriga som används kan det innebära att vi ökat möjligheten till anpassningsbarheten mot indata.


Samtidigt gäller vad jag först skrev avseende grannskap i Kohonen-nät att sådant också är constraints. Vi begränsar mängden lösning vi när vägen väljs fortsatt kan ta och därmed också storleken på den mängd som motsvarar hela världen som antas existera. Desto hårdare constraints ju mer tenderar vi att lätt hamna där vi också antar att världen utanför vårt träningsdata är mindre än den egentligen är och har det betydelse i användningen av resultatet är det upp till svårt problematiskt.


Storleken på sådan potentiell övertränings-effekt är dock ordentligt varierad mellan metod. Tänker vi oss att vi alltid gör addition på tillstånd A för data medan vi subtraherar på tillstånd B om likhet B är större än A, och omvänt för data avsett tillstånd B. Och slumpar orden. Här är komplexiteten påverkar överträning potentiellt gigantisk: Potentiellt därför att det ej är säkert om resp. tillstånd A och B är konstant i antal bitar kan konvergera för att uttrycka detta (annat än ökande distansen mellan tillstånden accepterande förstörelse meningsfull information: Ex. att tillstånden vandrar "oändligt" långt ifrån varandra vilket dock i sådan extrem kräver en hel del klumpighet eller inkompetens för att klara om något villkor alls finns för när subtraktion görs alt. någon form av genomtänkt normalisering effekt mot totala mängden i resp. grupp A och B: För några exempel sådant jag märkt när jag hamnat i sådant som brukar lösa det). För att få hela möjligheten kan man behöva tillåta algoritmen att skapa fler tillstånd beskrivande resp. A och B när det behövs. Och på samma nivå potentiell komplexitet och storlek inducerad överträning möjlighet ligger många neuronnäts-algoritmer. Sätter vi dock threshold i absolutnivå likhet åtminstone för när vi subtraherar från tillstånd B har vi tagit ner denna potentiella komplexitet enormt. Och har vi det både på addition och subtraktion är den gigantiskt mindre. För grannskap kohonen-nät om denna funktion endast adderar är komplexiteten ej speciellt hög alls. Låter vi den också subtrahera (vilket jag sällan tror är annat än problem utan värde och jag prövade runt en hel del) när en viss distans nåtts.


Beräknar vi som alternativ medelvärde av vektorerna för träningsdata till tillstånd A tenderar sambandet normalt vara att med fler ord växer vi först i exakthet. När de ännu ej är över säg några hundra och väljs förhand. Därefter brukar jag se försämring orsakad av att man börjar få med ord som ej hör hemma i gruppen. Samtidigt som en del fel försvinner gäller därefter att vi når bättre resultat med mer data där vi når mest längst för grupper som i all verklighet inkluderar många ord och där definitionen av vad som hör till gruppen ej inkluderar något som till sin natur utnyttjar en icke-linjär form som ej finns i vektorerna (d.v.s. för distribuerade ordvektorer skapade normalt sätt ej grupper som är grammatiska till sin definition där effekten träningen av dessa skulle ha att göra med exakt vad vi har för ord snarare än ämnet som sådant resp. omvänt att vi här kan få effekten att ej ämnen utan ämnen + ordtyp visar sig irrationellt om ej hanterat ex. för post LSA eftertränande mer styrt utan tematiska - vad som har med ämnet att göra). Ökar vi mängden ord kommer vi dock ej öka exaktheten annat än att öka mängden riktiga inkluderingar relativt mängden defekta. Hur varierade gruppen är naturligt, resp. mängden icke-relevant data vektorerna innehåller, o.s.v. kan vi ej påverka. Så någon risk för överträning finns aldrig annat än i mening av att välja ett st. antaget perfekt ord istället för att titta på detta ords grannskap och där välja ut fler ord som hör till gruppen samtidigt som defekta ord som ej hör hemma där ej väljs till medelvärdet. Men de defekta orden vi kan se i generering per ord vi använder (eller för medelvärdet samlat) av närmaste grannar med högst similarity kvarstår även om de med lite tur fler ord kan späs ut. Överträningen i den mer kraftfulla algoritmen än medelvärde kan vi därför jämföra med att för jämförbart generering närmaste-grannar exkludera ej önskade ord, och inkludera önskade ord, på sådant sätt att generering för det färdiga tillståndet ej kommer inkludera på hög position en mängd av ord som borde varit där eller alternativt inkluderar en mängd ord som ej hör dit alls (för vektorer skapade med LSA från stora corpus kan vi ibland p.g.a. PMI se när träning färdiga vektorer görs för vanliga ord att vi i generering klar kan se väldigt udda ord eller tecken komma högt ex. som jag kan se för mina 400-vektorer tränande bara med vanliga engelska ord html-taggar m.m. som kan nå höga positioner eller ord från små-språkområden). Ett stort stycke av den potentiella informationen vi kan nå är ej beskriven, och det mer avvikande från det vanligare kommer mer sannolikt uppvisa något högre här.


Komplexitet träning kan ha samband till den komplexitet som påverkar risk överträning. Detta gäller ur-typiskt när många icke-linjära operationer sker pågående från start av träningen och över alla operationer som sker per träningsdata. Medan den är gigantiskt lägre än ex. flera tillstånd tränas uteslutande linjärt och därefter kombineras icke-linjärt under förutsättning att vi i och med den linjära träningen också når en "enklare" värld där det icke-övertränade / icke-perfekt-exakt-formade är meningsfullt och snarare ger ökad exakthet. Säg att vi från fyra tillstånd - motsvarande fyra dimensioner (i kontrast säg 300 dimensioner för vektorer träningsdata innan) - ska välja antingen 0 eller 1. Här är vi rent av ibland där bruteforce eller slumpade vikter, funktioner, kombinationer av dem o.s.v. kan användas.


Vad som gäller sådant jag gjort här har jag dålig känsla för. Men jag anar att den givet något vettigt tränat innan ej begränsar ner världen märkbart alls. Så länge ej varierat positioner utifrån divergerade mer än något börjar subtrahera på tillstånden medan andra kommer addera på samma positioner. Med subtraktion byggs icke-linjära samband som kan uttrycka mer flexibla former på "kurvan" mellan orden (i den mån det för vald effekt-funktion alls är meningsfullt möjligt) medan jag tror när vi endast väljer hur mycket vi adderar att sambandet endast skapas i relativ mening per position och ord. Jag tycker att en metodik som fungerar bra för mig för sådant här är att pröva en uppsjö enkla varianter eller som just här kombinationer av tre enkla metoder jag vet kan fungera bra. Emellertid föredrar eller har preferens mot vad jag kan visualisera formen eller förändringen av. Jag är dock lite osäker på om jag gör det bra för divergensen-komponenten per position bl.a. därför att jag ej är hemvan i formen på ordvektorerna rent allmänt på de olika positionerna och hur positionerna formar sig tillsammans. Sedan har jag ibland en preferens att önska två värden samtidigt men ej normalt förväntas kunna få samtidigt antagligen därför att det ibland visar sig möjligt vilket man minns medan man minns mer diffust och ofullständigt alla gånger det ej går även om jag egentligen aldrig trots att jag försöker riktigt tror att det kommer visa sig gå.


Oavsett hur addition och subtraktion används tidigare avser det ej i vilken riktning vi förändrar tillståndets vektor absolut utan tecknet vi sätter före L1-distansen (om vi förändrar tillståndet närmare som vid addition aktuellt stycke träningsdata). D.v.s. v(x) - alpha * ( u(x) - v(x) ) där vi ibland anropar funktionen med ( (-1) * alpha ) i vilket vi fall förändringen innebär att distansen ökar mellan tillståndet och vektorn för ordet vi just då tränar på. Vi noterar att riktning är relativt samma data vi förändrar från och bestämmer mängden förändring av men att det tänkbart kanske inte alltid behöver vara så.