SOM: En intressant egenskap

2016-09-30

Vi utgår från vektorer ord skapade bl.a. via latent semantic indexing (en del mer för att försöka få in mer information: men för själva representationens inverkan från hur information "sätter" sig var för sig och samverkande över vektorernas positioner troligen allt relevant). Dimensionsreducerar dem vidare från 400 föregående till 300 via SOM skapande höggradigt ämnes-indikerande dimensioner över vektorn.


Tar nu SUBTLEX-UK (text från filmskript) 2-gram och för en bunt identifierande manuellt intressantare ord-operatorer (som on, in, of, is m.m.) och några adjektiv, och skapar gemensamma vektorer dels positions oberoende relativt operator (inkl. JJ) samt för resp. vänster och höger för varje förekomst ord. Förekomsterna varierar för resp. OP (operator) varierar i antal ordentligt (de minst enstaka för något bedömt intressant rent av nedanför 50 utan att kastats).


Dessa går i SOM var för sig oberoende av övriga OP till cirka 8 - 10 dim prospekterande. Med tämligen hög påverkan grannskap. I antal epoker varierande men mer förutom en del ej ut filtrerade rätt troligt snarare vad vi utan grannskap skulle se risk för för-skarpa formation p.g.a. av för mycket för nära förstärkt över epoker bredare mening överträning (men det känns som ett dåligt ord för operator vilka likt is m.m. just i sig själva är övertränande naturligt i språket sägande föga än just is - inget topic m.m.).


Resultaten körs nu tillsammans mot 40 dimensioner SOM. Varje OP med resp. varje dimension egen-träning blir ett koncept d.v.s. varje OP blir nu åtta gånger tre stycken koncept motsvarande typiska grupper av ord det förekommer med. Påverkan låg i träning innan från resp. OP och resp. ord i direkt närhet (där förstärkande lämpligt för 300 dim för orden ofta välfungerande när vi önskar förstärka det tydligaste en kvadrat, vidare multiplikation mellan vad som kommer från OP resp. ord med för resp. ev. kvadrat - aktuell för en inkl. en del andra små-saker - principen är att ta ner information som rimligt faller utanför vad operatorn kan tänkas påverka på mätbart i mening av ren "flyttals" avrundning såväl som ganska basal mätosäkerhet - två förutom mer än så ganska grundläggande koncept i områden som är funktionella verktyg i en mängd områden såväl som rent mänskligt konstruerade så de är rimligen som ofta verifierat tämligen funktionella språk när motsvarande grova omfång är aktuella - mätosäkerhetens preferens enkla mått är för en del tycker jag bättre fungerande än motsvarande preferens information science. 0.1 * 0.1 = 0.01 medan 0.9 * 0.9 vilket ej är ganska vanligt för högsta dimensioner är 0.81. I kontrast ex. softmax är det svårare att där kvantifiera operationen i påverkan informationens olika relevanta mått d.v.s. jag vet ej bra vad jag kastar bort resp. får kvar vilket är svårt när sådant här i andra sammanhang vanligare tar väldigt lång tid innan jag vettigt kan testa det med överlägsna metoden "praktiskt" - om man sedan kan summera dimensionen till ett säger mig föga annat än att det är en normalisering jag ej heller kan kvantifiera mängden information som kastas när given total magnitud förstörs). Liggande ungefär 0.001 - 0.001 reduktion typisk motsvarande descent gående lägre på faktorn manuellt ganska stora steg när de verkar gått ett par hundra tusen (nu är vi ju i ganska få data punkter som körs in: Från totalt i början väldigt många ej totalt räknade men ej passerande 500 000, är vi snarare i 10 - 12 tusen för alla tre).


För att se om det filtrerar bort OP samlade lägre till väsentligt lägre (ex. avbrutna tidigt RESPEKTIVE sådana som gått lika länge som något annat men haft få förekomster SUBTLEX) sätter jag en similarity gräns SOM. Under körs de förvisso normalt (ändrar tillstånd - så att det alltid omstart typiskt lägre tränings-konstant tar in lite föga använt resp. kontrollerande implicit om de börjar ligga över ev. - Praktiskt typiskt två omstarter efter varandra och några varv för att ej särbehandla de aktuella som slumpas tidigt vs de senare om samband ligger mellan dem) sätter jag igen på grannskap efter att kört någon miljon kanske utan.


Stegvis här med en ej tillräckligt hög gräns similarity är förväntat att vi filtrerar bort växande med större grannskap och börjande utan grannskap växande med antal operationer i grannskap gjorda. Emellertid är det de låg-samplade som kommer ut dominerande. Efter att kört uppåt cirka 0 tar jag igen ner grannskap och låter dem gå bort (enklare än alternativ för att få ut dem bra men verifierbara oavsett det). På 40 st. trots ganska stort data från början ligger saker här så att rimlig gräns detta är mer närmare 0.8 än 0.6 (med 0.6 från kanske mer normala data-rymder som ganska högt).


Det intressanta är att just någon skillnad i steget när vi fortfarande har 400 dimensioner om vi clustrar från närmaste grannar eller betraktar bara distanser till någon normalitet användbar för att ta ut dessa låg-samplade ges inte för mig som jag ser.


Väldigt udda kvalitet verkligen detta. Ytterst oväntat även om det nu kom till mig att jag borde pröva det. Verkligen inte att något ej inkluderande att just operator-orden är vad vi kombinerar kan tänkas göra detta så här data quality tydligt. Dock att komma ihåg här att också ett mindre antal adjektiv jag generellt betraktar som att ha mycket också förutom en del annat oftare än mer typiska operatorer också inkluderade och presterade vad jag såg varken bättre eller sämre än sådana verkligt typiska som for, while, because, inside, m.m. Också definierade jag här mitt OP-konceptet något annorlunda så det även inkluderade he, she, it, them m.m. D.v.s. vad vi samlat kan se som att vi börjar på ofta använda stopp-ord och därefter fyller på med mer över några kategorier.


Resultatet tänkte jag ev. först försöka testa med this, that och those. D.v.s. peka-kvalitet med implicit avstånds preferens i vad man avser i discourse. This närmare än that. Those har lämnande grammatiken likaledes en tids-aspekt som gör den bra jämförande this och that: Kanske lättast att förstå abstrakt om vi tänker oss något mer nostalgiskt: Those XX. Samtidigt lär väl vilket jag ej betänkte tidigt lite mer merarbete där för tidig prospektering krävas givet att vi också har närmare tekniska discourse konstruktioner aktuella vilka nog förekommer nog i filmskript. Those NN went on to. Lite mer bibliskt som Google tycks bekräfta för mig: Nor did I go up to Jerusalem to consult with those who were apostles before I was.. Sådant är ju en ibland använd konstruktion i film oavsett om citerande eller skapande specifikt som lokalt kan ge mer text än annars normalt för filmen eller film allmänt (jfr Pulp Fiction citerande bibeln). Men kan notera särskilt bigram märkbart strö-betraktande processen av och till en del liknande (i kontrast mot tror jag säkert ett tänkt corpus dagligt tal tekniskt arbete mellan medarbetare en normal dag på något företag).


Överraskande.

Search-suggestions kan såväl störa Youtube-reklam och få Chrome att tro att nätet är borta


  • Krönikör Hans tar igen modigt ställning mot rovdriften på internet-användare: "Det kan verka att de aldrig tar slut men snart nog om det här fortsätter försvinner de bort.".



  • Dessutom demonstrerar Hans hur välbalanserad han är i sin kritik. Precis som han är mer allmänt människofientlig än rasist kritiserar han kvalitetsmedveten (snarare än skadeglatt road utanför vad normalt för hans människofientlighet - ett tänkbart funktionshinder fordrande respekt och tid i teve att berätta om). Som grädde på moset får läsaren nöjet av att se hur Hans jakt efter allt högre höjder krävt av honom att ta på sig på nya roller: Krönikor resp. Redaktör.



  • Tidigare styckning av Microsoft följs här av en nödslakt (kan det vara fågelinfluensa?) av Google. "Årets bästa läsning. / Hans"



  • Sådana här människo-distanserade IT-företag som Microsoft och Google ger jag inte mycket för. Rätt användar-centrerade ekonomiska modell har vi bland teve- och filmföretag. Det är så rätt och i tiden att dela sitt material så jag utan att behöver följa teve-tablåerna får det senaste visade tillgängligt via nätet.


    Sedan kan man tycka att det är lite bökigt att ibland flera sajter med sådant kan behöva användas för att hitta vad man söker. Tittar vi på en sådan (ej alltid vad som räcker till: faktiskt numera sällan så med mindre och mindre material - jag använder den idag uteslutande för musik) kan vi se hur IT-sidan i lösningen förstör själva innehållet via search suggestions:



    Ovan hänger förslagen kvar och jag får det hela ej dit att jag kan nöja mig vid förslaget önskat. Reklamen under förslagen är ej synlig.


    Emedan Youtube skilt ut sig genom åren av om inte vara riktigt i kvalitetsbotten av Google där Blogger dominerar fullständigt så åtminstone ej i toppen. Chrome i kontrast har jag alltid upplevt haft mycket god kvalitet jämfört med Mozilla och Opera (många år använde jag Opera därför att de några år bakåt var mycket bättre när man behövde ha ett mycket stort antal flikar öppna vilket var det normala åren jag skrev åt IDG - därefter har jag typiskt använt Chrome med kortare avbrott varje år för Mozilla).


    Search suggestions tycks dock vara vad som av och till ger problem för mig lite varstans sista månaden eller månaderna avseende Chrome utanför själva kvaliteten på vad som föreslås. Chrome har hängt sig två gånger på dem. Säg tre gånger också att Chrome felaktigt kommit där den föreslår att nätet är borta och där jag tolkar (sista gången adderande egentligen fyra eller fem gånger återskapade jag just detta igen via samma search suggestion inducerad). Och ibland skymmer det för mig utan att jag upplever att jag kan få bort dem: Jag är ej säker på att de ej går att få att gå bort här men jag gångerna det inträffat ej fått bort dem.


    Kanske inkapslingen av "exekveringen" som påverkar här med ev. begränsade möjligheter att ta gui samverkande. Jag är här ej 100% på om problematiken ligger just i förslag med Google's ursprung via ev. särskilt eller om det kanske handlar om själva leveransen som sådan rent allmänt oavsett om de levereras via sajten som sådan via generell funktionalitet. Det senare verkar väl kanske troligare egentligen. Även om jag gjorde "mining" på search suggestions från diverse bibliotek m.m. har jag ej gjort det igen på ett par år eller då gjort det just för Google om än ett mindre antal (cirka 20 - 25) kvalitetskällor i sig (ej mer än kanske 700 000 troligare än över 1 miljon flergrams koncept-termer där större delen knappast är aktuella för mer än ordentligt mindre inkl. ex. Wikipedia vid den tiden även om jag tänker mig att om man tar ner det från dem nu att det är väsentligt större).


    Men man måste verkligen säga att givet bilden är detta ett område som innehållsleverantörer hanterande reklam-modellen behöver vara observanta på. Det känns problematiskt med det där komma ner över reklamen. Verkligen tråkigt att en hederlig och kul företagare som Disney som suttit och delat ut en massa trevligt på Youtube ska drabbas så här. Och det säger jag som ägare till två Disney-signerade Musse & Mimmi glada vid piano, resp. Pluto glatt prospekterande ett ben tryck från film (inhandlande för 25 kr styck - om än ej köpta direkt från Disney-själv - föreställer jag mig att han ivrigt satt timmar i sträck och delade sin signatur för att de om än många år senare ska kunna gå att finna för dessa priser: Dock ska sägas att numera när jag ej dagligen vid promenaden går över såväl Myrorna m.m. som antikvariaten hittar jag inte längre något värt att handla längre).

    Är det Microsoft eller tredje-parts-leverantörer som ej klarar trivial heuristik för säkerhetsinformation?

    Microsofts OS på min ett fåtal månader gamla bärbara dator berättade nyligen för mig i ett meddelande att den i en en körningar inte hittat några säkerhetsproblem.


    Förvisso kan man tänka sig att OS som sådant lär sig parsa och använda språk generellt när behov finns. Samtidigt känner jag inte att jag vill uppmuntra mer in i jätte-kerneln givet att man nu typiskt tycks det med något år eller ett par emellan sitter ett tag med Microsoft på någon nyköpt bärbar dator (efter att råkat destruera den förra) och jag gärna den tiden tills det (vid behov vägande över besväret) blir av att ersätta den till något effektivare utan just mer än nätet och titta på PDF, filmklipp o.s.v. Kerneln upplever jag är en av de hastighetsbestämmande stegen i sådant beteende jag upplever störande kring prestandan (och ev. mycket relaterad mer allmänt kring varför prestandan på bärbara ej följer hårdvaran över åren för Windows - Men respekt för prisreduktion hårdvara förtjänas verkligen och jag utgår verkligen från - och får erkänna viss tyngd till respekten snarare än att nitiskt kontrollera något rent praktiskt: Jag handlar billigast även om det fordrar besök Finland - att inga tungmetaller m.m. miljöfarligt blivit vanligare av det lika litet som tveksamma arbetsförhållanden).


    Konceptuellt i vad som borde vara mer av en upparbetande sekundär säkerhetslösning för att ge redundans hanterande defekter i primära säkerhetssystem (ex. uppdateringar kors-påverkande kan utlösa) har nu därför att det ger en tilltalande betalningsmodell (om än konkret sämre än att ex. med Windows 2000 Server som utgångspunkt kompletterande mot kernel direkt rörande nya defekter och i övrigt oftast ungefär jämförbar) allt vad klientsäkerhet på Microsoft Windows hamnat i fokus på mönsterigenkänning av virus m.m. (ej heller speciellt svår pattern matching utanför att identifiera snabbt för att rulla ut uppdateringar: Och som var mer kännbart för några år sedan på sämre hårdvara normalt dåligt kodat slöande ner datorerna).


    Så vi ser enkelt förtroende bristen meddelandet inducerar hos mig. För att identifiera singular och plural i princip utan defekter via bara sträng-igenkänning - inte ens transudcers krävs och än mindre parsning över några ord-steg eller någon ett eller fler-gram-modell - bara att kontrollera några små saker. Trivial mönsterigenkänning. Enklare än att kontrollera förekomst av tecken i ord blir det inte.


    Hur är det med Microsoft numera? Kommer det praktiskt för priset dator kostnadsfritt för datorer från de större leverantörerna om de kostar mindre än viss summa givet någon hårdvaruparameter (Om så förövrigt gäller det alla leverantörerna här? Får man ev. mer om det kostat pengar istället för att vara gratis? Jag kan tänka mig betala 1/10000 kr för att få just detta korrigerat för att få något kul att referera till när jag vill stärka upp min självbild). Om inte ska jag verkligen behöva bli kunskaps-förolämpad av det rent triviala? Viss höjd är mer tilltalande så man inte upplever att någon som sålt något till mig omedelbart och / eller bakåt i värdekedjan utgår från att jag är idiot och köper vad som helst inkl. saker som skapar enkla meddelanden men inte trots att det tar på sig att bara utgå från att jag vill ha svenska inte gör sig besvär att lära sig språket (fast det kanske är lika kompetens-utmanad på engelska?).


    Det är inte svårt. Det tar inte lång tid. Ändå kostnaden är för någon eller några att konceptuellt switcha fokus på vad de gör från den större kod-delen (om man nu ej för stort företag har separata utvecklingsfunktioner meddelanden och gränssnitt i OS: I så fall är det riktigt anmärkningsvärt). Resultatet av en miljö som kan ha idé och generell kunskap hur man gör det men där det ej riktigt är motiverat att vara noga med paketeringens detalj-kvalitet.