Natural language processing

Visar inlägg med etikett Natural language processing. Visa alla inlägg

Mängden träningsdata vid ej korta förhållanden språk

2017-02-16

Rörande resultaten i:

FRUSTRATINGLY SHORT ATTENTION SPANS IN NEURAL LANGUAGE MODELING

Vill jag gärna tänka (med begränsning: utan att typ av neuronnät hör till några nära vad jag själv använder eller för den delen gärna för förhållanden i text på större avstånd men ej heller i meningsfull "block" för bag-of-word vad jag själv gärna hade behandlat utan att parsa det per mening) att resultaten är mer eller mindre förväntade från:

"We evaluate models on two different corpora for language modeling. The first is a subset of the Wikipedia corpus. It consists of 7500 English Wikipedia articles (dump from 6 Feb 2015) belonging to one of the following categories: People, Cities, Countries, Universities, and Novels. We chose these categories as we expect articles in these categories to often contain references to previously mentioned entities."

FRUSTRATINGLY SHORT ATTENTION SPANS IN NEURAL LANGUAGE MODELING
Michał Daniluk, Tim Rocktaschel, Johannes Welbl & Sebastian Riedel ¨
Department of Computer Science
University College London

Att meningsfullt utnyttja utan att ta färdigt värde av någon annan datakälla som representerande kunskap om vad saker är eller sannolikheten samtidighet i mening relationer på större avstånd än vad ngram-statistik i fraser / named-entities (och kanske meningar eller grammatiska konstruktioner) / ord omedelbart vid varandra - kräver "ganska" ordentligt med träningsdata.

Som kommenterat är detta - lika lite som hela familjen - den typ av neuronnät jag själv använder. Faktiskt vad jag inte att jag använt dem mer än kanske fyra - fem gånger för tester jämförande med andra algoritmer totalt oräknat något för evigheter i några universitetskurser (jag minns något som tränades känna igen en trivial kurva kanske 1998 i mönsterigenkänning eller troligare neuronnät). Jag tror dock de huvudsakligen (eller kanske helt) fungerar genom att lagra korrelation mellan neuroner bakom dem. Så är något som kommer in i början av det hela i tänkbar korrelation ej tillräckligt uttryckt i träningsdata (eller algoritmen i sig ej klarar att utnyttja mängden data - Exempelvis därför att den ej som mer möjligt att konfigurera rakt på sak med LTSM - long term short term memory typen) så lär det ej bli tränat märkbart när korrelationen är starkare och mer omedelbar för annat data.

För mindre data är det ju heller inte för engelsk-text direkt självklart att man har tillräckligt exempel alls på text som egentligen kräver något annat än nära data d.v.s. innebärande att det omedelbara datat alltid - eller nära så - löser problemet bättre och mer effektivare. Att jämföra med en udda kategori jag fick en gång för data bestående av bl.a. Wikipedia-kategorier som specialiserade sig för en representation utnyttjande endast själva orden i resp. flergram (medan den utnyttjande färdiga relationer till koncepten dessutom slapp problemet) på något av de Wikipedia-kategori-typiska små-orden. Eventuellt var det from (jfr - Google för List of people from Utica, New York lite mer än 3 miljoner träffar - Men tänkbart handlade det mer än koncept via kategorier så som "people from xxx who died yyy in zzzz").

SOM: En intressant egenskap

2016-09-30

Vi utgår från vektorer ord skapade bl.a. via latent semantic indexing (en del mer för att försöka få in mer information: men för själva representationens inverkan från hur information "sätter" sig var för sig och samverkande över vektorernas positioner troligen allt relevant). Dimensionsreducerar dem vidare från 400 föregående till 300 via SOM skapande höggradigt ämnes-indikerande dimensioner över vektorn.

Tar nu SUBTLEX-UK (text från filmskript) 2-gram och för en bunt identifierande manuellt intressantare ord-operatorer (som on, in, of, is m.m.) och några adjektiv, och skapar gemensamma vektorer dels positions oberoende relativt operator (inkl. JJ) samt för resp. vänster och höger för varje förekomst ord. Förekomsterna varierar för resp. OP (operator) varierar i antal ordentligt (de minst enstaka för något bedömt intressant rent av nedanför 50 utan att kastats).

Dessa går i SOM var för sig oberoende av övriga OP till cirka 8 - 10 dim prospekterande. Med tämligen hög påverkan grannskap. I antal epoker varierande men mer förutom en del ej ut filtrerade rätt troligt snarare vad vi utan grannskap skulle se risk för för-skarpa formation p.g.a. av för mycket för nära förstärkt över epoker bredare mening överträning (men det känns som ett dåligt ord för operator vilka likt is m.m. just i sig själva är övertränande naturligt i språket sägande föga än just is - inget topic m.m.).

Resultaten körs nu tillsammans mot 40 dimensioner SOM. Varje OP med resp. varje dimension egen-träning blir ett koncept d.v.s. varje OP blir nu åtta gånger tre stycken koncept motsvarande typiska grupper av ord det förekommer med. Påverkan låg i träning innan från resp. OP och resp. ord i direkt närhet (där förstärkande lämpligt för 300 dim för orden ofta välfungerande när vi önskar förstärka det tydligaste en kvadrat, vidare multiplikation mellan vad som kommer från OP resp. ord med för resp. ev. kvadrat - aktuell för en inkl. en del andra små-saker - principen är att ta ner information som rimligt faller utanför vad operatorn kan tänkas påverka på mätbart i mening av ren "flyttals" avrundning såväl som ganska basal mätosäkerhet - två förutom mer än så ganska grundläggande koncept i områden som är funktionella verktyg i en mängd områden såväl som rent mänskligt konstruerade så de är rimligen som ofta verifierat tämligen funktionella språk när motsvarande grova omfång är aktuella - mätosäkerhetens preferens enkla mått är för en del tycker jag bättre fungerande än motsvarande preferens information science. 0.1 * 0.1 = 0.01 medan 0.9 * 0.9 vilket ej är ganska vanligt för högsta dimensioner är 0.81. I kontrast ex. softmax är det svårare att där kvantifiera operationen i påverkan informationens olika relevanta mått d.v.s. jag vet ej bra vad jag kastar bort resp. får kvar vilket är svårt när sådant här i andra sammanhang vanligare tar väldigt lång tid innan jag vettigt kan testa det med överlägsna metoden "praktiskt" - om man sedan kan summera dimensionen till ett säger mig föga annat än att det är en normalisering jag ej heller kan kvantifiera mängden information som kastas när given total magnitud förstörs). Liggande ungefär 0.001 - 0.001 reduktion typisk motsvarande descent gående lägre på faktorn manuellt ganska stora steg när de verkar gått ett par hundra tusen (nu är vi ju i ganska få data punkter som körs in: Från totalt i början väldigt många ej totalt räknade men ej passerande 500 000, är vi snarare i 10 - 12 tusen för alla tre).

För att se om det filtrerar bort OP samlade lägre till väsentligt lägre (ex. avbrutna tidigt RESPEKTIVE sådana som gått lika länge som något annat men haft få förekomster SUBTLEX) sätter jag en similarity gräns SOM. Under körs de förvisso normalt (ändrar tillstånd - så att det alltid omstart typiskt lägre tränings-konstant tar in lite föga använt resp. kontrollerande implicit om de börjar ligga över ev. - Praktiskt typiskt två omstarter efter varandra och några varv för att ej särbehandla de aktuella som slumpas tidigt vs de senare om samband ligger mellan dem) sätter jag igen på grannskap efter att kört någon miljon kanske utan.

Stegvis här med en ej tillräckligt hög gräns similarity är förväntat att vi filtrerar bort växande med större grannskap och börjande utan grannskap växande med antal operationer i grannskap gjorda. Emellertid är det de låg-samplade som kommer ut dominerande. Efter att kört uppåt cirka 0 tar jag igen ner grannskap och låter dem gå bort (enklare än alternativ för att få ut dem bra men verifierbara oavsett det). På 40 st. trots ganska stort data från början ligger saker här så att rimlig gräns detta är mer närmare 0.8 än 0.6 (med 0.6 från kanske mer normala data-rymder som ganska högt).

Det intressanta är att just någon skillnad i steget när vi fortfarande har 400 dimensioner om vi clustrar från närmaste grannar eller betraktar bara distanser till någon normalitet användbar för att ta ut dessa låg-samplade ges inte för mig som jag ser.

Väldigt udda kvalitet verkligen detta. Ytterst oväntat även om det nu kom till mig att jag borde pröva det. Verkligen inte att något ej inkluderande att just operator-orden är vad vi kombinerar kan tänkas göra detta så här data quality tydligt. Dock att komma ihåg här att också ett mindre antal adjektiv jag generellt betraktar som att ha mycket också förutom en del annat oftare än mer typiska operatorer också inkluderade och presterade vad jag såg varken bättre eller sämre än sådana verkligt typiska som for, while, because, inside, m.m. Också definierade jag här mitt OP-konceptet något annorlunda så det även inkluderade he, she, it, them m.m. D.v.s. vad vi samlat kan se som att vi börjar på ofta använda stopp-ord och därefter fyller på med mer över några kategorier.

Resultatet tänkte jag ev. först försöka testa med this, that och those. D.v.s. peka-kvalitet med implicit avstånds preferens i vad man avser i discourse. This närmare än that. Those har lämnande grammatiken likaledes en tids-aspekt som gör den bra jämförande this och that: Kanske lättast att förstå abstrakt om vi tänker oss något mer nostalgiskt: Those XX. Samtidigt lär väl vilket jag ej betänkte tidigt lite mer merarbete där för tidig prospektering krävas givet att vi också har närmare tekniska discourse konstruktioner aktuella vilka nog förekommer nog i filmskript. Those NN went on to. Lite mer bibliskt som Google tycks bekräfta för mig: Nor did I go up to Jerusalem to consult with those who were apostles before I was.. Sådant är ju en ibland använd konstruktion i film oavsett om citerande eller skapande specifikt som lokalt kan ge mer text än annars normalt för filmen eller film allmänt (jfr Pulp Fiction citerande bibeln). Men kan notera särskilt bigram märkbart strö-betraktande processen av och till en del liknande (i kontrast mot tror jag säkert ett tänkt corpus dagligt tal tekniskt arbete mellan medarbetare en normal dag på något företag).

Överraskande.

Värdet som gör pseudo-law's roll-utmaning till en bisak

2016-01-09

I kontrast och tydliggörande uppsidan:

"Spelar in försvarlig del. Och specifikt att som jag skrev där ej hanterar huvudtyperna av orden. Jag tror att om stannar ganska tidigt i de delsteg jag tidigare löst kommenterade i hur jag byggde ordvektorerna och ej går vidare och beräknar samförekomst mellan resp. ord i vektorn tillsammans med diverse vektorer kan man kanske just för grova ämnen hantera vad vi ser exempel på här lättare utan att ta sådan hänsyn (men såg en del värde med att göra så här och tyckte det var värt och pröva och är tämligen nöjd ännu med en del annat - resp. har sett en del andra problem än just detta mer påverkande om något - framför allt i värde skattning statistisk-samtidighet mellan grupper ord jag ej sett tillsammans i samplad text lite som en förenkling hur jag kan göra med fler-grams-koncepten när jag känner semantiska relationer och andra typer av similarity än använd här mellan dem men lite dummare)."

Från: Komplettering: Förutom "Psuedo human": "Pseudo law" (bl.a. roller som avspeglar stereotypiska bias)

Orkar det fylla upp meningsfullt längre och efter manuella kontroller i delstegen få ut mer till nästa omgång såväl som indikera var mer beräkning följande ganska meningsfulla relationer i sig (via vad den följer nu Bluelight) för enskilda similarity beräkningar mellan ord. Ovan i omgång ett men startande från den mer specifika IT General som i sin tur började från den vid den tidpunkten tydligt mindre än IT General innan start på denna IT Network. Vid rad 342 verkade det meningsfullt att titta efter tänkbart bättre att ta ut (några noterade utkommenterade med #) och vid cirka 750 verkade det bättre att köra den igen (oräknad ev. komplettering mer beräkning kanske 10 - 20 minuter beroende på befintligt storlek - här väldigt liten medan GEO och medicin tar längre tid). Prototypiskt höga värden är i sig inte en säker indikation för ta ut dem här men är eller har varit tämligen funktionellt indikerande möjliga koncept att beräkna fler similarity relationer för eftersom endast ett beräknat värde högt räcker (men vid någon punkt säkert passerad bättre att ta ut en grupp av dem eftersom de flesta ord nu har från ett par hundra upp till flera tusen beräknade relations-likheter).

Teknologi - större fokus lösningar man kan ta på eller upplever sig ta på med musen eller tror sig veta finns någonstans mellan datorn / "enheten" och annat i världen som bredband, wlan m.m. och mindre verksamhet även om jag tror requirements och några till troligen finns med för att förbererda en mer riktad consulting servives. Using som jag fick syn på gillade jag inte och började den manuella kontrollen där:

system 11980.2278018299 15872 0.754802658885455 11980.2278018299
technology 10214.0818119422 13747 0.743004423651869 10214.0818119422
program 10159.6191506019 13341 0.761533554501302 10159.6191506019
variable 10019.2955156796 13204 0.758807597370464 10019.2955156796
systems 9894.76716039777 13094 0.755671846677697 9894.76716039777
network 9857.93464059634 13329 0.739585463320305 9857.93464059634
security 9771.2564873644 13096 0.746125266292333 9771.2564873644
process 9700.61728057915 12948 0.749198121762369 9700.61728057915
electronic 9448.57019893992 12736 0.74187894149968 9448.57019893992
mobile 9176.72486047355 12725 0.721157159958628 9176.72486047355
software 8915.35264540748 11949 0.746117051251777 8915.35264540748
development 8840.70755893013 12239 0.722339043952131 8840.70755893013
device 8365.31618248268 11318 0.739116114373801 8365.31618248268
transmission 8287.80481403116 10988 0.754259629962792 8287.80481403116
radio 8199.43912126112 11170 0.734059008170199 8199.43912126112
technologies 8137.46927171571 10831 0.751312830921956 8137.46927171571
subclass 8019.45454149791 10908 0.735190185322507 8019.45454149791
simulation 7991.902033488 10559 0.756880578983616 7991.902033488
infrastructure 7818.72977101401 10625 0.735880449036613 7818.72977101401
networks 7742.90064374485 10440 0.741657149783989 7742.90064374485
index 7679.11810079913 10249 0.749255351819605 7679.11810079913
processes 7655.67443300599 10031 0.763201518592961 7655.67443300599
programming 7638.27424333053 10364 0.737000602405493 7638.27424333053
video 7493.69197042222 10093 0.742464279245241 7493.69197042222
programs 7424.83060877113 9729 0.763164827707999 7424.83060877113
standardized 7317.5354884491 9536 0.767359006758505 7317.5354884491
distributed 7071.91625712037 9415 0.751132900384532 7071.91625712037
display 7069.09269314246 9332 0.757511004408751 7069.09269314246
application 6881.52189163377 9470 0.726665458461855 6881.52189163377
wireless 6846.68712782663 9206 0.743720087750014 6846.68712782663
sampling 6811.8184474927 8725 0.78072417736306 6811.8184474927
satellite 6753.109282938 9084 0.743407010451123 6753.109282938
framework 6748.85273313123 9119 0.74008693202448 6748.85273313123
platform 6609.22498013255 8736 0.756550478495027 6609.22498013255
database 6608.73111684278 8847 0.747002499925712 6608.73111684278
data 6606.35402585275 8729 0.756828276532564 6606.35402585275
telecommunication 6580.336066013 9029 0.728800095914608 6580.336066013
wire 6576.22715627548 8657 0.759642734928437 6576.22715627548
site 6533.9418113675 8815 0.741229927551616 6533.9418113675
image 6514.22355344348 8706 0.748245296742877 6514.22355344348
graphical 6495.88094509442 8723 0.744684276635839 6495.88094509442
portable 6466.24187728428 8844 0.731144490873392 6466.24187728428
search 6455.89796229458 8589 0.751647218802489 6455.89796229458
installation 6425.01333037845 8571 0.749622369662636 6425.01333037845
internet 6398.54063173245 8812 0.726116730791245 6398.54063173245
telephone 6352.60468447343 8913 0.712734734037185 6352.60468447343
implementation 6287.61397216667 8442 0.744801465549238 6287.61397216667
applications 6268.51490900046 8288 0.756336258325345 6268.51490900046
printing 6188.91358510737 8192 0.755482615369552 6188.91358510737
switch 6171.1167437713 8220 0.750744129412567 6171.1167437713
simulate 6144.71409337845 7875 0.780281154714723 6144.71409337845
parameters 6123.84597428953 8154 0.751023543572423 6123.84597428953
scanning 5985.99703931983 7780 0.769408359809747 5985.99703931983
similarity 5964.21970210446 7919 0.753153138288226 5964.21970210446
interface 5916.44936264552 8059 0.734141874009867 5916.44936264552
format 5905.02349054745 8043 0.734181709629174 5905.02349054745
windows 5813.9014425228 7812 0.74422701517189 5813.9014425228
standardization 5802.6822063567 7696 0.753986773175247 5802.6822063567
sensor 5767.12016315506 7525 0.766394706067118 5767.12016315506
update 5758.57089775518 7635 0.754233254453854 5758.57089775518
attachment 5748.13854478503 7466 0.76990872552706 5748.13854478503
searching 5616.90802711935 7284 0.771129602844502 5616.90802711935
requirements 5587.29006428385 7397 0.755345418992003 5587.29006428385
computational 5578.31344983779 7815 0.713795706953012 5578.31344983779
synchronous 5367.61097765508 6999 0.766911126968864 5367.61097765508
specification 5347.92300779638 6972 0.767057230033904 5347.92300779638
algorithms 5345.40831002588 7129 0.749811798292311 5345.40831002588
scan 5302.83463248582 6963 0.761573263318372 5302.83463248582
voltage 5280.04653654098 6989 0.755479544504361 5280.04653654098
developers 5246.21788497546 7018 0.74753745867419 5246.21788497546
standardised 5233.23587850806 6811 0.768350591470865 5233.23587850806
repository 5217.50175240647 6934 0.752451940064389 5217.50175240647
connection 5174.72431754329 7495 0.690423524688897 5174.72431754329
computers 5158.4522166695 7146 0.721865689430381 5158.4522166695
signature 5094.54369117784 6595 0.772485775766163 5094.54369117784
domain 5073.45174573103 6777 0.748627968973148 5073.45174573103
user 5067.03643375374 6586 0.7693647788876 5067.03643375374
switching 5046.28195623123 6355 0.794064823954561 5046.28195623123
transistor 4993.10565795585 6653 0.750504382677868 4993.10565795585
portal 4968.78897942433 6638 0.748537056255549 4968.78897942433
protocol 4948.7163356539 6539 0.756800173673941 4948.7163356539
retrieval 4927.83489203456 6507 0.757312877214471 4927.83489203456
stack 4884.68211902996 6339 0.770576134884045 4884.68211902996
telecommunications 4880.80687740359 6618 0.737504816772981 4880.80687740359
interrupt 4782.622127754 6167 0.775518425126318 4782.622127754
monitor 4782.21191462198 6300 0.759081256289203 4782.21191462198
template 4780.61466458415 6086 0.785510132202456 4780.61466458415
routing 4758.18470475396 6074 0.783369230285473 4758.18470475396
synchronization 4732.74885938952 6080 0.778412641346961 4732.74885938952
server 4714.94572157086 6290 0.749593914399183 4714.94572157086
gateway 4709.48602690573 6347 0.742001894896129 4709.48602690573
programmes 4704.24855826943 6237 0.754248606424472 4704.24855826943
mail 4662.19835294941 6359 0.733165333063283 4662.19835294941
installing 4649.78829764833 6128 0.758777463715459 4649.78829764833
tape 4645.69830795844 6133 0.757491979122525 4645.69830795844
host 4642.06199279407 6118 0.758754820659377 4642.06199279407
graphics 4608.74852530619 6124 0.752571607659403 4608.74852530619
indexing 4592.5031253207 6107 0.752006406635124 4592.5031253207
website 4591.41703634867 6275 0.731699926111342 4591.41703634867
encoding 4559.43050492659 5951 0.766162074428935 4559.43050492659
file 4543.60074578771 6161 0.737477803244232 4543.60074578771
scheduling 4491.83305461765 5642 0.796141980612842 4491.83305461765
directories 4491.73178557629 6042 0.743418037996738 4491.73178557629
switches 4436.65361269711 5759 0.77038611090417 4436.65361269711
specifications 4431.72752128004 5692 0.77858881259312 4431.72752128004
amplifiers 4428.71903174489 5990 0.739352092111001 4428.71903174489
cryptography 4367.88541447872 6110 0.714874863253474 4367.88541447872
embedded 4354.74909374671 5681 0.766546223155555 4354.74909374671
devices 4342.79116326718 5768 0.752911089332036 4342.79116326718
fingerprint 4335.84280451253 5667 0.765103724106676 4335.84280451253
apache 4307.47600615664 6036 0.713630882398384 4307.47600615664
signalling 4272.46762807599 5582 0.76540086493658 4272.46762807599
recycling 4257.50884167106 5575 0.76367871599481 4257.50884167106
processor 4186.94427897326 5482 0.763762181498224 4186.94427897326
printer 4136.94282186558 5636 0.734021082658903 4136.94282186558
version 4127.55032688861 5630 0.733135049180926 4127.55032688861
programmable 4010.22128788383 5190 0.772682329072029 4010.22128788383
receiver 3941.00031957397 5293 0.744568358128466 3941.00031957397
scalable 3894.64540395485 5215 0.746815993088179 3894.64540395485
kernel 3868.51737253583 5097 0.758979276542246 3868.51737253583
interconnect 3840.21081499717 5018 0.765287129333832 3840.21081499717
partitioning 3822.80892098611 4923 0.776520195203354 3822.80892098611
streaming 3809.51473296846 4961 0.767892508157319 3809.51473296846
databases 3802.11155866847 4969 0.76516634306067 3802.11155866847
interfaces 3709.53926411086 4866 0.762338525300219 3709.53926411086
filtering 3708.21818172901 4870 0.761441105077825 3708.21818172901
install 3706.73327638822 4975 0.745072015354416 3706.73327638822
keyboard 3700.52499182468 5083 0.728019868547055 3700.52499182468
transmitting 3695.30277549617 4822 0.766342342491947 3695.30277549617
phone 3684.80592011702 5033 0.732129131753828 3684.80592011702
grid 3682.09132338427 4782 0.769989820866639 3682.09132338427
telecom 3672.99790528219 4857 0.756227693078482 3672.99790528219
computer 3668.23534491972 5574 0.658097478457072 3668.23534491972
stereo 3665.31391415656 4845 0.756514739763995 3665.31391415656
directory 3588.61927043509 4760 0.753911611435942 3588.61927043509
instructions 3536.75303073068 4630 0.763877544434273 3536.75303073068
mesh 3520.12375208118 4652 0.756690402425017 3520.12375208118
authentication 3500.06897792955 4646 0.753351049920265 3500.06897792955
websites 3436.90666674841 4499 0.763926798565994 3436.90666674841
query 3429.7908713273 4483 0.765065998511554 3429.7908713273
audio 3421.88546390907 4677 0.731641108383381 3421.88546390907
disc 3409.10361548923 4522 0.753892882682272 3409.10361548923
transmit 3360.28309167106 4395 0.764569531665771 3360.28309167106
upgrade 3359.56939474694 4369 0.768956144368721 3359.56939474694
programmed 3341.73620154393 4302 0.776786657727553 3341.73620154393
communicating 3305.11241592415 4588 0.720381956391488 3305.11241592415
programmer 3304.24363380432 4559 0.724773773591647 3304.24363380432
plug 3274.40732800493 4414 0.741823137291556 3274.40732800493
encoded 3273.8636097887 4328 0.756437987474285 3273.8636097887
repositories 3231.54980296055 4215 0.76667848231567 3231.54980296055
spreadsheet 3230.01869050181 4220 0.76540727263076 3230.01869050181
setup 3218.79290798803 4054 0.793979503697096 3218.79290798803
workstation 3216.66011254766 4197 0.766418897438088 3216.66011254766
simulations 3153.55395157796 4042 0.780196425427501 3153.55395157796
communication 3127.56469100148 4760 0.657051405672581 3127.56469100148
array 3119.24072552977 4003 0.779225762060897 3119.24072552977
indexed 3110.26264658958 4170 0.745866342107813 3110.26264658958
parsing 3106.49721155668 3962 0.784072996354538 3106.49721155668
protocols 3099.19098401679 3905 0.793646858903146 3099.19098401679
calculators 3081.44405995322 4302 0.716281743364301 3081.44405995322
sensors 3076.73932025965 3877 0.793587650312006 3076.73932025965
disk 3067.34604822315 4147 0.739654219489546 3067.34604822315
proxy 3023.67475432017 4001 0.755729756141007 3023.67475432017
page 3020.54392632252 4094 0.737797734812536 3020.54392632252
computation 3009.20045128521 4498 0.669008548529394 3009.20045128521
troubleshooting 2994.24103551535 3871 0.773505821626284 2994.24103551535
relay 2947.99369292808 3928 0.75050755929941 2947.99369292808
analog 2945.40664122554 4063 0.724933950584676 2945.40664122554
hosts 2903.66448648015 3841 0.755965760604047 2903.66448648015
interoperable 2878.83135711481 3867 0.744461173290616 2878.83135711481
frameworks 2878.13525996831 3776 0.762218024356015 2878.13525996831
authenticate 2877.09682730779 3916 0.734702969179721 2877.09682730779
antenna 2853.21413525929 3836 0.743799305333495 2853.21413525929
tablet 2822.56002905837 3692 0.764507050124153 2822.56002905837
supercomputer 2789.36855712992 3747 0.744427156960214 2789.36855712992
socket 2783.40763647686 3683 0.755744674579653 2783.40763647686
programmers 2776.3659630547 3718 0.746736407491849 2776.3659630547
interconnection 2768.78335809609 3553 0.779280427271627 2768.78335809609
desktop 2738.72008896922 3619 0.756761560919929 2738.72008896922
workstations 2735.13491887602 3662 0.746896482489357 2735.13491887602
wiring 2710.99634813783 3449 0.786023875946023 2710.99634813783
terminals 2704.15886027837 3597 0.751781723735995 2704.15886027837
installers 2652.31517072866 3495 0.75888846086657 2652.31517072866
transmitters 2645.63117433813 3609 0.733064886211729 2645.63117433813
infrastructures 2576.37604706533 3404 0.756867228867606 2576.37604706533
markup 2574.2897265423 3382 0.761173780763544 2574.2897265423
templates 2551.91152746046 3072 0.830700367011869 2551.91152746046
bridge 2514.30704623808 3703 0.678991910947361 2514.30704623808
router 2501.66035805554 3302 0.757619732905979 2501.66035805554
microprocessor 2496.90637405889 3374 0.74004338294573 2496.90637405889
metadata 2495.93907595801 3114 0.801521861258192 2495.93907595801
encryption 2493.75770953712 3234 0.771106280005295 2493.75770953712
updating 2489.85516856913 3075 0.80970899790866 2489.85516856913
dial 2487.07942961187 3298 0.754117474109119 2487.07942961187
videoconferencing 2478.07565254611 3250 0.762484816168034 2478.07565254611
header 2453.07905223871 3157 0.777028524624234 2453.07905223871
forwarding 2443.28684403054 3230 0.756435555427413 2443.28684403054
telephones 2422.67667399209 3276 0.73952279425888 2422.67667399209
repeater 2415.19709878994 3304 0.730991857987271 2415.19709878994
scanner 2407.07280834695 3038 0.79232153006812 2407.07280834695
multitasking 2386.46521626234 3200 0.745770380081981 2386.46521626234
transceiver 2355.80528569846 3208 0.734353268609245 2355.80528569846
processors 2323.61327268218 3041 0.764095124196706 2323.61327268218
packet 2280.96743633674 2968 0.768520025719927 2280.96743633674
icon 2263.48917429676 2960 0.764692288613772 2263.48917429676
ports 2244.02925008655 3008 0.746020362395795 2244.02925008655
smartphone 2241.65608027628 3051 0.734728312119398 2241.65608027628
emulation 2237.31976353854 2912 0.768310358358014 2237.31976353854
platforms 2226.44638931987 2915 0.763789498909045 2226.44638931987
download 2213.55058394755 3017 0.733692603230876 2213.55058394755
password 2210.60757203846 3011 0.734177207585007 2210.60757203846
printers 2180.04040457336 2937 0.742267757770977 2180.04040457336
checkpoint 2145.77603413867 2908 0.737887219442458 2145.77603413867
macintosh 2106.82476979691 2894 0.727997501657535 2106.82476979691
spreadsheets 2105.71426016831 2797 0.752847429448807 2105.71426016831
startup 2086.85597325648 2667 0.782473180823579 2086.85597325648
signatures 2081.82417117467 2681 0.776510321213975 2081.82417117467
debugging 2050.5163461104 2583 0.793850695358267 2050.5163461104
notebook 1982.14038101654 2566 0.772463125883298 1982.14038101654
microphones 1939.23305757571 2672 0.725760874841208 1939.23305757571
architectures 1936.3595878524 2498 0.775163966314013 1936.3595878524
televisions 1903.00775125901 2617 0.727171475452429 1903.00775125901
fortran 1892.59991374569 2480 0.763145126510359 1892.59991374569
widget 1887.61102294783 2411 0.782916226855176 1887.61102294783
videotape 1880.98792294632 2462 0.764008092179661 1880.98792294632
font 1875.76986606219 2462 0.761888653965147 1875.76986606219
peripherals 1851.74730062977 2481 0.746371342454564 1851.74730062977
decoder 1843.58180324653 2376 0.775918267359649 1843.58180324653
antennas 1833.50876754243 2378 0.771029759269315 1833.50876754243
runtime 1827.28104716018 2276 0.802847560263698 1827.28104716018
cache 1800.69158837699 2371 0.759465030947696 1800.69158837699
macro 1798.86113446781 2294 0.784159169340806 1798.86113446781
messaging 1773.84644380121 2274 0.780055604134219 1773.84644380121
searchers 1763.24030533546 2307 0.764300089005399 1763.24030533546
windscreen 1746.52121648055 2445 0.714323605922517 1746.52121648055
portals 1739.75136380643 2298 0.757071959880951 1739.75136380643
prolog 1733.57510591898 2203 0.786915617757142 1733.57510591898
formats 1727.10894272731 2238 0.771719813551076 1727.10894272731
servers 1722.69377911305 2200 0.783042626869567 1722.69377911305
snapshot 1721.58804891468 2188 0.786831832227916 1721.58804891468
wires 1721.03335930421 2127 0.809136511191449 1721.03335930421
console 1703.94191509324 2362 0.721397931876901 1703.94191509324
microprocessors 1693.12953152486 2238 0.756536877356955 1693.12953152486
xerox 1682.40849290282 2233 0.75342968782034 1682.40849290282
headphones 1665.98647557018 2232 0.746409711276963 1665.98647557018
perl 1662.31990039928 2116 0.785595416067713 1662.31990039928
joystick 1657.58245258878 2152 0.770252069046831 1657.58245258878
headings 1647.97992714043 2125 0.775519965713145 1647.97992714043
tagging 1625.40279112486 1990 0.816785322173298 1625.40279112486
wired 1620.07891081668 2052 0.789512139774209 1620.07891081668
monitors 1616.53605876559 2053 0.787401879574081 1616.53605876559
timer 1607.32418756551 2052 0.783296387702488 1607.32418756551
files 1582.6770440152 2003 0.790153292069497 1582.6770440152
phones 1562.09876216819 2079 0.751370255973156 1562.09876216819
interconnected 1534.35096114963 1994 0.769483932371931 1534.35096114963
connecting 1511.81860842709 2285 0.661627399749273 1511.81860842709
matlab 1493.36797012712 1893 0.788889577457537 1493.36797012712
hosting 1488.60752779569 1864 0.798609188731595 1488.60752779569
mailing 1450.47742545428 1958 0.740795416473073 1450.47742545428
midi 1444.68414874287 1825 0.791607752735819 1444.68414874287
keyword 1444.246188118 1811 0.797485471075649 1444.246188118
samba 1444.0518121816 1852 0.77972560053002 1444.0518121816
servo 1412.46335535151 1790 0.789085673380734 1412.46335535151
scanners 1411.06864175473 1819 0.775738670563347 1411.06864175473
domains 1407.34388311749 1793 0.784910141169823 1407.34388311749
asynchronous 1400.99371158784 1745 0.802861725838303 1400.99371158784
searcher 1374.84874784149 1812 0.758746549581399 1374.84874784149
upload 1366.06987123176 1728 0.790549693999862 1366.06987123176
risc 1359.95198619148 1780 0.764017969770497 1359.95198619148
modem 1359.33226123074 1787 0.760678377857159 1359.33226123074
screens 1347.746879308 1695 0.795130902246608 1347.746879308
threaded 1333.46463318563 1673 0.797049989949571 1333.46463318563
workspace 1327.46383882722 1688 0.786412226793379 1327.46383882722
workbook 1327.45469615968 1655 0.802087429703731 1327.45469615968
dialing 1327.22000961718 1698 0.781637225922957 1327.22000961718
searches 1326.32572394851 1601 0.828435805089635 1326.32572394851
pixel 1325.04862035657 1614 0.820971883740133 1325.04862035657
updates 1323.64244600335 1621 0.816559189391336 1323.64244600335
sockets 1301.99735261722 1695 0.768140031042609 1301.99735261722
interfacing 1284.13586404356 1650 0.7782641600264 1284.13586404356
diode 1283.52500758432 1656 0.775075487671689 1283.52500758432
telecoms 1274.3967185836 1571 0.811200966635011 1274.3967185836
handset 1263.36254172987 1575 0.802134947130074 1263.36254172987
notebooks 1259.64393889044 1635 0.770424427455928 1259.64393889044
screensaver 1254.14278798084 1642 0.763789761255078 1254.14278798084
firewall 1235.10998961727 1601 0.771461580023278 1235.10998961727
computerized 1234.72610459418 1880 0.656769204571372 1234.72610459418
reboot 1231.7271632475 1643 0.749681779213327 1231.7271632475
visualisation 1215.86168212907 1438 0.845522727488919 1215.86168212907
gateways 1204.65248809898 1548 0.778199281717684 1204.65248809898
diodes 1202.0093894144 1558 0.771507952127341 1202.0093894144
floppy 1192.42862472386 1580 0.754701661217633 1192.42862472386
spam 1182.46277316648 1486 0.795735378981483 1182.46277316648
webcam 1179.89544530414 1507 0.782943228469901 1179.89544530414
compile 1167.92028909863 1562 0.747708251663655 1167.92028909863
worksheet 1164.98629427857 1446 0.80566133767536 1164.98629427857
hotspot 1162.26220165275 1474 0.788508956345152 1162.26220165275
disks 1143.00189028121 1450 0.788277165711179 1143.00189028121
widgets 1137.18554549197 1400 0.81227538963712 1137.18554549197
routers 1127.8044583555 1439 0.783741805667479 1127.8044583555
headset 1098.76208802593 1390 0.790476322320816 1098.76208802593
sync 1088.47326672491 1349 0.806874178446929 1088.47326672491
hypermedia 1061.17833522633 1295 0.819442729904499 1061.17833522633
workgroup 1054.87236521958 1339 0.787806097998195 1054.87236521958
dram 1049.49796128514 1335 0.786140794970145 1049.49796128514
upgrades 1029.77809161228 1229 0.837899179505514 1029.77809161228
laptop 1026.56984332594 1458 0.704094542747561 1026.56984332594
emitter 1020.57125262856 1290 0.791140505913612 1020.57125262856
connect 986.697717314606 1508 0.654308831110481 986.697717314606
putty 969.858598743475 1279 0.758294447805688 969.858598743475
keypad 968.053299861746 1251 0.773823581024577 968.053299861746
tapes 963.325698274514 1232 0.781920209638404 963.325698274514
headphone 954.390737656563 1222 0.781007150291786 954.390737656563
raster 941.850786475433 1150 0.819000683891681 941.850786475433
tuner 932.676792785601 1210 0.770807266764959 932.676792785601
threading 920.58685411031 1167 0.788849060934285 920.58685411031
macros 915.761403180059 1137 0.805419000158363 915.761403180059
urls 886.788279023653 1055 0.84055761044896 886.788279023653
fonts 868.582898485727 1052 0.825649143047269 868.582898485727
notepad 839.634588813306 1073 0.782511266368412 839.634588813306
gigabit 836.89891463724 1059 0.790272818354334 836.89891463724
microchip 830.133518254102 1063 0.780934636175073 830.133518254102
querying 817.7619590422 962 0.850064406488773 817.7619590422
databank 805.815628827102 1024 0.786929325026467 805.815628827102
hubs 805.734644577241 1021 0.789162237587895 805.734644577241
connections 805.220192497711 1206 0.667678434906891 805.220192497711
discs 795.482810251489 995 0.79948021130803 795.482810251489
worksheets 790.900726504871 954 0.829036400948502 790.900726504871
tiff 789.606949000058 1087 0.726409336706585 789.606949000058
keywords 759.967266658384 902 0.842535772348541 759.967266658384
telnet 757.071951124968 932 0.812308960434515 757.071951124968
wideband 747.063146207159 933 0.80071076763897 747.063146207159
camcorder 734.276554934499 1098 0.668740031816483 734.276554934499
freeware 732.116925714026 884 0.828186567549803 732.116925714026
toolkits 728.514364151491 918 0.793588631973302 728.514364151491
attachments 715.517084374137 871 0.821489189866977 715.517084374137
grids 712.387898122083 864 0.824523030233893 712.387898122083
downloads 692.488255301797 832 0.832317614545429 692.488255301797
dhcp 664.201621477389 806 0.824071490666736 664.201621477389
passwords 658.099906204857 783 0.840485193109652 658.099906204857
dissimilar 654.278335747685 788 0.830302456532596 654.278335747685
#################################################################################################
# START MANUAL CHECK
#using 613.897827188049 717 0.856203385199511 613.897827188049

Och från enstaka till ett växande antal ord jag inte riktigt gillar att det bygger vidare på framåt eller (oftast båda) helt enkelt inte tycker passar in bra med för stor mening i annat (utkommenterade med #):

#################################################################################################
# START MANUAL CHECK
#using 613.897827188049 717 0.856203385199511 613.897827188049
tags 613.843611637798 733 0.83744012501746 613.843611637798
itunes 598.551635835238 744 0.80450488687532 598.551635835238
computing 592.017786662524 885 0.668946651596073 592.017786662524
handsets 580.55825627727 690 0.841388777213435 580.55825627727
computerised 574.00001813477 736 0.77989132898746 574.00001813477
taps 568.284105400327 694 0.81885317781027 568.284105400327
cdrom 558.520598155073 679 0.822563472982434 558.520598155073
logs 548.282859935934 676 0.811069319431855 548.282859935934
clipboard 543.763060725423 675 0.805574904778405 543.763060725423
applet 541.998239657913 624 0.868586922528706 541.998239657913
subroutine 537.899994121582 643 0.836547424761403 537.899994121582
laptops 536.996283640129 697 0.770439431334474 536.996283640129
ebooks 535.21991723745 653 0.819632338801607 535.21991723745
desktops 528.695171803532 620 0.852734148070212 528.695171803532
conferencing 526.485848824652 800 0.658107311030815 526.485848824652
utilizing 523.9590767611 603 0.868920525308624 523.9590767611
compilers 522.612072374994 692 0.755219757767332 522.612072374994
#uses 521.491639942809 602 0.866265182629251 521.491639942809
kernels 521.182223091508 658 0.792070247859435 521.182223091508
hyperlinks 513.419638732518 611 0.840294007745528 513.419638732518
firewalls 507.891449494857 590 0.860832965245521 507.891449494857
compiling 507.599300137637 674 0.753114688631509 507.599300137637
modems 505.460908215031 613 0.824569181427456 505.460908215031
updated 503.687561482447 640 0.787011814816323 503.687561482447
applets 497.080303273838 578 0.860000524695221 497.080303273838
headsets 490.23963643545 580 0.845240752474913 490.23963643545
tools 488.845291970143 562 0.869831480373919 488.845291970143
tracking 487.45834203268 560 0.870461325058358 487.45834203268
similarities 482.732301215885 581 0.83086454598259 482.732301215885
hyperlink 476.469704213547 570 0.835911761778153 476.469704213547
tool 474.374862759603 544 0.872012615366918 474.374862759603
hacks 473.414251978565 591 0.801039343449348 473.414251978565
supports 467.548024514704 549 0.851635745928423 467.548024514704
imap 459.510512627474 545 0.843138555279769 459.510512627474
standard 458.269792354393 524 0.874560672432047 458.269792354393
multicast 456.125452499931 539 0.846243882189111 456.125452499931
habit 440.793018436888 591 0.745842670789997 440.793018436888
macs 440.71163023762 568 0.775900757460598 440.71163023762
isps 437.454746517331 515 0.849426692266663 437.454746517331
shortcuts 432.868755321052 504 0.85886657801796 432.868755321052
atms 432.226101997913 538 0.803394241631809 432.226101997913
mobiles 426.983665293847 525 0.813302219607327 426.983665293847
remote 420.211397291406 513 0.819125530782468 420.211397291406
bookmarks 410.838497025338 614 0.669118073331169 410.838497025338
processing 408.131145295128 473 0.86285654396433 408.131145295128
hotspots 400.230241283424 492 0.813476100169561 400.230241283424
multiple 398.464840824357 484 0.823274464513134 398.464840824357
sophisticated 393.441999162499 457 0.860923411734133 393.441999162499
package 391.894226166328 452 0.867022624261787 391.894226166328
repeaters 389.875033567385 495 0.787626330439161 389.875033567385
faxing 389.201405105812 475 0.81937137917013 389.201405105812
utility 388.98584992145 451 0.862496341289247 388.98584992145
integrated 382.243938307864 447 0.855131853037728 382.243938307864
solutions 374.339876477531 433 0.864526273620163 374.339876477531
voicemail 372.62325974625 450 0.828051688325 372.62325974625
thumbnails 370.142849274553 446 0.829916702409312 370.142849274553
ipods 368.370435005063 439 0.839112608211988 368.370435005063
output 367.90778342754 433 0.849671555259908 367.90778342754
storage 367.574981826909 434 0.846946962734813 367.574981826909
blogs 364.873525424188 573 0.636777531281305 364.873525424188
access 363.500553988592 436 0.833716866946312 363.500553988592
specialized 360.556814545809 426 0.846377498933824 360.556814545809
toolkit 360.234448954218 413 0.872238375191811 360.234448954218
porting 359.870747034345 416 0.865073911140253 359.870747034345
multi 359.23349554436 437 0.822044612229657 359.23349554436
functionality 358.97869480079 409 0.87769852029533 358.97869480079
workbooks 355.245315662125 427 0.831956242768442 355.245315662125
utilities 351.709941158444 413 0.851597920480493 351.709941158444
default 350.561073934803 408 0.859218318467654 350.561073934803
subsystems 348.755069191507 406 0.859002633476619 348.755069191507
optional 347.873413917955 404 0.861072806727612 347.873413917955
simple 347.545326337751 408 0.851826780239586 347.545326337751
secure 343.982976906836 403 0.853555773962373 343.982976906836
visualization 342.797159993122 399 0.859140751862462 342.797159993122
text 341.37321091841 400 0.853433027296026 341.37321091841
mode 340.813415585243 399 0.854168961366524 340.813415585243
visual 339.181759363371 409 0.829295255167167 339.181759363371
backbone 335.739401685354 513 0.654462771316479 335.739401685354
vector 333.280873709911 394 0.845890542410942 333.280873709911
configuration 331.76124710093 423 0.784305548701961 331.76124710093
packages 331.690485404322 384 0.863777305740421 331.690485404322
validation 331.129696291581 387 0.855632290159124 331.129696291581
signal 331.122452393166 393 0.842550769448259 331.122452393166
object 330.522337856433 391 0.845325672267092 330.522337856433
techniques 330.258799331683 392 0.842496937070621 330.258799331683
memory 328.006655698833 390 0.841042706920084 328.006655698833
product 327.747370830448 386 0.849086452928621 327.747370830448
equipment 327.713241047847 398 0.823400103135294 327.713241047847
mapping 327.412794274847 386 0.848219674287168 327.412794274847
information 327.325565643339 405 0.808211273193428 327.325565643339
subsystem 324.4158129684 365 0.888810446488768 324.4158129684
specifying 319.980249324755 370 0.8648114846615 319.980249324755
syntax 319.680932925842 373 0.85705343947947 319.680932925842
manual 319.660487009246 372 0.859302384433456 319.660487009246
serial 319.172253562862 379 0.84214314924238 319.172253562862
settings 318.86310576508 361 0.883277301288309 318.86310576508
free 317.981576113453 383 0.830239102123898 317.981576113453
verification 317.542628351936 375 0.846780342271829 317.542628351936
module 316.830591922235 375 0.844881578459294 316.830591922235
generic 316.12456813241 366 0.863728328230629 316.12456813241
design 315.534043934358 370 0.852794713336103 315.534043934358
testing 313.699283546689 369 0.850133559747126 313.699283546689
service 312.673216208001 380 0.822824253178951 312.673216208001
entity 311.480577851154 384 0.811147338154048 311.480577851154
controller 309.229389294572 373 0.829033215266948 309.229389294572
code 305.785962803683 371 0.824220923999146 305.785962803683
navigation 304.673444853396 357 0.853427016396066 304.673444853396
dynamic 303.615454796755 354 0.857670776262018 303.615454796755
muds 303.468115551056 386 0.786186827852478 303.468115551056
oracle 302.383727072349 363 0.833013022237877 302.383727072349
input 301.579365268622 346 0.871616662626076 301.579365268622
screen 301.171093100834 356 0.845986216575375 301.171093100834
micro 301.094606597115 351 0.857819392014573 301.094606597115
users 300.772183943913 351 0.856900808957017 300.772183943913
smart 300.769134251783 362 0.830853962021501 300.769134251783
method 299.437202945381 363 0.824895875882592 299.437202945381
automatic 299.241990526753 347 0.862368848780267 299.241990526753
parallel 298.788937052871 362 0.825383804013455 298.788937052871
editing 297.613735020959 340 0.875334514767526 297.613735020959
adapter 297.450687309179 348 0.854743354336723 297.450687309179
filter 295.925007321142 352 0.84069604352597 295.925007321142
internal 295.847776781004 347 0.852587252971193 295.847776781004
flash 295.767337339719 344 0.859788771336392 295.767337339719
playback 295.07195866298 341 0.865313661768271 295.07195866298
operating 294.316571134493 366 0.804143636979488 294.316571134493
machine 294.242699871589 356 0.826524437841543 294.242699871589
exchange 291.773653986574 349 0.836027661852647 291.773653986574
advanced 291.422097940485 345 0.844701733160826 291.422097940485
utilize 291.177501792132 337 0.864028195228877 291.177501792132
accesses 290.87851271531 345 0.843126123812492 290.87851271531
automated 290.565540081526 343 0.847129854465091 290.565540081526
pdas 290.176117945664 346 0.838659300420994 290.176117945664
incorporating 289.471420687203 342 0.84640766282808 289.471420687203
power 289.289639556418 356 0.81261134706859 289.289639556418
resources 288.291449355023 347 0.830811093242141 288.291449355023
searched 288.119260325192 370 0.778700703581599 288.119260325192
table 287.403203312426 346 0.830645096278687 287.403203312426
model 287.092731640447 346 0.829747779307651 287.092731640447
management 286.590964110476 371 0.772482383047106 286.590964110476
sample 286.075723761322 331 0.864277111061397 286.075723761322
keystrokes 285.90410363799 332 0.861156938668646 285.90410363799
structure 284.861927129 341 0.835372220319649 284.861927129
pace 284.54193159738 368 0.773211770645055 284.54193159738
analysis 283.939657561486 348 0.815918556211168 283.939657561486
robust 283.29548767214 331 0.855877606260242 283.29548767214
implementations 283.087840925926 317 0.893021580207969 283.087840925926
automation 282.152770024016 332 0.849857741036191 282.152770024016
accelerator 282.067959948885 332 0.849602289002666 282.067959948885
documentation 282.063458786483 332 0.849588731284588 282.063458786483
webcams 281.623480347942 346 0.81394069464723 281.623480347942
imaging 281.334528796184 331 0.849953259202973 281.334528796184
terminal 281.04802608556 358 0.7850503521943 281.04802608556
structured 280.96787005536 332 0.846288765226987 280.96787005536
machines 280.492226453879 334 0.839797085191254 280.492226453879
services 280.246549623305 349 0.802998709522364 280.246549623305
automatically 279.861986548324 330 0.848066625904013 279.861986548324
scripts 279.533897139946 326 0.857465942147074 279.533897139946
methods 278.110486754656 343 0.810817745640396 278.110486754656
intelligent 277.425134039838 335 0.828134728477129 277.425134039838
accelerators 276.379952211773 324 0.853024543863496 276.379952211773
function 276.08935695917 330 0.836634415027788 276.08935695917
modeling 275.354750669782 336 0.819508186517209 275.354750669782
electrical 275.25703781043 340 0.809579522971853 275.25703781043
resource 274.820262454425 332 0.827771874862727 274.820262454425
folder 274.425064418774 317 0.865694209522948 274.425064418774
identification 273.886319183589 321 0.853228408671617 273.886319183589
document 273.725637483511 323 0.847447794066597 273.725637483511
option 272.909277699566 316 0.863636954745463 272.909277699566
adaptive 272.857936392489 322 0.847384895628846 272.857936392489
architecture 272.751128089787 345 0.790582979970396 272.751128089787
simulator 272.411527146264 316 0.862061794766659 272.411527146264
appliance 272.205478162716 319 0.853308708974031 272.205478162716
card 271.774945752019 349 0.77872477292842 271.774945752019
account 271.641156070324 334 0.813296874462047 271.641156070324
postscript 271.471702464294 321 0.845706238206525 271.471702464294
algorithm 271.456591914236 336 0.807906523554273 271.456591914236
models 271.271940335135 335 0.809766986075029 271.271940335135
generate 270.913933577846 317 0.854618086996361 270.913933577846
monitoring 270.79238743159 331 0.818103889521419 270.79238743159
electric 270.180813759994 346 0.78086940393062 270.180813759994
artificial 269.685477766467 337 0.800253643223939 269.685477766467
element 269.580396672938 325 0.829478143609041 269.580396672938
distribution 268.7070801058 322 0.834494037595652 268.7070801058
unit 268.473031184897 322 0.833767177592848 268.473031184897
measurement 268.241007212779 333 0.805528550188525 268.241007212779
selecting 268.205358827884 305 0.879361832222571 268.205358827884
adapters 267.899225103695 310 0.864191048721597 267.899225103695
global 267.896899849529 332 0.80691837304075 267.896899849529
advertising 267.755240146917 334 0.801662395649453 267.755240146917
technique 267.720006030522 321 0.834018710375459 267.720006030522
alarm 267.623101495019 317 0.8442369132335 267.623101495019
activate 265.997119075604 308 0.863627009985726 265.997119075604
industry 265.977267782962 332 0.801136348743863 265.977267782962
optimization 265.548392228751 306 0.867805203361932 265.548392228751
structures 265.533428563217 320 0.829791964260053 265.533428563217
hybrid 265.529051382272 311 0.853791162000875 265.529051382272
hierarchical 265.116560691396 315 0.841639875210782 265.116560691396
spatial 264.917328343701 319 0.830461844337622 264.917328343701
source 264.795253038415 306 0.865343964177828 264.795253038415
select 264.79387156579 308 0.85972036222659 264.79387156579
operator 264.301781333772 317 0.833759562567105 264.301781333772
enterprise 264.278004468699 341 0.775008810758649 264.278004468699
schema 264.224299334082 301 0.877821592472035 264.224299334082
print 264.191479777388 317 0.833411608130562 264.191479777388
apps 264.061816278702 311 0.849073364240199 264.061816278702
extensions 263.822369501974 309 0.853794076058167 263.822369501974
microphone 262.874305821173 315 0.834521605781501 262.874305821173
research 262.512808774108 348 0.754347151649735 262.512808774108
window 262.491040862019 319 0.822855927467145 262.491040862019
simultaneous 261.534997590601 304 0.860312492074344 261.534997590601
relational 261.23080949595 307 0.850914688911889 261.23080949595
#material 260.876392012174 325 0.802696590806689 260.876392012174
personal 260.715911084564 324 0.80467873791532 260.715911084564
converter 260.51395835534 333 0.782324199265284 260.51395835534
configurations 260.511850295125 308 0.845817695763392 260.511850295125
random 260.452987166955 308 0.845626581710894 260.452987166955
statistical 260.083245502673 315 0.825661096833882 260.083245502673
import 260.028482652577 304 0.855356850830846 260.028482652577
handles 259.397167748376 306 0.847703162576391 259.397167748376
instrument 259.250544949487 312 0.83093123381246 259.250544949487
transfer 259.051735596009 311 0.832963780051477 259.051735596009
energy 258.880119594143 317 0.816656528688149 258.880119594143
external 257.666854467037 306 0.842048544009924 257.666854467037
mechanical 257.167002711424 316 0.813819628833621 257.167002711424
retrieve 256.941618577673 305 0.842431536320238 256.941618577673
modify 256.249690308625 309 0.829287023652507 256.249690308625
integrating 255.642856079675 304 0.840930447630511 255.642856079675
vendor 255.485113319491 297 0.860219236765965 255.485113319491
media 255.194982274054 325 0.785215330074013 255.194982274054
#international 255.036346316226 347 0.734975061430047 255.036346316226
quad 254.578192650045 338 0.753189919082973 254.578192650045
refinements 254.526885468836 296 0.859888126583906 254.526885468836
environment 254.414982125483 319 0.79753912892001 254.414982125483
parameter 254.411185118068 306 0.831409101693034 254.411185118068
daemon 254.320838720335 297 0.856299120270488 254.320838720335
#space 254.239775514813 306 0.830848939590891 254.239775514813
support 253.855382955958 319 0.795784899548459 253.855382955958
#industrial 253.355967292093 335 0.756286469528637 253.355967292093
#universal 253.324689041376 307 0.825161853554972 253.324689041376
#facility 253.24613920092 301 0.841349299670832 253.24613920092
proxies 252.833537582517 295 0.85706283926277 252.833537582517
#generation 252.658788698709 299 0.845012671233142 252.658788698709
#supply 252.301567942145 307 0.821829211537932 252.301567942145
#heterogeneous 252.222045150555 297 0.849232475254394 252.222045150555
compatible 252.217100185863 378 0.667241005782705 252.217100185863
#engineering 252.156831079676 336 0.750466759165704 252.156831079676
#firstclass 252.034386287523 284 0.887445022139166 252.034386287523
paging 251.726266978239 286 0.880161772651186 251.726266978239
#quality 251.493031441567 302 0.832758382256845 251.493031441567
#market 251.260256577119 328 0.766037367613167 251.260256577119
wizard 251.186267380882 305 0.823561532396333 251.186267380882
content 250.91391364764 355 0.706799756753916 250.91391364764
dictionaries 250.297089406622 306 0.817964344466085 250.297089406622
products 250.273949901864 309 0.809948057934835 250.273949901864
semiconductor 250.235152336804 298 0.839715276297999 250.235152336804
#representation 250.108507583227 312 0.801629831997521 250.108507583227
decoders 249.652829579724 285 0.875974840630611 249.652829579724
debug 249.415640139121 283 0.881327350314915 249.415640139121
#attribute 249.129114737792 296 0.841652414654703 249.129114737792
engine 249.012677973287 298 0.835613013333177 249.012677973287
snapshots 248.399644444217 296 0.83918798798722 248.399644444217
enabled 247.971240770428 284 0.873138171726861 247.971240770428
project 247.696275333177 310 0.799020243010248 247.696275333177
procedure 247.641483936929 302 0.82000491369844 247.641483936929
transport 247.547211178495 313 0.790885658717237 247.547211178495
acrobat 247.425580949113 302 0.819290003142759 247.425580949113
instant 247.342977851797 293 0.84417398584231 247.342977851797
#reference 246.989964869978 289 0.854636556643521 246.989964869978
technical 246.92907988553 311 0.793984179696238 246.92907988553
#linear 246.718017281308 313 0.788236476937088 246.718017281308
#structural 246.347260288468 301 0.818429436174313 246.347260288468
#enhanced 246.256299556108 283 0.870163602671759 246.256299556108
#generating 246.196781299229 288 0.854849935066766 246.196781299229
#sound 246.183245950742 302 0.815176311095172 246.183245950742
camera 245.88773773302 332 0.740625716063313 245.88773773302
#production 245.595207923956 307 0.799984390631778 245.595207923956
#description 245.500756368924 288 0.85243318183654 245.500756368924
#magnetic 245.158536427993 308 0.795969274116862 245.158536427993
#annotation 245.083723952194 278 0.881596129324441 245.083723952194
#statistics 245.018853632985 299 0.819461048939749 245.018853632985
#functional 245.009158425709 298 0.822178383978888 245.009158425709
#materials 244.534372413141 300 0.815114574710469 244.534372413141
#natural 244.346423699909 320 0.763582574062215 244.346423699909
#definition 244.280196491741 298 0.819732202992419 244.280196491741
#methodology 244.272777977962 313 0.78042421079221 244.272777977962
#calibration 244.212680736609 316 0.772824939039902 244.212680736609
#routines 244.176883281632 277 0.881504993796506 244.176883281632
#manufacturing 244.1337369196 309 0.790076818510031 244.1337369196
#sequence 244.113352278224 289 0.844682879855447 244.113352278224
#physical 244.057284386627 312 0.782234885854572 244.057284386627
#number 243.821946606267 297 0.820949315172617 243.821946606267
converters 243.775866384671 302 0.807204855578382 243.775866384671
#flexible 243.761071351084 287 0.849341712024684 243.761071351084
script 243.100530998863 302 0.8049686456916 243.100530998863
instruction 243.069083087159 286 0.849891898906151 243.069083087159
#theory 242.930069105986 311 0.781125624135005 242.930069105986
#insert 242.587480147567 286 0.848207972543939 242.587480147567
#guide 242.543394620097 289 0.839250500415562 242.543394620097
#signals 242.508762473042 283 0.856921422166228 242.508762473042
#social 242.505531822064 332 0.730438348861637 242.505531822064
#solution 242.392411780238 281 0.862606447616504 242.392411780238
python 242.388900130536 279 0.86877741982271 242.388900130536
#delivery 242.128524366373 285 0.849573769706572 242.128524366373
#companies 241.804819175194 321 0.753286041044219 241.804819175194
#transportation 241.729542873756 314 0.769839308515147 241.729542873756
#nuclear 241.440422056415 304 0.79421191465926 241.440422056415
#scientific 241.087236567891 312 0.772715501820163 241.087236567891
#implements 240.942742555307 272 0.885818906453333 240.942742555307
#appropriate 240.863256562802 294 0.819262777424498 240.863256562802
projector 240.808110639844 278 0.86621622532318 240.808110639844
#thermal 240.783490889141 290 0.830287899617727 240.783490889141
#functions 240.747084912272 279 0.86289277746334 240.747084912272
#conversion 240.663747945959 330 0.729284084684724 240.663747945959
#test 240.184961950176 279 0.86087799982142 240.184961950176
#authoring 240.173138384342 274 0.876544300672781 240.173138384342
installer 240.055380423982 274 0.876114527094825 240.055380423982
address 240.050893888798 298 0.805539912378518 240.050893888798
#demonstration 239.903110233404 296 0.810483480518258 239.903110233404
#existing 239.835321016928 285 0.841527442164658 239.835321016928
#saab 239.825126365636 312 0.768670276812936 239.825126365636
tuning 239.364728830878 274 0.873593900842619 239.364728830878
#provider 238.922933736312 286 0.835394873203887 238.922933736312
#detection 238.622561554012 287 0.831437496703875 238.622561554012
#rendering 238.530582737165 273 0.873738398304633 238.530582737165
assembler 238.501758491328 284 0.83979492426524 238.501758491328
#personalized 238.419540787251 280 0.851498359954469 238.419540787251
#frequency 238.347477706555 291 0.819063497273386 238.347477706555
#alerts 238.050326535679 282 0.844150094098154 238.050326535679
#dimensional 237.927159407784 290 0.820438480716498 237.927159407784
#type 237.803909131437 276 0.86160836641825 237.803909131437
#custom 237.699765825355 343 0.693002232726984 237.699765825355
#matching 237.436441826725 284 0.836043809249033 237.436441826725
#group 237.200438313626 310 0.765162704237504 237.200438313626
#interaction 237.1191698216 292 0.812051951443836 237.1191698216
#field 237.013904095304 295 0.80343696303493 237.013904095304
#menu 236.995197626165 288 0.822899991757519 236.995197626165
#mathematical 236.967560706272 308 0.769375197098285 236.967560706272
#operation 236.833765650538 297 0.797420086365447 236.833765650538
#developing 236.781674259402 300 0.78927224753134 236.781674259402
analogue 236.675664560198 274 0.863779797664955 236.675664560198
#generator 236.413503530509 273 0.865983529415785 236.413503530509
#pattern 236.206575215434 300 0.787355250718113 236.206575215434
#motion 236.132406166368 299 0.78974048885073 236.132406166368
#synthesis 235.966857888456 290 0.813678820305022 235.966857888456
#national 235.819210961416 342 0.689529856612328 235.819210961416
#organization 235.807792274883 324 0.727801828008899 235.807792274883
#generators 235.414996903059 275 0.856054534192944 235.414996903059
#intelligence 235.28370392159 296 0.794877378113481 235.28370392159
#activity 235.26210920147 298 0.789470165105605 235.26210920147
#science 235.175456680003 328 0.716998343536594 235.175456680003
#integrate 235.127253709362 281 0.836751792560008 235.127253709362
#environments 234.761219279888 279 0.841438061935081 234.761219279888
#facilities 234.689529270655 303 0.774552901883349 234.689529270655
#reliable 234.267321376986 275 0.851881168643585 234.267321376986
#ubiquitous 233.833797822094 278 0.841128769144223 233.833797822094
#travel 233.437916061456 301 0.775541249373609 233.437916061456
#picture 233.431913455867 297 0.785966038571942 233.431913455867
#images 233.403800212516 287 0.813253659277058 233.403800212516
#modulation 233.345452416641 289 0.807423710784224 233.345452416641
#direct 233.260867315086 282 0.827166196152788 233.260867315086
#acquisition 233.236472077051 295 0.790632108735765 233.236472077051
#record 232.958400433872 296 0.787021623087406 232.958400433872
#spectrum 232.942893636735 271 0.859567873198284 232.942893636735
#string 232.842035774807 285 0.816989599209847 232.842035774807
#storing 232.531798101942 271 0.85805091550532 232.531798101942
#traffic 232.45744552109 297 0.782685001754512 232.45744552109
#implement 232.26663857363 286 0.81212111389381 232.26663857363
#educational 231.887315829162 301 0.770389753585254 231.887315829162
#marketing 231.799788063837 306 0.757515647267442 231.799788063837
#vacuum 231.303991525184 280 0.826085684018513 231.303991525184
#human 231.035540252374 310 0.74527593629798 231.035540252374
#efficient 230.839103603522 272 0.848673175012948 230.839103603522
graph 230.763792549445 274 0.842203622443229 230.763792549445
modelling 230.762469895969 282 0.818306630836768 230.762469895969
installed 230.616165292442 275 0.838604237427062 230.616165292442
#accounting 230.59829795686 306 0.753589209009346 230.59829795686
#dictation 230.497712797892 263 0.876417158927344 230.497712797892
#related 230.164652656792 284 0.810438917805607 230.164652656792
#controlled 230.122670040786 292 0.788091335756115 230.122670040786
#public 230.112232821398 304 0.756948134280915 230.112232821398
#produce 230.006798556592 283 0.812744871224707 230.006798556592
transaction 229.965833325102 274 0.839291362500372 229.965833325102
#handle 229.730833453586 267 0.860415106567738 229.730833453586
execute 229.500975313203 276 0.831525272873925 229.500975313203
#execution 229.368751778194 284 0.807636449923218 229.368751778194
#action 229.329599589873 298 0.769562414731119 229.329599589873
#assignment 229.293723759137 276 0.830774361446148 229.293723759137
#company 229.233318838423 326 0.703169689688415 229.233318838423
#vehicle 229.211171764336 278 0.824500617857324 229.211171764336
detector 229.209389683146 267 0.858462133644743 229.209389683146
entertainment 229.091409969549 296 0.77395746611334 229.091409969549
#inventory 228.755976336756 265 0.863230099383986 228.755976336756
# END MANUAL
###################################################################################################

Tills avslutat cirka rad 740. En annan kvalitetsnivå än förväntat med andra metoder även om viss manuell-kontroll krävs (vilket verkligen krävs på annat också även om det med flera alternativ är mer problematiskt utnyttjande många fler ord och reducernade ner deras vektorer för hört). Relevanta och tydligt ämnesföljande. Med redundans i ämnet mer än väl klarande att koncept med varierad sense kommer varierat. Efter nästa körning är förväntat att övrigt korrekt hörande hemma men som ej gick in i indatat nästa gång (d.v.s. nedanför här) går upp tydligt utnyttjande likhet med fler accepterande ord (resp. allmänt mer beräknande likheter med mer data att bygga ifrån).

Och längst ner - cirka rad 21400 - har vi istället föga teknologiska koncept vilket emellertid ej utnyttjas (ej riktigt lika leverande alls om man gör p.s.s. eftersom en del bara är låg-beräknade i antal relationer även om det så här långt ner nu är minst sagt otroligt):

cloaks 0.60206820312712 1 0.60206820312712 0.60206820312712
hospitalized 0.601540396276 1 0.601540396276 0.601540396276
luscious 0.601517170505555 1 0.601517170505555 0.601517170505555
cranberry 0.601428424245365 1 0.601428424245365 0.601428424245365
cleave 0.601409717214402 1 0.601409717214402 0.601409717214402
mashed 0.601312993748323 1 0.601312993748323 0.601312993748323
axel 0.601250358477143 1 0.601250358477143 0.601250358477143
magpies 0.601242597530544 1 0.601242597530544 0.601242597530544
curt 0.601236305360465 1 0.601236305360465 0.601236305360465
bunch 0.600965468844516 1 0.600965468844516 0.600965468844516
later 0.600837239607155 1 0.600837239607155 0.600837239607155
locations 0.600706869847264 1 0.600706869847264 0.600706869847264
repatriated 0.60070064722699 1 0.60070064722699 0.60070064722699
chiefs 0.600597906014978 1 0.600597906014978 0.600597906014978
kilometers 0.600524882712111 1 0.600524882712111 0.600524882712111
paddy 0.600387775685966 1 0.600387775685966 0.600387775685966
cauliflower 0.60033823468398 1 0.60033823468398 0.60033823468398
thursdays 0.60014034111015 1 0.60014034111015 0.60014034111015
obedient 0.600064548211727 1 0.600064548211727 0.600064548211727
pitchers 0.600002878828641 1 0.600002878828641 0.600002878828641

Cirka 10500 tycks det lite blandat med enstaka ord som argumenterat passar in.

phenomenal 35.4586336942259 47 0.754439014770764 35.4586336942259
sitting 35.4339167406301 54 0.656183643345001 35.4339167406301
seals 35.4309923468477 48 0.738145673892661 35.4309923468477
tweaks 35.42991211589 40 0.885747802897251 35.42991211589
humane 35.4139189439241 45 0.786975976531647 35.4139189439241
sweat 35.4137439900344 51 0.694387137059499 35.4137439900344
dads 35.4108490066968 52 0.680977865513399 35.4108490066968
saying 35.4099126166091 55 0.643816593029256 35.4099126166091
periods 35.4069495643926 45 0.786821101430947 35.4069495643926
depicting 35.3933960891825 50 0.707867921783649 35.3933960891825
spammers 35.3821002376393 42 0.842430958039031 35.3821002376393
superstore 35.3797521841017 50 0.707595043682034 35.3797521841017
plantation 35.3791728076498 54 0.65516986680833 35.3791728076498
hover 35.3708125662527 43 0.822577036424482 35.3708125662527
turmoil 35.358245245992 53 0.667136702754566 35.358245245992
views 35.3482710866523 47 0.752090874184091 35.3482710866523
appointment 35.347488818553 55 0.642681614882783 35.347488818553
declining 35.3410736184139 46 0.768284209095954 35.3410736184139
writ 35.3383134906554 53 0.666760631899158 35.3383134906554
trickery 35.3302319351404 46 0.76804852032914 35.3302319351404
venturing 35.3263108404961 47 0.751623634904172 35.3263108404961
geeks 35.3016430201754 45 0.784480956003898 35.3016430201754
trek 35.2905783606471 50 0.705811567212942 35.2905783606471

Och runt 12367 har vi firemen, gypsies och gangs, holes (och kanske enforced programming: Man låser dörren ut på arbetsplatsen och prövar att motivera fram en leverans via andra incitament än just positiva - Fungerar det är det bra ty ofta falerar it särskilt tidigt - även om jag lärde mig andra sense relaterade enforce av jag spontant associerade till - även om säkert kanske påverkat av en del idé-skisser jag gjort tidigare där jag bl.a. sett möjlighet att få in familjen som en del av utvecklingen - från den hårdare värld den här typen av utveckling typiskt innebär verkar funnit naturligt):

gangs 24.3488307145782 36 0.676356408738284 24.3488307145782
snail 24.3447461668951 34 0.716021946085151 24.3447461668951
stray 24.3418572581122 33 0.737632038124611 24.3418572581122
gearboxes 24.3406528380396 28 0.869309029929984 24.3406528380396
reclining 24.3358718067903 35 0.695310623051153 24.3358718067903
reels 24.3356680569444 28 0.86913100203373 24.3356680569444
gypsy 24.3339734887061 37 0.65767495915422 24.3339734887061
enforced 24.3290647373652 33 0.737244385980764 24.3290647373652
crockery 24.3172888476995 37 0.657224022910797 24.3172888476995
precedent 24.315761898283 32 0.759867559321343 24.315761898283
firemen 24.3155215036114 37 0.657176256854361 24.3155215036114
holes 24.3153714161125 30 0.810512380537082 24.3153714161125
parkway 24.3107422772879 35 0.694592636493939 24.3107422772879

Och lovande gott om enforced programming prövas har vi family lätt underligt närmare rad 2000 precis vid quality och speed såväl som agency indikerande värdet såväl som antar jag risken beroende på land man nu implementerar det i.

qualitative 193.829453531255 243 0.797652072145082 193.829453531255
speed 193.566182611194 233 0.830756148545899 193.566182611194
agency 193.506309109968 259 0.747128606602191 193.506309109968
juvenile 193.265871682333 271 0.713158198089789 193.265871682333
family 193.230398980743 285 0.678001399932433 193.230398980743

Och på 10219 tycks en pseudo-human dykt upp: Vampire.

rally 37.409110988708 55 0.680165654340146 37.409110988708
blinking 37.4021915419263 55 0.680039846216842 37.4021915419263
embassy 37.4011030475468 57 0.656159702588541 37.4011030475468
vampire 37.4003382009588 57 0.656146284227348 37.4003382009588
addict 37.3971242625302 57 0.656089899342635 37.3971242625302
fouling 37.3960605917187 49 0.763184910035075 37.3960605917187
sublime 37.3874535169648 55 0.679771882126633 37.3874535169648
inflatable 37.3714316803553 51 0.732773170203046 37.3714316803553
untested 37.3631052150083 44 0.849161482159279 37.3631052150083

POS för Bag of Words / Ordvektorer

2016-01-05

Kompletterande:

Valde jag förövrigt (ej slutfört görs delvis samtidigt med clustering rörande de lite mer i manuell-kontroll) att införa POS (ordtyper ibland använt kan egentligen för ordvektorer passa bättre än part of speech eftersom vi nu lämnat de enskilda meningarna långt nedanför kastande en del av den informationen på vägen).

Ett adjektiv (här och fortsatt är normala POS-namn ungefär som ofta använda) kan vara av typen ADJ om det existerar i ML-cluster inkluderande indikationer positiv-negativ emotionell vikt, intensitets-indikationer m.fl. (filtrerande bort allt förväntat att behöva parsning meningar för att förstås rätt: cool - weather: Fysisk kvalitet mätt eller skattat, cool - ointment: Manipulerad perception, cool - human: Någon obestämd diskriminerande kvalitet som skiljer ut personer värderat). Vi undviker noun-typerna i ML och därmed ej heller i ADJ.

Ett verb som kan förväntas dominerat oftast - gärna med en ungefärlig nivå - beskrivande en ML-valence accepterar vi i ML är därmed ett ADJ. Medan going, walking m.m. händelse-relaterat / beskrivande (verb eller annt) ej är ADJ då vi behöver annat kontext fö ratt förstå dem i ML-mening.

Övriga adjektiv varken behövs eller är att förvänta tillföra något (jag tror heller inte de tillför generellt för annan användning än de ganska många jag prövat och/eller förväntar mig använda ganska långsiktigt här) och kan kastas i något delsteg. Vissa kan förvissa vara ämnes-indikerande men vi ligger nu högt i antal features och det kan ha sina poänger att om vi ej tappar ämnes-indikationer att hålla dem noun-typerna eller verb- och/eller event-typer.

Verb i kontrast upplever jag svåra att filtrera ned utanför de absolut vanligaste som här säger ganska litet om något som ordvektorer för dom vanligaste tiotusentals orden normalt existerande i mer eller mindre allt som språk används för så ofta. I den mån de ej är ADJ behåller vi dem när de indikerar ämne och kallar dem VB. Vi kan samhantera dem delvis med adverb resp. också låta adverb för många gå in i ADJ. Jag gör ej det förstå och ser gärna att så få adverb som möjligt finns som ADJ. Som indikation ämne p.s.s. VB är de dock för en hel del områden svåra att få bort eller ens ha i litet antal (d.v.s. forskningsområden, medicin m.m.) men kan ses som en särskild event-typ vi kan föra in i VB.

I det rena har vi en förenklad ord-nivå från vad vi kan jämföra med att orden annars används - under i datat statistiken byggs från - för att beskriva händelser eller effekten av händelser på entiteter (likt personer, föremål, troligheten att händelse ska ske m.m.). Resp. upparbetade effekter av händelser: skapade entiteter, entiteter existerande här därför något inträffat med dem eller att de använts för att påverka något, samt de verb- / event-nära orden i VB indikerande omfånget på händelserna aktuella. Jfr intensiteten / vad vi tycker om en händelse, händelse, verktyget använt i händelsen / platsen där händelsen utspelades:

The bird walked [event] fast [ML: Intensity - up - fortare än fågeln / en fågel normalt förväntas gå från upparbetad erfarenhet av fåglar.] to the buss using a previous disliked [ML negativ] tool to make the drip easier [ML: Value - målet vi gärna tycker oss förstå när använt även när det kanske ej framgår hur det blev lättare eller att det ens är rimligt - lättare när vi gör något är värde och värde är bra: Vi kanskekan anta att fågeln sparar energi mer prioriterat än kostnaden för bussresan - Eller att den färdas för att köpa frön och innan den ätit ej kan få tag i dessa vars pris i all rimlighet är nära noll jämfört med en buss för varje fågel i Sverige som ej är rovfågel] (jag kan uppleva det allmänt utmanande att skapa sådana här exempel bättre i realism).

Och vi kan också kanske lättare - ev. görande det praktiskt möjligt - att resonera om formen på ordvektorn utanför var orden är belägna relativt varandra. Hur höga de är, hur ovanliga o.s.v. eller kanske deras färg o.s.v. beroende på hur vi vill likna det (jfr att jämföra vikt- och similarity-uttryck för dem som topologiska positioner). Ex. bland det enklare hur vikt-indikationer skiljer sig -- eller hur ovanliga / särskiljande de är - mot globalt förväntat över alla ordvektorn resp. i aktuell ordvektor jämfört med samma vikt för övriga ord eller topologiskt näraliggande som positionerat från annat.

Metoder för att kombinera vektor-representationer för ord till koncept (flergram) och koncept-relationer utnyttjande statistik för koncepten ej relaterad ordvektorerna

2016-01-01

Varning: Diskuterande sampling av Facebook spekulerde jag utan att tänka på det rörande vilka ord användarnas subkultur tänkbart hade kunnat etablerat för deras "tweets". Jag inser nu i efterhand att exemplen "likes" / "dislikes" antagligen såväl för inkorrekta som olämpliga för kvinnor, barn och andra känsliga läsare. Ej heller upplever jag att jag här levt upp till det föredöme jag normalt kanske förväntas vara och den tänkbara situationen med korrekt Sverige- och familje-byggande fäder som tillsammans med sina barn läser om natural language processing för att kanske bygga något fint som ett analys-verktyg att besegra en ev. rysk-invasion med i domän av intelligence här istället kan resultera i en obehaglig händelse. Utmaningen i hur man ska hantera de annars moraliskt trygga såväl kognitivt stimulerande lexikon-expanderande lite ovanligare orden just för exemplen ska hanteras kan jag ej ge råd i. Jag vill emellertid spekulera att barnets ålder kan spela in här och tänkbart kan kanske lärare, skolpsykolog eller kanske en imam / präst eller motsvarande ge råd om skadan redan realiserats och avvägning mellan värde kunskap kan realisera (ej nödvändigtvis i den sociala domänen för ungdomar eller några år senare för nu barn utan ett stort ordförråd är i sig ett värde) resp. om det kan komma med en nersida i form av socialt genererande kostnader för föräldrarna såväl i förklarande eller när barnet språkar med andra vuxna som är på besök.

Rörande ord-vektorerna i Reasoning With Neural Tensor Networks for Knowledge Base Completion (bl.a. Manning kanske mer känd i praktiska sammanhang för dennes referensbok parsning baserad på statistik: Se också Åsikter i recensioner: Varför först dyrt parsa meningarna för att kasta bort den bästa informationen? och Chunk parser: Fras-relationer för grammatisk- och semantisk information), för representation av ord som koncept föreslår jag här en jämfört nära nog lika enkel metod som den som m.fl. ger i men som är konkret bättre (åtminstone med rätt representation och storlek på denna för koncept-relationer att bygga kompletterande data ifrån).

Utökad möjlighet till att se denna väg är ganska självklar för mig. Grundmetoden för att kombinera ord-vektorerna till koncept likt exempelvis Indian people from Gotland, Sweden (troligen ej ett för mig befintligt existerande koncept om än vad som kan approximeras) eller vad nu aktuellt:

Dels vanlig ngram-statistik motsvarande normala - de valda för mig de enklare - för att representera sannolikheten för konceptet som sådan oberoende av konceptets förekomst i corpus i sin helhet. Vi återkommer till statistiken till metoden.
Att jag ej är begränsad till Wordnet utan håller cirka 30 000 000 fler-grams koncept motsvarande verkliga koncept från vetenskap, orter, strids-strategier, mer kända personer o.s.v. med relationer mellan dessa uttryckande ej huvudsakligen - eller ens 30% - baserat eller skapat direkt från statistik-analys.

Ordvektorerna är en till väg att förankra dessa koncept för i vissa fall snabbare (och ibland i övrigt effektivare ex. presterande bättre medan andra typer av jämförelser är konkret mer begränsade via ord-vektorer än ex. similarity via de kända relationerna andra koncept eller olika former av path-analys utifrån statistik samförekomst).

Från ordens förekomst i dessa koncept (vilka i antal ord varierar från ett upp till cirka 30 - 35 st ord med antalet ord ovanför säg 15 - 20 ord varande väldigt få och resp. QA gjord brukar vanligen resultera i att innan cirka hälften till 75% betraktade manuellt kastas som defekter av olika slag) oavsett - ej utnyttjad här - statistik för konceptens förekomst i allt publicerat för aktuell domän (allt i mening samplat nyhetstidningar, journaler, indexerade hemsidor i snippets, abstracts o.s.v. - cirka när filtrerat ner till samtidighet mellan två koncept havande relationer med varje relation representerad en gång med ett heltal ca 5 T eller cirka 900 MB med samma för varje koncept + om jag minns rätt en del decimal representationer) beräknande "sannolikheten" (bättre givet vad detta beräknas från enligt noterat innan: "Vikten" då sannolikhet som koncept indikerar något vi skattar eller predikterar medan vi här känner ett faktiskt värde för en konstant i scope ej föränderlig representation vars "sannolikhet" ej motsvarar något relaterat till antalet gånger ex. enskilda ord eller koncepten förekommer i något corpus utanför representationen) för resp. ord på position 1, 2, 3, ..., n vilket görs utan någon särskild hantering rörande smoothing eller utnyttjande bigram tänk o.s.v. 30 miljoner verkliga koncept tycks räcka bra för mig här därför att förutom dessa används:

Alla relationerna mellan koncept där ett koncept A havande relation till ett koncept B komemr förekomma i dess samling av relationer och räknas därmed en gång till för resp. relation.

Och därefter prövade jag - men minns ej om jag fann det bättre eller sämre just för detta vilket var utanför den faktiska användningen planerad - co-occurences mellan relationer utifrån varje resp. samling.

Ordvektorerna i dess core är ej byggda från dessa relationer. Jag gillar att ha saker byggda ibland när tämligen grundläggande primitiver som troligt blir använt för en växande mängd delar skapade från olika datasamlingar vilket jag tänker mig ska detektera en mängd QA-problem eller rena fel hos varandra (men som oftare ej tycks göra det: Att manuellt detektera problem närmast av en slump och tittande förhand igenom någon feltyp som tycks indikerade med lite skript-kod slår dessa mer systematiskt eleganta idéer i en gigantisk magnitud: Ledigt 10 000 tals fler gånger fel upptäckta).

Läroboksförfattare Manning med forskningskamrater kombinerar ordvektorerna till koncept i sammanhang av bl.a. relationer genom att beräkna medelvärdet av ordvektorerna. Jag har prövat denna metod och också funnit den delvis bättre (såväl som beräkningseffektivare jämfört med en del andra metoder jag prövat dock inkluderande en del metoder optimerade för att ej överdrivet riskera att expandera ut storleken av ordvektorerna i mening av antalet postioner / "ord" som ej är noll).

Problemet med metoden är att den ej utnyttjar från ngram för konceptet enkel kunskap som av och till har faktiskt värde: Ex. om vi bör värdera ordvektorerna för resp. People from Norway annorlunda beroende på positionen. Det överlägset bästa - bedömt från parsning av semantisk mening av sådana här uttryck - är just konkret parsning med ganska omfattande vetskap om vad ord betyder snarare än endast en ngram-modell. Dock med ett fast antal koncept (mina 33 miljoner) och en "programmerings-kultur" då högst aktuell för hela subsystem inriktad på prestanda (därför att ordvektorerna är snabbare än fler-gram metoderna för diverse men är därmed inte någon absolut mening naturligt snabba alls inkludernade ex. delsteg med jämförelser av typiskt 20 000 index-positioner i resp. vektor och resp. sådan jämförelse som försöker täcka upp samlat en tämligen försvarligt stort antal - men självklart jämfört med alla möjliga kombinationer liten i andel - av kombinationer av olika ord till ord förberäknande vilket självklart Bluelight representationen av ngram-koncepten med relationer ger en bra väg för att identifiera meningsfulla fruktfulla relationer att förberäkna för att identifiera ex. kombinationer som skapar och fyller upp ämnes-dimensioner för transport, ekonomi-områden o.s.v.).

Istället för medelvärdet utnyttjas ngram-modellen för att kombinera orden men resp. position för agera oberoende utan den som för meningar typiskt förekommande multiplikationen av "sannolikheterna" eller additionen av log. Vidare värderas positionerna utifrån hur indikerat "värdefulla" de är för den typ-kombination som sker samt viss grundläggande vetskap om vad vi har för typ av ord i den "typ-av-ord-kombination" (ex. för ett koncept likt People from Norway har vi en mängd i struktur liknande sådana vilka för mig till cirka hälften av antalet förekommande härstammar från Wikipedia-kategorier: from värderas ej p.s.s. som People eller Norway men är ytterst funktionellt som en operator visande hur ordvektorerna bör kombineras i mening av hur resp. ska viktas vid kombinationen).

För ex. likt People from Norway hade med största "sannolikhet" medelvärdet av people och norway (jag valde att göra alla ordvektorer small-case för att dra ner tidskostnad samt vidare nöja mig med totalt i vektorerna 23 000 existerande ord vars vikter från samförekomst corpus ej utnyttjades direkt utan expanderades vidare - varefter samtidighet i ordvektorerna beräknades tillsammans med ett fåtal varians-uttryck vilket därefter fick bilda nya vektorer snarast av en intern "core-typ" för en värld där totalt bara 23 000 ord också har ord-vektorer vilket förövrigt också förutom tidigare refererade jämförelser i förberäkning också tog riktigt bra med tid att köra på min ganska begränsade dator - varefter de från annan statistik samförekomst kan skapa upp andra godtyckliga ord: Syftet här var också att kunna hantera mer eller helt okända ord i detta corpus men kunna skapa upp dem från statistiken rörande samförekomst för koncepten i Bluelight vilket är statistik byggd på gigantiskt större data).

Utan att överdrivet gå in på de här ändå ganska begränsade regler operatorer resp. ngram-statistiken (är man intresserad tror jag nog att man ganska lätt kan hitta rätt för där det kan ge något vilket också varierar ganska ordentligt med kulturen koncepten kommer ifrån - taxonomier som latinska termer, medicinskt-teknisk utrustning m.m. skiljer sig generellt ganska ordentligt åt rörande regeloptimering även om jag just för detta ej minns om det lönade sig med något särskilt) är trivialt första och sista ordet allmänt för väldigt många koncept mer diskriminerande i mening av att de bättre värderade tenderar att medverka till att koncept uppenbart bättre relaterade clustrar sig i automatiserad process (utan förtränade samples eller annat).

Första och sista ordet är vidare som vår biologiska "parsning" resp. minnesfunktion tenderar att värdera annorlunda. Första ordet tycks ha en primacy-effekt när koncept representerade av fler-gram tolkas ut (när hänsyn till att man mött hela konceptet tidigare många gånger antingen ej hanteras eller hanteras separat) ej konceptuellt annorlunda än för hur vi bättre minns första ordet från listor. Samma konceptuella likhet med sista ordet från sedan längre tillbaka välkända fenomen listor gäller också.

För ex. har också People en naturligt och självklart enkel primacy att förstå: Vi inser direkt att det hela handlar om människor. Själva formen som sådan just för Wikipedia med vana användare har säkert i sig viss primacy-indikation när man skummar sidor snabbt (i ex. bl.a. från det för kategorierna typiska from).

Emellertid utnyttjande en annan struktur-syntax för även här den ganska stora gruppen av Wikipedia-kategori-koncept (säg cirka 6% ännu trots ej någon riktad ny inhämtning på mer än ett år just från Wikipedia) hade vi istället kunnat tänka oss exempelvis: Sweden: People. Med landet som primacy och därefter vad vi kan välja att kalla egenskap. Det är därmed ej självklart när ordvektorer (snarare än löpande text) hanteras att ta viktsystem för minnesfunktion människor direkt in i det. People och Sweden bör för ex. ligga närmare varandra än den jämfört med övriga ord mellan mycket mer begränsade skillnaden men ändå ganska stora i effekt.

För ett bigram av denna typ om alla ord för resp. position antas lika "sannolika" och en global vikt kombinerande en konceptuellt idf-liknande egenskap med statistik förekomst baserad på sannolikheterna skattade av statistik etablerad från större corpus (för koncepten och deras relationer). D.v.s. vad vi kan se utnyttjande samförekomsten mellan orden för vektorerna, en enkel 1-gram-modell baserad på globalt data ej lokalt påverkat, och en indikation ("IDF" - i skapelse tämligen lika - men via ändå en del förändring lite bättre för att få ut diskriminerbarhet för användning likt denna där just koncept-relationer ligger i närhet eller vad vi direkt laborerar på).

Kommentar IDF

Byggd från förekomst i koncept Bluelight, förekomst i antal SERP:ar för två - varav den mindre av de två numera är ägd från Asien och är en av de få jag vet förekom så tidigt som 1995 - 1998 kanske om jag minns rätt om än mer av en katalog (ej Yahoo) då tror jag och den andra vad jag skulle associera "tillhörighet" i företag runt som mindre Linux än andra från de då fem större sökmotorerna (en kan ha varit lite nedanför det - jag bedömer sådant spontant ibland lite fel liggande ibland lite efter utvecklingen) - men ingen av de två är Google som givet de förr i alla fall 10 000 - 12 000 serpar per dag jag tror var OK att ta ut i mening att de därefter stänger ner access för IP tills ny dag inträtt alltid kändes för få för mig för att vara värd besväret att pröva på givet att samtidighet mellan koncept med citationstecken runt är det mer intressanta innebärande att vi helst bör ha många miljoner resultat att arbeta med. Vidare sociala media förutom tämligen små men ämnesriktade tjänster (ett par inom science, två inom foto m.m.) dominerad av Facebook (bra api, riktigt snabb förbindelse, föredömligt god dokumentation, korrigering av förr störande problem relaterade till geo-lokalisering av ip-adress vilket flera år gav defekta svar med onaturligt mycket svenska head-cuts / cunnilingus-love eller vad deras tweet med polaritet negativt och positivt kallas denna ganska vulgärt explicita subkultur: Man lär sig sampla snart att man får vara beredda att stöta på det ibland från den övergripande kulturer ganska divergerade språket inte sällan lite osmakligt eller med rå humor inkludernade olämpliga stereotyper vilket i början var vad jag kunde må lite dåligt av - Särskilt subkultur medicin kan vara väldigt bondsk i sin förkärlek för explicita uttryck och ibland foton).

Vidare förekomster i bibliotekssystem rörande böckernas meta-beskrivningar - bl.a. från Library of Congress - förekomst abstract och titel (liksom till mindre del kategorier vilka dock tenderar att vara mer problematiska att använda då antalet typer är väldigt varierade medan titlar ju är fria i vad vi kan ha för koncept förekommande i såväl som abstract) för journaler, samt data från indexerade journaler, patenter, EU-publikationer och dokument, FED publikationer och dokument, militära publikationer relaterat USA (där kanske dock något kallat COOP kan ha används men det är nu något annat än Google's globala sökmotorer och ej vad de kan reglera access till medan det var helt ok att göra för Department of Defence när jag några år efter det mesta gjordes frågade "cleaning up" det lilla tänkbara för korrekthet om det blir av att finansiera upp det nästa år för due dilligence och riskanalysen varför jag helt säkert kommer passera ut det "icke-linux-relaterade" datat varande ändå av mer begränsat värde givet alla andra källor - och ej en källa som igen hämtas överhuvudtaget då den egentligen ej samplades för mig utan för grounding av Baidu's serpar betraktade som koncept för att kunna förstå dem utan att titta på dem: Något att jämföra med för ett språk där enkel inarbetad statistik - engelska - fanns för mig (och oavsett hur användbar datat potentiellt skulle vara för SEO sparades inget data annat än vad növändigt för grounding Baidu d.v.s. ej själva sajterna förekommande i dem utan endast antalet träffar).

Jag har ibland en närmast kognitivt defekt känsla av att överdriven ärlighet är bra. Det har dock reducerat ner sig sundare närmare en mer normal nivå år från år nu ett tag. Och det är väl i balansen mellan tendens och reduktion vi hamnade någonstans ovan. Medan jag minns mig mer explicit diskuterat annan sampling bakåt om ej någon av denna. För att uttrycka något av min coola stand up for the value of my less "smart" / "experienced" readers kan jag förövrigt peka på att idéen att det skulle vara bättre att sampla exempelvis en sökmotor i och runt en försäljning bara är över-tänkande man kan få för sig om man har en bakgrund i säkerhetssystem: Allmänt gäller att endast ett fåtal entiteter alls hanterar sampling oavsett om gående via ex. avsedda apier eller betraktande som en användare utifrån kanske en defekt funktion returnerande fel för tidigt alltid som upptäckt år senare rörande kontroll robot-filer - och i princip av större aktörer är det bara Google jag tror engagerat försvarar sig mot sampling samtidigt kan äldre men ändå ganska gigantiska mängder Google-SERP data faktiskt hittas indirekt kommande från dem via ett fåtal universitet - Närmare nutid är mitt intryck dock att just serp-data om det alls delas i större mängd universitet ej delas p.s.s. att det kan publiceras av universiteten - medan enklare statistik för förekomst ngram böcker m.m. om än ej serp:ar tror jag finns att hitta publicerat av Google själva).

För typisk statistik användbar natural language processing, "ontologisk-semantik" m.m. är dock mitt intryck att man ändå inte vill använda Google. Dels därför att de laborerar för mycket med serp:arna. Vi vill nog mycket hellre själva hantera ev. bortfiltrering av exempelvis sådant som Google kan betrakta som spam om ej icke-konstruktiva bias ska införas (flera spam-områden uttrycker ex. tämligen tror jag välbalanserat reward-mängden för dem över populationen oavsett "romantik", "scams", "droger" o.s.v.). Vidare har de en upparbetad mängd underligheter och tror jag defekter från sista åren för hur sökorden hanteras (några exempel nedan jag ännu ej spekulerar om orsaken för men noterade dem idag ev. för mig nya - jag har ej sökt med Google på några månader kanske - och fler finns publicerade tidigare). Mer problematisk har de - antagligen via ord-vektorer - försökt få till hantering av jämförbar betydelse och synonymer vilket upplever jag emellertid varit problematiskt ända sedan jag först märkte att det ändrats och ännu idag är delvis upplever jag ganska undermåligt (ev. har de reducerat ner antalet dimensioner ganska hårt eller använt någon effektiv men egentligen "smal" kontinuerlig representation - i försök att snabba upp det hela och glömt bort att expandera ut det när datakraften över de kanske två - tre år som gått säkert växt: Jag upplever 20 000 efter dimensions-reduktion lagom medan många tycker att 200 - 300 är bättre men fler tycks göra clustering utan träningsdata mer välfungerande krävande mindre av manuellt hanterande av sådan typ acceptabel för stora dimensioner man vill ha många år men ej för mer godtyckliga sådana av behov något år - Men så clustrar jag inte med någon överdrivet sofistikerad algoritm och varierat de vanligaste som av och till ex. en variant av N-mean utnyttjande ett par till någon gång tre globala vikter ej relaterade aktuellt data kombinerande eller i egna dimensioner förutom själva statistiken direkt).

Notera den ev. kopplingen till hur text som har att göra med domän - kanske url - tycks fungera. Jag följde ej upp alls något nedan så om vi ev. har en bredare funktionell egenhet eller något relaterat sajterna vet jag inte. Det rörande de resp. "undersidor kanske lite som underdomän men syntaktiskt underligt" är dock eventuellt intressanta att om man kommer ihåg det pröva på några andra sökningar.

Varken egenheter som ovan om just här ev. verkliga eller som känt för mig förekommande av och till i övrigt eller att ord representeras om obra förändrande deras mening såväl som mängden träffar de motsvarar på nivåer förändrande datat till inkorrekt statistik gör dom till vad jag skulle gissa är funktionella att sampla rörande sökträffar resp. kanske titlar och snippets. Egentligen mer allmänt är mitt intryck att sökmotorer baserade mer på egentligen mer föråldrad teknik som begränsade endast till förekomst och IDF med föga "förädlade" ordvektorer rörande ranking är mycket lämpligare så kan man istället själv göra ev. filtreringar korrekt för just detta perspektiv (ganska annorlunda från ranking som sådan även om metoder för att göra ranking med självklart i algoritmer i mycket är ungefär det samma) så att man får bra data. Dessutom tar jag bättre bort riktade SEO-manipulationer bättre denna väg därför de typiskt är ofullständigt hanterade hos större sökmotorer vilket emellertid trots att de kvarstår störande enskilda ord kan vara svåra när få att få ut tillförlitligt mönster för mer komplett uppstädning av medan de annars ofta när i nivå att de stör statistiken syns väl för enklare lite mer "teknik-föråldrade" sökmotorer. Och ej otroligt att jag idag kanske ej skulle sampla om alls aktuellt någon av de vid tidpunkten tämligen stora sökmotrer då de spekulativt ev. har "för mycket av bättre serpar idag".

Lite relaterat ord-vektorer och serpar tror jag mig förövrigt nyligen någon gång i år läst antingen Google eller Microsoft (vilka ju har sökmotorn Bing även om jag tror diskussionen ev. om det var Microsoft ev. handlande koncept-representationer i form av något kanske liknande en ontologi?) experimenterande med kontinuerliga representationer av koncept eller om det ev. var ord. Det är gissar jag ett kanske funktionellt område för just sökmotorer görande smoothing till något ev. lättare att anpassa lättare till olika rymder av sökords-behov-grupper såväl som kanske lättare korrigera problem införda snabbt. I mycket känns det "Hans-kognitivt-artifakt-artat" mer naturligt för mig den vägen även om jag gjort föga av det själv givet att nära nog allt man såg på Teknisk fysik liknande sådant här var kontinuerliga funktioner för vågor och annan icke-språk-relaterad-fysik-junk snarare än den för det mänskliga mer storslagna teknik-domänen språk och kreativitet representerar. Det insåg jag antagligen överlevt i något grund-bias troligen idag bara från antalet bilder av grafer m.m. man sett snarare än inkluderande en massa gedigen kunskap om hur man kan göra sådant som idag mer ligger i diskreta vektor-representationer än skattade grupper av kontinuerliga kanske deriverbara-funktioner (minns jag rätt innebär deriverbara att man ska slå upp i Beta istället för physics handbok - något subkulturellt uttryck för att uttrycka tribe i matematik snarare än fysik man troligen vid all hederlig sund matematik som bygger räknar verkliga värden som stålar i handen snarare än skattande kurvor för andras options-handel (eller varför inte handel med derivat?) helt slipper [Red. Jag prövade att derivera mina gamla svenska silver femkronor man fann inte att deras värde eller antal ökade. Svenska kronan är ej deriverbar. På nätet läste jag dock att amerikanska 1 dollar sedlar åtminstone förr kunde deriveras i vattenkar med blekmedel till 100 dollar sedlar. Ytan under kurvan för en dollar sedeln är numeriskt större och ger därför för ett fåtal en hel 100 dollar sedel. QED (utnyttjande den sociala förmåga riktigt språk ger för att visa ändå inte vara "omänsklig" i hur jag ser ner på matematikens mer djuriska tråkigheter: Matematikern tror så van vid förkortningen att jag egentligen är en av dom men för mig är matematik endast ett verktyg: Det smutsigaste verktyg jag så fort möjlighet ges lär plåga folk man via geo-avstånd lätt kan avhumanisera glömmande tortyren man aldrig ser - Kanske indien, Vietnam eller någon liknande kultur som sägs vara ofriskt födda "bättre" i matematik - Inget för en man från en fin gammal europeisk-kultur) att språk är mer kreativt och i verkligt sanna mänskliga värden överlägset det mer sekteristisk matematik-språk eller än värre fysikens ibland rent påhittade (ändå i kontrast mot filmer likt Star Wars och många romander anmärkningsvärt - nästan vådligt - tråkiga) universum. /Hans].

Själv har jag alltid haft svårt för alla de vanliga smoothing-metoderna och vill för mycket användning mena att man mycket hellre struntar i det och istället samplar riktigt ordentligt och för ovanligare ord riktat för att garantera åtminstone några hundra upp till kanske tusen samples för alla koncept: Att kvalitativt korrekt avspeglande verkligheten få ut statistik rörande samförekomst av ämnes- eller "emotionellt / kognitivt"-besläktade koncept från smoothing när vi går in i specialistområden är vad jag aldrig tyckt att någon av de vanliga algoritmerna klarat: Så givet internet varför inte ge sampling sex månader extra när det handlar om långsiktigt värde för att se till att alla koncept är samplade med så långt det går alla innan kända meningsbärande relationer? Utanför det är den ända smoothing jag gjort i core-värden för P ( A | B ) att acceptera att om vi frågar efter förekomsten av ett koncept eller koncept i relationer till ett koncept så har de för en stor grupp av aktuella anropande subsystem med säkerhet detekteras i alla fall en gång och vi returnerar därför ett. En metod som dock möjligen hade kunnat förbättrats en del via sådant som morfologiska jämförelser för att hitta troligt besläktade vid intresse också ovanliga termer inom udda forskningsområden, gamla tyska vapen-leventörer från 1800-talet m.m. där förekomst något bättre antagligen kunnat "gissats" från dessa - såväl diverse andra metoder också ganska annorlunda från vanliga smoothing-algortimer likt den säkert mycket vanliga Good Turing om än möjligen lite sämre än en del andra kanske sällan på nivå att det har någon betydelse om man nu tycker sig få värde alls av dessa metoder - Vanliga referensböcker som kanske Mannings brukar i allmänhet rekommendera denna typ av smoothing menande att det gör det färdiga resultatet bättre men jag tror nog det har mycket att göra med storleken av antal typer över antalet ämnen resp. hur mycket motivation man egentligen hade att sampla tillräckligt av tillgängligt språk samt för vissa användningsområden hur ofta man samplar in uppdateringar - Dessutom "små-fuskar" man lite vid riktad sampling av potentiellt mer än ovanliga istället tydligt ovanliga koncept via sökmotor-index lär försvarliga mängder smoothing gjorda där flyta in ändå vilket om man nu gör det bör räcka och bli över som ett till perspektiv att se värdet resp. problemet med dessa metoder från - Massor av defekta underligheter för ovanliga ord-kombinationer är mer regel än undantag utan tvivel i stora delar från smoothing-liknande algoritmer man låter operera på index i vissa fall resp. för hantering av sannolikheterna rörande ord globalt vs lokalt i resp. artikel - Förövrigt en "domän" jag tror mig diskuterat här tidigare med ett exempel noterat för Google där sökmotorn uppenbart predikterade / modellerade förekomsten av träffar snarare än att utnyttja befintlig vetskap utifrån perspektivet jag som användare tar där allt Google oavsett ev. uppdelning databaser, dc m.m. är samma sak).