Lätt på samma tema som:
Prövade jag ett fåtal kreativa dagar byggande på ett fåtal kreativa dagar något halvår senare att bygga representation av namn på människor från globala Wordnet över många språk utnyttjande generellt corpus engelska i brett över en mängd längder (etablerat från bl.a. som stora andelar några tusen nyhets-providers, diverse Wikipedia, och en mängd thesaurus), och färdiga vektor-representationer (The 400 och ej senare och starkare The 300: 400 via LSA variant från ungefär samma corpus, och 300 via Kohonen-variant dimensions-reducerande 400 på sådant sätt att 300 mänskligt läsbara och mer smooth dimensioner ges).
Representationerna ej sådana eller bättre uttryckt syftande till att representera just namnen i sig och att representera de sammanhang de förekommer i. Via spreading activation mellan detta som mellansteg gavs bättre uttryck direkt i resp. representation av dess kulturella kontext mot historisk tid (mitten av 1500-talet börjar mitt corpus: Och jag kan med stolthet säga att jag ej likt andra som samplat det ända arkiv forskning som jag känner till som brett över många journaler börjar på 1500-talet överlevde det vilket inte gäller alla om än är jag på det klara med ej heller direkt unikt). [Helt icke relevant för inlägget tror jag men konceptet JXXnullXre dyker plötsligt upp i huvudet på mig: Är det ett riktigt ord och vad är det i så fall? Någon GNU-mjukvara kanske?]. Nå vissa saker ska man alls göra dem alls så kostar det dig såväl som man får vara beredd att ge skapelsen vad skapelsen kräver för att vara möjlig: Behöver du sampla alla år tillräckligt kostar det men utan det ej möjligt. Ett enkelt val. Ibland rent av även om det nu inte gäller min modellering av mänskligt tänkande får man vara beredd att gå över lik (någon form av moralisk avvägning tycks lämplig oberoende av faktorer relaterade prestige, hunger efter, värde av o.s.v. skapelsen man gör: En tanke som kommit till nu när i alla fall stora delar av mitt är avklarat och något jag gärna delar med yngre vuxna jobbande på sina skapelser. Förvisso argumenterat att man utan det som klar insedd princip kanske gjort en del annorlunda men på plussidan lägger jag nu tid på för mänskligheten viktiga projekt så som lösningar för att hantera Matematikern och Fysikern. Mer moralisk seger än att ta dem antingen till slaveri eller utrotning finns knappast att finna. Så känn trygghet i att jag är The [archetypical / best of practise] Good Guy):
Nå så vi kan ta dem som arketyper eller en mjuk kategorisering tillåtande nivå tillhörande i samtliga att representera godtyckling engelsk text som. Så vad kommer ut av det? Jag hade räknat med samband relaterat hype namnge bebisar (se här att jag tar mina sannolikheter för ord ett givet ord två som bl.a. bygger på omfattande också historiskt data före 1900-talet men att detta är mitt standard-anrop för sådan sannolikhet långt ner i TigerAnt OS's generella API för återanvändbara komponenter). Men vad som kommer ut är association mellan uttryck för namn (i toppen d.v.s. de mest tilldelade namnen i magnitud resp. såväl likhet efter normalisering via magnituden d.v.s. L2-normalisering inför similarity beräkning) till geografiska områden avspeglande historiska folkvandringar (eller anar jag korrektare uttryckt de väsentliga historiska "externa geo-komponenterna" som inverkat på engelskan som uttryckt området under tid där det fortfarande märks).
För engelska publicerat internet i Skottland (såväl som England resp. USA i fallande skala) får vi en bunt och för dessa de mest tydliga (efter uppföljning av fenomenet) nordiska namnen för tiden såväl som nordiska områden som båtande in i det som långt senare blev UK (osäker vad det hela kallades vid tiden). I US fler tyska namn - lite förvånande innan uppföljning givet relationen Tyskland till det saxiska och norden till det saxiska, och resp. innan Tyskland modern tid folkvandrande en massa skapande en av de största spreading activation effekterna på Europas språk under de sista 2000 åren - är jag hyggligt trygg i - utanför resp. Rom och den moderna engelskan, men just för Europa medan spanskan självklart överstiger effekten ordentligt om övriga världen räknas in genom en relativt låg effekt av germanska språk och hög inverkan från den romerska diktaturen följt av från cirka 1550 - tid innan cirka 1550 ev. 1534 existerar ej för mig - och framåt pågående än idag enorm utbredning i världen).
Defekt p.g.a. filtering av vissa ascii-tecken (men å andra sidan utanför grund 7-bitars ascii att jag tillät diverse nordiska tecken) blev franska namn trodde jag utan större tvivel gravt underrepresenterat. Flera månader senare kom det till mig att troligen är väldigt många namn jag tror är engelska egentligen vid tiden franska. Eftersom jag ej gjorde detta för att få översättning mot dagens nationalstater är det en sak lätt att missa där man ej lätt ser skillnaden (så som diverse namn högt i toppen man inser ser "norska" / isländska ut).
Det hade kanske varit intressant att gjort detta seriöst en gång med uttalat syfte att få ut det. Men jag såg inte något faktiskt värde av det som kan motivera den tid (säkert fyra - fem dagar programmering förutom att ockupera CPU-tid och minne ganska ordentligt flera dagar upp till närmare två månader beroende på hur djupt man gör det: Jfr totalt allt ett par dagar för detta).
D.v.s. för att göra klart vad som ger fenomenet idag. Ex. svenska, norska m.fl. språk idag när pronjiserade till namn de kommer med i Wordnets uttrycker likhet med engelska som publicerat på helt andra orter på sådant sätt att det avspeglar folkvandringar för upp till flera tusen år sedan.
UWN var vad jag använde för koncept cues att applicera corpus och The 400 på:
- Yago-Naga - UWN | www.mpi-inf.mpg.de Precis sådant man vill ha gjort av en föredömligt exakt tysk. Tysklands USP i en USP: Noggrant och rent på "non-lego-industry-possible" "elektronik nivå". Att skapa sådant här är precis sådant Tyskland behöver göra mycket mer av också fritt tillgängligt enkelt för att säkerställa såväl EU's existens som Tysklands framtid som industrination. Utan att Yago precis fått saker att ej väga över i threshold tänker jag att vi nog alla hade slutat handlat allt tyskt. Ibland kan jag stå med en tysk-matprodukt på Willys och lägger nästan tillbaka den på hyllan men så minns jag Yago. Bra ofta - två till tre gånger per besök butiken - hör jag andra shoppare plötsligt ropa Yago och lägga en produkt i varukorgen.
UWN sorterar Max-Planck in under Yago. Yago mer känd för just Yago vilket är ett exempel på mänskligt självorganiserade primitiver inom datamining man kan utnyttja för att reducera egen tid inom ett mining område (här mining länkar och kategorier - men ännu sist jag kontrollerade alldeles för dåligt utnyttjande info-boxarna: Max-Planck inse att alla coola universitet hade satt sig ner och gjort Wikipedia-parsnings-regler för minst 1000 element-typer förekommande i infoboxarna. Mindre än så och det hela känns bara "tyskt nördigt". Och för att imponera världen jag då krävs att man gör samma sak också för Wiktionary (för att ge något värdefullt tillbaka till Max-Planck givet att Yago trots allt är närmare den tioende största i antal koncept thesaurus-liknande struktur jag använt med för bland de diskuterat här största som Library of Congress title-headings - mycket större men abnormt mer arbetskrävande import om allt bra ska utnyttjas - vilken tror jag ligger på plats fem totalt med XXXXXXXXXXX sökresultat för alla engelska ord som nummer ett + diverse flergrams koncept). - i Wikipedia).
Jag är ej säker på om det går eller ej går att göra samma sak utan att representationer för engelska ord används som primitiver i den processen. D.v.s. man kanske behöver återanvända en vektor-representation för ord skapad huvudsakligen (men ej uteslutande d.v.s. inkluderande också ex. svenska men med mindre andel) från engelska resp. använda P ( A | B ) mellan koncept (ord eller flergram) baserade på i huvudsak den moderna engelskan men havande historiska spår åtminstone från och med 1500-talet.
Inte helt ovanligt - för mig - att det mest anmärkningsvärda man får ut av språk är något annat än vad man egentligen sökte algoritm för att få ut.