Att besegra Tyskland: Kunskapsdriven militär-innovation

2012-12-30

Här upplever jag trygghet i att jag klarade att nå den korrekta komiska nivån man som ansvarstagande publicist måste sträva efter att ha en sund säkerhetsmarginal neråt till. Ett skämt med inslag av både föregående skämtteckningarna:



Och dessutom lite EU-relaterad passande Ett till vetenskapligt och tekniskt vekt EU-projekt skämmer ut Europa.



När man som här dessutom kan skapa mervärde för läsarna med ett gott exempel på bra humor underlättande en uppfattat sekundär pay-load i kunskap egentligen primärt är vi nära den riktiga samhällsförbättrande humorn.


Här klarade vi dessutom att rikta ett diskret angrepp på det tyska självförtroendet. Tyskland både som stor industrination och med den ökade tillgång till marknad och marknadspåverkan deras EU-medlemskap innebär bör varje medborgare när möjlighet presenterar sig sparka till för att skapa utrymme för vår egen export. En verktygsgrupp för detta antyds fyndight i skämtteckningen: Kanske kan vi bygga förståelse och kunskap om tysken via EU att skapa värde från?

Konkret lösning på "the frame problem" öppnar dörren till den rationella världen

En fortsättning på både tidigare komiskt och innan det icke komiska inlägg:



Det hade verkligen varit en praktiskt välsignelse för dom industriella och innovativa målsättningar EU säger sig ha för dom har projekten om detta eller för den delen idéen om övervakningssamhället var en risk i den mening att de uttryckt kompetens nog för att göra det till en rationell möjlighet att under modern-tid realisera. Men det är betvivla. Det hade ju dessutom sunt kanske engagerat EU-medborgarna tillräckligt i den gemensamma politiken för att hålla åtminstone ett getöga på vad de spenderar tid och skattepengar på.



Om the frame problem i Stanford Encyclopedia of Philosophy.

Skämtteckning med blogg-guide

Jag har verkligen ingen aning om min kvalitet på skämtteckningar är acceptabel eller om jag riskerar att skämma ut EU:s komiska förmåga kanske uppmuntrande Amerikanen eller Kinesen att angripa oss med ett fientligt intåg av serietidningar, skämtteckningar m.m. Förutom tidningarna skulle vi få serietecknare och filmskapare som tigger pengar av staten medan medborgarna istället skickar sina pengar utomlands för att finansiera importerad komik.


Det kan tänkbart riskera vårt självförtroende genom att medborgaren oftare kommer konsumera skämt på vår bekostnad än gissar jag riktiga EU-skapade skämt vilket rimligen måste kunna antas korrekt trycker ner ex. Amerikanen eller Kinesen regelbundet samtidigt som komiken lyfter upp vår medborgare kanske stimulerande med energi till en ny innovation. Riskerna gör att man ska vara försiktig att skämta oseriöst "på-kul" utan riktig quality assurance om man riskerar att nå många läsare med ett dåligt skämt.


Här adderar jag dock en redaktionellt värdeskapande komponent utanför själva skämtet och ser därför inte hinder att publicera skämtteckningen också utan riktig kvalitetsuppföljning.


Genom att skämta på ett sätt där jag lyfter fram hur giriga fäder kanske snålar på sina frånskilda barn framgår mina fina medmänskliga drag tydligare inte minst för mina kvinnliga läsare. Det ger fler regelbundna läsare och hoppas jag fler spännande och utvecklande möten med kvinnliga läsare som kan ha läst det och tycker att det indikerar en långsiktig last-resource stabilitet när annat i en relation kan ha falerat (d.v.s. uttryckande den quality assurance jag ej för komiken vågar garantera då jag inte kan lika mycket som om kvinnor eller ex. hundar jag ju har en militärutbildning i från värnplikten). Den ambitiösa blogg-skaparen kan från flera sådana inlägg skapa övergripande värde genom att samla det på en karaktärsuttryckande kategorisida.


Det senare värdet tror jag säkert att mina läsare kan ta till andra områden även om ingenting spontant dyker upp i min hjärna just nu. Vi väljer därför att se detta som en blogg-guide snarare än att låta det vila ensamt på skämtets ev. komiskt tunga leveransförmånga.


Ett till vetenskapligt och tekniskt vekt EU-projekt skämmer ut Europa

2012-12-29

Utelämnande problem i gränssnitt och oförmåga att hantera inställningar (ex. engelska och inte svenska) stabilt tillståndslöst och endast betraktande den tekniska utmaningen i nyhetsanalysen är Newsbrief.eu ett bra exempel på ett problem i EU man förr eller senare kommer behöva lösa eller acceptera divergens för ökad konkurrensförmåga.


Problemet vi diskuterar ska vi givetvis förvänta oss i orsakerna är organisatoriskt relaterat och i det betvivlar jag starkt att det är drivet av enskilda medarbetare. Därav ska vi inte utesluta att vi har likartade instanser av problemet i också väldigt annorlunda områden (ex. relaterat ekonomiskt samarbete i politik resp. i förvaltningen quality assurance och risk management av ländernas åtaganden resp. dom potentiella problem och risker samarbetet kan skapa för dem). Det vore dock en mycket mer omfattande uppgift än en ensam person ens heltid klarar att försöka bedöma över annat än ett fåtal områden EU berör.


Teknikområdet Newbrief rör är insamlande och analys av nyheter. Ett område jag utmärkt kan både genom att byggt modeller, arkitektur och genom att jag praktiskt gör nyhetsanalys. Det var relaterat det praktiska arbetet jag uppmärksammade tjänsten med viss förhoppning att den tillsammans med några likartade kunde minska ner antalet tidningar (och andra news providers) nyheter för analys samlas in i vilka när analysen går som mest brett handlar om tio tusentals källor. Det rör många fler news provider typer än Newsbrief är inriktat mot men kan den och liknande ersätta en stor andel av de typer som är mer traditionella tidningar är det troligt god optimering genom att de publicerar mycket mer per tidsenhet.



    Komplettering: Här är ett till strunt-projekt runt EU:s nyhetsnalys också på nivån vad ett par studenter troligen hade gjort bättre både i presentation och ännu mer analys (troligen användande en sund datakälla istället för Newsbrief's collocations för event-detektion vilket når långt innan det är dags att förstå API:et till Google Map för att få det att se korrekt seriöst och avancerat ut):

    Men hur är det man brukar säga runt militära-IT-projekt som inte klarat tillräckligt i tid och behöver mer budget? Put it on a map even if it isn't.



Samma typ av optimering har för affärsområden som är mer kundnära varit möjliga att optimera likartat genom att inhämtning av pressmeddelanden generellt snarare än företag som specifikt följs varit möjliga att ta tillräckliga stickprov av enklare från särskilda sajter som återpublicerar dessa.


Den tekniska lösningen relaterat dom pengar som spenderats på den här tjänsten är dock för området väldigt junior. Tittar vi på deras collocations där besläktade nyheter samlas fungerar man på samma nivå med när jag förra gången tittade på tjänsten, och här ligger man endast i att man klarar att samla news event besläktade nyheter med tekniska metoder som endast tycks bestå av att detektera upprepade mönster. Att en specialist-tidskrift adderande särskilt värde kring en event mindre redundant än större flertalet nyheter mer likartade använder annorlunda och ovanliga ord är att förvänta. Ingenting i närheten av att klara hantering av det märks. Faktiskt gissar jag att tjänsten egentligen inte "begriper" vad nyheterna handlar om utan endast detekterar ord eller ord-kombinationer.


Besläktat men tror jag för de flesta tänkbara användare mycket mindre av ett problem är att de endast tycks klara att analysera just text. D.v.s. att se samband i mening och betydelse mellan visuellt och skrivet ser vi inga tecken på. Det är dock endast intressant som indikation runt ribban man klarat att nå.


Den analys av nyheterna tjänsten presenterar motsvarar av allt att döma den tekniska nivå de ligger på. I statistik är koncept- och relationer-obefintliga, och i statistiska metoder handlar det om enskilda ngram (ungefär motsvarande den statistik Harvard och Google analyserade ut från världens "alla" böcker för att ge statistik att använda i språkmodeller för översättning, tolkning av tvetydiga ord - Avtrycken av Google och Harvard i böcker, nyheter och på internet - och nyligen uppdaterad: Ny Google Ngram annoterad: Klassbaserad prediktion i n-gram tycks möjlig.


För att använda uppgifterna om nyheter och nyhetshändelserna rationellt effektivt som ett verktyg inte minst tillämpat politiskt i EU, och i EU:s verksamhet ex. för att se möjligheter till bättre och mer effektiva lösningar och inte minst för att identifiera möjliga risker tidigt, räcker inte denna statistik. Faktiskt går det så vitt jag vet inte ens återanvända statistiken för mer avancerade tester därför att information kastats bort på vägen.


I övrigt gäller också att tjänsten inte i något verkar nått längre än NGRAM-detektion vilket är bare minimum om något. Vi kan t.ex. se att man indikerar personer som omtalats i nyhets-collocations men ex. inte där eller i övrigt i något indikerar att man klarar att se och förstå deras relationer med varandra, eller mer avancerat men helt inom vad vi borde kunna förvänta oss av en tjänst som denna om den ska vara ett betryggande tecken på att EU-folket har kvalitativa verktyg kunna ta godtyckliga collocations och/eller en eller flera av indikerande aktörer i dem och sätta dem i relation till utvalda ämnen, situationer och/eller aktörer ex. ett tekniskt fokusområde inom EU, ett land man har politiska relationer med, ett företag vars kontakter med verksamheten man vill förstå genom att se samband mellan deras produkter och de politiskt utformade reglerna.


Förutom att detta exempel liksom de tidigare här omskrivna inom EU:s forskning och innovationssatsningar i områden jag följer regelbundet ska man allvarligt reflektera över risken att dessa projekt mer än att slösa pengar faktiskt hindrar och stör innovation. De tenderar alla att uttrycka sig väldigt likartat, strukturera sina s.k. leverabler på webben på ungefär samma sätt, samarbeta mellan organisationer av olika typer och över landsgränser likartat men oavsett hur många år de håller på är tyngden på vad man presterar inte vad som rör sig framåt jämfört med aktörer utanför.


Excellent för att förklara vad det för mig tycks handla om är att jämföra med långsiktiga teknik- och forskningssatsningar inom militära-tillämpningar. Men med den viktiga skillnaden att oavsett hur många miljarder man slösat på dessa projekt genom åren här är det ändå inte vad som ens är jämförbart med den budget-nivå försvarsprojekt haft genom åren. Där kan det fungera bra ibland även om det i antal miljarder oftare misslyckas. En till viktig skillnad är att försvarssatsningar handlar om national security vilket gör dem speciella.


Saken här är att genom att EU startar upp nya projekt inom nära besläktade områden borde dessa röra sig framåt jämförbart med teknik området globalt även om EU-projekten var för sig inte levererar värde. Men det gör dom inte utan man tappar avstånd, och ännu mer - direkt pinsamt för mig som en av Europas många EU-finansiörer - märks det när de gör något praktiskt tekniskt tillämpat för egen användning.


Just här var ju nivån att man med ett par datorer inköpta för cirka 20 - 30 kkr utmärkt kan klara att sampla 5 - 10 ggr fler nyhetskällor än vad EU gör liksom att göra nyhetsanalys många gånger mer avancerad med inte mer än att köpa lämplig referensbok ex. Jurafskys och Martins utmärkta Speech and Language processing som trots några år gammal är svårslagen som referensbok. Gör man sedan besvär att följa aktuell forskning kan man ta det några gånger till uppåt eftersom hela forskningsområdet utanför EU (med ett mycket fåtal undantag) rör sig väldigt snabbt.


Ett praktiskt test man ganska enkelt kan göra av en aktörs förmåga till nyhetsanalys är att identifiera ett konkret problem hos dem av sådan typ att de rimligen korrigerar det alt. men omvänt indikerar ett värde. Mest triviala nivå är att indikera direkt i titel. Företag m.m. även utan egentligt stöd brukar klara detta genom att använda nyhetsbevakning på enklare tjänster eller sökmotorer. Tekniktunga entiteter klarar dock också att fånga upp detta när det ligger inlagt. När jag testade det på ett par större företag inom IT kunde jag ex. konstatera att den oftast ansett ledande av de två mycket riktigt noterade det snabbt. För den andra trots just i Sverige många fler medarbetare behövde det upp ungefär på titelnivå. Hur man skulle göra samma test mot en organisation som EU där aktuella områden ej är karriärs- eller ekonomiskt känsliga på sätt som skapar drivkraft vet jag inte. Märker man möjlig korruption kanske man kan pröva med det och se om motsvarande land börjar sabotera samarbetet för att motverka utredning de kanske misstänker är på väg. Men mer realistiskt går det inte för de bryr sig egentligen inte. Det är mycket mer av en egen värld där man själv definierar vad som är bra (det mesta man själva gör.


Vad som egentligen stör mig mest med det här mer än våra pengar som kastas bort på att addera dö-vikt på Europa är att det skämmer ut oss. Oavsett vad vi nu kan tycka om EU åligger det oss alla nu att göra något vettigt av det.


Här i ett forsknings- och tekniktyngt område blir vi utskämda liksom hela Europa nyligen (tills engagemang av bl.a. United Kingdom, Sverige och Frankrike delvis balanserade det) i en politisk fråga när Italiens dåvarande statschef inte bara snuddande vansinnigt utan fullt publikt fjantade runt med den nu avrättade tidigare diktatorn av Libyen, och enligt andra uppgifter utanför kamerorna betedde sig än mer olämpligt. Om något tycks EU-samarbetet hindra Europas länder från att uttrycka sitt ogillande. Man vill ju inte få det politiska arbetet ännu mer flyttat till politiskt lugna oväsentligheter adderande till vardagens alla särintressens inbillade behov och icke-behov, av att Italien saboterar annat arbete.


Oavsett risken att man stör ut faktisk innovation och slösar pengar, ser jag att EU bäst i projekt ser till att prestera kvalitet på sådana nivåer man påstår sig sträva mot för att säkra Europas långsiktiga förmåga till att hantera miljöförstöring och säkerställa ekonomisk tillväxt. Mycket hellre avstår man från projekt och gör färre vi kan uppleva som föredömen och som inte blir till skämt inom tekniska specialistområden runt om i världen.


Nu när jag skriver detta kom en till jämförelse av lite samma sak. Vi har dels politiska prioriteringar i EU relaterat miljöarbete samtidigt som deras interna hantering av lokaler och färdmedel ligger på nivån att man är beslutoförmögen att avsluta helt meningslös belastning på miljö och kapitalslöseri genom att sluta flytta folk fram och tillbaka mellan Brussel och Strasbourg.


Gällande projekt-leverablerna och deras redovisande kan vi jämföra med IT- och informationssäkerhet jag arbetade ganska många år med. En enkel grupp av säkerhetshål har identifierats och är allmänt kända. Tekniktung bedömning av värde förekommer knappt alls ej relaterat värde som ges till projektet eller indirekt runt dessa, och det går därför bra att prestera strunt så länge man gör sin webbsajt, samarbetar lite på också konkreta möten mer än elektroniskt, och publicerar ett antal välstrukturerade rapporter vid slutet (och färre vid stegpunkter) utan behov av tekniskt värde men i titlar o.s.v. uttryckande ungefär de leverabler man identifierade i början av projektet.


Det finns faktiskt ett typ-område där dessa projekt av och till har en eller annan medlem som över-presterar. Tråkigt nog hör detta typ-område till vad jag brukar betrakta som varningstecken på "fetma": mycket energi med få krav. Dessa projekt ska ju egentligen vara mer praktiskt inriktade med idéen om innovation längre fram. Området folk kan överprestera i hör dock till det filosofiskt långsiktigt också jämfört med universitet (som ganska ofta i dessa områden är ganska praktiska) - men helt opraktiskt oftast (alltid?) på nivån att alla vet att det är koncept som aldrig kommer ha värde men som är intresseranta att få berättade på mötena av någon känd väldigt duktig person man kan nätverka lite med.


Något fascinerande har det verkar för mig när jag följt projekt relaterat språkanalys - men ej vad jag försökt verifiera mer formellt - att när man tittar på Tyskland i detta (många andra part of whole delar i dessa områden brukar jag numera skära direkt utan att läsa annat än maskinellt) att vi kan se kulturskillnader som också motsvarar resp. forskningsinstitut övergripande. Max Planck som ett av flera exempel är ex. närmare egentlig målsättning i sådant här oftare praktiskt inriktade. Max Planck övergripande oavsett EU är också närmare praktiskt inriktade. Ett par andra tyska entiteter (båda för Tyskland mindre universitet) som är allmänt ytterst lärdoms-opraktiska - på nivåer av vad vi i Sverige så vitt jag vet som ett litet land saknar inom teknik och tillämpad forskning - inte presterat något i projekten jag kan tänka mig någonsin går att ta praktiskt och åtminstone flera gånger ungefär samma sak man presterat i andra projekt genom åren i eller utanför EU relaterat diverse specialintressen man har runt en eller annan tes.


Jämfört med andra områden där Spanien ju märks mer negativt avslutar jag med att peka på att dom jämfört med EU oftare är praktiskt inriktade i verklig mening (utanför dokumenten). Långt ifrån alltid är det vad jag tycker håller hög kvalitet men det har nästan alltid vad jag tror åtminstone byggt kunskap med hög meningsfull tillämpbarhet inom industri och forskning. Av och till har kvaliteten dessutom varit tycker jag hög och det är ovanligt för dessa projekt. Möjligen gäller detta också United Kingdom men det är där upplever jag mycket svårare att klara att avgränsa och rått tolka ut var EU-pengar börjar och slutar relativt annan finansiering (ibland vad som verkar mer vara vad universiteten lägger i en stor pott och sedan använder samlat). UK har dessutom en osund tradition i att publicera mindre av projektens verkliga leverabler. De sitter oftare och håller på vad de egentligen presterat genom att göra det bökigare att kringgå. Ett "lexikon" åtminstone delvis EU-finansierat jag nyligen fick visade sig föga förvånande helt motsvara den lite ovanligare idéen och koncept-idéen projektet och personerna haft och är som exempel mycket intressant men kanske symptomatiskt på samma sak bedömer jag helt meningslöst för praktisk tillämpad text mining och analys trots många års arbete. Det verkade inte ens skapat utifrån perspektivet att nå fram till det.


Sverige också nationellt ska se upp med detta så att det inte blir tradition här.
Praktiska leverabler och tillämpning är viktigt, och ännu viktigare är att sätter man sådana ska man se till att de kompetent blir bedömda av personer som verkligen kan området och som inte är direkt eller indirekt associerade (d.v.s. för Sverige när det ej handlar om småsummor att man tar någon från annat land eftersom universitet, myndigheter m.m. är oerhört personligt kors-kopplade som förväntat av ett litet land).

Life for Lifes

2012-12-27

You been down so long in the war of the night

So long clean now, always winning against death


The skeleton screaming threats: silent


Clean so long winning life
Your soul returned


The battle mad war chief exchanged for the weakness of human life
Days for you bought with the victory for humankind


The army flies in confusion while the sun falls on your happy face

The Power and The War


The power and The war

The war and The power


I am a stone cold chief


Marching against wall of dead souls over dirt of dead souls

Reaching for my thought - Me or Dead souls

Screaming in hate - Me or Dead souls


The Sword of stone breaks in brittle vibration when pain makes it all move


Death in dying shadows makes the bigger and bigger circle gray

Turning gray


In the centre turning and turning with a broken sword in madness singing:

The Power and the war, The war and The power

I am a stone cold chief turning gray

The way things are going never as enemy after enemy falls to our sword will we win.



Business intelligence: Betydelsen av verb, händelser och meningar

2012-12-25

Ett koncept alternativt tänkbart till ett mer konservativt (och som i ett av tre ben tar tydligt värde från Verbnet: i praktisk utveckling fenomenalt nära praktiskt behov utan allt för stort arbete med de anpassade datastrukturer. Verbnet som skapelse imponerar på mig medan mycket praktiska skapelser som klarar att använda Framenet i konkret utan att röra till det imponerar - båda nås från University of Colorado Boulder) kopierar jag in nedan från mina anteckningar:


"En enligt den lite otäckt enkla samlade språkförståelse modellen finns ett prototyp-experiment man skulle kunna göra men jag ej ids givet att det redan är så mycket konceptuellt likartat i Drifting thoughts delarna men där vi:


1. För varje verb-frame aktiverat av ett do med full-parametrisering.


2. Aktiverar upp varje annat verb aktuellt i samma frame men lika mycket givetvis relaterat hur starkt associerade de är med övergripande _IN subdel enklast bara motsvarande de semantiska rollerna.


3. För varje sådan resp. sub-aktivering aktiverar utåt respektives FOL-logik uttryck från Verbnet ev. helt utan hänsyn argument mer än att ev. låta dem aktivera konvergerande bakåt till rollerna från alla eller liknande.


4. Alt. kompletterande tre låt sub-aktiveringen påverkas av alla FOL roller den har men jfr ett DF-koncept boosta dem som uttrycker relevans med centralitet konceptet och verbet.


Där poängen skulle vara att i betydelse näraliggande ord också kommer påverka konvergensen till den totala betydelsen för vårt uttryck och där dessa punkter runt om ändå påverkas av relevans aktuellt kontext men där denna relevans ej är direkt relaterad FOL-logiken eller själva verb-frames utan de mer konkret uttryckta entiteter som tagit rollerna.


Därmed kan man tänkbart fånga upp att meningen för resp. verb inte i språk är exakt utan verkligt styrs från grupp, person, situation och kontext. Vi antar att sådana variationer ej för varje instans är jämnt över alla näraliggande samtidiga, och att problemet med glidande betydelse huvudsakligen uppstår när det centrala verbet används annorlunda vilket när övriga är approximativt de samma tänkbart vettigt hanteras genom att dom som ligger närmare den glidande betydelsen via associationen kommer aktiveras troligare mer. Vad som tar rollerna konkret oavsett personer, företag, platser o.s.v. är ju både oerhört situationspåverkat såväl som kulturellt / ålders-betingat / intresse-styrt.


Vidare jämförbart med aktiverings-algoritmen för kring-verb som är den jag naturligt skulle välja, finns ju den för sådant här tror jag ganska för grov men som för specialistområden ex. ett teknik eller forskningsområde troligt fungerar bra och kanske bättre, kan vi ju ta ut associationen mellan resp. till bag-of-words koncept och titta på hela meddelandet enligt lämplig algoritm.


Ganska likt en tänkbart “fördummad” / “förenklad” Drifting thoughts men helt utan koncept för hur “aktivitets-samverkan” över nätet påverkas av avstånd, tid, likhet kunskap o.s.v.


Här ska vi dock göra en tråkigare fungerande som gjorda prototyperna konceptuellt annorlunda från Drifting thoughts. Mer traditionellt i regel-logiska system snarare än att låta meningen självorganisera sig från datastrukturerna och vilka koncept i dem som är realiserade."


Jag är också intresserad av tips om mer utvecklade koncept för att dra regel-betonade slutsatser från endast de tematiska rollerna resp. endast FOL-logiken med rollerna, mer än geografisk-förflyttning, transfer m.fl. "direkta" - även mer abstrakta slutsatser - för en eller flera uttryck event-relaterade.


Det finns mindre publicerat än man kan tro. En hel del är väldigt abstrakt nära idéer om hur människan fungerar inte särskilt praktiska utgångspunkter för en begränsad sido-komponent som här, medan annat egentligen inte kommer längre än vad direkt lokalt relaterat parsning mer i språket vilket intresserar mig mindre här eftersom det redan är gjort när vi kommer hit.


Och också hur konkret till abstrakt verben är (jämför The Linguistic Category Model) givet kontext påverkar propagering av resultat vi nått till för stycke eller nyhet globalt verkande, om något gjorts som undersökt det vilket jag ej hittat ännu i alla fall. Annars klockrent projekt för Darpa-finansiering:


  • Något händer.
  • Ska jag väcka generalen eller kaptenen?
  • Är verbet som beskrivet stridshändelsen väldigt konkret struntar vi i det för då upplevs det bara som mikro-management för denne.
  • Är det konkret men påverkar abstrakt på andra entiteter ex. stör alla kanoner på skeppet istället för bara en väcker vi honom.
  • Och om konceptet är abstrakt oavsett situationen ex. en jolle kommer som berättar att Frankrike förklarat England krig men att man artigt ska vänta två dagar innan man börjar strida väcker man honom också.

Varghatet frodas på Google

2012-12-20

Otäckt hur manipulativt förgullat irrationellt varghat kan spridas utan fler reaktioner. En undervisande bild slaktande sjukdomsalstrande malaria-myggor hade varit mer lämpat.



Det känns inte som ett naturligt friskt uttryck för den väg vi alla hoppas att människan vandrar mot en för alla bättre värld. Ej heller är det rationella ekonomiska värdet realiserat tydligt. Dessutom ifrågasätter jag om Googles förståelse av könsroller och negativa stereotyper tappats i och med att M.M. gick till Yagoo. Jag tror säkert något relaterat detta eller liknande spelat in när skissade upp det här frossandet i implicit kvinnoförtryck med män som vill ha passiva kvinnor:


"A new study led by Joshua Hart, assistant professor of psychology, suggests that men’s insecurities about relationships and conflicted views of women as romantic partners and rivals could lead some to adopt sexist attitudes about women."

Delusions of gender: Men's insecurities may lead to sexist views of women

Själv har jag istället många gånger engagerat mig i jämställdheten även om det kanske blivit mindre uttryckt när värdet tillbaka till mig som man inte upplevts fullt spegla insatsen att redaktionellt bevaka området kring forskning m.m. Jag tänkte mig realiserat fler innovativa möten med kvinnor för att utveckla min förståelse och kunskap om kvinnans roll i samhället relativt mannen. Det redaktionella värdet av att ha ett positivt föredöme att visa upp i samband med sådana här otrevligheter vi såg på Google har man ju ändå utan att kontinuerligt behöva bevaka området.


Sedan om man ska se krasst på vargar och "norrlänningar" är jag osäker på var värdet någon av dem realiserar för mig. Särskilt nu när man ska in med en 100 - 150 kkr extra-skatt kan jag tycka att man hellre borde prioritera varg och obyggdspengar på lite roligare rovdjur. Tigrar m.m. exotiskt blandat. Givetvis inte på ett sätt hotande andra länders vilda bestånd.


Jag tror säkert att många som gillar att jaga varg lagligt eller olagligt också kan få ut ett nöje här. Samtidigt tappar vi genom detta några extra personer på landsbyggden är det ju knappast i antal något som märks i den särskilt sedan 1970-talet pågående processen där befolkningen minskar utanför storstäderna. Rent av att det kan medverka till att effektivisera en omställningsprocess där effektivare kommunikation finansieras genom mer centraliserad infrastruktur i form av sjukhus m.m.


Och jag tror absolut inte att det är något hindrande problem att låta sådant avgöras motsvarande förvaring avfall från kärnkraftsverk. Med en liten befolkning nog som vill leva ett bättre liv utan att flytta kan man säkert väga en väldigt begränsad risk mot värden turister m.m. kan ge.

Common sense på Facebook: Vem är USA:s president?

2012-12-07


FACEBOOK

Facebook Like knappen till Google Blogger

Facebook Like med URL till inlägg även på startsidan för Google Blogger


COMMON SENSE

Common sense: Arkitektur


Beslutsteori och kreativitet: Fano inequality och diskriminerbarhet


Att förstå mening: Mitt sunda förnuft dominerar helt övrigas känslor




Common sense i sunt förnuft som datarepresentation och för algoritmer har en del tips givit på för bra ontologier och representationer.


En till sida av problemen att lösa med common sense mer än själva möjligheten att något vi antaget ex. tillhör en större grupp av koncept också om premisserna det beslutet fattas från är rimliga. T.ex. för att en tomat ska vara en frukt krävs att den verkligen är en tomat.


Vi kan om vi så vill se det som en fråga att avgöra om n st koncept tillsammans går över något rimligt gränsvärde innebärande att de tillsammans indikerar att konceptet utger sig för att vara något som dessutom är orimligt.


Common sense i bedömning premisser har vi som problemområde ett exempel nedan från Facebook i en situation där säkert åtminstone de flesta vet att det i allt är upp till resp. läsare att göra ev. kvalitetskontroll av uppgifterna som publiceras. Här väljer jag att utge mig för att ha ett arbete och roll (under cirka 1 minut) som har en unik instans med endast en person: Nuvarande president för USA.



"President" Morsy: Arabiska frihetsrörelsens största vän

2012-12-06

Ett återkommande intryck av och till är att Al Qaida senaste åren fått ett allvarligt management problem och rent av att jag en period var helt övertygad om att bin Ladens "efterträdare" måste ha varit en amerikansk dubbelagent.


President Morsy har tror jag samma egenskap. Destruktiv och som sådan direkt farlig på sätt som redan troligt har kostat människoliv och troligt kommer göra det igen.


Samtidigt i den konceptuellt negativa riktningen d.v.s. från demokrati han tycks önska röra sig har han en samtidigt övergripande positiv verkan för denna företeelse.


En del saker i våra liv tänker vi inte på att värdera utan att inte bara upplevt avsaknaden av det när jämförelsepunkterna är vaga utan vi kan komma kämpa för att uppnå en förbättring av konkreta problem för att därefter kunna rätt värdera det systematiska värde som skapats i att lösa det konkreta. Kanske hör demokrati dit.


President Morsy är fallet som understryker när vi lämnar Egypten som fråga betydelsen av att vid de tidiga fria valen om man inte vill ta en onödig risk för att det kan bli det sista valet vara ytterst selektiv med varje kandidat som uttalat icke-demokratiska idéer från åsiktsbegränsning till begränsning av medborgarnas maktfördelning jämförbart med för varje fråga normalt jämfört med sedan flera år välfungerande länder (d.v.s. demokratier: i övrigt finns inga länder utan allvarliga problem i och utanför frågor direkt relaterat frihet, våld, konflikt o.s.v.).


Vill man ta detta tänk längre - onekligen respektlöst till dom som betalar priset för att lösa konkreta problem - kanske vi också kan se möjlighet till liknande värden av konflikten i Syrien. Förvisso inte tror jag balanserat priset folket betalar nu och kommer behöva betala under säkert tiotals år bara för infrastruktur men även som numera finns ett utmärkt stöd för i forskning förändrade genuttryck under generationer ökande risk för ångestsjukdomar m.fl. problem.


Vi kan om vi så vill se Syrien som en allvarlig varning till varje person associerad en diktatur som ej är fullständigt moraliskt korrupt utan ser ett värde åtminstone i det egna arbetet i administrationen att går man efter en viss punkt fortsatt emot folket gäller för dessa konflikter som för alla andra involverande människor att vi ej enkelt blir öppna för att ta andra vägar utan våld. När som i revolutionära rörelser ingen enkel i dom juridiska systemens detalj-exakta artighetssystem vi har inom diplomati och internationell rätt (jfr hur man mäter per centimeter bordets placering när Sydkorea och Nordkorea talar i den de-militariserade-zonen) finns föga förutsättningar här såväl som i Vietnam som flera länder kom att märka. När man gått över gränsen slås landet sönder.


Relevant att lära av från Syrien är att när kopplingen till den eventuella kostnad folket betalade en gång lurade på den frihet de sökte utan att se det exakt nödvändiga som lösning på konkreta problem faller diktaturer alltid. Bromsande faktorer avseende tid finns tycks det troligt relaterat antal personer utanför de mest synliga direkt involverade i administration, parti o.s.v. eventuellt rent av som funktion av vilka av dessa som själva var med och betalade kostnaden. Därav när Fidel Castro väl dött betvivlar jag att diktaturen kvarstår särskilt länge.


En känsla är att problemen i Cuba kanske inte behöver bli lika stora som i Syrien. Dennes bror är ju en koppling men samtidigt utan varje naturlig förmåga till att inge förtroende, utstråla vitaliet o.s.v. och kanske blir det ett mjukare "fall" för diktaturen.


Är man del av en diktatur under ett uppror där man vet att flera enskilda individer högt upp i armé respektive parti har möjlighet att utnyttja upp till kärnvapen mot den egna befolkningen utan att de tar någon som helst personlig risk är det redan nu dags att tänka igenom dom moraliska frågeställningarna.

Gräva guld på Twitter




Mer om sociala media


FACEBOOK

Facebook Like knappen till Google Blogger

Facebook Like med URL till inlägg även på startsidan för Google Blogger


GOOGLE

En orsak Google blev mindre framgångsrik i sociala media


FLER

Buzz, Facebook, StumbleUpon och Twitter




Just publicerade Modeling Movements in Oil, Gold, Forex and Market Indices using Search Volume Index and Twitter Sentiments är ett färskt och typiskt exempel på teknik och möjligheter runt "Twitter mining" som just nu sedan något år fått ett större fokus och just vad jag avsåg i:



Dessutom tyckte jag att en länk till artikeln kunde passa som fortsättning till:



För analys och bedömning om guldets framtid i det svenska välståndet bedömer jag dock inte att Twitter räcker men kan kanske ge en viss indikation om förändringen av hur folk just nu uppfattar att saker är eller förändras. Dock är det ett mycket gott råd från vad jag sett i alla mätningar jag själv gjort att aldrig använda Twitter-data eller ens data sociala media ensamt i dessa sammanhang utan kompletterande data av flera typer mer underliggande, och med en konceptuell förståelse beskrivet för hur begrepp översätter och motsvaras i dagligt-tal på Twitter relativt ex. branschrapporter m.m.


Också gäller för studien att de kommentarer jag gjorde längre tillbaka apropå det mycket stora fokus på medelvärde och varians, och ett mindre antal korrelationsmått har inom forskning kring ekonomi och ännu mer inom tillämpad ekonometri. Medan vi kan se att tillämpningar inom biologi, medicin, bildanalys, mönsterigenkänning m.m. tillämpar fler algoritmer och grupper av algoritmer. Man ska allmänt ha viss respekt för att begränsningar i metod och data studier och metoder runt ekonometri har inte behöver framgå alls med de vanliga statistiska tester som tillämpas.


Ex. för denna såg jag vid en snabbtitt ingen möjlighet relativt den tid jag vill lägga att bedöma praktiskt värde (inte minst rörande möjlighet att "normalisera" resultaten till informationsmått indikerande vad konceptet använt berättar för mig som jag inte redan har där data och metod saknas vad jag såg utan att ha läst i detalj) för att det ska gå) där det för mig inkluderar mer än det aktuella kausalitets-måttet och situationen de definierat som intressant kausalitet. Därmed inte sagt att det är en dålig studie vilket jag inte bedömt utan endast att den inte är intressant för mig att läsa mer exakt.


Givet idéen hos åtminstone en läsare att jag direkt sågade studien Ontologiska problem II: När vi tror att vi kan definiera världen i och för sig "korrekt" men på ett "kallt otrevligt" sätt vill jag påpeka att jag varken tyckte att jag gjorde det där eller här, och också att jag absolut inte utgår från vilket land universitet eller motsvarande ligger författarna arbetar vid. Tvärtom hoppas jag ha gjort diverse klart till slutet av januari för att åka två eller tre månader till Indien (intressant land i hur olika kulturer mötts under en förhållandevis lång tid med åtminstone viss bevarad "dokumentation" även om jag helst håller mig borta från de "tibetanska" områdena då jag inte önskar uppleva att någon tänder eld på sig själva när de hör att jag är svensk om nu Sverige kan ha uppfattats ha gjort eller komma att göra nu när denna ovana tycks ha gått till stabil och riskabel subkultur precis som jag varnade för och säger folk som följt attityderna nu med kraftigt reducerad påverkan: Att beräkna hälsa och militärkonflikt i pengar: II. Det är dags för Laman att pensionera sig annat än på pappret så att det kan bli ordning med faktiska möjligheter till att det tibetanska folket kan skapa maximalt värde genom förutsättningar för att nå frihet från det tortyr, förtryck och diktatur de liksom många i Kina är utsatta för).

Nordkorea: Kärnvapen och Jordskred

Har ej borrat för att bedöma om den förändrade vikt av "landslide" (ungefär ett jordskred tror jag) som möjlig samhällsfråga kreativt fritt runt symbolerna:


"power plant" . "\t" . "river" . "\t" . "\t" . "energy" . "\t" . "wind power" . "\t" . "wind turbine" . "\t" . "turbine" . "\t" . "technology" . "\t" . "nuclear";

Så tydligt fick när givna förslag bedömdes från följande kontext:


"military" . "\t" . "national security" . "\t" . "nuclear bombs" . "\t" . "north korea" . "\t" . "south korea" . "\t" . "terrorism" . "\t" . "sabotage";

Begränsat där den senare bedömning måste utgå från förslag skapade från den första gruppen av symboler där de frågor kontext söker fokusera runt ej fick framgå tyckte jag att den relativa i ordning ökning "landslide" fick var väldigt stor:


Värden till höger avser efter att vi viktat förslagen efter hur de stämmer in med sådana förslag vi just här är intresserade av som beskrivet med kontext.

Denna intelligens och detta data känner heller inte till nyhetshändelser. Utan det är relationer mellan koncept från kunskap bedömt via likheter och sannolikheter också indirekta tillämpat för att se ej redan känt. Det gör det lite svårare att bedöma rimligheten för en så pass ovanlig händelse om radioaktivt-läckage på katastrof-nivå vilket får sägas är vad som indikeras givet att de i topp som nådde en rimligt tydlig nivå tillsammans ser ut som de gör.


Inte helt lätt för mig att göra rimlighetsbedömning av men tar med den kortare egna kommentaren utan korrekturläsning eller modifiering för tydliggörande (tvivlar just på värde som kan adderas då jag kan inget om "landslides" lika lite i Korea eller någon annanstans) förutom att nämna att "Miss Blue" inte refererar till någon människa utan en modul i en maskin-intelligens:


Givealink.org: Att ta ut taggar och statistik för webbsidor

Antingen tror jag i , Google: Kvalitetsproblem och Statistik samförekomst koncept: Enkel metod för att förstärka värdet statistik från generellt språk ger vid tillämpning inom specialistområden eller Abstrakta och konkreta koncept (diskussion: "The semantic richness of abstract concepts") nämnde jag kort Givealink.org som bl.a. Indiana University är involverade i.


Potentiellt intressant är att de gör datat tillgängligt under en creative commonslicens. En del till deras information kompletterande frågor och tydliggörande finns nedan från e-post med en av medarbetarna för den forskningsinstitution vid universitet som driver projektet. Notera också den sista frågan jag precis e-postade och ej fått svar på och om någon har tips om liknande (i bredare mening) data tillgängligt ex. något liknande statistik sökord för webbsökningar över ett helt språkområde eller liknande eller jämförbart stort med Flickr över en innehållstyp eller publikationstyp vilken som helst så kommentera gärna här eller e-posta.


"On Wed, Dec 5, 2012 at 7:08 PM, Hans Husman husman.hans at_at gmail.com wrote:

Hi again Fil,

Would you know if your Givealink.org have the data in a CSV file for
download besides the API, or knew who to email to ask about it?

Best regards, and happy December
Hans"

Svar:


"2012/12/6 Fil Menczer [...] indiana.edu:
Dear Hans,

We only provide the GiveALink data through the API. The database is
quite large and complex, with many relationships (hundreds of millions
of page-page similarity links, for instance), so I am afraid that it
is not feasible to share the data in flat files. We might be able to
share a small sample of the data in a CSV file, if you specify exactly
what data you are after. In this case, please contact my student
Dimitar Nikolov (in cc).

Thank you and best wishes,
-Fil"

Mitt svar:


"No problem,

The size you indicate anyhow show it is probably worth the time taking
1/2 day or so programming the api-download.

It is mostly the co-occurancs between tag concepts that interrest me
and not by anyway association between them and the URL.

Also the association between tag words and a title heading either by
the human user or the actual web page. Is the later collected by the
service ready or do I need to do a fetch myself? If the later I might
also for news papers, articles and reference web pages try to take out
the association between the co-occurance vector of tags and the
overall article. Is it much such type of content regarding serious
knowledge and issues or is it mostly "popular culture"?

Thanks for your help anyway. I do feel you perform good and useful
projects in your area in the practical dimension even something for
other universitites to take inspiration from as research strategy.

Best regards
Hans Husman"

Och så den sista frågan jag skickade efter om statistik över hur API:et används också publiceras:


"PS

Another question: Do you save and publish statistics of the requests to the API? Such statistics if big enough would be quite interresting also. It is in a broader meaning general harder if you aren't Google or Bing and have a lot of search requests to get that sort of feedback to content.

If not would you be able to do so in the future with logs of today if you for example got financing for another Phd student or such?

Best regards
Hans"

På tema av den sista frågan gör jag för egen del när jag hämtar ut större datamängder en försvarlig mängd whitening i request trots att det kostar ordentligt i extra-tid. Ex, körande en mängd relationer från en datakälla jag förkastat p.g.a. inkorrekt extrahering eller lågkvalitet samtidigt. Dels ger det statistik jag ändå har användning av potentiellt längre fram eller för sammanfattande värden, och vidare ökar det kostnadskomplexiteten att analysera dina requests ordentligt. Sista större insamlingen körde jag ex. tror jag 500 000 relationer (ev. att endast cirka 75 000- 3000 000 gick klart d.v.s. i så fall totalt ca 1 miljoner förfrågningar inräknande koncepten utan relationerna +/- några hundra tusen) ej i övrigt data från en misslyckad dataimport från Google's nyligen inköpta Freebase.


Något verkligt behov av att göra på det sättet tror jag sällan är fallet ens när analys är möjligt. För egen del betvivlar jag ens att ett problem skulle existera om förfrågningar publicerades men vi kan också se det som en god vana och också att även om ett problem ej finns med att det analyseras kan ju ett värde ligga i att någon som har motiv att göra det ödslar tid på överdrivet mycket irrelevant data.


På samma tema förvånar det mig egentligen (lite i alla fall) att Google tar betalt för att göra förfrågningar. Även om vissa typer gäller för vad som annars kan stärka konkurrenter olämpligt gäller det inte mycket annat liknande data där statistiken förfrågningarna i sig rimligen borde kunna förstärka deras ännu misstänker jag mindre lönsamma applikationsssatsningar och cloud-koncept ungefär som sökordsstatistiken förstärkt deras Adwords- och Adsense-affär. Ev. är de fåtal (åtminstone som fanns förr när jag prövade api:et ett par dagar innan jag tröttnade på att gå in i gränsen för antal requests) antal fria förfrågningar tillräcklig för att ge dem balanserad statistik? Eller tillräckligt för utveckling av kunskapsdomänen om hur sådan statistik används (vilket är önskar jag i alla fall lätt avundsjukt kring möjligheten är ett smärtsamt stort problem när man väl har sådan statistik). Allmänt gäller dessutom att Google:s api:er relaterat sådant här är väldigt funktionsdrivet specifika för dem förtådda och accepterade tillämpningar ex. sajtsökningar initierad av en surfare snarare än att gemöjlighet till kreativitet i business-2-business utanför redan välkända lösningar (när man inte vill betala för datat och även då begränsat). Praktiskt begränsande torde alla möjliga affärsmodeller relaterade att tjäna pengar på Google:s befintliga affärsmodeller genom att stoppa in data i Google och/eller tappa ut data från Google vara men för komplext data och data ej relaterat ranking tror jag dom är överdrivet försiktiga.


Givealink.org: Mer om tjänsten

Bra teoretisk introduktion:


GiveALink: Mining a Semantic Network of Bookmarks for Web Search and Recommendation (PDF)


Här hittas nyheter m.m. publicerat av Indiana University om Givealink.org:


cnets.indiana.edu om Givealink.org

Prediktera nyhetshändelser från WikiNews eller Twitter: Från Open Source Indicators till Libyen

Via Researchers study new ways to forecast critical societal events, Indiana University uppmärksammade jag Open Source Indicators (Intelligence Advanced Research Projects Activity, DoD).


Relaterat hos Indiana University finns ett flertal projekt inom data mining inklusive samlande av länkdata, och tidigare det fungerande och i sitt segment välgjorda systemet för att följa "luriga" Twitter-trender: Spåra Twitter-bomber och förtal på Twitter.


Vid en ytlig snabbtitt verkar OSI konceptuellt likt en hel del något så när jämförbara projekt som försöker skapa värden från data som publiceras i snabbare (i relation mot ex. traditionella nyheter som görs ofta under längre tid och publiceras av färre aktörer) takt från väldigt många individer för att få vetskap om vad som händer i världen och vad folk menar eller implicit berättar om vad de tycker och känner inför saker och ting.


Utan tvekan finns mycket värde att hämta inte minst från sociala nätverk. Inom en del uppmärksammade data mining områden ser jag dock relativt beräkningskostnad mindre värde jämfört med andra långsammare datakällor och vad man innan tror jag i allmänhet inte förväntar sig särskilt attityder till specifika mer tydligt avgränsade koncept t.ex. en produkt.


För att ta upp indikationer händelser och också förändring i en bredare mening (ev. och vad jag tror inkl. vissa former av förändring rörande vad som i förra stycket togs som exempel på svårt att mäta men då när vi har grunddata att "normalisera" kulturspråket), och se vad som sker i dom många mindre detaljerna tror jag dock att denna typ av data är mycket intressant.


Flera av dom ofta indikerade svårigheterna och utmaningen är dessutom menar jag för dessa datakällor vad man kan komma ifrån ganska enkelt bara man vågar att ärligt beräkna datakvaliteten för större Twitter populationen och därmed inte onödigt översampla stora mängder data som inte tillför värde relaterat händelser och förändringar som berör många personer.


Samtidigt tycker jag att andra datakällor som i princip aldrig dom senaste åren diskuteras i dessa områden för prediktion är potentare. Ev. är det tänkbart att jag längre fram diskuterar det med exempel men inte just nu då den sista djupare fallstudie jag gjorde antagligen vara tidigt under sommaren förra året på en äldre sämre plattform. Algoritmen där använd är brutalt långsam (även om den på nya datorn bör gå smidigare) så just denna typ av operation är inget jag gör i onödan och dess praktiska värde var då huvudsakligen att förstå en del egenskaper i kunskap samlad om relationerna mellan koncept. Försöket i sig är dock tror jag talande för vem som helst med stort intresse av denna typ av prediktion. Snarare än som normalt senare i nyhetsanalys användes ej data från de flesta större engelsk-språkliga tidningar, stora journaler m.fl. entiteter utan endast ett corpus byggt på vid tidpunkten nästan alla nyheter publicerade på WikiNews. Ingen hänsyn ordning mellan koncept utan endast deras co-occurance med direkt och indirekta relationer till andra i tid och rum ex. via feature relation expansion där deras påverkan kan mötas via koncept kanske ej direkt förekommande i någon nyhet.


Värdet det som försök kan ha väljer jag att uttrycka som att många av de världen Twitter m.m. diskuteras som potentiell indikator av och endast i någon begränsad omfattning bekräftats för i "efterhands-prediktion" kan man ta upp via en annan struktur-väg via dessa lite långsammare datakällor. Nyhetshändelser tenderar att vara besläktade. Även när de ej är uppenbart besläktade i orsak kan ändå gemensamma faktorer finnas och sådana gemensamma faktorer kan både vara indikerande utan att vara direkt kausalt-utlösande eller vara en kulturell indikation om en gemensam aktörsfaktor o.s.v.


Mycket av det värde många inom forskningsvärlden ser i Twitter för det har jag en känsla kan bero av att mycket mer ordnings-koncentrerade personer än jag är annat än programmerande eller tar på mig min mentala tyska vita labb-rock för att med atom-bombs total exakthet mäta något (och då mer inlärt än naturligt) är för Twitter med liknande givet dess förutsättningar lättare prövar vägen att ej försöka ta ut exakta meningar ej ens intressanta att propagera uppåt över populationen publicerat utan lättare direkt hamnar i att fånga övergripande mening lite luddigare men därmed också vad som går att statistkst automatiserat lättare resonera i hur det kan inverka och påverka andra inte minst minskande problemet av att alla tolkar och använder begrepp lite olika. Den möjligheten finns dock också för nyheter och i noggrannare dokumenterad fallstudie bedömt från analys på WikiNews-corpus vilket med största säkerhet är en datakälla med väldigt lågt värde jämfört med att ex. samla hela Reuters, alla större engelska tidningar eller jämförbart på en normalare nivå.


Det känns ej korrekt att indikera vad man kan förvänta sig i nyhetsprediktion då det inte minst är beroende av stödjande datastruktur för relationerna, område, hur breda eller exakta koncepten man tittar på resp. dessas antal och hur de är besläktade med varandra. Ej heller vill jag indikera en möjlighet som kanske känns förbra. Men i "någon mening" är det inte orimligt att förvänta sig prediktion av nyhetshändelser i konceptuell ämnesmening (d.v.s. ej händelser i en stad rörande bankrån på en gata eller liknande men däremot att ett ämne växer och oväntat dyker upp tillsammans med ett annat o.s.v.) cirka fem dagar (upp till) i förväg.


En kraftig begränsning praktiskt jag haft är att lösningen jag sist gjorde för analysen tenderar att bli psykotiskt efter cirka fem dagar och drar slutsatser där samband "sprids" lätt maniskt överdrivet utåt på en ej hanterbar nivå med inbillningar i form av falska samband och förstärkningar som effekt, och därav att jag ej vill sia om hur sådant här fungerar längre än så. Dock utan det problemet är det rimligt att förvänta sig att möjligheten ska finnas kvar men reduceras i exakthet eller omvänt hur allmängiltiga och breda koncepten vi kan bedöma är växer enligt något samband (troligt exponentiellt väldigt snabbt växande med gissningsvis bara rena trivialiteter jämfört med kurvskattning för ämnes-trend efter kanske 10 dagar).


Den motsatta sidan Twitter m.m. kan användas till är också från vad vi nog vanligen associerar sociala media till även lite förvånande: snarast det mer exakta. Att vi ser konton på Twitter som sensorer (starkt på väg till tekniskt buzz-word inom data mining) och söker längre ifrån vad jag ovan föreslog att nyheter är bättre till avgränsade ganska konkreta händelser: A gick till läkaren fick en vaccination vid tiden Q1, A somnade 11 ggr / dag de senaste 90 dagarna o.s.v. för att ex. ta upp indikationer om överraskande väldigt nya biverkningar (jfr narkoepilepsi skandalen som säkert inte inträffat om ansvariga myndigheter prioriterade över hälften av den tid och resurser de lägger på att förklara hur verksamhetskritiska de är för svenskarna genom att noggrant värdera risker istället för att utan relevant värdering besluta att ingen sådan värdering i det aktuella fallet behövs trots att deras egen historiska statistik indikerar att man just här behöver det alt. formalisera hur kanske inverkande samhällsekonomiska värden rörande sjukskrivning påverkar vilket i sig ej är ett problem om uttalat och strukturerat).


Här gäller istället att varje enskild händelse mer exakt behöver kunna bedömas. Att vi konvergerar till en tydlig tolkning. Dock gäller när vi samlar många att så längre vi vet hur ofta vi tar fel och att det inte är orimligt ofta behöver det inte vara särskilt svårt eller kräva enorm sampling.


Specifikt för Twitter är ju ett praktiskt problem att det är svårt att ta ut Tweets publicerade för olika tidsperioder och indelningar. Enklast praktiskt upplevde jag själv att det var att gå numeriskt bakåt och titta på hastigheten antalet Tweet för en samplings-period publiceras men vilket vid tidpunkten jag skrev koden också hanterade en del andra Twitter-problem som kan störa datat.


Möjligen av intresse för en del läsare givet att vi också hade Libyen som en liten fallstudie vars frihetskrig vi följde och kommenterade här finns en hel del Twitter samplest tror jag från perioden innan revolten bröt ut. Kanske intressant för någon road av att försöka se sådana händelser då det ej är otroligt att det sample som söktes ut är lite intressant runt det och för Twitter ibland bökigt att återskapa i efterhand som nu längre bak i tiden och som sådant ev. också som ett enklare exempel för vad diskuterat runt nyhetsanalys och dessutom känns det lugnare att ge data från sådant här givet att det både mindre värde och väsentligt lägre komplexitet. Formatet på datat förklarar sig själv. Vid denna tid hade jag ännu ej standardiserat på tab-separerade CSV vilket gör datat enklare att läsa också som människa. Statistik m.m. samlat från fallstudier jag ej använder tenderar att vara "sorterat" i flera samlingar av underkataloger inte helt lätt alla gånger att hitta fram till vad man söker men jag tror att detta blev rätt Twitter-data (särskilt som jag tror att endast tre Twitter-Libya Corpus finns i "arkiven"): libya.tar.gz (via Google Docs).

Google: Kvalitetsproblem och Statistik samförekomst koncept: Enkel metod för att förstärka värdet statistik från generellt språk ger vid tillämpning inom specialistområden

2012-12-05

Eftersom det "konkret" känns som att jag kan få en del nytta av studien diskuterad i inklusive. ev. två referenser (en jag ej sett indikerande något intressant och en jag vet är intressant men totalt glömt bort och ev. ej utnyttjar indikerat värde) ska jag för gott karma och också balansera läsarens bild av mig så att inte bara den fördomsfulla komikern ej främmande för att girigt glädja sig själv med vulgariteter bidrar jag har med ett enkel men mycket potent möjlighet för att kompensera för en av de största statistiska utmaningarna i lingvistik och data mining bredare.


Samtidigt för att inte bara visa upp den generösa själen som inte är rädd för att verka omanlig genom att dela med sig av sin kunskap och med kirurgisk exakt rocket-science skapa möjligheter för vanliga människor att lösa avancerade problem, är det viktigt att jag understryker det kalla affärssinne - likt vargskräcken innan elnätet kom bland mina konkurrenter eller "fiender" jag brukar kalla dem - genom att göra karma balansering på svenska istället för engelska och därmed utesluta de flesta läsare (kan gudinnorna och gudarna värdera ner dig för att du använder språket från landet där de lät dig födas? Knappast så jag lär få min karma belöning trots det) och genom att ge kunskapen som en bild så att den ej blir allt för enkelt tillgängligt för alla som söker information (människan är ett flockdjur och det är rimligt att anta att det också är gudinnans större plan med människan och därför att riktat bidra lite extra till den egna flocken bör även om det skulle visa sig felaktigt knappast när det är så pass rimligt minska karma-belöningen). Och som bonus för mina läsare visar jag i mötet mellan på en sidan av vågskålen (en vågskål jag med kompetent medmänskligt affärssinne sätter handen på för att alltid få vikterna att komma rätt) karma tillsammans med en spirituell balans där vi vågar ge och på den andra det evolutionärt riktiga mitt kallt-beräknande höggradigt effektiva sinne, tillsammans den moderna företagsledare världen idag söker både som problemlösare och förebild. Ett bonus-värde som bör förklaras för att alla ska förstå är att här skrämmer jag dessutom upp Google - särskilt medarbetarna med alla deras optioner som i ett feldrag av företagsledningen öppnat upp dem för denna typ av påverkan - genom att demonstrera vem som är alpha-male i deras kompetens område. De vet att om de springer över min fot kommer snart en kraftfullare sökmotor - kanske beskyddad genom en väpnad samling karma av rent av övernaturliga varelser - som klarar mer än 1-grams prediktion.


En utmärkt sammanfattad diskussion om problemområdet vi här ger en enkel lösning på finns i Foundations of Statistical Natural Language Processing. Ännu kortfattat gör språkets enorma flexibilitet och kreativitet att vi alltid lider svår brist på statistik om ord, koncept, deras relationer o.s.v. I lokala NGRAM på nivå samexistens i en mening är problemet för språk allmänt tämligen begränsat för varje person med tillgång internet och en modern dator.


När vi också behöver statistik om relationer mellan koncept på längre avstånd än några ord bort expanderar snabbt mängden data vi måste analysera. Sista försöket att uteslutande generera sådan statistik (typen P ( koncept A tillsammans med koncept B | kontext ) ) uteslutande från data som fanns lokalt på min dator inkluderade om jag minns rätt totalt 90 Giga byte data från bl.a. CiteSeer-X, flera av de journaler som publicerar fritt, Wikipedia och flera taxonomier och thesaurus i områden som kultur och geografi. Statistiken från den genereringen kastade jag bort därför att datamängden var ej tillräckligt för att ge ett värde jag inte redan hade.


Efter det för att bygga grund-plattform avseende statistik samlar jag istället in den direkt eller indirekt från närmare "allt" människan publicerar på nätet (faktisk metod är väldigt komplex inbegripande många frågeställningar att diskutera så jag avstår nu och helt säkert för all överskådlig framtid att diskutera hur jag gör förutom ett indikera en av ett större antal metoder eftersom jag tidigare nämnt den d.v.s. "indexeringen" av Department of Defence, USA, all publicerade forskning, rapporter m.m. tillgänglig på webben avseende nyckelord bedömt relevant). Samt ta in djupare statistik för avgränsade områden bedömda viktigare (ex. relaterat publicering av visuella uttryck som bilder, filmer, konst o.s.v.).


Nackdelen med sådan allmän statistik är den är optimal för att efterlikna den genomsnittliga människan. Inom specialistområden är den mindre bra. Metoden för att extremt mycket bättre dra nytta av denna statistik också för specialistområden finns kortfattat förklarad i bilden nedan (skärmdump av kod-kommentar). Klicka gärna på bilden för att läsa lösningen (punkt tre byggd från punkt två innan).



Genom att använda similarity där värderingen av feature relationer mellan ett koncept och andra koncept är utvalda från förståelse av kunskapsdrivna relationer (ej ett svårt problem p.s.s. rörande datakällor) och med värdering av features bland annat genom existerande P ( A | B ) statistik, tillsammans med ett intensitetsmått som korrekt värderar och skattar dom relationer vi utnyttjar (för att "skala" världen rätt så att säga mellan avbildningen i feature relations relativt statistik för co-occurance), får vi en praktiskt fungerande motsvarighet till P ( A | B ) vi kan använda på ungefär samma sätt med hög kvalitet för relationer vi annars hade saknat meningsfull statistik för. Värdet ligger ungefär på nivå att för områden välutvecklade i antalet feature relations klarar denna algoritm av att skatta P ( A | B ) värden i direkt frekvens på nivån att det inte behöver ligga mer fel än ofta cirka 2 gånger rätt svar (vilket kanske är ungefär felnivån för frekvensdatat ett steg åt vänster så att säga d.v.s. inverkande på första värdesiffran emedan normalt fel ligger i andra - i båda fallen när vi gör väldigt försiktigt konservativa datakvalitets bedömning).


En begränsning av metoden jag ej teoretiskt varit 100% säker på och därför själv på flera sätt försökt komma runt är att statistiken vi förstärker värdet av i specialistområden i "typ-form" behöver stämma med användningen. Är vi ex. intresserad på samexistens i ett kontext behöver det vara sådan statistik. Eller mer konkret för mina användningsområden har Google NGRAM där statistiken kommer från mycket lokala kontext nere på meningsnivå ett mycket begränsat värde (ett undantag finns från det som jag teoretiskt heller inte fullt förstår även om det mycket troligt är relaterat till konvergens per ord relaterat mening diskuterad i Ord som konvergerad mening: när varje koncept är 1-gram och relationerna mellan koncept vi söker är mycket nära normal thesaurus fungerar åtminstone 3- och 4-grams statistik utan hänsyn ordning och utnyttjande av hela ngrammen för statistik generering utmärkt när vi normaliserar för koncept existerande snarare än alla orden).


På samma tema som begränsningen av möjligheten att ta "lokal" NGRAM-statistik vidare ligger spekulativt en vad jag upplever sedan ett antal månader försämring av hur väl Google för specialistområden klarar att prediktera nästa ord i sökrutan (något jag använder väldigt ofta som del av hitta tillbaka till saker, rättstava, komma ihåg vad artiklar heter o.s.v.).


Möjligen kom den upplevda försämringen ungefär samtidigt som Google också blev konkret bättre på named entity recognition jfr exemplet nedan där de förstår att Department of Defence som sökord är samma sak som DoD i Common sense: Arkitektur.



Vad är problemet jag upplever med Google här? Att prediktionen övervärderar statistik från co-occurance i meningsbyggnad och lokala relationer på meningsnivå. Ev. har Google blivit bättre på detta men om så är det egentligen ingenting jag märkt då jag mer sällan söker på det sättet. Rättstavningen jag använder detta till också upplever jag var bra innan och är inte bättre på länge på något sätt jag märkt.


Däremot upplever jag mer säkert har istället prediktionen för sökordskombinationer när vi ligger närmare vad som motsvarar statistik av typen här diskuterat blivit sämre. Ex.
sökords-koncept från olika kunskapsområden men relevanta i något sammanhang, viktiga koncept från i näraliggande kunskapsområde höggradigt relevanta ex. för en forskningsartikel man söker hitta tillbaka till (ex. ett begrepp i titel tillsammans med en eller två samma eller motsvarande studiens taggar journalen publicerat den med)


En intressant fråga är om samma försämring också gäller samma typ av sökordskoncept men inom populärkultur (eftersom det där är givet att ordentligt med statistik direkt från sökningar finns). Det har jag ej kontrollerat. Ändå misstänker jag lätt att en delorsak till förändringen jag upplever är att Google värderat ner statistik från faktiska sökningar och tagit in NGRAM-statistik.


Ett förenklat exempel på tror jag samma problem som inför diskussionen om vad vi kan lära från det här bättre tydliggör har vi från när jag söker på ANEW. För 2-gram a new gäller att associationen mellan 1-gram a och new är enorm: vi skriver väldigt ofta a new. Att som Google direkt tolka om till a new (här utan kommentar ev. relaterat att de är så säkra på att jag skrivit fel eller att a tidigare hos Google var stopp-ord och fortfarande är det för en del men inte alla algoritmer) är dock helt fel eftersom vad jag söker efter heter just ANEW. Och det är dessutom vad jag sökt efter flera gånger och på bloggar identitets-bundna till samma konto jag söker med skrivit om medan jag aldrig sökt efter a new och såvida det inte är en populär film eller bok tvivlar jag på att särskilt många andra heller gör det. Ex. Plos One klarar dock utmärkt av sökningen.


Google tolkar anew helt felaktigt och ger irrelevanta sökresultat. Förutom första sökordet när site:edu får hjälpa till är inget av sökresultatet topp-tio vad som avser konceptet jag sökte efter.
Fotnot med kommentar till sökresultatet: Resultat tio är särskilt intressant: Constructions: a new theoretical approach to language. Så vitt jag såg avser artikeln ej något relevant ANEW men tycks ju åtminstone ligga nära i kompetensdomän. Gissningsvis speglar det att Google här använder statistik från mina tidigare site:edu sökningar eller sökningar bredare indikerande att sådan statistik ännu kanske bara får utrymme kompletterande på låga positioner ev. oftare när tvetydighet eller omtolkningar görs.

Att Plos ger relevanta sökresultat bör ej förklaras med deras som publicist flera världsledande journaler stora kunskapsbank relaterat forskning. Det ska här ej göra någon skillnad eftersom de publicerar fritt för alla att indexera samtidigt som det kontext vad de publicerar beskriver ligger mycket nära vad jag söker efter många gånger mer eller mindre dagligen.


Plos ger relevanta sökresultat.

Och för NGRAM-statistiken att de gått in i (menar en del t.ex. jag) myten om att NGRAM-statistik byggd över längre NGRAM ej adderar något värde. Längre NGRAM-statistik adderar ej värde enligt användning motsvarande beskriven i de studier som konstaterat att värde bottnat ut vid 5-gram och att värdet 5-gram ger framför 4-gram är ytterst begränsat. För hur folk namnger webbsidor, kombinerar sökordsområden o.s.v. är det dock givet att värde finns att hämta ordentligt för tydligt längre NGRAM också när tillämpningen primärt är som nu närmare meningsbyggnad. Jag inte tror men känner ibland att statistiken heller inte är 4-gram, och kanske att de ofta för att optimera och göra prediktionen väldigt snabb endast utnyttjar 1-gram och om algoritmen tror sig ha fått en tydlig träff nöjer sig med det. I så fall kanske problemen helt eller delvis har att göra med att man för flera sökordsområden faktisk inte i 1-gram och 2-gram kontext kan bedöma om prediktionen man där gjort är så pass tydlig att statistik från längre NGRAM ej behövs tillsammans med hänsyn till NGRAM-bakåt i sökord avseende samma sökning tillsammans med föregående närstående sökningar indikerande kontextuell domän (mest konkret när indikationer att användaren ej kommer rätt ändå uttrycka en ungefärlig mängd där tidigare sökningar troligt uttrycker relevant similarity i meningen att vi kan avgränsa i kontext och över flera förfrågningar dra slutsatser pekande mot vad som är rätt ungefär som named entity exemplet men i sökrutan istället för indexerade dokument och som slutsats skapad från ej lokalt data).


Frågan är vad motivet till förändringen är om orsaken ligger högre upp mer konceptuellt? Kanske att Google i så fall försöker optimera värdet all statistik för ord som lexem kan ge inom områden som ligger längre ifrån deras kärna (också i meningen att ex. deras anställda neurologiska experter kanske har mindre erfarenhet av språkanalys). Förutom Google NGRAM jag ej vill utesluta att de använder till sådant här kan det även gälla statistik som MRC Psycholinguistic Database eller ANEW (som välkända exempel men ej för ANEW rekommenderat utan åtminstone kombination med annat data och dimensionsförändring, och vidare gäller att deras mer begränsade publicering av datat gör att färre använder det vilket medför att kvalitetsproblem mer troligt kvarstår - jag känner själv till problem de från perspektivet psykologer ej insett att de gjort - jämförbara med vad som upptäckts i mycket annat liknande efter att de började att publiceras fritt). Personligen tror jag att det är ett misstag delvis relaterat vad som diskuterades i Abstrakta och konkreta koncept (diskussion: "The semantic richness of abstract concepts") rörande behovet av att transformera och/eller konvergera från ord till ett meningsfullt övergripande koncept för att klara att ta värde i ett dokument vidare ut från det (sökning i eller efter ett enskild dokument har ej varit ett svårt problem på flera år annat än för optimering av CPU, minne och hårddisk när budget är begränsad), också därför att jag sedan flera år har ett starkt bias mot att hellre se koncept - 1-gram, Ngram, bild, foto, konstverk, varumärke, byline... avser det samma sak är det lite av men inte exakt samma sak - oavsett representation snarare än ord:


"Att i sig utnyttja emotional potential eller för den delen egentligen allt tänkbart data som kan härledas från free-association norms m.m. liknande per ord statistik (se ex. MRC psycholinguistic database för ett antal trevligt samlade) är praktiskt för ex. nyhetsanalys väldigt meningslöst under förutsättning att vi ej också i motsatt riktning till hur övergripande mening påverkar lokal konvergens till mening kan göra en transformation av vad dessa samlat i ett kontext indikerar om tolkning och betydelse för den övergripande mening kontext konvergerar till (ett trivialt exempel kan vara vad en Wikipedia sida handlar om som mening övergripande kontext konvergerar till i betydelsen av hur vad som sägs på sidan påverkar läsarnas attityd, tolkning och förståelse av det övergripande konceptet).

Ett parallellt till både Blue Light Intensity och Emotional potential också använt är News Power som indikerar den emotionella tyngden (angenämt, otäckt m.m. i den dimensionen oavsett typ som ökar känslan i ett ämne eller en text), För alla tre (och många andra dimensioner också nödvändiga) görs just en transformation till övergripande koncept."


Kortfattat: Vilken mening med i ett visst situations-kontext "överför" ex. bilderna i en Wikipedia artikel till det koncept hela artikeln handlar om för personer i ett visst kultur-kontext och med vilken sannolikhet?


Hela den här diskussionen är ju dock uteslutande från mitt perspektiv. Vad som är optimalt för de flesta eller inte otroligt nästan alla användare av sökmotorer har jag ingen aning om. Och inte heller är detta särskilt viktigt för mig (jag är snarast mer "engagerad" - i modern jag bloggade om det en gång mening - i diverse inställningar Google inte klarar av att göra ex. addera Scholar bland övriga sökmöjligheter och göra gränssnitt från Scholar till övriga Google samma som för alla andra sökfunktioner istället för att de har kvar ett nu flera generationer äldre gränssnitt, sätta längre videoklipp som standard givet att jag aldrig annat än av misstag sökt på något annat m.m. liknande som mer regelmässigt stör mig av och till periodvis dagligen liksom att addera rankningsbelöning för att man tar sig tid och ger Google kritik och indikerar problem m.m. för att demonstrera att de välkomnar sådant och inte döljer bloggpostningar långt ner ex. här ge denna första platsen säg tre veckor på några viktiga sökord som Google, Statistik och Språk eller vad som nu bedöms relevant).


Relaterat

För den som vill lära mer om området eller oavsett kunskapsdomän helt enkelt inspireras av ett för bloggpublicering välgjort koncept inom Freedom och Knowledge Sharing inför ett eget projekt rekommenderas:


Min svagheter: Att brottas och förlora mot omoral för att göra sig lustig (ej lämpligt för barn, äldre, en del kvinnor och andra känsligare läsare)

2012-12-04

I ett i slutändan helt misslyckat och negativt inverkande försök att göra något åt mina moraliska svagheter reflekterade jag i dagboken över hur jag gjorde mig lustig tidigare om den negativa stereotypen kring homosexualitet stark i det militära där man verkligen kan mena att mina skämtteckningar som ofta fallet kring negativa stereotyper i den mån de har någon inverkan alls är den negativ oavsett om man i något fall åtminstone lätt efterkonstruerande använder det som exempel på vad som är.


Hur jag senare nöjd över hur en tecknings- och skämtamatör ändå kunde fånga något av den negativa stereotypen gjorde jag ju dessutom om det hela igen (alla teckningar inkl. denna och en diskussion kring dem finns i Amerikanska Inrikespolitiken Sexual Deviant om Utrikespolitiken - redaktionellt rätt vore ju att återpublicera dem här men det känns lite fel givet temat här) vilket får inleda citatet ur dagboken:


"[...] så motivation var endast att jag kände personlig nöjdhet över hur fyndigt komiskt relaterat en negativ stereotyp - ett personligt intresse - skämten var. *Lite* som en gas-uppfinnare som nöjd över sitt mass-mordsvapen tillverkar en mer effektiv lite smartare zigenar / judisk / Rysk o.s.v. massmordsmaskin.


- Nå men jag diskuterade ju trots allt risken att atrocities kan uppträda om folk använder maskinen för vad jag konstruerade den för. Faktiskt förklarade jag ju att sådant är fel och olämpligt. Så då gör det ju ingenting om jag bygger en till liknande maskin lika fyndig och tekniskt spännande.


Rättviseprincipen kräver nu dock att man göra samma sak mot judar, afrikaner, kulis, svartingar i bredare meningar, sand-negrer (rätt term?), gulingar, rödskinn, kvinnor, barn, gamlingar m.fl. marginaliserade svaga grupper vi alla bättre borde känna ett ansvar för att hjälpa istället. Homosexuella blir orättvist försvagade därför att jag gör mig lustig genom skadan på kognition skämten runt negativa stereotyper utlöser och ökad risk för våld och diskriminering. Deras evolutionära konkurrensfördel i kampen för genetiskt-spridning blir nedsatt på bekostnad av gamlingar m.fl. som får möjlighet till att generera ett större genetiskt avtryck."


Och nedan direkt som citat fortsatt inser jag att jag gjort precis samma sak och känner mig fullt jämförbart nöjd över hur fyndigt jag tycker skämtet jag hamnade i var trots att det är direkt osmakligt:


"Fuck. Nu känner jag uppblåst nöjdhet hur fyndigt rolig jag är på bekostnad av den utan andra metoder än vanligt för heterosexuella åtminstone rörande personer direkt involverade i mating enheten sprida gener."

Mer amoral än omoral kanske? En teoretisk och mät-praktisk förståelse av att motsvarande skämtteckningarna i den mån ett mätbart antal läser dem faktiskt gör skillnad oavsett om som exempel är negativt inverkande men samtidigt i den akuta situationen tillfredsställt nöjd över att jag lärt mig att göra skämt om än osmakligt grova.


Till nöjdhet över upplevd skämtförmåga kan man mer värde-neutralt (?) addera tillfredsställelse över att motivera och lära läsarna i hur de kan bli lite bättre som människor genom att reflektera över min hårda kamp mot enstaka små defekter i det större konstverk min idé- och moralvärld lyser upp världen med. Kanske vad som kan bli ett återkommande blogg-tema av och till? Som ej väckelse-kristen eller medlem i AA har man ju annars så få naturliga sociala kanaler för att låta världen lära av ens svagheter.


Att skämta om män och präster har jag fått för mig inte är fel på samma sätt? Korrigera gärna om jag har fel här. Så vi citerar in den här skämtteckningen jag gjorde på det temat istället för någon av de moraliskt tveksamma från Komiska teckningar kompletterande:


"Listan i Skämtteckningar av Hans Husman på Hans Husman om Media kompletteras här med SVD & Värde vilken jag tror missades. Teckningarna publiceras också nedan då det endast var ett par stycken."



Abstrakta och konkreta koncept (diskussion: "The semantic richness of abstract concepts")

Att kort kommentera och diskutera några aspekter för ämnet till The semantic richness of abstract concepts är tror jag meningsfullt eftersom resultaten i publicerad forskning konkretiserar en del av de fallstudier och härledningar som förelåg flera av de grundläggande egendimensionerna både till Warrior och efterföljande.


Jag gör det i meningen att jag kort pekar på några saker i närområdet för studien från mitt perspektiv meningsfullt "kompletterande".


Kort inledande: Ord som konvergerad mening

Först kort inledande låt oss konstatera att vi tenderar att behandla ord som enheter vi kan konvergera mening till, och där dessa kan samspela med varandra. Det utesluter dock inte förekomsten av mer "operator-liknande" konstruktioner i språket (jämför gärna också med och inkludera "feature-system" liknande Verb net i konstruktioner mer av operator-natur styrande andra ord och hur ord kombinerar) men vi behöver tror jag inte för någon kommentar inkludera sådana operatörer.


Om vi så vill kan vi säga att ordets konvergens potentiellt är entydigt - konkret - (om vi inte är baffled av meningen) medan dess samspelande konvergens till mening med lokalt och globalt kontext är abstrakt. Abstrakt i betydelsen att ex. vad en enskild mening konvergerar till för meaning kan styras av faktorer utanför meningen som kan varieras.


Free-association norms

Vi utgår från följande citat:


"The three variables considered by Pexman et al. (2008)—NF, CD, and NSN—are not the only ones that have been investigated as measures of semantic richness. Yap et al. (2011) extended this work in several ways. First, they included additional variables that had been proposed in the literature as indicators of semantic richness: NoA (Duñabeitia et al., 2008) in the Nelson et al. (1998) free-association norms, and lexical ambiguity, which they operationalized as a word's log-transformed number of senses in WordNet (Miller, 1990). Second, they used alternative CD and neighborhood measures that had been calculated on larger corpora and accounted for more variance than previous operationalizations of CD and NSN."

Free-association norms tillsammans med mer data av samma typ (free association norms i sig är tillräckligt data men mer av annat liknande men inte samma typ av data krävs för att rätt klara att få ner det till viktsystem vettigt) var vad jag byggde viktsystemet emotional potential ifrån. Beroende av riktning är ett ord vi är mer benägna att associera till snabbare mer sannolikt och från fler ord potentare. Statistik oavsett rörande vad vi associerar till och respons-tider finns i princip endast för ord.


Från emotional potential skapades utvecklat (ej byggt på samma typ av data eller data härlett i emotional potential) Blue Light Intensity som söker uttrycka hur benägna vi är att "associera" i "kulturell" / "social" mening sett i referensinformation (ex. publicerade studier, ontologier, thesaurus, verksamhetssystem o.s.v. uttryckande meningsfulla och komprimerat sammanfattade tillståndsövergångar avspeglande mänsklig kunskap tillämpad) vi är att associera från ett koncept till ett annat koncept med ett känt existerande samband mellan dem.


Att i sig utnyttja emotional potential eller för den delen egentligen allt tänkbart data som kan härledas från free-association norms m.m. liknande per ord statistik (se ex. MRC psycholinguistic database för ett antal trevligt samlade) är praktiskt för ex. nyhetsanalys väldigt meningslöst under förutsättning att vi ej också i motsatt riktning till hur övergripande mening påverkar lokal konvergens till mening kan göra en transformation av vad dessa samlat i ett kontext indikerar om tolkning och betydelse för den övergripande mening kontext konvergerar till (ett trivialt exempel kan vara vad en Wikipedia sida handlar om som mening övergripande kontext konvergerar till i betydelsen av hur vad som sägs på sidan påverkar läsarnas attityd, tolkning och förståelse av det övergripande konceptet).


Ett parallellt till både Blue Light Intensity och Emotional potential också använt är News Power som indikerar den emotionella tyngden (angenämt, otäckt m.m. i den dimensionen oavsett typ som ökar känslan i ett ämne eller en text), För alla tre (och många andra dimensioner också nödvändiga) görs just en transformation till övergripande koncept.


För det är det intressant att notera att emotional potential adderar värde som ej uttrycks av övriga om än naturligt för ett viktsystem som egentligen ej längre efter skapandet av Blue Light Intensity och News Power längre utvecklas samlat väsentligt mindre.


Abstrakt och konkret från norm-system till viktsystem igenom transformation

Jag har vid några "oberoende" tillfällen också försökt ta fram viktsystem från jämförbar statistik avseende hur abstrakt och konkret koncept här (aktuellt data är om jag minns rätt inkluderat i MRC psycholinguistic database). Min erfarenhet av det har varje gång varit att det inte resulterar i några möjligheter eller jämförbart med övriga viktsystem ens kommer i närheten av att vara vad man kan se tänkbart hade kunnat vara meningsfullt.


Ev. är meningslösheten i det att förvänta därför att tänkbart försöker man i det transformera något som är beroende av relationer snarare än ex. för "free-association norms" handlar om benägenhet att endast byta tillstånd oavsett över vilken relation. Bäst låter jag dock det vara osagt då jag (lätt generande egentligen givet att jag nog lade en vecka totalt runt det här) egentligen aldrig redde ut exakt hur man skapat värdena jag försökte utnyttja.


Mer abstrakt i referensinformation

Det i referensinformation i särklass bäst fungerande måttet på abstrakt för situationer när vi endast betraktar mening i symbolerna åtminstone så långsamt föränderliga att aktuella nyheter för sista månaderna upp till året i nyhetsanalys ej är vad vi behöver beakta är Blue Light Intensity (BLI) för konceptet i sig utan transformation från ex. nyheter överförande påverkan. I det fallet beräknas referensvärdena för BLI beroende av konceptets relationer till andra koncept under ett antal epoker där övriga koncepts tillfälliga BLI i varje steg inverkar.


Inget behov av att endast beakta relationer av någon viss typ finns. Ex. uttrycks utan typ-bestämning av relationer inkluderande både vad man i studien avser med entity association resp. properties där samma typer av co-occurance resp. similarity mått används här där något värde av prestanda kostnaden just för detta avseende separering aldrig setts. Dock här handlar antalet relationer för i samhället lite vanligare koncept normalt med början för ett tydligt uttryckt område kanske 50 relationer och oftast flera hundra till många tusen jfr ex.


"As many abstract concepts are themselves communicative terms, this category often overlapped with code 19: taxonomic superordinates/subordinates. Due to the taxonomic ambiguity of these terms (is an inquiry a kind of request?) and the relatively low theoretical relevance of taxonomic relationships to abstract concept representations, such conflicts were resolved by defining code 19 as “hypernyms and hyponyms not otherwise coded.”

Utifrån vårt inledande exempel med hur globalt kontext kan inverka på hur vi konvergerar betydelsen av en mening kan vi förstå detta från:


  • Ett koncept har fler relationer till fler symboler än en annan symbol.
  • Symbolerna konceptet har relationer till kan förvisso vara redundanta jämfört med andra som relationer finns till men existerar de förligger ändå en viss skillnad åtminstone relevant för några situationer stora nog att ge avtryck ner till Blue Lights begränsade vokabulär av cirka 150 000 symboler och cirka 10 000 000 till 20 miljoner relationer.
  • Ej fullständigt men delvis kommer genereringen av Blue Light Intensity också uttrycka reduktion av den inverkan reduntanta relationer har (och för BLI tillsammans med similarity data vad man kan välja att reducera bort ännu mer).

Därmed gäller att koncept med högre BLI åtminstone för det övergripande kontext av situationer, ämnen m.m. det är aktuellt kommer tendera att uttrycka något jämförbart med att vara mer abstrakt.


Antalet betydelser, situationer, symboler, sammanhang o.s.v. som kan påverka och styra dess betydelse respektive indikerar förändrad (jämfört med godtycklig noll-punkt) betydelse hos symbolen tenderar att ha ett mycket nära samband med ökad Blue Light Intensity.


Det är också vad jag tycker att man kan tolka resultaten i studien för avseende vad man prövade det för. Avseende prövade det för ex. syftande på location där vi för resultaten där noterade tillsammans med bland annat:


"The fact that abstract concepts were so frequently described in terms of internal and social experiences hints that these may indeed be important aspects of abstract concept representation. However, the present analyses suggest that being rich in these kinds of features likely does not facilitate early processing of abstract concepts in the same way that being feature-rich facilitates early processing of highly concrete concepts."

Vi kan förstå det som att när vi uttrycker relationerna mellan koncept från data som uttrycker i praktisk mänsklig verksamhet (med viss "kostnads-" / "tids-filtrering" av lättare mer volativa relationer) tenderar vi som jag flera gånger fascinerats över få utmärkta uttryck ex. jämförbart mer abstrakt oavsett om det nu handlar om en beteckning inom ett forskningsområde, verktygs-områden, geografiska koncept eller något annat.


Utgår man från data ej från denna typ av källor är ju location en av de enklaste och också passande forskning mer "entydiga" datat jämförbart. Om två koncept är mer associerade i fysiska situationer de förekommer är tillståndsövergången mellan dem troligare meningsfull att betrakta åtminstone om vi också uttrycker resp. koncept oftare i språk rent allmänt (snarare än vi endast utgår från bilder och söker bedöma associationer mellan självklarheter vi ej ens lägger märke till). Det samma gäller vad man refererar till som entity association.


Jämfört med befintliga metoder inom lingvistik

Området tycker jag på ett annat plan är också nära relaterat när vi söker sammanfatta betydelse och mening hos ord eller skapa utgångspunkter för jämförelse mellan dem snabbt genom att titta på associationen mellan dem och ord (ungefär: mer av dom här 500 orden indikerar att vi är närmare det här konceptet i mening). Och för den relationen när vi sätter antalet ord-features konstant över alla koncept och för ett godtyckligt kontext betraktar hur troligt korrekt värde ex. cosinus similarity indikerar (möjligheten illustrerar också väl varför sådana mått just är snabba men väldigt grova).


Också vad vi ser har släktskap med Semantic field.


Mer spekulativt

Mycket mer spekulativt kan vi ju fundera på hur många relationstyper aktuella här vi egentligen i vår kunskapsrepresentation har i våra biologiska neuronnät. Att hellre söka förklara vad vi kan se från språket längre från rena statistiska samband i domänen co-occurance inför ju färre antagande eftersom co-occurance ändå är det grundläggande antagandet egentligen oavsett modell om vi inte tror att hela vårt språk kommer medfött.


Givet det ligger det närmare att se relationer som t.ex. kan uttrycka grad abstraktion som vad som i närhet (ex. avseende trivialt co-occurance i en situation) uttrycker typikalitet associerat användning av relationen. Söker vi bestämma vad något är för att skatta vilka dimensioner som är aktuella för situationen? Är det därför vi "associerar" ut från ett ord? Eller finns kanske inget entydigt syfte alls (jämför med att associera ut från ord en psykolog läser upp för dig under ett forskningsförsök)? Vilken relation följer vi då? Det sista fallet har vi ju en självklar möjlighet från diskussion här d.v.s. de relationer som gäller avseende de enskilda ordens egen-konvergens i mening i kontext av övriga ord utan global inverkan.


Det första fallet med att typbestämma är ju en av de vanligaste relationerna egentligen oavsett modell (IS-a). En sak jag tror man vanligt missar kring den typ av relation är att man inte fullt väger in den påverkan nio års grundskola ofta tillsammans med tre års gymnasium har på vad vi kan typ-bestämma is IS-a relationer oberoende av ett för individen utanför provskrivningen praktiskt värde resp. relativt hur "avtryck" av sådan typ-bestämning som implicit skeende under tolkning märks i kollektivt språk ex. i form av bloggpostningar och Tweets. D.v.s. jag tror att mer av skolböcker som Corpus ofta kan ge mycket värde och jag misstänker på tycker jag ganska goda praktiska grunder att det värde forskning och praktiska tillämpningar runt lingvistik ser i statistik och data från Wikipedia egentligen inte är så himla unikt eller optimalt annat än när vi väger in tillgängligheten och datarepresentationen (världens alla skolböcker: svårt att få in texten med rubriker, innehållsförteckning m.m. för analys. Wikipedia "enkelt").


Jämförelsen Wikipedia vs skolböcker är i slutsatsen egentligen ganska självklar. Men det är tror jag både lätt och praktiskt påverkande enkelt att glömma de möjligheter ex. skolböcker representerar som datakälla.


Jag tror ex. att enormt värde kan finnas av att Harvard och MIT tar projektet runt Google NGRAM vidare inte bara som planerat, utan också får tillräcklig finansiering för att publicera statistik avseende olika kategorier av böcker, och för särskilda redaktionella features så som rubriker, innehållsförteckning, bokens baksida m.m.