Visar inlägg med etikett Wikipedia. Visa alla inlägg
Visar inlägg med etikett Wikipedia. Visa alla inlägg

Information i SERP: Tillståndsinformation sökmotor resp. läsare / sökare

2014-05-19

Låt oss diskutera sökninginternet - kanske närmare perspektiv sökmotor resp. entiteter betraktande generell tillståndsinformation synlig - utan särskilt mål annat än att uttrycka vad en SERP är för läsaren av sökresultatet.


Koncept. Vad vi skriver i sökrutan.


Mer fokus på hur det ser relaterat tillståndsinformation det motsvarar även när tillståndsinformationen är reducerad sammmanfattad över annat.


  • 1. Vikter och skattningar: NGRAM- och språkmodeller
    • 1.1. Antal resultat för koncept
    • 1.2. Antal sökningar på koncept
    • 1.3. Antalet läsare av allt i resp. sökresultat
    • 1.4. Antal dollar / kr för koncept
    • 1.5. Abstrakta värden (kronor vi ej enkelt kan handla för)
  • 2. "Rubrikerna" i SERP
    • 2.1. Rekursion och arbetsminne
    • 2.2. Snippet
  • 3. Rekommenderade sökningar
  • 4. Volym sökningar igen: Bing - Google

1. Vikter och skattningar: NGRAM- och språkmodeller

Vi konstaterar först att vi har tre grundläggande variabler för två mycket ofta använda både i information direkt läsbar för den söker eller den som påverkar vad synligt via kanaler för reklam.


1.1. Antal resultat för koncept

För index över koncept i ett tidsfönster ej äldre än T[1] och ej yngre än T[2]: Hur troligt / vanligt relativt alla index över samma tidsfönster är att något relevant publicerats.

1.1.1.a För ett tidsfönster gäller att resultat publicerade inom det kan argumenteras ha ett minsta antal läsare approximativt samma som antalet artiklar i tidsfönster. Därför att skribenten har läst resp. innehåll själv.

1.1.1.b Ett problemområde blir tydligt när tidsfönstret expanderar genom att ökat fönster tenderar (tycks det för mig) göra det mindre trivialt att filtrera ut innehåll publicerat av datasystem för innehåll och presentation (jämför alla sidor i en webbutik dynamiskt formade utifrån olika perspektiv som en spindel ibland kan ta ut fler i antal än webbutik troligt haft totalt antal människo-sidvisningar).

1.1.1.c Normalt tidsfönster för sökmotorer som Google och Bing för webben allmänt är många år. Antal indikerade skattas troligen ofta från motsvarande en språkmodell ev. härrörande från hur data är organiserat (en försvarlig andel sökningar görs troligt över en ganska lång tidsperiod inte av mer än en eller ett fåtal: möjligt är det exakta antalet träffar vad som fodrar att någon vandrar bakåt görande resultaten behövda vilka kanske inte ens innan "fuzzy" därifrån framåt kanske finns beräknade i index).


1.2. Antal sökningar på koncept

För index över koncept i ett tidsfönster ej äldre än T[1] och ej yngre än T[2]: Hur troligt / vanligt relativt alla index över samma tidsfönster är att någon söker på koncept.

1.2.1 Emedan antal resultat ofta publiceras med en indikation tillsammans med SERP anges detta typiskt inte och är inte helt trivialt att få vettiga skattningar av också när ganska grova antal söks (eller snarast dessa medan det kanske rent av är enklare att få söka förändringar givet en utgångspunkt).


1.2.2. För primitiver / grundteorier för hur sökresultat kan beräknas gäller för huvuddelen i domän av query model ( P(Q) ) att man snarast undviker att använda faktiska värden för sannolikheten avseende respektive sökning. Vi kan ju annars tänka oss att när sannolikheten för ett resultat i SERP ska beräknas betraktat som ett där antal koncept lokaliserade givet koncept Q att trafik för del-koncept i koncept resp. lokaliserade koncept kan användas som vikt.


1.2.3. Skattande värden för query volum via flera i sig begränsade källor - och delvis ej direkt från sökmotorer - är det ganska tydligt att just för användningen typisk i 1.2.2. är kanske datakvaliteten för de flesta inte sådan att man vinner särskilt på att använda skattningar av query volym (andra former av vikter och modeller kan tillföra tydligt värde).


1.3. Antalet läsare av allt i resp. sökresultat

Från 1.1. och 1.2:


För tidsfönster p.s.s. som tidigare kan vi för allt indexerat förenklat skatta totalta antalet läsare som summan av de som söker och de som skriver.

1.3.1. Ovan under förutsättning att trafik som når resp. i övrigt är försumbart alt. att summan i övrigt implict kan ge en skattning av trafiken i övrigt.


1.3.2. För stora entiteter med många läsare för innehåll i index är det mycket tänktbart att när de länkar (ex. för en del innehåll hos några av internets tio största tidningar på engelska förekommer ibland länkar till varandra för referens) att det ger märkbar påverkan.


1.3.3. Över en webb med en mängd läsare uttryckande en respons via bloggar, sociala media m.m. är det tänkbart att det också ger påverkan via trafik av andra. Trafiken resp. skribent skapande sådan respons (säg när vi kan klara att se dem entydiga d.v.s. en människa gör respons på en plats) är jag ganska trygg skattas vettigt från query volum om man har den och tror jag men vet ej säkert hur väl och var större avvikelser kommer från mängden innehåll publicerat större entiteter stationära uttryck läsare är kända för.


1.3.4. Mängden länkar enligt 1.3.2 och 1.3.3. tycks bedömt från data jag läser in vara tämligen begränsat i mängd träffande ett sannolikt index relativt det antal som kan argumenteras representeras av endast skribenterna av respons i sig. D.v.s. utgår vi från att ingen läser deras respons mer än dom själva och att de faktiskt besökt och läst vad de länkar är det ändå en ganska begränsad mängd trafik givet mängden respons-data jag samplat (säg från några testperioder totalt cirka 100 GB rss- och atom-strömmar med en försvarlig andel av kända bloggtjänster där default är att hela strömmen publicerat). D.v.s. "ganska" mycket data krävs här resp. alt. att en vettigt korrekt trafikskattning av vilka respons-entiteter som kanske avviker uppåt för vilken trafik de ger.


1.3.5. Jag tror eller lutar åt att för de flesta som söker skattningar av respons att det enklare och kanske ofta korrektare är att söka sampla väldigt många entiteter troligt beskrivna en individ vardera och betrakta dem tillsammans snarare än att när tidsfönster är tämligen smalt (säg från någon timme upp till ett par veckor för nyheter) ge hög andel eller alls beakta rekursiva trafik-skattningar för resp. respons-entitet. D.v.s. en riktigt hög andel Twitter, Google Plus, Wordpress.com-blogg,Blogger-blogg,Tumblr.com-blog-community-grunka o.s.v. är enklar att komma rätt med i "laplace-smoothing" viktning om vi kan ta väldigt många entiteter.


1.4. Antal dollar / kr för koncept

Vad jag egentligen menar här avstår jag bättre från att försöka ge en entydig definition av eftersom jag ännu inte byggt viktsystem klart för det. Vi kan emellertid konstatera vad känt både före och efter "internet".


1.4.1. Vi antar en "modell-sökmotor" som endast visar produkter och har full vetskap om antalet som söker. Priset för resp. produkt har ej ett självklart linjärt förhållandet till antalet som söker. Söker en miljon personer på car är kanske inte produkten överst som är bäst en bil utan kanske en bok eller annan informationsresurs om det. Tydligare indikation koncept om att vi är intresserade att köpa - "buy car" + "volvo 240" + "cheap" + "police auction" + "used in diamond_OR_gold hit and run" - bilen tänker jag har färr som söker på det men kan tänkas göra dyrare produkt i form av en bil till försäljning mer sannolikt genererande värde.


1.4.2. Förhållanet pris, trafik och koncept håller ej heller över SERP utan varierar med position och kan vara mer eller mindre varierade beroende på sökord.


1.4.3. För läsaren av sökresultat framgår priset för resp. resultat men ej hur mycket de genererar i intäkt. Värde manifest resp. latent existerar.


1.4.4. Priset är manifest och är vad vi löst kan jämföra med mer allmänna begrepp som status. Informationen - eller enklare variansen - är dock praktiskt styrande för alla sådana jämförelser över en SERP. Detta genom att ett högre latent värde för manifesta värden associerade status när konverterande till valuta gäller för typiskt tio resultat per sida att enstaka sådana stoppas in brett över koncept där mycket entydig statistik är vek för eller där det redan visat löna sig. Är variansen för ett manifest värde indikerande tänkbar status emellertid låg medan vi skattar query volumen hög är det dock kanske troligare dollar-status associerat.


1.4.5. P.s.s. enligt 1.4.4. existerar låg-pris paketeringar där ev. status är mindre associerad till att realisera värdet av det. Ex. en bok, sekundär informationsresurs i form av hemsida o.s.v.


För index över koncept i ett tidsfönster ej äldre än T[1] och ej yngre än T[2]: Hur troligt / vanligt relativt alla index över samma tidsfönster är att någon söker på koncept.

1.5. Abstrakta värden (kronor vi ej enkelt kan handla för)

1.5.1. Försök att uttrycka sådana värden - ofta näraliggande uttryck av den större flock personer på nätet - börjar bli ganska vanligt. Längre tillbaka var ett fåtal annat än ovanliga (bl.a. Google PR och Alexa ranking). Numera försöker sökmotorer oftare addera information om sådant som recensioner, tweets och jämförbart.


1.5.2. Att uttrycka både dessa "reaktioner" och "vad" som uttryckt dem är tämligen svårt redan i visuellt utrymme. Och ännu svårare (tror jag) i tolkning av vilka som gjort dem och vad de är i meningsfull "flock-mening" för den som söker.


1.5.3. Status och andra värden associerat flock behöver ju komma med en förståelse av vad den underliggande valutan är. Är det en valuta person som söker informationen är intresserad av alls? Och på vilken nivå växlar den in för denne. En del personer värderar information mer från en viss flock och mindre eller rent av negativt från en annan.


1.5.4. Är sådan association vad som svårligen framgår eller kanske inte ens går att enkelt se faller uttrycken ner till enklare standard-uttryck utan "brand power" från flock. Kostnaden för att betrakta det föreligger fortfarande och behöver utan extra hjälp av "brand power" drivas av en historik av värde av att utnyttjat det troligare närmare konkret och rationellt bedömt än mer abstrakta värden, upplevda känslor eller default donerat värde oavsett resultat av att stämma närmare en flock vi gillar.


1.5.5. Att skapa uttryck av dessa reaktioner utan att addera en problematisk nivå av kostnad innan ev. värde levereras användare kan därför vara väldigt svårt.


1.5.6. Bättre mer framarbetade uttryck utifrån en mängd responer är självklart möjligt men kräver värdering av de underliggande responserna. Av upplever jag ordentligt att döma av vad jag ser praktiskt sökande själv ligger en stor utmaning för sökmotorerna här. Tänkbart är det primära värdet för dem just nu av att visa dom enlare reaktionerna att lära sig att värdera dem (ex. filtrerande ut sådant som recensioner egentligen gjorda eller beställda av den som säljer en associerad produkt).


1.5.7. Utmaningen i sådan värdering kan jämföras med möjligheten att värdera en länk som en besökare för varje entitet vi tror är en individ. Men skillnaden att vi antagligen har ordentligt färre responser från denna grupp att värdera jämfört med hur många som är en "elegantare" / "smutsigare" (från mitt perspektiv tar jag verkligen ingen ställning: både riktiga och köpta recensioner är bra data att analysera byggande information om värden associerade koncept från olika perspektiv och jag har föga problem att särskilja dem - och i enstaka manuella kontroller byggt från etablering erfarenhet längre bak kan jag ganska ofta rent av se vilken entitet som gör marknadsföringen och ibland troligare skrivit det).


2. "Rubrikerna" i SERP

Vi har information i SERP uttryckt för resp. resultat. Denna kan vara mer av vad jag bredare kallar DO och vi enklare här ser som "rubriker" eller i "fetstil". Vidare vad jag kallar DESCRIBE - givet ett DO vad som sätter kontext för koncept i DO och vars tolkning och förståelse styrs och påverkas från primacy effect av aktuellt DO - och typiskt för sökresultat snippets.


2.1. Rekursion och arbetsminne


2.1.1.1. Vi vi enkelt och effektivt skummande tar in i arbetsminne är en funktion av uppmärksamhet / motivation / exakthet vi är beredda att investera för visuell yta och dess visuella komplexitet. Desto mindre uppmärksamhet / motivation / exakthet ju hårdare skummare vi efter tydliga träffar med hög "vikt / potens" (ex. i vissa sammanhang brand power tillsammans med starkt emotionellt uttryck likt fiktiva rubrik och första rad snippet: Google VP stabbed Microsoft CEO with sword in new release of computer game).


2.1.1.2. Resp. där behandlat läggs i kontextuellt pågående motsvarande direkt vad vi ser i en vanlig scen i vardagen. Av betydelse, understrykt och av typ vi specifikt söker läggs i arbetsminne.


2.1.1.3. Vi kan göra switch av kontext pågående i arbetsminne. Är det kontextuella avståndet kortare kommer det med lägre kostnad och vad vi sökande information av allt att döma från mycket nvända kommersiella produkter är beredda att göra. Några exempel:


  • Andra resultat - ex. nyheter - i webbsökning.
    1. Presenterande resultat i SERP av en viss typ. Jämför hur Google bl.a. söker föra in resultat av typ nyheter eller sociala media i webbsökning.
    2. Jag spekulerar att det tänkbart är dyrare switch än övriga men värdet är ju också en funktion av antalet som faktiskt söker just information av denna sort resp. typ resp. hur väl de klarar att hitta samma innehåll allmänt i webbsökning annars och/eller kommer rätt via användning ex. Google News.
    3. Dyrare därför att vår organisation av långsiktig vetskap om hur här relevant koncept förhåller sig varandra - tänkbart underliggande och åtminstone påverkande hur arbetsminne är funktionellt - är topologiskt organiserat via närhet av dem. D.v.s. den närmare topologiska motsvarigheten i spatiell mening är ex. förhållandet "nyhet" eller "webbresultat" d.v.s. ungefär det samma över ett ganska få typer. Medan distansen koncepten kommer tendera att vara större mot det större flertalets intresse (troligare irrelevant i perspektiv av en genomsnittlig sökare).
    4. Störning för större flertalet totalt givet relativt få insprängda resultat enkla att "aldrig se" eller betrakta är tänkbart lågt jämfört med värde för dem som faktiskt söker något av typen enligt två eller är allmänt prospekterande. Kostnaden switch är med andra ord vad vi kan lära oss att undvika.
  • Enklare att resonera om är rekursiva uttryck av mer exakt information.
    1. Givet ett resultat bland tio på en sida - låt oss jämföra det med en rubrik på nivå 1 - kan vi för det ge mer information. Konstruktionen används bl.a. av Amazon.
    2. Besläktat ofta utnyttjad är att länka föreslagna andra sökresultat vilket vi dock inte avser här.
    3. Istället avser vi när denna mer exakta information ges på samma sida i form av visuellt associerad information motsvarande en rubrik nivå större än ett (helt normalt underliggande ev. med mindre font eller annan visuell paketering som gör att det stör mindre för den som ej var alls intresserad av nivå ett).
    4. Läsaren ser information på nivå ett för ett resultat. Det intresserar denne. Informationen på nivå två filtreras ej bort för detta resultat och switch till ett mer exakt kontext sker: informationen nivå två går in i arbetsminne.
    5. "Vi" (jag) kallar denna operation för rekursivt innåt. När besläktat i organisation information är upp - associerat men bredar i vad som avses - och ner - associerat smalare mer exkat - i thesaurus och för båda från ett troligt perspektiv av vad som avses avgränsat av koncept vi utgår från.
    6. Gör vi därefter rekursivt uttåt återkommer vi föregående nivå. Förkastades mer exakt som ej ledande till avslut påverkar de ej i introduktion av något nytt i det arbetsminne vi återkommer till. Även om det gäller när vi tänker oss biologiskt modell av arbetsminne påverkad av organisation koncept i långtidsminne - vilket menar jag är ytterst rimligt eftersom denna organisation uppenbart påverkar och styr hur vi resonerar och laborerar med vad aktiverat i arbetsminne - gäller att viss post-aktivitet kan inverka. En aktivering av något ointressant i ett uttryckt rekursivt innåt kan tänkas inverka när vi ser något annat efterföljande om än mindre troligt än något direkt tillsammans med sådant resultat.

2.1.2. Den visuella naturen av 2.1.1 ligger nära perfektion när det kan uttryckas organiserat jämförbart men när rekursivt ovanför ej störande visuellt. Ex. listor ungefär motsvarande ranking från 1 till 10 på nivån ovanför. Antalet behöver emellertid vara fler där historiken bakom tio resultat tänkbart blev möjligt och standard delvis därför att två visuella centraliteter togs ut efter varandra genom ett pagedown förr när upplösningen på datorer var annorlunda. Vidare ligger belastning redan givet från koppling till kontext rekursivt ovanför. Tänkbart (jag vet inte exakt var nivån ligger) cirka fem objekt.


2.2. Snippet

2.2.1. Sökresultat organiserar sig dock ej enligt 2.1.1 och 2.1.2 som vanligast där det normala istället är the snippet. Denna ger dels uttryck som är av DESCRIBE mot aktuellts resultatts DO (här titel) med koncept från sökningen styrande vilket DESCRIBE som plockas ut från sidan vanligen markerat med fetstil. Jag finner det lätt problematiskt att enkelt passa in det i mitt resonemangssystem av DO och DESCRIBE. Det är från tror jag troligare ren DESCRIBE (ex. brödtext i en artikel) men agerar här DO i den mån läsaren betraktar informationen och därefter går vidare och läser hela artikeln (d.v.s. kommer påverka vår förväntan om vad vi där kommer läsa) men ger ju också om vi ej gör det en DESCRIBE för direkt i SERP uttryckt DO:


2.2.1.1 När betraktar snippet som DESCRIBE av aktuellt DO i sökresultat läst men ej resulterande av att läsaren går vidare till sida (låt oss anta en person som sitter och läser några sidor SERP:ar) gäller att "vetskap", "tolkningsrymd" för DO kommer påverkas av resp. DESCRIBE. Personen bygger en viss förväntan / vetskap om vad en viss DO i ett sökresultat vanligen har för DESCRIBE i snippet.


2.2.1.2. Och över många sökresultat vilka koncept i DESCRIBE som oftare associerade till koncepten i resp. DO. Kanske rent av föranledande en särskild sökning. Eller inverkande på hur sannolikt personen väljer en rekommenderad besläktad sökning.


2.2.1.3. Dispergensen mellan snippet - från "transformation" DESCRIBE till DO - och rekommenderad besläktad sökning är dock ganska tydlig. Möjligen är ev. påverkan närmare en känsla av att "bottnat" ut vad ett sökresultat kan ge för att hamna rätt.


2.2.1.4. Det tycks för mig att åtminstone för Google är mer eller mindre det ändå syftet och värde av snippet att visa kontext sökorden förekommer utan mer "sofistikerade" metoder för association till besläktade manifesta eller latenta koncept troligare använda för att peka vidare till andra sökningar.


3. Rekommenderade sökningar

Sist betraktar vi dom rekommenderade sökningarna och vi kan där inkludera vad som direkt ges i rekommendationer i input-fältet. En försvarlig mängd standard-algoritmer ofta välkända innan i andra praktiska områden inom clustering av data av olika slag (inte minst just ord eller flergram eller entiteter av olika slag) finns. Mer praktiskt näraliggande den som söker kan vi dock konstatera att:


3.1. Dessa rekommendationer kan vara uttryck för rekursivt innåt. Givet koncept A kan vi föreslås koncept A + B där A + B kommer med ett antagande av att A ger en yttre avgränsning med ett antagande om en eller ett fåtal övergripande "ämnen" där B (som vi tänker oss kan erbjudas i ett fåtal vanligare alternativ) uttrycker en mer exakt aspekt av resp. sådant antagande.


För exemplet nedan från Google tycks ngram-modell användas där resp. adderat "sub-koncept" (ngram som kan adderas från listan) antagligen speglar sannolikhet från publicerat innehåll ev. med preferens mot en typ som antas bättre passande. Emellertid kan jag också tänka mig att sannolikhet från faktiska sökningar påverkar i den mån de finns. I sista exemplet där tipspayload söks - d.v.s. troligt väldigt osannolikt både över allt publicerat innehåll resp. vad folk söker på - faller förslagen ner till att föreslå resp. ord.



Thesaurus och liknande organisationer används också ofta. Näraliggande fortsatt med Google som exempel är definition av ett koncept motsvarande koncept sökt som bedöms troligare vara vad sökt eller vanligare uttryckt indikation om att man betraktar koncept möjliggörande sådan användning både här och i övrigt. Ett enkelt exempel är när vi i samma organisation också har entiteter (jämför ex. med Yago m.m. byggt från Wikipedia) och mer troligt hamnar rätt i förslag när en specifik artikel, bok eller film söks där man kanske inte minns hela titeln. Likt Library of Congress nedan:



Min erfarenhet från perspektiv sökande information pekar ganska tydligt på att storlek index och/eller mängd sökningar att analysera kan addera ordentligt värde oavsett om artiklar, böcker, film eller annat söks där man inte fullt minns vad det egentligen heter. Library of Congress koncept ovan till ganska stora delar byggda av ngram-modeller från titlarna är där praktiskt sämre för mig än Googels mycket blandade approach.


4. Volym sökningar igen: Bing - Google

Här har jag dessutom av och till nyligen funnit en spännande förändring i det relativa värde Bing leverar jämfört med Google. Längre bak presterande den för mig och många andra ganska dåligt. Sedan ett par år har Microsoft uppenbart bedömt bl.a. från artiklar publicerade såväl som presentationer (av och till riktigt ambitiösa såväl som användbara sammafattningar: ) gjort ett mycket ambitiöst arbete för att bygga långsiktigt grundvärde. Även om effekt av det nog var märkbart var det fram till nyligen inte på nivå att det egentligen motiverar mig att av och till försöka den.


Sedan kanske några månader nu märker jag emellertid att det kan prestera när jag inte på vettig tid får Google att visa vad jag vill hitta. Ett exempel är identifikation av sidan relateratMongoDB länkad i Sydsudan: Vapenvila efter inte avgörs av politisk förmåga och för resp. sida kraft att se dom egna problemen speglade hos "dom andra" (2014-05-12). Det var ej i URL den sida jag sökte men jag är övertygad om att det var exakt det innehåll jag sökte (vilket gör det mer intressant).


Orsaken torde ligga i att aktuellt stycke data hos Google är noterad på domän mycket kraftigare associerad MongoDB. Troligt den jag tyckte mig minnas att jag läst den på: antingen www.mongodb.org eller nära associerad. Men där som vanligt är - eller default bedömd från organisation plattformar publicering - uttryckt underliggande artiklarna ev. med pagination över kommentarer samtidigt som mängden sidor därifrån relaterat MongoDB är "enormt". Samma data publicerat andra sajter kan ändå konkurrera med det obefintliga resultatet från den MongoDB-tyngre sajten.


Den tänktbart mer styrande faktorn i vad som avgör skillnaden mellan Bing och Google när vi lämnar den MongoDB-tunga sajten med kamrater:



Kan tänkas komma ner till för Google-styrande verkan:


1. Eventuellt vikter relaterade till tidigare uttryckta långt bakåt i vår lista här:


"1.2.3. Skattande värden för query volum via flera i sig begränsade källor - och delvis ej direkt från sökmotorer - är det ganska tydligt att just för användningen typisk i 1.2.2. är kanske datakvaliteten för de flesta inte sådan att man vinner särskilt på att använda skattningar av query volym (andra former av vikter och modeller kan tillföra tydligt värde)."


Eller vad som motsvarar det. Likt hur jag såg att antingen Google eller Microsoft (minns jag rätt Google) patenterat något kring att beräkna similarity via de sökresultat man redan har i SERP:ar för att hjälpa surfaren till besläktade sökningar kan man så klart börja skatta länkar från egen trafik såväl som förr kanske mer trafik från länkar. Viss risk för "rundgång" - eller "stående vågor" - eller vad ska kalla det finns kanske ibland.


2. Och oavsett exakt vad som ger vikten tidigare diskuterat för Wikipedia-koncept i:



Där det som ett uttryckt av det kan vara oerhört svårt att söka information om Wikipedia, Wikimedia, Mediawiki m.m. Istället föreslås uppslagssidor i Wikipedia. Expansion av tillåtna egenskaper i vad relevant entitet publicerat ordentligt tilltagen där det mer exakta avgränsade område utanför det inte får plats.


Här är Vietnam vårt Wikipedia. Om vikten är trafik är det givetvis tilltalande attraktivt data att ha en av få riktigt feta samlingarna av men det är inte alltid trivialt att tänka sig mer exakt hur man bör låta det styra. Kanske (jag är inte riktigt säker på vad som egentligen sker: ids inte betrakta det överdrivet) föranleder större tyngd Vietnam i trafik en för min målsättning sökande irrationell expansion av vilka egenskaper relaterade Vietnam som tillåts visas där avgränsning från närmare relaterat MongoDB ej orkar inverka tillräckligt.

Söka bredare vetskap koncept-association: Wikipedia / Wiktionary på många språk

2014-04-15

Enligt principen enkel att förstå från:


  • Vi har definition på engelska (vi säger är vårt "mitt-språk" eftersom det är mitt) ex. integral i Wiktionary.
  • Där konstruktionen är sådan att motsvarande sida länkas i andra språkområden. Vi utgår där från länkning i vänstra marginalen motsvarande samma system i Wikipedia.
  • Vi utgår där från integral (svenska) som exempel.
  • Och gör översättning: integral (Google Translate).

En metod för att skapa system översättning bygger på alignment mellan text motsvarande samma definition eller jämförbart i olika språk. Vi inser att ex. Wiktionary är vad som tänkbart kan vara en del av data möjligt att använda för det. Jag kan föreställa mig att Google Translate är ett ex. på system som tydligt tidigt prioriterat denna typ av data för inlärning av statistiska relationer (nu antar jag att feedback från användare är den märkbara delen för förändring görande finare nyans korrektioner och inlärning).


Här är en av de två utgångspunkterna att denna inlärning är befintlig i systemet för översättning. Därmed görande översättningen från språk två (i exemplet svenska) får vi där indikerande koncept med sin troliga engelska motsvarighet. Det är vidare ytterst rimligt att anta att Wiktionary såväl som Wikipedia hör till datakälla ofta utnyttjade för väl-använda översättningssytem såväl i inlärning som feedback d.v.s. att ex. Google Translate utmärkt klarar översättning mellan definitioner eller uppslagssidor.


Därmed får vi kompletterad vetskap om associationer aktuella för aktuellt koncept och koncept i definitionen eller relationer mellan de koncept i definitionen.


Denna vetskap kan vara kontextuellt för språkområdet eller mer aktuellt för mig (där kontextuell inverkan hanteras via logiska beräkningar över generell vetskap association av ett antal typer) behandlade alla relationer detekterade p.s.s. för att bygga vetskap association.


I någon mening är det egentligen samma sak man gör när man tränar översättningssystem med tidigare indikerad algoritm. Och det var därifrån jag fick idéen till algoritmen.


Troligt ej aktuell för mig praktiskt förrän nästa omgång att söka kompletterande vetskap association från långsamt föränderliga datakällor i "uppslagsboks-tiden". Ett tänkbart problem praktiskt för mig är att jag ej har egen lösning översättning med den trovärdighet korrekt rörande olika sense på orden nödvändig här och ej heller underhålligt eller använt samtidigt som jag ej vet riktigt hur många request Google gillar per tyngd innan man stängs ner till nästa eller alternativt börjar betala för dem. Förr ett antal år sedan gällde ofta ungefär totalt 10 - 12 k requests medan stycke-prisen var sådana ovanför att jag ej ser praktisk meningsfullt för den här typen av användning när många miljoner requests behöver ske över en mängd datakällor (d.v.s. ev. krävande kanske rent av en budget på ett par miljoner).


Alternativa lösningar finns säkert men jag har ingen uppdaterad bild. Jag tror förövrigt att Google Translate är mycket ledande just i dom algoritm-system och deras maskin-inlärning viktigt för denna lösning. Mer regelbyggda lösningar och/eller statistiska med mindre eller ingen feedback från de som gör översättning (d.v.s. etablerande goda översättning mellan välbesökta sidor representerande motsvarighet - särskilt här där författare, redaktörer m.fl. kanske själva gör kvalitetskontroll) kan vara mycket sämre när kontext antingen lokalt mellan och i stycken resp. meningar eller aktuellt för något mer lokaliserat språkområdet är intressant. Men som sagt jag har väldigt dålig bild av hur väl alternativa lösningar fungerar här.


Komplettering: Jag vet ej (läste ej artikeln) om man gör samma sak i Polish and English wordnets - statistical analysis of interconnected networks men är jag ganska säker på utnyttjar en till uppenbar (men mycket mindre för språkområden såväl som data koncept-associationer) datakälla - Wordnet anpassningar för olika språk - jämförbart rörande metod ta ut statistiken för associationer. Ett problem med Wordnet-varianter utanför Princeton's välkända (wordnet.princeton.edu) är att åtminstone ett fåtal skapades med EU-finansiering föga genomtänkt rörande värdeskapande för medborgare och företag i unionen innebärande att de ej är tillgängliga för användning utan betalning licens resp. troligen inte normalt är tillgänglig för någon oavsett om betalning sker. Jag har fått intrycket att detta problem allmänt är vad EU nu ska ha börjat sett över med förändrade riktlinjer rörande finansiering av grundforskning med avgränsade leverabler. Ett annat problem jag ej vet om man hanterar ännu är att sidor med leverabler och redovisning av skapade saker (ex. resultat av intresse för alla som ska vara fritt) ofta efter en tid försvinner från nätet (ibland relaterat med att anpassningar av det sålts till kommersiella företag).

Riktad information - Retro power skattning med Wikipedia

2013-11-15

I fortsättning på uppmärksmmar vi att Wikipedia ger indikation om varaktig möjlighet till retro value mining, om det skett och missbrukats med lågkvalitet, eller om ett icke utnyttjat värde finns genom genuina värde-adderande produktioner.


För att igen använda den italienska vägen till Japan (se Att tänka väpnat symbol-tungt: Inköpslista för Svenska försvaret) är Super Mario Bros. (disambiguation) exempel på hur disambiguation-sidor kan ge en indikation för om just koncept med potentiellt retrovärde kan vara funktionella.


Koncept med potentiellt retro-värde är ju ofta mycket utvecklade i Wikipedia. Dessa sidor är funktionella oavsett om vi gör analys manuellt eller med maskin-intelligens.


Anime...



Teve-serier...



Långfilm...



Tryckta serier - s.k. comics...



Fler exempel: Super Mario Bros. (disambiguation).

Intrusion detection: Snowden-sensorer resp. tools of the trade för sociala media konflikter och Wikipedia-krigföring

2013-11-12

När nu Reuters och säkert fler refererat säkerhetslösningar ej införda i Snowdens tidigare "NSA-arbetsplats" givet min diskussion 2010 relaterat lösningen möjligen avsedd kändes det utmärkt att återvända kort och avgränsat till den frågan. Även om huvudsakligen en tekniskt kombinerat management med den mänskliga naturen som bakgrund ev. vad som intresserar läsare här:



Vad jag bedömer intressantare för fler är dessa länkar till ett antal äldre inlägg från samma blogg jag länkade som kompletterande information.


Inlägg nedan ger en kanske enklare ingång för många för att se möjligheter relaterat IDS från en domän de flesta idag använder själva och från en teknisk nivå ej skild från den information användaren har i sitt perspektiv:


Från: Att IDS-detektera Informationsläckage Snowden: Värde, risk eller ingenting mer än hind-sight bias? | Hans Husman om Information warfare

Bredare men konceptuellt och i problem-domän likartat kan vi se mycket mer än mer prototypiska sociala media intressant. Exempelvis Wikipedia:


"The Chinese-language version of Wikipedia has become more than an online encyclopedia: it is a battlefield for editors from China, Taiwan and Hong Kong in a region charged with political, ideological and cultural differences."

Från: Wikipedia China Becomes Front Line for Views on Language and Culture (2013-10-28) | The New York Times

Kenneth F. Boulding i Conflict and Defense - A general theory (1962) kapitel The dynamics of conflict: Richardson process models:


"There is no balance of power, or balance of hostility, or balance of arms: the arms race or the price war will go on until the system
breaks down in war, or in capitulation of one side or the other, or in mutual reorganization of the whole system."

Sådana modeller (se också Richardson’s Arms Race Model) är ju just förenklingar som söker få linjära koncept med praktiskt funktionellt lägre komplexitet funktionella. Men just i ett kortare tidsperspektiv när man vi kan eller tror oss kunna approximera bort andra faktorer (ex. betraktande Kalla krigets kärnvapen-balans från hind-sight bias när det är avslutat och "lyckades") är de just genom enkla mycket praktiska. Nu en tid möjligen beskrivande slagfälten i editering (spekulerande: jag har inte försökt följa dem alls själv).


Just här bryts kanske Richardson processen sönder när åsnan - för att ta en liknelse från Bouldings bok - fast mellan två poler: otäck revolution eller i alla fall otrevliga protester resp. växnade systematiska problem att ha diktaturen funktionell utan att öka samma "risker" växer - lämnar frågeställningen helt genom att göra long jump och förändra själva systemet d.v.s. reorganisera förutsättningen för att problem-polerna alls ska existera.


Och även om applikation och uttryckt skiljer sig tydligt från IDS:erna diskuterade i mitt inlägg först länkat gäller att som den uppmärksammade läsande Boulding är vi av och till i ungefär samma koncept: avstånd från en centralitet till något uttryckt utanför den eller till centralitet för något annat. Korrekt uttryckt domän av konflikt - ex. weapon of mass destruction som aktuellt i Syrien - gäller ju för varje IDS att kostnad för att hantera träff - riktig eller falsk - behöver vägas mot att ej hantera träffen:


"One suspect, however, that, in conflict control, false alarms are relatively cheap as compared with failed alarms; that is, the consequence of doing something that need to have been done are relatively slight, whereas the consequence of not doing something that should be done may be distraous."

Men de sällsynta mycket dyra verkliga träffarna (ex. ej demokratiskt eller i övrigt kontrollerad envåldshärskare som psykotiskt efter att ha rökt crack cocaine flera dagar startar World War III) är ju så ofta i vår vardag av en mängd små onödiga kostnader mindre verkliga.

Wikipedias slash-notation: Läsarvärde via större tydlighet med konstnärligt lättförståliga titlar

2013-08-20

Är givetvis ett helt funktionellt system och kanske väl upplever jag spontant uttrycka vad som är konceptets - när brand name för kändare kombinationsläkemedel ej spelar in - centralitet:


"Since no international convention exists to guide naming of standard combination drugs, this policy encourages the use of page titles containing the active constituents separated by the slash ("/") character. For example, the standard combination of isosorbide dinitrate and hydralazine, used to treat congestive heart failure in African Americans, is described in the page Isosorbide dinitrate/hydralazine."

Från: Wikipedia:Naming conventions (technical restrictions) | Wikipedia.org

Sedan när man nu fått indikation om riktning på en del mängd där man träffar på den här notationen kan man ju föreslå ett alternativt system jag tror förenklar för många Wikipedia-skribenter såväl som att ge intressanta möjligheter för projektets betydande plattformsutvecklande delar.


Intresset kring infoboxarna och vad de indikerar och ger möjlighet i datavmining är ju mycket diskuterat sedan år. Men är ju till sin natur ytterst konkretiserade fakta. För fallet ovan gäller ju delvis det men vad man egentligen söker uttrycker därför att det just är titel (i min termonologi vad jag ibland kan kalla dom yttersta do-symbolerna som ger primacy effect om vad vi förväntar oss att artikeln handlar om) viktigast ju att indikera övergripande koncept snarare än egentligen just kombinationen av substanser. Det är i ex. fallet att det överrensstämmer troligare oftare med varandra.


Vi kan förstå det kanske tydligare om vi tänker oss att biverkningar t.ex. för sidan Paracetamol/metoclopramide (jag just noterade kastades av min import som ej förstått resp. dessutom därför att jag tillsvidare också kastar allt med slash) där tänkbart (och jag föreslår absolut ingen notation för Wikipedia här) Biverkningar från Paracetamol/metoclopramide kan vara funktionellt.


Just uttrycket mellan symbolerna som skapar dessa koncept tror jag många engagerade i Wikipedia kan uppleva intressantare än t.ex. fakta-boxarna lite varierat med personlighet. Det är kanske något närmare den kreativa personligheten (som ser det bättre åtminstone tror jag jämförbart med förmåga att sätta titlar på löpsedlar för ovanliga nyheter ej standardmässiga men med potential) samtidigt som viss struktur på det kan vara gynnsamt i en uppslagsbok.


Något litet enkelt sub-språk till engelskan ungefär rekommenderat för det resp. kanske underrubriker på sikt kan vara ett alternativ. Med dom vanliga PP opertorerna i engelskan - ex. in, of, before ... - d.v.s. dess språkforms lösning för att uttrycka absoluta och/eller relativa mängd-förhållande resp. förhållande mellan mängder avvikande i dimensioner (eller så upplever jag själv att man enklast ser på PP) av typ relevanta för att tala och överleva (ex. händelser fiktiva eller spekulativa om framtiden, nu resp. hände tidigare, a är innanför b, a är del av b, a kommer före b, a agerar för b, a representerar b o.s.v.). Det är ju dessutom vad som är väldigt enkelt att illustrera visuellt som ju många bra sammanställningar finns av från den kognitiva-lingvistiken.


För ex. skulle man då standardisera på en operator för att uttrycka blandning som skapar en helhet tillsammans men där det är viktigt att veta vad som blandats (kanske bäst just kring läkemedel m.m. som kan påverka hälsa och är därmed känsligare mer udda avgränsat med egen term just här).


I allmänhet är samma operatorer för andra förhållanden enklare och passande med färre tecken - och tror jag regelmässigt enkelt att göra med hög likhet hur vi använder PP operatorerna i dagligt språk. Ex. Stockholm during World War IV in domain space:fiction men med indikationen av dimensionsrummet fiktion antagligen funktionellt med Wikipedias befintliga parentes notation.


Värdet för projektets-engagerade är ett nytt område att engagera sig inte redan inmutat av diverse kulturbärare. Ökad tydlighet för läsarna med mindre risk felnavigering kan säkert uppnås på sikt. Och signifikanta värden för mig med flera som av och till gör datamining på Wikipedia finns: Konkret reducerad cpu-tid, minnes-åtkomst och parsnings-kostnad med mer standardiserat.


På samma tema inför jag här på bloggen Up and Go operatorn innebärande att jag tilldelar via mer eller mindre ansträngd införsäljning. Agenten vi tilldelar uppgiften anges enligt Up and Go: Wikipedia Sub-culture. Kanske inför jag på sikt en ett mål för värde-riktningen bakomliggande inlägg ex. Up and Go: Wikipedia Sub-culture - Hans Value. Därmed inte jag rekommenderar samma notation för Wikipedia. Taggar och titlar är ju olika relativt läsarens användning.


Wikipedia har förövrigt samma egenskap diskuterad i jämförelsen mellan Google och Microsoft i Välkomnad till Windows: Hur störd bild av vem som äger vad skapade Linux (2013-08-19). Helt säkert av besläktade orsaker om än för Wikipedia kulturen troligt mindre maskinellt och mer via brutal head count vandrnde runt webben. Jag har genom åren goda erfarenheter av att indikera potentiella värden.

Sverige och Libyen är otydliga och onödigt blockerade av fulare saker som tar dataplats i världen

2013-07-18

OpenStreetMap tycks ha utvecklat sig vidare från när jag förra gången tittade över det och förhoppningsvis kommer det också visa sig att själva map-servern förstärks ytterligare.


Både när det gäller datatjänster som OpenStreetMap såväl data extraherat från Wikipedia gäller att skillnaden hur olika annars lika aktörer märks är gigantisk. Betydelsen av detta har ökat sista åren och är mycket mer påverkande än berörande ex. bara de som läser Wikipedia-artiklar eller direkt utnyttjar själva karttjänsten Openstreetmap.org.


Idag ett tämligen stort antal tjänster påverkande presentation i sin tur för webbsajter eller media såväl som en också betydande - kanske mer så i konkret inverkan - analystjänster långt ifrån alltid märkbara på nätet använder datat. T


Tittar vi på mycket använda DBPedia ontology gäller att den är extraherad från Wikipedias infoboxar. Sista gången jag gjorde en färsk sådan extraktion själv var det ett fullständigt litet djävulskap givet den enorma syntax-bredd möjlig för horderna av självorganiserande skribenter. DBPedia ontology om man tar den är tämligen ren d.v.s. väldigt mycket data som finns i infoboxarna kastas när avvikande från normalt skrivet eller ej särskilt vanligt och därmed ej praktiskt att dokumentera typ-hierarki för (även om en hel del felaktig extraktion givetvis finns i den också av och till).


Hög komplexitet att extrahera själv, rent data enkelt från DBPedia och att DBPedia är mycket välkänt och har attraktiv policy gör ontologin mycket använd. Tittar vi på Sverige noterar vi som exempel att:


  • För dbpedia-owl:wikiPageExternalLink gäller att bland svenska tryckta tidningar märks SvD och DN men inga av deras konkurrenter
  • dbpedia-owl:assembly of inkluderar de varumärken som mycket typiskt är skärningen mellan sedan länge välrepeterat också utomlands och berör konsumenterna under en längre tid. Problematiskt för Sverige vad blivit bara bilar trots att också (vilket i och för sig är problematiskt på exakt samma sätt) bl.a. mobiltelefoner är enkla typiska segment som normalt ska förekomma här. Förövrigt är dessa lätt självorganiserat uttryckta varumärken de som har etablerad tydlighet med låg reduktion motsvarande familiarity i själva konceptet (oavsett bl.a. produkternas igenkänning vilket är en annan fråga) även om problem kan vara associerat periodvis. Relaterat Kina's djuporgier i Västerlandet sista åren är det dessa former av varumärken man helt riktat in sig på. Riktade åtgärder för att komplettera i Wikipedia är givetvis värde-adderande och vad som utmärkt kan göras systematiskt kross-refererande de svenska databaserna hos myndigheter eller branschorganisationer (eller för den delen diverse utländska).

Och det är över allt lätt att konstatera att föga andel av verkligt existerande och ännu mindre mer än lite slumpmässiga småsaker som kommit med på tur ofta när det kommer till skärningen mot större delen av de kommersiella områden landet kan ha konkret nytta av att märkas. Ett kortare liknande exempel ges via live.dbpedia.org/page/Category:Sweden mer lämplig för att enkelt förhand jämföra med andra länder.


För Sverige-grafen minns jag ett liknande fenomen där vi för någon named relation relaterat media endast för de dimensionsrymder jag genererade från hade DN och Aftonbladet. Tveklöst en indirekt konsekvens av att båda är mycket väl-uttryckta i Wikipedia vilket i sin tur ökat sannolikheten för att de med uttagbara mönster finns med också i fler infograf-fält. För rymden där använde jag dock något lite liknande DBPedia för aktuell named-relations och det lilla antalet tidningar om än typiskt för det generella problemet torde försvinna när jag tar min infobox-export (varande något av en expert på att få bort skräp som läcer in vid data extraktion efter att ha gjort det från tusentals datakällor är mitt behov av att reducera inte i närheten av nivån DBPedia lagt sig på: filtreringen måste ändå göras kring så mycket annat och att fälten kan typförstås ges ju av andra ontologier och system befintliga).


Flyttar vi nu det vakande ögat - eller ögonen - till OpenStreetMap kan det tyckas vara ett visst praktiskt projekt för att visualisera uppslagssidor, planera en försvarsövning med, roa sig med på cykelsemester likt fotografera vardagen fenomenet hos människor o.s.v. Men en mycket levande inte alltid synlig subkultur runt OpenStreetMap och dess data finns i turstnäringen och särskilt givetvis i de "mellan-lager-lösningar" kring bokning och sökning av hotell, biljetter, resor m.m. i skärningen mellan hotell-industri-direkt, webben och SEO (Search engine optimization: underkategori inom information warfare).


Och där vill man verkligen som geo politiskt aktör med ett ansvar mot väljarna att berika dem med feta utländska turister att allt finns med. Därför att kring så många sökfrågor som sådant här byggs gäller inte att någon svensk pott finns som fördelas för vad vi förekommer i utan allt bidrar till att Sverige märks mer. Allt som är museum, hotell o.s.v. ska finnas med och med engelskt namn åtminstone (men självklart också tyska, franska, svenska, ryska o.s.v.)


Ett område lika viktigt för aktörer som likt Libyen nu expanderar sina turistorter. Särskilt givet att man samtidigt har ett fortgående intresse relaterat den döda diktatorns excesser, byggnader m.m. D.v.s. inte omöjligt att folk kan engagera sig en del spontant om möjligheten indikeras på att fylla upp OpenStreetMap med platser såväl som cykelvägar m.m. folk med gps brukar dela data runt. Även om man som förvaltande aktör rimligen ser till att allt mer välkänt man har kännedom adderas in.



Visa större karta

Vi har givetvis en del besläktade områden också men mer omfattande att diskutera så vi nöjer oss med att notera transfereringspunkter på kartan som broar, flygplatser m.m. resp. betalnings- och transfereringsmedier med kick-back system (trivialt frequent flyer m.m.).


Vad jag tror är Sveriges problem här är det inte att man inte sett betydelsen och värdet. Men däremot saknar man datakällorna, deras spridning och användning kartlagt. Ej heller hur dessa motsvarar datakällor man självkontrollerar. D.v.s. man gör vad jag märkt flera mycket korrekta och av och till tycker jag tämligen insiktsfulla projekt (det hade troligt inte varit en idé jag själv sett möjlig att avlöna någon att editera runt lite kring Sverige sidor i low-specialist but part-of-community person men tycks en väldigt kostnadseffektiv långsiktig åtgärd som kan leverera värden under år om det sker i dom större språkområdena). Men saker kommer också ner till att ta enkla men extremt frekvens hög datafält d.v.s. tänka mer hundra tusen kring "en del" (branscher, orter, forskningsområden, award-former, historiska föremålsgrupper m.m.) områden - och givetvis följa riktlinjer får hur man bäst uttrycker datafält i infoboxar, skapar bra kategorier, ser till får bra bilder och av och till får extensions för att stödja spridningseffekt till andra uppslagssidor genom självorganisation. Och allt i direkt dialog med samhället så man inte alienerar det i onödan på rena missuppfattningar.


Mer om det hårda slagfält den geopolitiska turistindustrin kapprustat till där varje ny teknisk möjligheten, historisk händelse och ort är eller bör in i gemensamma datakällor för att nära tillväxten och befrämja fred:


Årsintensitet från Wikipedia infoboxar

2013-07-02

Referenser kring framtiden är kometer och dylikt och rent från religiösa referenser. Från grafen lär vi att kollektivt språk är avgörande för hur intensivt ett år är. Och Wikipedia är lite små-viktig i det sammanhanget därför att det är en bekväm datakälla för dom som inte ids importera annat: god bredd, ofta mycket acceptabel kvalitet jämfört med liknande enkla datakällor att ta ut data från i bredd och bekvämt tillgänglig i diverse färdig-filtrerade datafiler. Också om jag själv i andra områden ser mycket värde med många fler datakällor ser jag föga anledningen till att söka något annat kring datum och år för historiska händelser. Den gav här cirka 20 MB av mycket god kvalitet.


KLICKA FÖR ATT FÖRSTORA GRAFEN

Semantic Mediawiki: Enkelt och vettigt avgränsatd och troligt ett bra val för många trots långsam dataimport

2013-06-09

Med begränsad erfarenhet av MediaWiki som plattform presentation mot affärslogik och artificiella intelligenser och analys-systems resultat "organiserat" och sökbart var det en tämligen självklar utgångspunkt att tänka basplattformen utan att blanda in Semantic MediaWiki. Hela det teknik-området är ju vanligt problematiskt långsamt när man börjar komma upp i ordentligt med samband och än mer när relationerna inte är binära utan varierade i "attraktion" som funktion av tid.


Men läsande egentligen väldigt lite publicerat - och förvånande lite jämfört med hur dåligt organiserat jag upplevde att informationen var centralt för MediaWiki i faktisk tid resulterande anmärkningsvärt enkelt - framgick att MediaWiki egentligen bara är en tämligen "dum-plattform" med en eller flera små insticksmoduler bl.a. uttryckt i PHP med lite filer runt omkring jag inte tittat just på men antagligen bär logik och kanske ev. eget modulerna behöver.


Ingen nackdel med att installera in subsystem motsvarande MediaWiki såg jag - åtminstone innan man ger dem ansvar och uppgifter genom att sitta och arbeta på sidor anropande dem eller vi egna diskreta små databas operationer det hela tycks göra men jag inte riktigt tittat i detalj på.


Semantic MediaWiki var dessutom förvånansvärt vettigt begränsad i vad de försökt att göra. Den kändes som en nästan kulturell-stereotyp för tyskarnas ontologi-intresse och visade sig också driven av dom vilket också gjorde att jag förväntade mig mer filosofiskt konceptuella relationsidéer av sådan natur att de praktiskt i maskin-analys blir oerhört långsamt. Men förenklad ner till nära nog bara det mest grundläggande i hur vi utnyttjar systemet skjutande in data (medan analys-kod för sökande diverse logik runt dom semantiska graferna troligt är vad man intresserat sig mer för att koda mycket in en hel del i: Det finns ett ganska stort intresse hos både universitet och företag i Tyskland med ett tycks det väldigt långsiktigt perspektiv ganska tydligt just uttryckt i analys-system av typen resonera "mer binärt" om vad relationer av olika slag betyder och bygga upp små antagande som växer sig stora över tiden men universiteten i USA oftare tycks mer inriktade på statistiska lösningsmetoder.


Att de avgränsat uppgiften gör att man lättare kan abstrahera vad den är till för och avgränsa ansvar med också mindre behov att verifiera om den gör saker kanske störande affärslogik ej trivialt att alltid reda ut när det handlar om väldigt komplexa grundplattformar (jämför ex. med de moderna databas-koncepten från IBM, Oracle m.m. som blandar alla möjliga former av datarepresentation, logik, underhåll, import och export fordrande mycket goda kunskaper om det innan man ens kan börja tänka på att bygga det värde man söker mer än delmål att få databasen att fungera utan att störa eller begränsa logik.


Logiken prioriterad för sökning och samband känns dessutom vettigt kompletterande i områden jag haft mindre intresse att göra lika generella lösningar i egen-kod. Det är ju dessutom samtidig logik som endast belastar när faktiskt använt av slutanvändare (åtminstone på nivåer av betydelse annat än vid dataimport där det kanske adderar en kostnad också åtminstone om man optimerat representationen för snabba analys-svar).


Dessutom var två excellenta introduktioner praktiskt funktionella utan att överdrivet uttrycka mer än funktionellt ny med systemen men ändå indikerande de viktigaste möjligheter ett tydligt ett värde ej trivialt:


Första länken är en längre guid och den man bäst utgår från vid installationen. Instruktioner tillsammans med Ubuntu-paketet gick ex. ej bra för mig innan jag gjorde en del saker indikerade här (ev. missade jag det i Ubuntu-informationen). Utmärkt som första introduktion.

Semantic MediaWiki 1.4.3 - User Manual | Semantic-mediawiki.org

Denny Vrandecic, Dominika Wloka, Markus Krötzsch, Yaron Koren, et al.,
Publicerad av: ontoprise GmbH | Ontoprise.de

Nedan sammanfattad information av åtminstone väldigt mycket av alla delar. Mycket praktisk för att snabbt se vilka möjligheter som egentligen finns för att lösa en del av vad som behöver göras.

Quick reference | Semantic-mediawiki.org .
Yaron Koren.

Precis som elegansen i grundkoncept överraskade klarade man här också av att förvåna med att man (åtminstone / redan) nådde upp till det nästan löjliga när systemet ska få data infört från andra system. Ingen verklighetsförankring från mitt användningsperspektiv verkar heller alls vara vad man i projektet noterat ännu.


Perspektivet i projektet är tänkt användning övergripande i Wiki-projekten där större importer sker mer sällan och istället många små "importer" från alla användare.
Att initialt ta in en kanske om sortering i namngivning lite generöst belastande databasens storlek på hårddisken är fungerande säg 50 000 000 koncept-sidor förutom själva relationerna är vad tänk och rekommenderade metoder ej är tidsmässigt förtroendeingivande för.


Det närmaste jag kom lösningar enkelt beskrivna (istället för inte alls) för att direkt skjuta in datat till databasen var istället för Pyton-skript läsande owl-filer och skickande det omvandlat till Wikimedia's intern-struktur till Wikimedia's webb-api (för parsning igen givetvis säkert på mer än en nivå) var detta underhållsskript:



"/var/lib/mediawiki/maintenance/" ."importTextFile.php".


Mycket troligt finns snabbare metoder men vad som hittades på den tid jag önskade lägga. Givet att vi här uttalat kan köra skriptet från kommando-prompt utanför själva Mediawiki-systemet blir det snabbare (när kö-hantering i Wikimedia inte just är problemet eller utmaningen för oss här utan heller någon negativ-sida).


Trots det mycket långsamt. Hårddisken låter på förvånande nivåer också för ganska små datamängder som kanske 100 till 1000 sidor uttryckande endast kategori- och property-relationer går in. På nivå med cirka 10 - 20 trådade Perl-processer som läser och skriver data i ganska hårda-loopar om än normalt för mig några sleep-inlagda av och till åtminstone på några milli-sekund av och till.


Men så har ju data't då gått en ordentlig väg trots kommando-prompts-körningen innan den slutligen hamnar i den databas jag ej varande någon expert eller ens särskilt kunnig alls om SQL m.m. nära nog kände att jag kanske hellre borde ha gett mig på att försöka oavsett ännu ganska dålig bild av hur enkelt det är att ta MediaWiki att korrekt följa upp sådant i ev. (och troliga) händelser den behöver göra när något nytt kommer (ex. optimeringar mot dess egen logik mer problematiskt för mig att uttrycka i kod mot databasen utan att ta ut den från deras plattform eller utsätta mig för traumatiskt krävande föga belönande utveckling av prospekterande stöd för det i Wikimedia's värld av massor av ofta lite ofullständig dokumentation).



>Importen till höger presterat till kanske 0.3% efter en försvarlig tid. Just nu säkert en eller två timmar senare på AJ. Med e och diverse andra otäcka bokstäver som första kvar. Till vänster om jag minns rätt några av de named relations som tas in i denna import. Faktiskt har vi ännu inte börjat kört in datat utan verifierar att inga dubletter finns i den MediaWiki-logik som skapas. Det tycks lite odefinierat för hur redundant-data alla gånger egentligen fungerar och också om det troligen ej är något egentligt problem med logik är det vettigt att varje system verifierar ner ökande som en funktion av dess vetskap och förståelse av datat nära dess kod (d.v.s. att jag helst inte vill behöva veta vad MediaWiki gör med datat i dess arbete vad vi hellre gör lite extra-filtrering innan skickande in det).

Nu tänkte jag börja köra in dom första miljonerna raderna koncept gjorda. Så får vi se om det kommer några skärmdumpar av det kanske tillsammans med en sammfattande publicering av dom skämtteckningar jag gjort bakåt i tiden relaterat Tyskland med kanske utlovade behov att helt prioritera ner Obama med flera fallstudier studerade i det komiska för att inrikta mig på att håna Tyskland i allt semantiskt för att avskräcka dem från att sprida något smärtsamt ut i världen. Humor är ju ett mycket potent vapen jag tror många fler än jag kan ha nytta för att standardiserat verktygsmässigt skapa värde från för att motivera diverse öppen-källkods-projekt m.m. att få rätt brukshöjd i vad skapar genom att addera en kul men samtidigt kompletterande motivations-area bredvid status- och makt-strider i grupperna om vem som kodar mest och bäst m.m. vi kan gissa tar mycket tid (åtminstone jag kan då inte se någon annan motivation förutom externt adderande komisk learning by shaming m.m. som kan spela in viket i sig på längre sikt kan bli ett problem om något av äppen-källkods-projekten konvergerar till en stark ledare med kraft i gruppen att försöka marschera ut för att utmana dagens betydelsefulla geo-politiska aktörer: den stora frågan är kanske om man kommer ta allians med NATO eller Kina och hur det påverkar utgången i det tredje-världskrig jag tror vi givet allat som skapas på nätet i kaotiska konflikter mellan teknik-plattformar m.m. helt säkert kommer bryta ut förr eller senare).


Men jag känner mig tämligen positiv i förväntan. Trots utmaningarna prestanda import har det överraskat i också fler små-indikationer än diskuterat att det kan vara ganska välgjort i inriktning en bra grund-plattform.

Att göra samhällsvärde av kulturskribenten

2013-02-10

Kanske kan en betydande andel av alla problem våra tidningar berättar att de har relateras till att många av deras skribenter inte är vad läsarna upplever samhällsviktiga? Ska vi nu betala för att läsa en tidning vill vi givetvis mer än att få nöje själva känna att vi bidrar till något viktigt spridande kunskap bland ungdomar, äldre m.fl. med ett tydligare behöv att lära resp. uppdateras. Sajter som Wikipedia, Plos.org och arxiv.org (sorted expert training ovanpå Citeseerx hellre än sökfunktionen eller mänskligt arkiv - trots det vad som drar horder av läsare från DN, BBC m.m.) tar allt fler läsare och en till recension eller funderande om könsroller, ideologier, tv eller konst lär inte lösa det.


Mer än att som allt vanligare krympa populationen kulturskribenter (vi som ett första ex. utgår från: men mycket mer onyttigt finns givetvis) finns verktyg som utvecklar stocken. Det kritiska är att varken se dem som offer eller vilka som själva kan klara att lösa problemen. Vi behöver som samhälle förädla dem till nyttiga verktyg som ger oss ett verkligt värde mer än att vi mest för vi tycker synd om dem efter att ha läst deras senaste otäcka rapporter från en biotyp i utrotning kanske lössas ha läst tidningen men helst ännu mer slipper.


Ett perspektiv och en kunskapsmängd ofta grundlagd ("har fastnat" men ska gå att skaka loss) smalare idéer om nöje, kultur, familjeproblem av de enklare slagen med föga samhällskostnad, semester o.s.v. med föga egentligt samhällsvärde - i bästa fall onyttigt nöje - gör att vi måste förstå att det lika mycket ligger på vårt ansvar att anpassa vårt språk mot dessa som för dem att lära nya ord och begrepp.


För att förklara lätt-tillgängligt (och därmed mer energieffektivt och troligare med större spridningseffekt d.v.s. samhällsvärde) illustrerar (bra ord både vad samhällsnyttiga i industri och forskning resp. kulturarbetare och kulturskribenter upplever sig förstå) med ett exempel:


Texten märker vi har verkstyngd och kunskapskrav vida högre än recensioner av tv-program, romaner och flick-skvallriga krönikor och familj och kändisar klarar att stimulera skribentens kognition till utveckling och med ökande ålder bibehållen tankeförmåga (hög ålder och "fördummande" artikel skapar nog ibland en ond-cirkel). Men för att liva upp och ge koncept mål-personen kan anknyta till exemplifierar jag med hemvanda begrepp. Först mer eller mindre en artikelplanering några veckor framåt i ex. Dagens Nyheters kulturbilaga (att den är vad jag upplever mer läsvärd och intressant i DN ursäktar inte att den inte bidrar till rikets tillväxt och uppmuntrar till viktiga samhällsbyggande framsteg).



    Exemplen citerade nedan (eller klicka bilden ovan för att förstora...

        "Slutligen / kompletterande kan vi också tänka oss att ett mindre antal färdigt givna koncept kan ges anropande som markeras dessa (ev redundant sig själva ibland). Ex. vulgär-kultur, manligt revirtänkande och patrikaliskt kvinnoförtryck, matematik, skog, buskar och natur, färger och konst m.m.

      6.4. Ev. i övrigt existerande koncept ej med i 6.3. och ej instansierade låter vi finnas kvar ungefär som spreading activation bryggor / collocation markörer / geografiska formationer o.s.v. Vi tänker oss dessa ansluta till instaniserade koncept, hierarkiska noder resp. varandra med en egen tunnare linje / eller med mer vitt i bakgrund ungefär. Lite som lymfan vs. blodkärlen. Viktigt men inte poesi potential i det."


Notera också hur jag en bit nedanför använder en poesi-referens - rent av uttrycker mig poetiskt. Detta är inte onyttigt eller för eget nöje. Det är viktigt:


  • Ett av kultur-skribentens få verkliga expertområden.
  • Den kan både uppleva ett erkännande av något de spenderat mycket tid på som intresse och kanske fått artikel-pengar för eller ett bidrag från staten eller fond för att ge ut något om.
  • Och kompenserar slutligen för den känsla av otillräcklighet som annars föga konstruktivt kan konvergera till nedstämdhet, uppgivenhet och en känsla av att vara underlägsen i ett upplevt svårt område.

Målet är ju att uppmuntra till att skriva om något nyttigt även om det kommer med en ansträngning där något nytt behöver läras. Vi vill därför inte genom att ej tänkt igenom saker tillräckligt trycka ner kulturskribenten utan uppmuntra denne. Precis som ex. med hundar och barn (eller forskare med diverse symboliska priser) ger det mer att glatt som i ex. uppmuntra istället för att kritisera deras oförmåga. Deras misslyckande är verkligen lika mycket den kollektiva impotens som fått oss att acceptera tidningarnas infertila subkultur.

Musiken saknades i ex. men den kan man mer passande lägga i en ljud-slinga (ex. inspelning eller som i video-klippet vad man presterar själv). Det är säkert inte främmande för kulturskribentens mer "hippi-ostrukturerade" arbetsplats (vinande eller värre ska dock aldrig accepteras) jämfört med hur den kan se ut om några år efter dessa tips och mer spännande vi säkert kommer få se på vägen mot den goda industralisering som kommer ge medias "landsorts-folk" och samer det moderna samhällets alla värden.