Minimalistiskt sido-algoritm-skiss beräknande läsare nyhetsmedier II: Algoritm omvandlande tidskostnad referera nyhet till förtroende publicist

2014-04-30

Eftersom jag behövde strukturera tankar lite till fortsatt Minimalistiskt sido-algoritm-skiss beräknande läsare nyhetsmedier (2014-04-30) och ej algoritm eller område jag bedömer centralt för mig (en liten nödvändighet bäst hanterad enklast möjliga). Givet att jag valde att utnyttja relationer via äldre men inarbetat etablerad och snabb för analys länkar kan den troligt intressera en del.


Eftersom jag för ett antal i ev internets subkulturer förnöjelse (strävar och hoppas jag liksom alltid: läsaren är vår ledstjärna) pekade på motsvarighet i klassiska SEO-koncept rörande association koncept till domän relativt undersida resp. väg dit från donerande noder med text och länkar i föregående avslutade jag skissen med att göra det samma (och en av de föregripande faktorer jag tog hänsyn till för att förebygga problem från när de av och till görs lite väl stort). Jag citerar ut det direkt här men ligger i övrigt:


1. [Läsarens egen] skriven text [där denne länkar].



1.1. "Medelvärde" (i bäst fungerande variant fortfarande snabb) funktion av BLI, PA och textens längd. Högt värde är HÖGRE ***kostnad tid***. Komiskt kan vi föreställa oss Obama görande tidskostnad att leta upp lämpligt udda law domain termer ingen hederlig datorarbetare hört talas om (och lika otroligt för dessa en typiskt medborgare).



2. Indikerat "läst" ej news provider.



2.1. "Medelvärde" (i bäst fungerande variant fortfarande snabb) funktion av BLI, PA och textens längd. Högt värde är MINDRE ***kostnad tid***.



2.2. Praktiskt måste dessa tror starkt för god prestanda skattas från lämpligt medelvärde öve säg news providers istället.



3. Hantering ett par förekomster som kan störa:



X.1.1. Jämför "godtycklig" social eller "easy trade" länkning. Görs ofta nog snabbt d.v.s. tar ej tid från att läsa nyhet.



X.1.2. Jämför advancerad easy trade med anpassad given text kanske unik. Här ligger oftare komplexitet högre d.v.s. tar tid från övrigt reducerande ev. störning av säg news providers länkade riktat eller för taggign / länk-kontext.

Vidare för att ge ett exempel motsvarande vad som noterades särskilt relaterat SEO föregående motsvarar mitt gamla koncept (från säg 2006) om ambassader i sociala media eller vilka som helst samhällen på nätet bundna till en nod vi enkelt kan särskilja (d.v.s. typiskt minst ett domännamn och ibland pået mindre grupper). Vi kan ex. se hur Vitahuset (kanske också för rättvisa mot olika ofta amerikanska företag) lokaliserar sig i ganska många motsvarigheter samhällen. Motsvarande företag p.s.s. ger det möjlighet att möta samhället där de oftast här och ofta nog viktigare praktiskt finns relaterat innehåll när samhället söker det lokalt eller reagerar och uttrycker om företaget, organisation o.s.v. En inarbetad väg att tala lokalt vid behöv. Skillnaden relevant här som ex. finns där mellan default-publiceringen t.ex. samma filmklipp på resp. video-social-media-sajt (Youtube, Vimeo och jämförbart) resp. när reaktionen är riktad eller en meningsfull reaktion lokalt. Och för default-publicering om denna är direkt associerad till samma entitet eller uttrycks för ett antal olika entiteter där det senare kan indikera bl.a. "spam", behov av anonym publicering andra orsaker, eller något viralt.


Jag engagerade mig inte i att korrekturläsa det. Ingenting jag vanligen spar utan uttrycker i kod resp. samhörande kod när det prövas ut. Mer av en tankeprocess samt för att reducera risk att göra kod initialt "lite för bra" med något onödigt i tidskostnad utan att leverera värde i domän intressant övergripande. BLI avser Blue light intensity. PA avser sannolik for ett koncept (av totalt några miljoner ngram som erkänns existera) och här ev. snarast först uttryckt till vad jag brukar kalla WP vilket "förvandlat" sannolikhet för ett tänkt kontext-löst värde till en vikt man kan räkna med efter behovet i algoritm (här vill vi förslagsvis antagligen kunna summera sannolikheter för koncept i en text vilket för PA inte har någon egentlig vettig betydelse i sannolikslära: ett logiskt alt. till WP eller anvnt WP är entropi men applikationer nära nog just som tänkt nedan brukar det prestera sämre än en del andra lika enkla alternativ).


3. För resp. diskret tidsfönster - förslagsvis tillsvidare ett datum utan
överdriven hänsyn tidszoner (finns i news id) - fördelar vi skattning tid
utifrån den explicita snabba relations indikator utvald här:



3.1. Indikation mot en större grupp ej självklart förstådda sajter men saknade
snabbt kontrollerade parametrar överrensstämmande med övriga: Antags vara
shopping. Shopping kommer med en tidskostnad vi skattar från en filosofisk idé
om att de läser (eller lyssnar på någon d.v.s. social time cost). Eftersom
jag för första version big slow change stat. valde att ej göra mining på
Amazon review eller liknande känns rimligt givet inexaktheten hur som helst
samt [Små censurerad för läsarens bästa.].



:::: Negativt verkande tid kvarstående att läsa new entity.



3.2. Blogg-länkning, tweets m.m. antas socialt. För kors-blogglänkning ändras
det kanske senare men just nu ska de ju ändå inte hanteras gissar jag (beroende
på om det känns att skapa upp det i Rebel-AS.



:::: +/-. Social aktivitet. Vi ser gillande på att läsare som fokuserar
på sin core function men bestraffar inte sådant vi vet ej påverkar
kostnad läsande en tidning tryckt eller på webben. Ofta nog har de ju
trots allt inte annat än vid diskret tidpunkt eller några läst utan
varit sociala (eller gjort trade i andra dimensioner).



3.3. Wikipedia eller jämförbart. Kan vara "tagging" i vilket fall det förekommer
med news provider. Annars är det en tidskostnad. Allt länkat uppvisande trivial
form text samt refererar något publicerat vi saknar stämplat själv uppfyller
detta.



:::: Stör läsarens core-business. Negativt verkande tid att läsa
news entities. Kostnad tycker jag känns rimligt att beräkna med samma
funktion som för news entity tillsvidare.



3.4. News entity för gammal. Räknas tagging. Ingen tidspåverkan.



3.5. News entity i fönster. Tidskostnad enligt enkel funktion.



3.6. Läsande sig själv. Tidskostnad enligt samma funktion.



4. Enkel funktion tidskostnad.



4.1. Läsaren börjar för varje diskret tidpunkt med tillgänglig tid 1 HH-TIME.
Allas HH-TIME är olika men för en population är det endast mycket långsamt
föränderlig. Troligt 3D normalfördelad vilket vi hanterar indirekt.



4.2. Tidskostnad beräknas från komplexitet för aktuell text given.



4.2.1. Kostnaden faller enligt en exponentiellt avtagande funktion utifrån
mängd för parametrar indikerande kostnad som summerade för hela texten. Ex.
tänkbart.



1 komplexitet
1 kostnad

2 komplexitet
1.5 kostnad

3 komplexitet
1.75 kostnad

4 komplexitet
1.något en kvinna eller färgad med moraliskt
ansvar att hantera matematik negativa stereotyper
borde huvudräkna åt mig men vi avstår från som
primärt ett politiskt ställningstagande och
sekundär av mindre [Uppenbara] orsaker [Roar föregående läsaen: här
eg. att jag är föga bra på att huvudräkna och varande man ej behöver känna motivation att motbevisa
det för att reducera påverkan av negativa stereotyper rörande
kvinnor och matematik.]



4.2.2 Kostnadsparametrar kan man tänka sig tas med något läsbarhetsindex men
jag tror mer på att göra något själv som jag är van att se på text.



4.2.2.1. Vi önskar ej utnyttja DO och DESCRIBE över text. Kostar beräkning.



4.2.2.2 Längre text tar längre tid att läsa. Men köper vi bok och ska välja
läser vi inte hela boken i bokhandeln. Så vi bottnar ut ungefär i tidskostnad
med en typisk Reuters nyhet d.v.s. ungefär som baksida på en seriös bok.



4.2.2.3. Låg BLI bör i dessa sammanhang oftare vara dyrare. Det stämmer mindre
i allt vi ser som DESCRIBE sannolikt med cue-aktivering. Samma resonemang går
att ta för PA såväl också inarbetat jfr utnyttjande thesaurus och def. ordlistor
för de enklast sim sakerna folk gjort längre bak när data var mer färskt kring
sådant i datamedier (men ej hos mig med något enstaka undantag för småsak kanske) n i ngram.
Men skummar man tror jag nog det sista ej är avgörande och ovant för mig struntar
vi i det. D.v.s. ju större som funktion av BLI och PA över text desto mer tid
investerade läsaren (i en annan värld än den annat än ett få tag likt jag bor
i) eller alt. egentligen läst väldigt lite av den (för vår stereotypiska
läsare).



4.2.2.4 Ju mer "emotionell potential" desto troligare p.s.s. som ovan men för
resp. riktning omvänt. Eftersom konvergerad DESCRIBE -> DO transformation av
den samma ej är gjord bra (för få nyheter i förra krävande massor om meningsfullt
över då bara cirka 140 000 BL-koncept) struntar vi i denna. Alt gör projektion
nu ev. dumt till 1gram.



4.3, I Sammanfattning enklast tänkbara start variant:



*) Total mängd BLI för DESCRIBE.

*) Total mängd PA för DESCRIBE.



*) Ev. med därefter hantering rörande länk på text. Det är eg. onödigt
förutom att vid optimerad hantering vill vi kanske få viss naturlig
filtrering här mer att göra med att vi ej överanalyserar säg struktur.



*) Korrigering. Vi är tror jag ev. tvingande att hantera storlek:

- Givet. För riktiga nyheter snarare än bestraffning skillnad
vad som exporteras av DESCRIBE via optimerad kanal hämtande.



Det tycks vettigt att hantera det enligt välkända funktionen för det
från inverse-tf funktionerna. Den enklaste mest välkända har jag mycket
god erfarenhet av. Den fungerar bra just för denna skillnad (d.v.s.
man accepterar att man väljer att ej dra nytta av större DESCRIBE vilket
är rimligt här).



4.4. PROBLEMET KVAR:



4.4.1. Föregående fungerar perfekt för vad vi accepterar som godtagbara nyheter donerande
kraft till dem. Men vill jag egentligen sitta och spindla ner hela webben
för varje länk-referens? Nja. Istället tillsvidare - och sunt för att förebygga
atavist-risk - tar vi säg medelvärdet av 4.3. (undantaget läsa eget skrivet
som vi ju har).



4.4.2. Fördelning mellan indikerat i samma enhet analyserad. Jfr resonemang
föregående rörande enklast initiala form (som jag tror kan räcka också fortsatt
länke) för att reducera risk för atavistiska strukturer störande prestanda
eller introducera udda fel betraktar vi om det tycks praktiskt funktionellt
varje tidsfönster som en samlat enhet. Ev. går detta sämre eftersom det kan
vara brutalt snabbare att bara gå över alla newsid's direkt i Rebel-AS föregripande
eller görande tillstånd onödig alt. sparande extra referens till resp. sådan.
Jag tror ev. kostnad tillstånd är olämplig att försöka komma ifrån. Ev.
news-headline-app eller dyligt kan annars göra saker tämligen underliga om de
råkar tas upp i ström underligt.



4.4.3 Fördelning mellan resp. referens indikerande för oss att de menar sig
ha läst något är icke-trivial. Emellertid gäller:



4.4.4. Känd content-summary pressmeddelanden och news-fire ger oss initial
mening i Describe resp. första andra stycket. Delvis kulturellt skapande av
dessa tror jag. Resp. för närminne rörande list-innehåll har motsvarande
d.v.s. boost-tidigt samt dessutom boost det sista d.v.s. motsvarande redaktionellt
knorr. Korrekt spekulerar jag bör tidigt och ev. sista värderas högre. Praktiskt
tillsvidare värderas första till news-provider och övriga i samma betraktas
endast som tagging (d.v.s. ej kostnad de senare: läsaren antas endast läst
det första och sedan Wikipedia länkat lite p.g.a. ex. en tro att de flesta
i övrigt inte helt lärt sig att slå upp i Wikipedia eller liknande lika snabbt
som att följa länkar ofta bara med ankartext utan indikation var man hamnar
eller alt. sorterande för egen del eller hjälpa tredje-generationens sökmotorer
vi har förfallit ner till tagande värde där länk-struktur troligt räcker
excellent sparande beräkningstid analys implicita relationer eller än värre
göra NLP på det hela m.m.



5. Step by step.



1. Egen skriven text.



1.1. "Medelvärde" (i bäst fungerande variant fortfarande snabb) funktion av
BLI, PA och textens längd. Högt värde är HÖGRE ***kostnad tid***. Komiskt
kan vi föreställa oss Obama görande tidskostnad att leta upp lämpligt udda
law domain termer ingen hederlig datorarbetare hört talas om (och lika otroligt
för dessa en typiskt medborgare).



2. Indikerat "läst" ej news provider.



2.1. "Medelvärde" (i bäst fungerande variant fortfarande snabb) funktion av
BLI, PA och textens längd. Högt värde är MINDRE ***kostnad tid***.



2.2. Praktiskt måste dessa tror starkt för god prestanda skattas från lämpligt
medelvärde öve säg news providers istället.



3. Hantering ett par förekomster som kan störa:



X.1.1. Jämför "godtycklig" social eller "easy trade" länkning. Görs
ofta nog snabbt d.v.s. tar ej tid från att läsa nyhet.



X.1.2. Jämför advancerad easy trade med anpassad given text kanske unik. Här
ligger oftare komplexitet högre d.v.s. tar tid från övrigt reducerande ev.
störning av säg news providers länkade riktat eller för taggign / länk-kontext.



4. En till störning i co-locomotion - om vi för de plattformar avsedda i första
hand denna mining har motsvarande Twitter volation med plötsliga stötar - är
ej i hantering indikerat föregående. Men samma avtagande expoentiell form är
att förvänta men där vi nu betraktar distans från normalt tillstånd. I en
artikel tyckte jag mig uppleva att de fick motsvarande en exponent 3/2 men
läste ej nog för att se direkt motsvarighet. Praktiskt från vad jag minns av
news events är emellertid tids-längden inverkande såväl som mängden news providers
deltagande i event. Optimerad förenklad sannolikt överskådlig tid sannolikt är
att istället sätta hantering i den temporala dimensionen för diskreta tidsfönster
d.v.s. effekt vid en punkt avtar övertiden och ska helst avta mer när avvikande
innebärande att för etablerat förändrlig vikt kan varje inverkan på vikten
tror jag - och kan ha algoritmer för det i besläktade områden - beräknas direkt
från avståndet värde snarare än det faktiska värdet gående igenom reduktion
exponentiellt.