Kanske behöver man frekvenserna med från det härledda värden för såväl a, an, the m.fl. när determiners, och rent av i den mån vår noun phrase saknar dem (och initierar / indikerar en named entity som Bill Clinton medan vi lämnar alla övriga alternativ bortom vad vi diskuterar här) att ett the får antas vara underförstått och läggas till?
Orsaken till att man kan tänka så är att vi dels kan se intensitet för resp. del av frasen projiseras framåt (ex. ett adverb modifierande ett adjektiv eller ett adjektiv ett adverb) vilket jag tror är sunt. Emellertid tycks också troligt att vi rent linjärt har påverkan framåt av intensitet bl.a. därför (och samtidigt med liknande påverkan intensitet) att interferens för detektion av flergram pågår (ex. very much vs very + much).
Så gör man det senare först gäller nu att åtminstone för de varianter jag prövade att vi gärna får mycket upplevt bättre världen initierande med en determiner vi tar hänsyn till.
Emedan den första projektions-typen tar hänsyn till intensitet hos ordet (och/eller ett chunk) som funktion av den linjära-effekten såväl som emotionell intensitet m.fl. ej omedelbart / ensamt "frekvensberoende" vikter utelämnar den linjära effekten detta.
Så har vi:
bad X
Istället för:
very bad X
Blir det när resp. ska betraktas för linjär-intensitet jämfört med en kostnad underligt (för mig i alla fall) därför att längden i antal ord får en påverkan som ej är rimlig för en "subfras" (ex. adverb i noun-fras).
Medan om vi har initialt relativt övriga högt värde i alla dom här fallen tycks det kanske lösa sig vettigt: Ex. the eller a. Samtidigt kan vi göra viss värdering rörande sådant som ev. större kostnad av processa ovanliga DT och möjligen rent av emotionell polaritet hos dem vilket om vi samtidigt kastar dom vanligaste DT känns mer vågat.
Vill man nu övertänka den initiala vikten kan vi fundera över hur en implicit vikt är möjlig när DT saknas samtidigt som själva konceptet för den linjära effekten är att intensitet föregående (om vi tänker oss bara två ord annars åtminstone som jag gjorde det med påverkan från avståndet indirekt från hur länge ordet funnits i arbetsminne). Hur kan vi tänka oss något med en intensitet jämförbar med the initialt om den saknas?
Kanske jämförbart med själva konceptet för stoppord? Är det stoppord tvingar vi det till 0. Det motsvarar nu höga värden här. Eller bättre uttryckt ser vi vår frekvensberoende initiala vikt som en ren kostnad och subtraherar den jämförbart från ett. Det kan tänkbart vara bättre än jag gör nu därför att jag testade endast för kanske de fem vanligaste (eller ungefär så) DT.
Jag tror dock att det är tvärtom. En tänkbar förklaring jag ej prövat ges för resp. upplevd effekt (jag fick prövande här och nu på mig själv):
a dog
an dog
D.v.s. om nu istället an hade saknats kan vi se P ( dog givet DT ) som att vara P ( dog ). Och om så att utnyttja intensitet för determiner som jag gör det är att anta att det är givet följande ord är skalbart jämförbart troligt motsvarande den beräknade intensiteten.
Och om vi råkar på ett ord bestående av prefix + base där vi känner ett frekvensberoende för resp. prefix och base men ej ordet i sig kan vi skatta det jämförbart tror jag (men har inte prövat därför att jag valde en annan väg i algoritm för dessa av orsaker relaterat till begränsningen ev. fallet här d.v.s. rörande huruvida en tänkt P ( base | prefix ) kan ses relaterad till P (prefix) genom att skattningen av P (prefix) kan göras på sådant sätt eller antas vara semantiskt relaterad i priming i mening till P(base) eller som vi kan se som att vi kanske har en frekvens stor bunt ord med prefix:et först där prefix har tämligen annorlunda semantisk betydelse i förhållande till base än typiskt för prefix:et). Och saknas prefix framför base är man lockad till att se något jämförbart till när DT saknas.
Nå nu ser jag kanske varför den blir initierat högt om implicit. Det gäller att försöka minnas att intensitet kan vara såväl kostnad som värde. I den mån intensitet projiseras framåt oavsett linjärt till nästa eller via dependency relationer kan det rörande det ej vara kostnad. Vi kan ej detektera i framtiden initierats ett historiskt värde om det är noll eller negativt. Ett antagande om att vi i varje steg valt att fortsätta läsa meningen snarare än att bryta läsning av ex. en titel för att leta rätt på något annat att läsa finns.
I all rimlighet måste jag tänkt fel någonstans. Sak samma: Bara ett inlägg som "skymmer" komiska teckningar m.m. intressant innehåll enligt den tycks det normala synen på värdet för olika typer av inlägg. Tragiskt att man ej motiverade sig nog att lära sig tyskan ordentligt: Jag är säker på att den normala tyska läsaren skulle sätta sig och leta matematiska, logiska, och algoritmiska fel i detaljerna istället för att fuska förbi inlägg med riktigt värde letande efter något kul likt svensken. Nå jag struntar att tyska det här själv tillsvidare.
Hur som helst avseende del av noun-fras varande just noun blir det givetvis omvänt rörande själva projektionen.