DNA: Markov-modell

2015-10-10


"This work proposes a markovian memoryless model for the DNA that simplifies enormously the complexity of it. We encode nucleotide sequences into symbolic sequences, called words, from which we establish meaningful length of words and group of words that share symbolic similarities. Interpreting a node to represent a group of similar words and edges to represent their functional connectivity allows us to construct a network of the grammatical rules governing the appearance of group of words in the DNA. Our model allows to predict the transition between group of words in the DNA with unprecedented accuracy, and to easily calculate many informational quantities to better characterize the DNA. In addition, we reduce the DNA of known bacteria to a network of only tens of nodes, show how our model can be used to detect similar (or dissimilar) genes in different organisms, and which sequences of symbols are responsible for the most of the information content of the DNA. Therefore, the DNA can indeed be treated as a language, a markovian language, where a ”word” is an element of a group, and its grammar represents the rules behind the probability of transitions between any two groups."

Markovian language model of the DNA and its information content
S. Srivastava 1 and M. S. Baptista 1
1 Institute for Complex Systems and Mathematical Biology, SUPA, University of Aberdeen, Aberdeen, AB24 3UE, United Kingdom

Tidigare relaterat DNA och RNA som språk (och/eller SP-nätverk):


Minnesanteckningarna: "Extra" DNA information (Juni 2010) (2012-03-29)

Musik i en generell modell för språket (2010-06-23)

Ny modell för Evolutionen (2010-06-24)

Minnesanteckning - Lateralt tänkande: Evolutionen, virus och "kulturellt avstånd" (2010-06-28)

Information och Energi: Arv och organisation av våra ärvda tillstånd (2013-12-09)

Genetisk kod bär information (för kontextuell realisering i cellerna) via tidigare okänd princip (2013-12-15)

Finns personlighet att hitta i mängden fonem?

Jag upplever det bortom all rimlig tid att försöka kommentera det här:


"We study rank-frequency relations for phonemes in texts written by different authors. We show that they can be described by generating phonemes via random probabilities governed by the (one-parameter) Dirichlet density, the simplest density for random probabilities. This description allows us to demonstrate that the rank-frequency relations for phonemes of a text do depend on the author.

The author-dependency effect is not caused by common words used in different texts.

This suggests that it is directly related to phonemes or/and syllables. These features contrast to rank-frequency relations for words, which are both author and text independent and are governed by the Zipf’s law."

Från: Rank-frequency relations of phonemes uncover an author-dependency of their usage, Weibing Deng 1) and Armen E. Allahverdyan 2),∗1) Murray Gell-Mann Institute of Complexity Science, Central China Normal University, Wuhan 430079, China 2) Yerevan Physics Institute, Alikhanian Brothers Street 2, Yerevan 375036, Armenia, via Arxiv.

Men för att alls säga något hade man behöft börja med att betrakta vilka graf-liknande strukturer ej helt i form relevant annorlunda från språk som faktiskt uppvisar "Zipf:iska" egenskaper. Det är absolut inte undantaget att vi ser det i allt från språk till diverse sett i rymden och till kemiska egenskaper. Det är vanligt. Självklart är det emellertid också beroende av hur man väljer att representera - kanske "normalisera" - data (för en komplettering i domän av entropi: Calculating entropy at different scales among diverse communication systems men den som söker för att finna en mängd exempel mer direkt i Zipf's världens statistiska egenskaper bör lätt hitta dem i stort antal i det mesta utanför språk).


Vidare kan vi så klart se ett koncept representerat av ett ord som sista gemensamma representationen konvergens i förståelse kan gå till. Medan vägen dit kanske är mer naturligt varierad med den särskilda situationen inklusive olika enskilda personers beskrivning av den.


Slutligen vill jag säga att jag särskiljer författare via rankfrekvens (bättre kombinationer av alternativ finns). Frågan är naturligtvis där vad man exakt menar med rankfrekvens. Skriver man ej mer än rankfrekvens inkluderar man bra mycket avsett oavsett om nu ev. Zipf:iansk-natur avses eller inte. Framför allt kanske hur många dimensioner rankfrekvensen har... Och om den räknas alltid med 1 eller om viktsystem används.


Dock även om vi avser rankfrekvens som normalt skapad när Zipf diskuteras behöver det absolut inte vara svårt att se författar-specifika egenskaper via bara förekomsten på orden. Jag föreslår dock gärna att man kan binda vissa egenskaper hörande till väldigt stora människo-gemensamma egenskaper i personlighet går att få från likartat enkla samband och är en naturlig del av att klara att göra föregående: Bl.a. för två triviala egenskaper benägheten till att använda genomsnittlig ordlängd högre än genomsnitt resp. benägenhet att skriva meningar längre i antal ord och/eller antal tecken (och självklart är kanske ev. när så kanske är fallet skillnaden mellan antal ord och antal tecken vad jag inte kan utesluta har samband med resultaten man såg i länkad artikel även om jag inte vet säkert att så är fallet).


Hur som helst ett mycket passande ämne att studera för kinesiska vetenskapare. Med våra teckensystem känner jag ibland att vi är lite för nära ljuden för att inte bli hemma-blinda.