Models d'evolució de l'ADN

S'ha proposat un nombre de models d'evolució de l'ADN de Màrkov. Aquests models de substitució difereixen pel que fa als paràmetres emprats per a descriure les taxes de mutació, és a dir en les que els nucleòtids reemplacen a altres amb el pas de les generacions. Aquests models s'utilitzen freqüentment en anàlisis de filogènia molecular. En particular, s'utilitzen en el càlcul de la versemblança d'un arbre, en aproximacions de l'estimació dels arbres bayesians i de màxima versemblança (Maximum Likehood), i s'utilitzen per a estimar la distància evolutiva entre seqüències a partir de les diferències observades entre aquestes.

Aquests models són descripcions fenomenològiques de l'evolució de l'ADN com una cadena de quatre estats discrets. Aquests models de Màrkov no representen explícitament el mecanisme de mutació ni l'acció de la selecció natural. Més aviat descriuen les taxes relatives dels diferents canvis. Per exemple, biaixos de mutació i selecció purificadora afavoreixen els cansi conservatius i probablement ambdós són responsables de la taxa relativament elevada de transicions en comparació amb les transversions en les seqüències que evolucionen. Tanmateix, el model de Kimura (K80) que es descriu més avall senzillament intenta capturar l'efecte de les dues forces en un paràmetre que reflecteix la taxa relativa de transicions i transversions.

Les anàlisis evolutives de seqüències es duen a terme en una àmplia varietat d'escales temporals. Per això és convenient expressar aquests models en termes de taxes instantànies de canvis entre diferents estats (les matrius Q de sota). Si donem un estat inicial (ancestral) a la primera posició, la matriu del model Q i la longitud de la branca expressant el nombre esperat de canvis que s'han donat des de l'ancestre, aleshores podem derivar la probabilitat de la seqüència descendent tenint cadascun dels quatre estadis. Els detalls matemàtics d'aquesta transformació des de taxa-matriu a matriu de probabilitats en descriuen a la secció de models matemàtics de substitució de la pàgina de models de substitució. Expressant en termes de taxes instantànies de canvi podem evitar estimar grans nombres de paràmetres per a cada branca en un arbre filogenètic (o cada comparació si l'anàlisi inclou moltes comparacions de seqüències per parelles).

Evolució de l'ADN com una cadena de Màrkov contínua en el temps

Cadenes de Màrkov contínues en el temps

Les cadenes de Màrkov contínues en el temps tenen les típiques matrius de transició que són, a més a més, parametritzades pel temps, t   {\displaystyle t\ } . Específicament, si E 1 , , E 4   {\displaystyle E_{1},\ldots ,E_{4}\ } són els estats, aleshores la matriu de transició

P ( t ) = ( P i j ( t ) ) {\displaystyle P(t)={\big (}P_{ij}(t){\big )}} en la que cada entrada, P i j ( t )   {\displaystyle P_{ij}(t)\ } fa referència a la probabilitat que l'estat E i   {\displaystyle E_{i}\ } canviï a l'estat E j   {\displaystyle E_{j}\ } en el temps t   {\displaystyle t\ } .

Exemple: Ens agradaria obtenir el model del procés de substitució en seqüències d'ADN (p. ex.: Jukes–Cantor, Kimura, etc.) en una moda contínua en el temps. Les matrius de transició corresponents seran com les que segueixen:

P ( t ) = ( p A A ( t ) p G A ( t ) p C A ( t ) p T A ( t ) p A G ( t ) p G G ( t ) p C G ( t ) p T G ( t ) p A C ( t ) p G C ( t ) p C C ( t ) p T C ( t ) p A T ( t ) p G T ( t ) p C T ( t ) p T T ( t ) ) {\displaystyle P(t)={\begin{pmatrix}p_{AA}(t)&p_{GA}(t)&p_{CA}(t)&p_{TA}(t)\\p_{AG}(t)&p_{GG}(t)&p_{CG}(t)&p_{TG}(t)\\p_{AC}(t)&p_{GC}(t)&p_{CC}(t)&p_{TC}(t)\\p_{AT}(t)&p_{GT}(t)&p_{CT}(t)&p_{TT}(t)\end{pmatrix}}}

en les que els blocs de dalt a l'esquerra i a baix a la dreta 2 × 2 corresponen a probabilitats de transició i les els blocs de dalt a la dreta i a baix a l'esquerra 2 × 2 corresponen a les probabilitats de transversió.

Supòsit: Si en algun moment t 0   {\displaystyle t_{0}\ } , la cadena de Màrkov està a l'estat E i   {\displaystyle E_{i}\ } , aleshores la probabilitat que al temps t 0 + t   {\displaystyle t_{0}+t\ } , sigui un estat E j   {\displaystyle E_{j}\ } depèn només de i   {\displaystyle i\ } , j   {\displaystyle j\ } i t   {\displaystyle t\ } . Aleshores això ens permet escriure la probabilitat com a p i j ( t )   {\displaystyle p_{ij}(t)\ } .

Teorema: Les matrius de transició contínues en el temps satisfan:

P ( t + τ ) = P ( t ) P ( τ )   {\displaystyle P(t+\tau )=P(t)P(\tau )\ }

Models més comuns d'evolució de l'ADN

Model JC69 (Jukes i Cantor, 1969)[1]

JC69 és el model de substitució més simple. Hi ha diferents supòsits. Assumeix freqüències de bases i taxes de mutació són iguals ( π 1 = π 2 = π 3 = π 4 = 1 4 {\displaystyle \pi _{1}=\pi _{2}=\pi _{3}=\pi _{4}={1 \over 4}} ). L'únic paràmetre d'aquest model és per tant μ {\displaystyle \mu } , la taxa general de substitució. Com s'ha mencionat prèviament, aquesta variable esdevé constant quan normalitzem la taxa mitjana a 1.

Q = ( μ 4 μ 4 μ 4 μ 4 μ 4 μ 4 μ 4 μ 4 μ 4 μ 4 μ 4 μ 4 ) {\displaystyle Q={\begin{pmatrix}{*}&{\mu \over 4}&{\mu \over 4}&{\mu \over 4}\\{\mu \over 4}&{*}&{\mu \over 4}&{\mu \over 4}\\{\mu \over 4}&{\mu \over 4}&{*}&{\mu \over 4}\\{\mu \over 4}&{\mu \over 4}&{\mu \over 4}&{*}\end{pmatrix}}}
P = ( 1 4 + 3 4 e t μ 1 4 1 4 e t μ 1 4 1 4 e t μ 1 4 1 4 e t μ 1 4 1 4 e t μ 1 4 + 3 4 e t μ 1 4 1 4 e t μ 1 4 1 4 e t μ 1 4 1 4 e t μ 1 4 1 4 e t μ 1 4 + 3 4 e t μ 1 4 1 4 e t μ 1 4 1 4 e t μ 1 4 1 4 e t μ 1 4 1 4 e t μ 1 4 + 3 4 e t μ ) {\displaystyle P={\begin{pmatrix}{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}\end{pmatrix}}}

Quan la longitud de branca, ν {\displaystyle \nu } , és mesurada en el nombre esperat de canvis per lloc:

P i j ( ν ) = { 1 4 + 3 4 e 4 ν / 3  if  i = j 1 4 1 4 e 4 ν / 3  if  i j {\displaystyle P_{ij}(\nu )=\left\{{\begin{array}{cc}{1 \over 4}+{3 \over 4}e^{-4\nu /3}&{\mbox{ if }}i=j\\{1 \over 4}-{1 \over 4}e^{-4\nu /3}&{\mbox{ if }}i\neq j\end{array}}\right.}

La estimació Jukes-Cantor de la distància genètica (en termes de nombre de canvis esperats) entre dues seqüències ve donada per

d ^ = 3 4 ln ( 1 4 3 p ) {\displaystyle {\hat {d}}=-{3 \over 4}\ln({1-{4 \over 3}p})}

en que p {\displaystyle p} és la proporció de lloc que difereixen entre dues seqüències. La p {\displaystyle p} en aquesta fórmula està freqüentment referida com a distància p {\displaystyle p} . És un estadístic suficient per a la correcció calculada de la distància Jukes-Cantor, però no és suficient per al càlcul de la distància evolutiva sota models més complexes que segueixen (la p {\displaystyle p} emprada en les següents fórmules no és idèntica a la "distància p {\displaystyle p} ").

Referències

  1. Jukes TH and Cantor CR. Evolution of Protein Molecules. Nova York: Academic Press, 1969, p. 21–132. 

Enllaços externs

  • DAWG: DNA Assembly With Gaps Arxivat 2016-08-15 a Wayback Machine. — free software for simulating sequence evolution
  • Gu X, Li W «Higher rates of amino acid substitution in rodents than in man». Molecular Phylogenetics and Evolution, vol. 1, 1992, pàg. 211–214. DOI: 10.1016/1055-7903(92)90017-B. PMID: 1342937.
  • Li W-H, Ellsworth DL, Krushkal J, Chang BH-J, Hewett-Emmett D «Rates of nucleotide substitution in primates and rodents and the generation-time effect hypothesis». Molecular Phylogenetics and Evolution, vol. 5, 1996, pàg. 182–187. DOI: 10.1006/mpev.1996.0012. PMID: 8673286.