Introduzione alla inferenza filogenetica: Riassunto dei vari metodi Differenze tra Parsimonia e Verosimiglianza Struttura di un modello evolutivo di verosimiglianza Classificazione dei caratteri Assunti generali delle inferenze Limitazioni generali e limitazioni sui dati popolazionistici
Main subdivision in phylogenetic methods Start from a matrix of inherited state from several characters W AGCTGCG X ACCGGTG Z AGTTGTG Y AGTTGCG Distance methods: look at overall similarities and from them build a tree Fast but could be fooled by taxa or clade with too many apomorphy Optimality methods : Assume a model of evolution and apply it to various possible tree till it found the best match
Fit of the data to the model=P(Data |Model+topology) What criterion? You have a model on how change should happen, you have data (pattern ), and you have the different topologies. The best fit of the data in a model + topologies is the general criterion. Fit of the data to the model=P(Data |Model+topology) Data Data Model+ Hyp2 relationship Model+ Hyp1 relationship
Likelihood is defined as p(data|model,topology) Probability to observe the data given the model of change and the topology Various but formally defined model are used (see next slide) Parsimony is a particular model of change that does not formally explicit all the details. It does not need to assume that characters have similar evolution or are drawn from similar distribution. It trust that the majority of phylogenetic informative character will favor the true topology Parsimony is a approximation of special likelihood model where you are not estimating probability but a proxy of them ( a co-linear measure ): the parsimony score. Parsimony score is the minimum number of step that you need to assume to observe the pattern given the topology
Struttura di un modello di sostituzione molecolare I) Coefficienti di proporzione tra i vari tipi di sostituzione e la sostituzione di riferimento AG (a-f) II) Frequenza di equilibrio per le quattro possibili basi (π) III) Topologia su cui disporre le probabilita di cambiamento stimate IV) Numero di sostituzione atteso per la sostituzione AG lungo il dato ramo (pr) V) Coefficiente di proporzione per il tasso di sostituzione in un dato sito (ps) Esempio. La probabilita di osservare una sostituzione TG nel sito di classe 1 tra la sequenza A e quella B = ec * πG * ps1 * (pb3+pb4) Lunghezza dei rami Matrice di transizione Variabilita tra siti Distribuzione Gamma pr1 A B pr2 pr3 pr4 C pr1=μ1*t1 pr2=μ2*t2 pr3=μ3*t3 pr4=μ4*t4 T C A G α≅1 α>300 T C A G ps1 ps2 ps3 ps4 0 1
Classificazione degli stati Sinapomorfia = stati derivati e condivisi per origine comune Omoplasia = stati derivati e condivisi non per origine comune Sinplesiomorfia = stati ancestrali e condivisi Apomorfia = stati derivati e non condivisi (unici_ Invariabili Informativi Non informativi W Y X Z 123 W AAG X GGA Z GGG Y GAA 1 3 2
How Likelihood and Parsimony use the information Equally under parsimony but different under likelihood W Y W 7 6 3 4 5 1234567 W AAAAAGG X AGGGGGG Z GGGGGGG Y GAGGGAA X Y 1 2 X 1 2 1 Z 2 Z Likelihood use also apomorphy information
Assunti di un inferenza filogenetica con verosimiglianza Stazionarieta’ dei caratteri Le sequenze di una popolazione possono essere modellate come una singola sequenza : almeno un evento di coalescenza per ramo I siti sono identicamente distribuiti a meno di correzioni esplicite nel modello Mutazioni solo neutrali o deleterie che causano sostituzioni solo neutrali
Coalescenza: 4Ne<< perche ci interessa Evento di coalescenza eventi precedenti Avise,2001
Identita’ di distribuzione: modelli neutrali Proporzioni tra le mutazioni Selezionisti Deleterie vantaggiose Neutralisti (Kimura) Neutrali Quasi-Neutralisti (Otha) Quasi-Neu
Identita’ di distribuzione: modelli neutrali Da mutazioni a sostituzioni Deleterie V Neutrali V\X Quasi-Neu A seconda di Ne vantaggiose X
Note limitazioni statistiche delle inferenze
Sostituzione multiple Multiple substitution on the same site cause underestimation of # substitution. the more substitution happen the more you underestimate them. The more you have site more you are likely to have site that didn’t underwent to multiple substitution. Observed substitution # of substitution
Long branch attraction or Felsentein zone The more two branch are long the more is probable that a quarter of the variable site would be identical to each other Avoid to use one outgroup. Avoid use few taxa for each subgroup of the clade under study. Avoid add one subgroup if you have only one representative Most like inference True tree
Limitazioni biologiche delle inferenze filogenetiche
Difficolta nell’inferenza dipende dall’entitá della divergenza in questione sostituzioni multiple e variabilita nei tassi di sostituzione Divergenza limite interspecifico incongruenza tra albero genico e albero di specie Complessitá demografica
Complessitá demografica: perche ci interessa Reciproca monofilia tra A e B parafilia tra A e B barriera al flusso genico generazioni A e B polifiletici Avise,2001 eventi precedenti
Tipi di Incongruenza tra albero genico e albero di specie 1)Topologia 2)Lunghezza dei rami La topologia di un albero genico e’ tanto piu diversa dal’albero di specie tanto piu la distanza tra nodi (espressa in generazioni) e’ simile o piu piccola di 4Ne Gene Species Nicols,2001 Pagel et al.,1998