Filogenesi molecolare

Slides:



Advertisements
Presentazioni simili
Il DNA.
Advertisements

RICERCA DI SIMILARITA’ IN BANCHE DATI
Pattern di sostituzione
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
Migliore Punteggio Lunghezza della sequenza Grandezza banca dati
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
ANALISI DEI GRUPPI seconda parte
1 Introduzione alla statistica per la ricerca Lezione III Dr. Stefano Guidi Siena, 18 Ottobre 2012.
Corso di biomatematica lezione 5: propagazione degli errori
Corso di biomatematica lezione 10: test di Student e test F
Ricerca della Legge di Controllo
di cosa si occupa la statistica inferenziale?
PATTERN RECOGNITION.
Metodi basati sulle similitudini per dedurre la funzione di un gene
Biologia computazionale A.A semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re p5p5 UPGMA C.d.l.
Biologia computazionale
Biologia computazionale A.A semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re 6 Evoluzione e filogenesi.
Analisi dei gruppi – Cluster Analisys
Intelligenza Artificiale Algoritmi Genetici
Intelligenza Artificiale
(Neighbour-Joining Method)
L’ ALU UN VIAGGIO NEL DNA.
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Analisi della varianza
Statistica Descrittiva
Metodo della moltiplicazione
È stimato che oggi sulla terra sono presenti
Allineamenti multipli
Passo 3: calcolo del costo minimo
Ispezione lineare La funzione hash h(k,i) si ottiene da una funzione hash ordinaria h'(k) ponendo L’esplorazione inizia dalla cella h(k,0) = h'(k) e continua.
Le distribuzioni campionarie
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
Lezione III-IV 27-Ottobre -09 corso di laurea specialistica magistrale Biotecnologia aula 6a ore salteremo le lezioni del venerdì 23 e 30 Ottobre.
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
TRATTAMENTO DEI DATI ANALITICI
STATISTICA PER LE DECISIONI DI MARKETING
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Alcuni esempi di domande di esame
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
Sintesi di una proteina Cos’è il patrimonio genetico
Ricombinazione genetica
Dip. Scienze Biomolecolari e Biotecnologie
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
DATA MINING PER IL MARKETING
I FRATTALI Frattale di Mandebrot
Implementazione di dizionari Problema del dizionario dinamico Scegliere una struttura dati in cui memorizzare dei record con un campo key e alcuni altri.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Domande riepilogative per l’esame
Il residuo nella predizione
IL CAMPIONE.
Per l’insegnante: La presentazione si propone di descrivere:
Purtroppo non esiste un modo univoco per indicare un gene
Pseudogeni = geni non funzionali
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Analisi discriminante lineare - contesto
Intelligenza Artificiale Risoluzione di Problemi
Allineamento di sequenze
Eventi aleatori Un evento è aleatorio (casuale) quando non si può prevedere con certezza se avverrà o meno I fenomeni (eventi) aleatori sono studiati.
UNIVERSITA’ DEGLI STUDI DI PERUGIA
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Ottimizzazione dei terreni di coltura Metodi statistici.
ANALISI DEI SEGNALI Si dice segnale la variazione di una qualsiasi grandezza fisica in funzione del tempo. Ad esempio: la pressione in un punto dello spazio.
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
Transcript della presentazione:

Filogenesi molecolare

Geni ortologhi e geni paraloghi Geni ortologhi: geni simili riscontrabili in organismi correlati tra loro. Il fenomeno della speciazione porta alla divergenza dei geni e quindi delle proteine che essi codificano. es. l’ α-globina di uomo e di topo hanno iniziato a divergere circa 80 milioni di anni fa, quando avvenne la divisione che dette vita ai primati e ai roditori. I due geni sono da considerarsi ortologhi. Geni paraloghi: geni originati dalla duplicazione di un unico gene nello stesso organismo. es. α-globina e β-globina umana hanno iniziato a divergere in seguito alla duplicazione di un gene globinico ancestrale. I due geni sono da considerarsi paraloghi.

Gene ancestrale Gene A Gene B Gene A2 Gene A1 Gene B1 Gene B2 duplicazione genica Gene A Gene B speciazione ortologhi Gene A2 Gene A1 paraloghi Gene B1 Gene B2 ortologhi Specie 1 Specie 2

Distanze genetiche Per la distinzione filogenetica di due sequenze, è necessario conoscere quanto esse divergono. Serve quindi un parametro ripetibile, la distanza genetica. Ottengo così il Numero di Sostituzioni per Sito che può essere una sottostima della distanza vera perché le mutazioni possono anche essere REVERSIONI ed avvenire sullo stesso sito (sito con multiple hits). Numero di sostituzioni osservate nell’allineamento Distanza = --------------------------------------------------------------- Lunghezza complessiva dell’allineamento per le proteine si usa spesso d = - ln ( 1 - p - 0,2 p2) (kimura) d: distanza p: frazione di amino acidi differenti

Proteine o acidi nucleici? Sequenze proteiche: - necessitano di matrici si sostituzione 20x20, molto complesse da trattare. - sono espressione di sole regioni codificanti. - aminoacidi identici possono essere espressione di più codoni Sequenze nucleotidiche: - sono descrivibili con matrici 4x4. - possono essere estratte da sequenze genomiche non codificanti - non hanno degenerazione né ridondanza. => Per la filogenesi molecolare è preferibile utilizzare le sequenze nucleotidiche

Assunzioni a priori Per formulare un modello evolutivo è necessario considerare alcuni aspetti generali che possono essere considerati assunzioni a priori del modello: 1. tutti i siti evolvono in modo indipendente 2. tutti i siti mutano con la stessa probabilità 3. tutte le sostituzioni sono ugualmente probabili 4. la velocità di sostituzione è costante nel tempo 5. la composizione delle basi è costante in generale si può affermare che: maggiore è il numero di assunzioni a priori - maggiore è la semplicità del modello - minore è l’attendibilità dei risultati

Alcuni modelli proposti JC69 - Jukes & Cantor (1969). Assunzioni: 1,2,3,4,5. KIM - Kimura (1980). Assunzioni: 1,2,4,5. Tamura (1992). Assunzioni: 1,2,4. F81 - Felsenstein (1981). Assunzioni: 1,2,3,4. Hasegawa (1985). Assunzioni: 1,2,4. GTR – Lanave (1984). Assunzioni: 1,2. Il modello GTR è il più complesso possibile, compatibilmente con una trattazione matematica adeguata. Tutti i modelli richiedono però che la composizione in basi sia stazionaria, altrimenti non possono essere applicati. Bisogna quindi verificarlo prima.

L’orologio molecolare L’evoluzione è un processo inevitabilmente divergente e il numero di mutazioni che si accumulano nel tempo è direttamente proporzionale al tempo intercorso dalla divergenza delle sequenze in analisi. (1965, Zuckerkandl e Pauling). Se questo è vero, data una distanza genetica calcolata osservando le divergenze, è possibile ottenere il tempo trascorso dal momento in cui due sequenze hanno cominciato a divergere. Inoltre, se la velocità di accumulo delle mutazioni è costante, è possibile la datazione degli organismi in base a un solo dato verificato di distanza temporale. K K es. Distanza uomo topo: 80 milioni di anni V = ----- => t = ------ Distanza tra le alpha-globine: 0.093 2t 2V V = 0.56 x 10-8 sostituzioni/sito anno => anche se l’orologio molecolare è vero, non è universale, perché siti diversi hanno diversi tassi di mutazione.

Alberi filogenetici Sono grafi costituiti da NODI, che rappresentano le unità tassonomiche e da RAMI che uniscono i nodi, rappresentando le distanze tra i due. Si definisce TOPOLOGIA la struttura generale di un albero. Se ai rami non si dà valenza di distanza evolutiva, ho un CLADOGRAMMA, altrimenti ho un FILOGRAMMA. Alberi CON RADICE: accetta come vera l’ipotesi dell’orologio molecolare e i nodi stanno in un preciso ordine temporale. Alberi SENZA RADICE: non prevede significato evolutivo in termini temporali. F A nodo nodo B E radice ramo C C D D B ramo E F A

Daterminazione della topologia E’ il primo passo dell’analisi filogenetica. Il numero complessivo di alberi che si possono costruire con N sequenze (denominate OTU, cioè operational taxonomic units) è (2N - 3)! Nr = ---------------- 2N-3 (N - 3)! Rooted: Unrooted: (2N - 5)! Nu = ---------------- 2N-3 (N - 3)! es. 10 OTU = ((2*10)-3)! / 27(7)! = circa 35 milioni

Metodi per la crezione degli alberi Metodologie: Algoritmi di clusterizzazione (UPMGA, Neighbour Joining): si basano sull’osservazione delle distanze genetiche calcolare in precedenza. Algoritmi di ottimizzazione (Minima evoluzione): ottimizzazione degli alberi in base a criteri obiettivi di qualità. Origine dei dati: Sequenze omologhe multiallineate: tempi di calcolo molto maggiori Distanze genetiche pre-calcolate: tempi di calcolo minori,

UPGMA: (Unweighted Pair Group Method with Aritmetic mean) E’ il metodo più semplice. Assume l’orologio molecolare. Calcolata una matrice di distanze, vengono prese le OTU più simili, raggruppare e ricalcolata la matrice di distanze. La prima coppia viene clusterizzata con quella che ha distanza minore con esse. Il punto di mezzo nell’albero è il nodo tra i clusters, la lunghezza del ramo è la distanza che separa i vari elementi del cluster. Chimp 0.007 0.009 0.007 Human 0.018 0.018 Gorilla Owl monkey 0.027 0.030 0.027 Spider monkey

Neighbour-Joining Si parte da una topologia a stella. Tra OTU vicine introduce un ramo corrispondente alla distanza tra le due, e ripete l’inserimento di rami per tutte le coppie di OTU. Tra tutti gli alberi possibili viene via via scelto quello che ha il totale di lunghezza dei rami monore. B C n A 1 D C B C 2 B D F D A E F E A E F

Massima parsimonia Non si lavora più con le distanze ma con le sequenze: si cerca l’albero che richiede il minor numero di sostituzioni che spieghino le differenze osservate tra le sequenze in analisi. Non si lavora su tutti i siti del multiallineamneto, ma solo su alcuni SIGNIFICATIVI, cioè che presentano almeno 2 residui uguali. 1 2 3 A ATGCATAGCAGCATGCATCG B ATGCATAGCAGCTTGTTTCG C ATCCATACCAGCATGTGTCG D ATCCATACCAGCTTGTTTCG G C G G A C A B B G C C C C D D G C C C G G 1 A B D C C C A G A T A A A T A C A B A C A B B G C C G T B T T C A T D D D D T G T A T T T T A T G G 2 A B 3 A B D C D T C A C C

L’ enorme mole di calcolo per ottenere il risultato Massima verosimiglianza Per ciascun sito del multiallineamento si calcola la probabilità che esso sia generato da un preciso albero. Estendendo la ricerca di probabilità a tutti i possibili alberi, ottengo l’albero a maggior probabilità di rappresentare il multiallineamento. E’ il metodo più corretto di valutare le significatività degli alberi, ma ha un grosso limite: L’ enorme mole di calcolo per ottenere il risultato => È impossibile ottene risultati per multiallineamenti di più di 20-30 sequenze Sono stati prodotti vari metodi di approssimazione, tra cui uno detto quartet puzzle (QP) in cui si fanno operazioni su gruppi di 4 sequenze, e i risultati vengono intersecati tra loro.

Bootstrapping E’ un metodo relativamente semplice per determinare la significatività di un risultato derivante da una analisi complessa: Si tratta di un RICAMPIONAMENTO casuale di sequenze a cui vengono applicate le stesse procedure applicate alle sequenze vere. In questo modo ottengo due valori: - uno effettivo, quello delle sequenze in analisi - uno che rappresenta il valore che otterrei con un campione casuale. Dal loro confronto è possibile ottenere una stima della veridicità del risultato. Maggiore è il numero di operazione di bootstrapping, maggiore è l’attendibilità dei valori. Maggiore è la percentuale di risultati di bootstrapping che si accordano col risultato vero, maggiore è la precisione della stima del valore vero.

Principali programmi per l’analisi filogenetica PHYLIP: è un pacchetto di programmi curati da Joseph Felsenstein che non hanno interfaccia grafica. Sono programmi rapidi, efficienti e versatili, ma un po’ scomodi da utilizzare a causa della diversità dei formati di file utilizzati e dell’approccio di separazione delle varie fasi. PAUP: come Phylip, ma con un numero maggiore di test statistici per la validazione degli alberi. Ma si paga. Markov: effettua il calcolo delle distanze genetiche utilizzando il modello GTR e effettua il test di stazionarietà della composizione del dataset. E’ on-line, ma per utilizzarlo bisogna registrarsi.

Principali programmi per l’analisi filogenetica MrBayes: utilizza per il calcolo delle distanze un metodo introdotto recentemente di inferenza bayesiana, che sta dando ottimi risultati in termini di qualità degli alberi generati. PhyloWin: dotato di interfaccia grafica, è piuttosto semplice e consente analisi con i metodi presenti anche in Phylip e PAUP. MEGA: attualmente è il programma più completo e facile da usare possibile. Ha un’interfaccia grafica molto intuitiva, una serie di strumenti grafici per la comprensione dei riusultati e comprende numerosi approcci per il calcolo delle distanze, per la costruzione degli alberi e per per la valutazione dell’attendibilità con numerosi test statistici. Inoltre il manuale di Mega è molto completo, quasi un libro sulla filogenesi molecolare.