(Neighbour-Joining Method)

Slides:



Advertisements
Presentazioni simili
Algoritmi e Strutture Dati
Advertisements

Intervalli di confidenza
Proprietà degli stimatori
STATISTICA DESCRITTIVA
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Breath-first search Visita in ampiezza di un grafo Algoritmo Esempio
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
ANALISI DELLA COVARIANZA
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Inferenza statistica per un singolo campione
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Per avere una utilità pratica un marcatore deve essere polimorfico
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
Algoritmi e Strutture Dati
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Macchine non completamente specificate
Identificazione delle attività
Apprendimento Non Supervisionato
Valutazione delle ipotesi
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 05/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
ANALISI DEI GRUPPI seconda parte
Processi Aleatori : Introduzione – Parte I
Algoritmi e Strutture Dati (Mod. A)
Algoritmi e strutture dati
Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi.
Studente Claudia Puzzo
Biologia computazionale A.A semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re p5p5 UPGMA C.d.l.
Analisi dei gruppi – Cluster Analisys
Misurazione Le osservazioni si esprimono in forma di misurazioni
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Intelligenza Artificiale Algoritmi Genetici
La diversità è un aspetto caratteristico della vita:
Fibonacci Heaps e il loro utilizzo nell’algoritmo di Prim
METODI E CONTROLLI STATISTICI DI PROCESSO
Esercizio 10.* Un cassiere vuole dare un resto di n centesimi di euro usando il minimo numero di monete. a) Descrivere un algoritmo goloso per fare ciò.
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
PROGRAMMAZIONE: linguaggi
Radix-Sort(A,d) // A[i] = cd...c2c1
Filogenesi molecolare
MEDIE STATISTICHE.
Algoritmi e Strutture Dati
2. Grafi.
STATISTICA PER LE DECISIONI DI MARKETING
Polimorfismi, mutazioni e metodi per evidenziarli
POLIMORFISMO GENETICO
Natura della variabilità genetica
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
MUTAZIONE: cambio di un bit Viene effettuata con bassa frequenza, ad es. 1bit ogni 1000 Ha la funzione di recupero di eventuali perdite di informazione.
Nelle popolazioni naturali la variabilità genetica (ovvero ereditaria) può essere di tipo qualitativo o quantitativo La variabilità qualitativa si riscontra.
IL CAMPIONE.
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
A.A STATISTICA E CALCOLO DELLE PROBABILITA’ Docenti: Stefania Mignani Maurizio Brizzi.
Elaborazione statistica di dati
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
analisi bidimensionale #2
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Laboratorio evoluzione Marcello Sala CAVALLI E GIAGUARI.
Concetti di base. Per biodiversità si intende l'insieme di tutte le forme viventi geneticamente diverse e degli ecosistemi ad esse correlati Il termine.
La funzione CASUALE. Gli istogrammi.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Algoritmi Avanzati a.a.2013/2014 Prof.ssa Rossella Petreschi Albero ricoprente di costo minimo Lezione n°12.
Transcript della presentazione:

(Neighbour-Joining Method) METODI FILOGENETICI CON MATRICI DI DISTANZA NJM (Neighbour-Joining Method) NEIGHBOR-JOINING clustering method, crea un albero con il minimo valore di S = shortest sum of branch lenghts. Basato sul principio di “minimum evolution”, il miglior albero che si può ottenere da una matrice è quello con la somma della lunghezza dei rami minore (Cavalli Sforza and Edwards, 1967). Questo modello non richiede che le diverse linee filetiche si siano evolute con un tasso costante. L'algoritmo NJ opera sulla matrice di distanza tra le varie OTU e fornisce un albero non radicato (network) che può essere rappresentato con una stella (star phylogeny).

NJM Inizialmente tutti i taxa (A-H) sono collegati da una singola politomia, formando un albero noto come star phylogeny . Poi tutte le coppie sono estratte a turno da questo albero e la coppia che dà l’albero più corto tra tutti (più basso valore di S) viene selezionata. Come con l’UPGMA questa coppia viene considerata come un solo taxon e le distanze tra questo taxon composto e tutti gli altri taxa vengono ricalcolate come la media delle distanze tra i singoli taxon costituenti. Coppie di taxa vengono quindi selezionate sequenzialmente in questo modo fino a che vengono trovati tutti i rami interni.

NEIGHBOR-JOINING TREE Toscani Nord Europa Asia Centrale SE-Asia Tibet Mongolia Siberia Nuova Guinea Amerindiani Chukchi NEIGHBOR-JOINING TREE L'albero presenta cinque clusters ben definiti corrispondenti ad altrettante regioni geografiche: Europa, Asia centrale e sud-orientale, Asia settentrionale, Nuova Guinea e America. Le quattro popolazioni dell’Asia Centrale esaminate clusterizzano con quelle Tibetane e del Sud-est Asiatico, differenziandosi da Mongoli e Siberiani.

IL TIPO DI DATI USATI COME INPUT I caratteri sono unità discrete di evoluzione, sia sostituzioni di singole basi in una sequenza nucleotidica che cambi nel numero di ripetizioni di un micro o minisatellite. I metodi basati sullo stato dei caratteri ci permettono di fare inferenze sul carattere dell’antenato. Dati microsatelliti (STRs) di 5 individui Alpha 15 / 10 / 14 / 24 / 9 / 16 Beta 15 / 11 / 16 / 24 / 9 / 16 Gamma 14 / 11 / 18 / 22 / 9 / 16 Delta 14 / 12 / 18 / 22 / 9 / 16 Epsilon 13 / 12 / 18 / 24 / 10 / 18 Dati microsatelliti (STRs) di 5 individui Alpha 15 / 10 / 14 / 24 / 9 / 16 Beta 15 / 11 / 16 / 24 / 9 / 16 Gamma 14 / 11 / 18 / 22 / 9 / 16 Delta 14 / 12 / 18 / 22 / 9 / 16 Epsilon 13 / 12 / 18 / 24 / 10 / 18 Sequenze nucleotidiche di 5 individui Alpha AACGTGGCCACAT Beta AAGGTCGCCACAC Gamma CAGTTCGCCACAA Delta GAGATTTCCGCCT Epsilon GAGATCTCCGCCC Sequenze nucleotidiche di 5 individui Alpha AACGTGGCCACAT Beta AAGGTCGCCACAC Gamma CAGTTCGCCACAA Delta GAGATTTCCGCCT Epsilon GAGATCTCCGCCC Dati binari (RFLPs) di 5 individui Alpha 110110 Beta 110000 Gamma 100110 Delta 001001 Epsilon 001110 Dati binari (RFLPs) di 5 individui Alpha 110110 Beta 110000 Gamma 100110 Delta 001001 Epsilon 001110

METODI FILOGENETICI BASATI SULLO STATO DEI CARATTERI MAXIMUM PARSIMONY Metodo per scegliere il miglior albero filogenetico da un insieme di alternative sulla base del minor numero di cambiamenti evolutivi MAXIMUM LIKELIHOOD Metodo per scegliere il miglior albero filogenetico da un insieme di alternative sulla base della maggiore probabilità di ottenere i dati osservati

MASSIMA PARSIMONIA I caratteri sono rappresentati dai siti nucleotidici omologhi e lo stato dei caratteri è dato dalla base nucleotidica osservata in ciascuna posizione, ammettendo che ciascuno stato possa mutare direttamente in uno degli altri stati possibili. Considera i “siti informativi”, siti polimorfici con almeno due alleli presenti in almeno due individui. Albero di massima parsimonia ottenuto dall’analisi di restrizione di 182 tipi di mtDNA attuale di diversi continenti (da Wilson e Cann, 1992)

Per la costruzione dell'albero viene scelto IL PERCORSO PIÙ BREVE CHE COLLEGA I VARI SITI, OVVERO IL NUMERO MINIMO DI TRASFORMAZIONI DELLO STATO DI UN CARATTERE IN UN ALTRO (NUMERO MINIMO DI PASSAGGI EVOLUTIVI IPOTIZZABILI). Il metodo di MP per i dati carattere equivale perciò all’evoluzione minima per i metodi con le matrici di distanza. La minimizzazione della lunghezza totale dell'albero consiste quindi nella ricerca degli alberi che richiedono la quantità minima di omoplasia (similarità non direttamente attribuibile all’antenato comune e dovuta a convergenza, evoluzione parallela e/o inversione evolutiva). Si assume che la presenza dello stesso stato del carattere in due o più taxa sia dovuta solamente all'eredità da un antenato comune (omologia).

INDIVIDUAZIONE DEGLI ALBERI PIÙ PARSIMONIOSI MEDIANTE APPROSSIMAZIONE PER TENTATIVI SUCCESSIVI. In ogni caso è possibile trovare più di un albero con il percorso evolutivo minimo. ALBERI CONSENSO BOOTSTRAPPING TEST PER VERIFICARE IL GRADO DI ATTENDIBILITÀ STATISTICA

VALORI DI BOOTSTRAP definiscono quelli che possono essere i limiti fiduciali degli alberi. Nel bootstrap un insieme di n caratteri viene campionato r volte con sostituzioni e duplicazioni di stringhe (serie) di dati, generando r insiemi di dati contenenti n caratteri. Per ciascun set di dati viene quindi stimata la filogenesi secondo i procedimenti standard di parsimonia o di distanza. Per le r filogenesi ottenute viene determinato un albero di consenso contenente i gruppi monofiletici che si presentano più frequentemente e la loro frequenza è utilizzata come intervallo fiduciale.

METODI FILOGENETICI BASATI SULLO STATO DEI CARATTERI Ci sono alcuni processi biologici che complicano le rappresentazioni filogenetiche. Ad es. la ricombinazione tende a riunire aplotipi inizialmente divergenti, mentre il flusso genico recente tra due popolazioni può introdurre alleli più giovani rispetto al punto di divergenza delle due popolazioni. Questi processi possono portare a reticolazioni o cicli e tali tipi di filogenie prendono il nome di NETWORKS.

NETWORK: topologia tale per cui non è individuabile un punto principale di divergenza, ma che illustra una distribuzione spaziale con un percorso che si svolge fra i due oggetti più distanti e, lungo il quale, troviamo il resto degli oggetti a seconda dell’affinità con i più prossimi. Può essere costruito sia da matrici di distanza (split decomposition) che da caratteri (minimum spanning networks e median networks). Un singolo network riassume in sé molti alberi e quindi contiene maggiori informazioni rispetto agli alberi.

Rappresentazione di più alberi contemporaneamente Network Metodi per l’analisi di dati molecolari intraspecifici, che non assumono uno schema evolutivo gerarchico strettamente dicotomico. Permettono l’inclusione nell’albero e la rappresentazione grafica di processi quali la ricombinazione, il flusso genico, le mutazioni ricorrenti Formazione di reticolazioni Rappresentazione di più alberi contemporaneamente Maggior quantità di informazione (se due alberi sono ugualmente supportati dai dati, non devo sceglierne uno solo ma li posso considerare entrambi contemporaneamente)

(Minimum Spanning Network) MSN (Minimum Spanning Network) Metodo che consente di collegare i taxa con tutte le possibili combinazioni. Partendo da una matrice di distanza (numero di differenze/step mutazionali tra taxa) si uniscono prima i taxa separati da una singola differenza, quindi quelli separati da 2 e così via. Alla fine si otterrà un network che riassume tutti i possibili alberi di parsimonia, cioè tutti i possibili PERCORSI EVOLUTIVI.

(Reduced Median Network e Median Joining network) RMN e MJN (Reduced Median Network e Median Joining network) Il metodo è simile a quello utilizzato per il MSN, ma in questo caso vengono inferiti anche i nodi ancestrali (median vector) non presenti nel dataset. Richiede, per la sua applicazione, l’assenza di ricombinazione, risultando quindi particolarmente adatto nel trattamento di sequenza di DNA mitocondriale.

Esempio: Median Joining Network L’algoritmo con cui è costruito consiste di due fasi: 1. inizia combinando tutti i minimum spanning trees (MSTs) in un unico network, generando in tal modo un minimum spanning network; (un MST è un albero che connette tutte le sequenze del campione senza creare reticolazioni e senza introdurre nuovi nodi, costruito in modo tale che la lunghezza totale dei rami sia minima) 2. successivamente, seguendo un criterio parsimonioso, vengono aggiunti alcuni median vectors (mv), che sono sequenze consenso di tre sequenze vicine, e vengono costruite considerando una tripletta alla volta. Vengono esclusi dal calcolo quei mv che hanno basse probabilità di apparire come nodi intermedi di un albero costruito con il metodo della massima parsimonia. I mv possono essere interpretati biologicamente come possibili sequenze non campionate o come sequenze ancestrali estinte.

ESEMPIO L1c RETICOLAZIONE MEDIAN VECTORS

METODI UTILIZZATI NELL’ANALISI STATISTICA Metodo Software URL Parametri di variabilità interna Distanze genetiche Arlequin Lgb.unige.ch/arlequin MultiDimensional Scaling Componenti Principali Analisi di corrispondenza SPSS Statistica Non disponibile sul web Neighbor Joining Phylip, Mega evolution.genetics.washington.edu/phylip.html Network www.fluxus-engineering.com