La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Allineamento Pairwise e Multiplo di Bio-Sequenze.

Presentazioni simili


Presentazione sul tema: "Allineamento Pairwise e Multiplo di Bio-Sequenze."— Transcript della presentazione:

1 Allineamento Pairwise e Multiplo di Bio-Sequenze

2 Confronto fra Biosequenze I polimeri biologici a più alto ocntenuto di informazione sono gli acidi nucleici e le proteine. I polimeri biologici a più alto ocntenuto di informazione sono gli acidi nucleici e le proteine. Le unità informative di base sono rispettivamente le 4 basi azotate ed i 20 aminocidi. Le unità informative di base sono rispettivamente le 4 basi azotate ed i 20 aminocidi. Perché è possibile confrontare biosequenze? Perché è possibile confrontare biosequenze? Quali sono gli obiettivi di un confronto di sequenze? Quali sono gli obiettivi di un confronto di sequenze? Filogenesi molecolare; Filogenesi molecolare; Evoluzione dei singoli genomi (confronto tra banche dati); Evoluzione dei singoli genomi (confronto tra banche dati); Caratterizzazione di proteine con funzione sconosciuta (ed identificazione di domini funzionali). Caratterizzazione di proteine con funzione sconosciuta (ed identificazione di domini funzionali). Possibilità di identificare mutazioni responsabili di un fenotipo Possibilità di identificare mutazioni responsabili di un fenotipo I polimeri biologici a più alto ocntenuto di informazione sono gli acidi nucleici e le proteine. I polimeri biologici a più alto ocntenuto di informazione sono gli acidi nucleici e le proteine. Le unità informative di base sono rispettivamente le 4 basi azotate ed i 20 aminocidi. Le unità informative di base sono rispettivamente le 4 basi azotate ed i 20 aminocidi. Perché è possibile confrontare biosequenze? Perché è possibile confrontare biosequenze? Quali sono gli obiettivi di un confronto di sequenze? Quali sono gli obiettivi di un confronto di sequenze? Filogenesi molecolare; Filogenesi molecolare; Evoluzione dei singoli genomi (confronto tra banche dati); Evoluzione dei singoli genomi (confronto tra banche dati); Caratterizzazione di proteine con funzione sconosciuta (ed identificazione di domini funzionali). Caratterizzazione di proteine con funzione sconosciuta (ed identificazione di domini funzionali). Possibilità di identificare mutazioni responsabili di un fenotipo Possibilità di identificare mutazioni responsabili di un fenotipo

3 Confronto fra biosequenze (2) La filogenesi classica è basata sullosservazione di caratteristiche morfologiche e fisologiche. La filogenesi classica è basata sullosservazione di caratteristiche morfologiche e fisologiche. La filogenesi molecolare è basata sulla tendenza a divergere che hanno sequenze nucleotidiche o aminoacidiche originatesi da un progenitore comune. Consente di costruire alberi filogenetici che illustrino le distanze ed i rapporti evolutivi tra le molecole analizzate. La filogenesi molecolare è basata sulla tendenza a divergere che hanno sequenze nucleotidiche o aminoacidiche originatesi da un progenitore comune. Consente di costruire alberi filogenetici che illustrino le distanze ed i rapporti evolutivi tra le molecole analizzate. La filogenesi classica è basata sullosservazione di caratteristiche morfologiche e fisologiche. La filogenesi classica è basata sullosservazione di caratteristiche morfologiche e fisologiche. La filogenesi molecolare è basata sulla tendenza a divergere che hanno sequenze nucleotidiche o aminoacidiche originatesi da un progenitore comune. Consente di costruire alberi filogenetici che illustrino le distanze ed i rapporti evolutivi tra le molecole analizzate. La filogenesi molecolare è basata sulla tendenza a divergere che hanno sequenze nucleotidiche o aminoacidiche originatesi da un progenitore comune. Consente di costruire alberi filogenetici che illustrino le distanze ed i rapporti evolutivi tra le molecole analizzate.

4 Similarità e Omologia Similarità: somiglianza nella composizione di due sequenze biologiche Similarità: somiglianza nella composizione di due sequenze biologiche Omologia: relazione filogenetica tra due sequenze. Omologia: relazione filogenetica tra due sequenze. Spesso 2 sequenze omologhe hanno un elevato grado di omologia, ma possono divergere per mutazione ed evoluzione: possono restare omologhe anche se non troppo simili. Le regioni che tendono a restare simili sono quelle più importanti per lattività della proteina Similarità: somiglianza nella composizione di due sequenze biologiche Similarità: somiglianza nella composizione di due sequenze biologiche Omologia: relazione filogenetica tra due sequenze. Omologia: relazione filogenetica tra due sequenze. Spesso 2 sequenze omologhe hanno un elevato grado di omologia, ma possono divergere per mutazione ed evoluzione: possono restare omologhe anche se non troppo simili. Le regioni che tendono a restare simili sono quelle più importanti per lattività della proteina

5 Allineamento di sequenze Per poter procedere al confronto tra sequenze nucleotidiche o tra sequenze proteiche è necessario che queste sequenze vengano allineate. Per poter procedere al confronto tra sequenze nucleotidiche o tra sequenze proteiche è necessario che queste sequenze vengano allineate. Questo è un esempio di allineamento multiplo di 5 brevi sequenze aminoacidiche. Questo è un esempio di allineamento multiplo di 5 brevi sequenze aminoacidiche. Per poter procedere al confronto tra sequenze nucleotidiche o tra sequenze proteiche è necessario che queste sequenze vengano allineate. Per poter procedere al confronto tra sequenze nucleotidiche o tra sequenze proteiche è necessario che queste sequenze vengano allineate. Questo è un esempio di allineamento multiplo di 5 brevi sequenze aminoacidiche. Questo è un esempio di allineamento multiplo di 5 brevi sequenze aminoacidiche.

6 Allineamento di stringhe Cominciamo con laffrontare il problema più generale dellallineamento di una coppia di stringhe. Cominciamo con laffrontare il problema più generale dellallineamento di una coppia di stringhe. Date due stringhe acbcdb e cadbd, in che modo possiamo stabilire quanto sono simili? Date due stringhe acbcdb e cadbd, in che modo possiamo stabilire quanto sono simili? La similarità scaturisce dallallineamento ottimale delle due stringhe. Ecco un possibile allineamento: La similarità scaturisce dallallineamento ottimale delle due stringhe. Ecco un possibile allineamento: a c - - b c d b - c a d b - d - Il carattere speciale - rappresenta linserimento di uno spazio, che sta a significare una cancellazione nella sequenza o, equivalentemente, uninserzione nellaltra sequenza (Operazioni di INDEL). Il carattere speciale - rappresenta linserimento di uno spazio, che sta a significare una cancellazione nella sequenza o, equivalentemente, uninserzione nellaltra sequenza (Operazioni di INDEL). Cominciamo con laffrontare il problema più generale dellallineamento di una coppia di stringhe. Cominciamo con laffrontare il problema più generale dellallineamento di una coppia di stringhe. Date due stringhe acbcdb e cadbd, in che modo possiamo stabilire quanto sono simili? Date due stringhe acbcdb e cadbd, in che modo possiamo stabilire quanto sono simili? La similarità scaturisce dallallineamento ottimale delle due stringhe. Ecco un possibile allineamento: La similarità scaturisce dallallineamento ottimale delle due stringhe. Ecco un possibile allineamento: a c - - b c d b - c a d b - d - Il carattere speciale - rappresenta linserimento di uno spazio, che sta a significare una cancellazione nella sequenza o, equivalentemente, uninserzione nellaltra sequenza (Operazioni di INDEL). Il carattere speciale - rappresenta linserimento di uno spazio, che sta a significare una cancellazione nella sequenza o, equivalentemente, uninserzione nellaltra sequenza (Operazioni di INDEL).

7 Similarità e distanza a c - c b c d b - c a d b - d - Per valutare il grado di correlazione tra stringhe possiamo calcolare la similarità o la distanza. Per valutare il grado di correlazione tra stringhe possiamo calcolare la similarità o la distanza. Alta similarità -> bassa distanza, Bassa similarità -> elevata distanza. Alta similarità -> bassa distanza, Bassa similarità -> elevata distanza. a c - c b c d b - c a d b - d - Per valutare il grado di correlazione tra stringhe possiamo calcolare la similarità o la distanza. Per valutare il grado di correlazione tra stringhe possiamo calcolare la similarità o la distanza. Alta similarità -> bassa distanza, Bassa similarità -> elevata distanza. Alta similarità -> bassa distanza, Bassa similarità -> elevata distanza.

8 Distanza di Editing E possibile calcolare la distanza tra due stringhe utilizzando, per esempio, la distanza di editing. E possibile calcolare la distanza tra due stringhe utilizzando, per esempio, la distanza di editing. La distanza di editing è definita come il minimo numero di operazioni da eseguire (inserimenti, cancellazioni, sostituzioni) per trasformare una stringa in unaltra. La distanza di editing è definita come il minimo numero di operazioni da eseguire (inserimenti, cancellazioni, sostituzioni) per trasformare una stringa in unaltra. In questo caso per trasformare la prima stringa nella seconda dobbiamo inserire una g, sostituire una c con una t e cancellare una g. La distanza di editing tra le due stringhe è dunque 3. In questo caso per trasformare la prima stringa nella seconda dobbiamo inserire una g, sostituire una c con una t e cancellare una g. La distanza di editing tra le due stringhe è dunque 3. E possibile calcolare la distanza tra due stringhe utilizzando, per esempio, la distanza di editing. E possibile calcolare la distanza tra due stringhe utilizzando, per esempio, la distanza di editing. La distanza di editing è definita come il minimo numero di operazioni da eseguire (inserimenti, cancellazioni, sostituzioni) per trasformare una stringa in unaltra. La distanza di editing è definita come il minimo numero di operazioni da eseguire (inserimenti, cancellazioni, sostituzioni) per trasformare una stringa in unaltra. In questo caso per trasformare la prima stringa nella seconda dobbiamo inserire una g, sostituire una c con una t e cancellare una g. La distanza di editing tra le due stringhe è dunque 3. In questo caso per trasformare la prima stringa nella seconda dobbiamo inserire una g, sostituire una c con una t e cancellare una g. La distanza di editing tra le due stringhe è dunque 3. a - c c t g a a g c t t - a

9 La scoring function: similarità In generale è possibile valutare il grado di similarità o la distanza tra due stringhe, assegnando un punteggio (score) allallineamento utilizzando unopportuna scoring function. In generale è possibile valutare il grado di similarità o la distanza tra due stringhe, assegnando un punteggio (score) allallineamento utilizzando unopportuna scoring function. Per esempio, se assegniamo un punteggio di +2 per ogni match esatto e un punteggio di -1 per ogni mismatch o indel, la similarità tra le due sequenze secondo lallineamento considerato sarà: Per esempio, se assegniamo un punteggio di +2 per ogni match esatto e un punteggio di -1 per ogni mismatch o indel, la similarità tra le due sequenze secondo lallineamento considerato sarà: In generale è possibile valutare il grado di similarità o la distanza tra due stringhe, assegnando un punteggio (score) allallineamento utilizzando unopportuna scoring function. In generale è possibile valutare il grado di similarità o la distanza tra due stringhe, assegnando un punteggio (score) allallineamento utilizzando unopportuna scoring function. Per esempio, se assegniamo un punteggio di +2 per ogni match esatto e un punteggio di -1 per ogni mismatch o indel, la similarità tra le due sequenze secondo lallineamento considerato sarà: Per esempio, se assegniamo un punteggio di +2 per ogni match esatto e un punteggio di -1 per ogni mismatch o indel, la similarità tra le due sequenze secondo lallineamento considerato sarà: a c - c b c d b a c a d b - d -

10 La scoring function: distanza Se assegniamo uno score pari a 0 nel caso di matches, pari ad 1 in caso di sostituzione di caratteri e pari a 2 in caso di allineamento con uno spazio, la distanza tra le due stringhe precedenti secondo lallineamento considerato è: Se assegniamo uno score pari a 0 nel caso di matches, pari ad 1 in caso di sostituzione di caratteri e pari a 2 in caso di allineamento con uno spazio, la distanza tra le due stringhe precedenti secondo lallineamento considerato è: a c - c b c d b a c a d b - d -

11 La scoring function (2) Più formalmente: Più formalmente: Se x e y sono singoli caratteri o spazi, allora con il simbolo denotiamo lo score dellallineamento di x con y; è la scoring function. Se x e y sono singoli caratteri o spazi, allora con il simbolo denotiamo lo score dellallineamento di x con y; è la scoring function. Ovviamente possiamo costruire delle scoring function ad hoc per ogni problema; se, ad esempio, volessimo costruire una scoring function per il confronto di aminoacidi, faremmo in modo da tenere presenti le similarità chimico- fisiche e le differenze tra gli aminoacidi stessi. Ovviamente possiamo costruire delle scoring function ad hoc per ogni problema; se, ad esempio, volessimo costruire una scoring function per il confronto di aminoacidi, faremmo in modo da tenere presenti le similarità chimico- fisiche e le differenze tra gli aminoacidi stessi. Più formalmente: Più formalmente: Se x e y sono singoli caratteri o spazi, allora con il simbolo denotiamo lo score dellallineamento di x con y; è la scoring function. Se x e y sono singoli caratteri o spazi, allora con il simbolo denotiamo lo score dellallineamento di x con y; è la scoring function. Ovviamente possiamo costruire delle scoring function ad hoc per ogni problema; se, ad esempio, volessimo costruire una scoring function per il confronto di aminoacidi, faremmo in modo da tenere presenti le similarità chimico- fisiche e le differenze tra gli aminoacidi stessi. Ovviamente possiamo costruire delle scoring function ad hoc per ogni problema; se, ad esempio, volessimo costruire una scoring function per il confronto di aminoacidi, faremmo in modo da tenere presenti le similarità chimico- fisiche e le differenze tra gli aminoacidi stessi.

12 Allineamento Pairwise Sia S una sequenza. Con il simbolo |S| denotiamo la lunghezza di S e con S[i] indichiamo li-esimo carattere di S. Sia S una sequenza. Con il simbolo |S| denotiamo la lunghezza di S e con S[i] indichiamo li-esimo carattere di S. Con il termine residuo denotiamo un singolo carattere di una sequenza biologica. Con il termine residuo denotiamo un singolo carattere di una sequenza biologica. Se ad es. S = acbcdb, avremo |S|=6 e S[3]=b. Se ad es. S = acbcdb, avremo |S|=6 e S[3]=b. Siano S e T due sequenze. Un allineamento A associa ad S e T le sequenze S e T, che possono contenere simboli di spazio -, in modo che Siano S e T due sequenze. Un allineamento A associa ad S e T le sequenze S e T, che possono contenere simboli di spazio -, in modo che |S|=|T| |S|=|T| Rimuovendo gli spazi da S e T otteniamo S e T. Rimuovendo gli spazi da S e T otteniamo S e T. Sia S una sequenza. Con il simbolo |S| denotiamo la lunghezza di S e con S[i] indichiamo li-esimo carattere di S. Sia S una sequenza. Con il simbolo |S| denotiamo la lunghezza di S e con S[i] indichiamo li-esimo carattere di S. Con il termine residuo denotiamo un singolo carattere di una sequenza biologica. Con il termine residuo denotiamo un singolo carattere di una sequenza biologica. Se ad es. S = acbcdb, avremo |S|=6 e S[3]=b. Se ad es. S = acbcdb, avremo |S|=6 e S[3]=b. Siano S e T due sequenze. Un allineamento A associa ad S e T le sequenze S e T, che possono contenere simboli di spazio -, in modo che Siano S e T due sequenze. Un allineamento A associa ad S e T le sequenze S e T, che possono contenere simboli di spazio -, in modo che |S|=|T| |S|=|T| Rimuovendo gli spazi da S e T otteniamo S e T. Rimuovendo gli spazi da S e T otteniamo S e T.

13 Allineamento Pairwise Lo score dellallineamento di una coppia di sequenze è dato da: Lo score dellallineamento di una coppia di sequenze è dato da: Dove l =|S|=|T|. Dove l =|S|=|T|. Lallineamento ottimale di S e T è quello che massimizza la similarità tra le sequenze o che minimizza la loro distanza. Lallineamento ottimale di S e T è quello che massimizza la similarità tra le sequenze o che minimizza la loro distanza. Nel seguito utilizzeremo il termine score per indicare il grado di similarità tra sequenze. Nel seguito utilizzeremo il termine score per indicare il grado di similarità tra sequenze. Lo score dellallineamento di una coppia di sequenze è dato da: Lo score dellallineamento di una coppia di sequenze è dato da: Dove l =|S|=|T|. Dove l =|S|=|T|. Lallineamento ottimale di S e T è quello che massimizza la similarità tra le sequenze o che minimizza la loro distanza. Lallineamento ottimale di S e T è quello che massimizza la similarità tra le sequenze o che minimizza la loro distanza. Nel seguito utilizzeremo il termine score per indicare il grado di similarità tra sequenze. Nel seguito utilizzeremo il termine score per indicare il grado di similarità tra sequenze.

14 Matrici di Sostituzione Un particolare allinemento è casulae o biologicamnete significativo? E possibile quentificare la sua significatività biologica? Un particolare allinemento è casulae o biologicamnete significativo? E possibile quentificare la sua significatività biologica? Abbiamo visto che la scoring function associa un valore numerico ad ogni coppia di caratteri. Abbiamo visto che la scoring function associa un valore numerico ad ogni coppia di caratteri. Le matrici di sostituzione associano un valore numerico ad ogni possibile coppia di aminoacidi, tenendo conto delle similarità chimiche tra di essi. Le matrici di sostituzione associano un valore numerico ad ogni possibile coppia di aminoacidi, tenendo conto delle similarità chimiche tra di essi. Tali matrici possono quindi essere utilizzate come scoring functions per lallineamento di proteine. Tali matrici possono quindi essere utilizzate come scoring functions per lallineamento di proteine. Un particolare allinemento è casulae o biologicamnete significativo? E possibile quentificare la sua significatività biologica? Un particolare allinemento è casulae o biologicamnete significativo? E possibile quentificare la sua significatività biologica? Abbiamo visto che la scoring function associa un valore numerico ad ogni coppia di caratteri. Abbiamo visto che la scoring function associa un valore numerico ad ogni coppia di caratteri. Le matrici di sostituzione associano un valore numerico ad ogni possibile coppia di aminoacidi, tenendo conto delle similarità chimiche tra di essi. Le matrici di sostituzione associano un valore numerico ad ogni possibile coppia di aminoacidi, tenendo conto delle similarità chimiche tra di essi. Tali matrici possono quindi essere utilizzate come scoring functions per lallineamento di proteine. Tali matrici possono quindi essere utilizzate come scoring functions per lallineamento di proteine.

15 Similarità chimica tra aminoacidi

16 Matrici PAM Le matrici PAM (Percent Accepted Mutations) furono sviluppate esaminando le mutazioni allinterno di superfamiglie di sequenze aminoacidiche strettamente correlate tra loro. Le matrici PAM (Percent Accepted Mutations) furono sviluppate esaminando le mutazioni allinterno di superfamiglie di sequenze aminoacidiche strettamente correlate tra loro. Si notò che le sostituzioni che occorrevano tra sequenze strettamente correlate non erano casuali. Si notò che le sostituzioni che occorrevano tra sequenze strettamente correlate non erano casuali. Si concluse che alcune sostituzioni di aminoacidi occorrono più facilmente di altre, probabilmente a causa del fatto che tali sostituzioni non alterano significativamente la struttura e la funzione di una proteina. Si concluse che alcune sostituzioni di aminoacidi occorrono più facilmente di altre, probabilmente a causa del fatto che tali sostituzioni non alterano significativamente la struttura e la funzione di una proteina. Ciò significa che proteine omologhe non devono necessariamente avere gli stessi aminoacidi in ogni posizione. Ciò significa che proteine omologhe non devono necessariamente avere gli stessi aminoacidi in ogni posizione. Le matrici PAM (Percent Accepted Mutations) furono sviluppate esaminando le mutazioni allinterno di superfamiglie di sequenze aminoacidiche strettamente correlate tra loro. Le matrici PAM (Percent Accepted Mutations) furono sviluppate esaminando le mutazioni allinterno di superfamiglie di sequenze aminoacidiche strettamente correlate tra loro. Si notò che le sostituzioni che occorrevano tra sequenze strettamente correlate non erano casuali. Si notò che le sostituzioni che occorrevano tra sequenze strettamente correlate non erano casuali. Si concluse che alcune sostituzioni di aminoacidi occorrono più facilmente di altre, probabilmente a causa del fatto che tali sostituzioni non alterano significativamente la struttura e la funzione di una proteina. Si concluse che alcune sostituzioni di aminoacidi occorrono più facilmente di altre, probabilmente a causa del fatto che tali sostituzioni non alterano significativamente la struttura e la funzione di una proteina. Ciò significa che proteine omologhe non devono necessariamente avere gli stessi aminoacidi in ogni posizione. Ciò significa che proteine omologhe non devono necessariamente avere gli stessi aminoacidi in ogni posizione.

17 Unità e matrici PAM Usiamo le unità PAM per misurare la distanza tra sequenze aminoacidiche. Usiamo le unità PAM per misurare la distanza tra sequenze aminoacidiche. Due sequenze S1 ed S2 distano 1 unità PAM se S1 può essere trasformata in S2 con una media di 1 mutazione puntuale ogni 100 aminoacidi. Due sequenze S1 ed S2 distano 1 unità PAM se S1 può essere trasformata in S2 con una media di 1 mutazione puntuale ogni 100 aminoacidi. In una sequenza la stessa posizione può mutare più volte e tornare quindi al carattere originario; dunque due sequenze che distano 1 PAM possono differire di meno dell1%. In una sequenza la stessa posizione può mutare più volte e tornare quindi al carattere originario; dunque due sequenze che distano 1 PAM possono differire di meno dell1%. Usiamo le unità PAM per misurare la distanza tra sequenze aminoacidiche. Usiamo le unità PAM per misurare la distanza tra sequenze aminoacidiche. Due sequenze S1 ed S2 distano 1 unità PAM se S1 può essere trasformata in S2 con una media di 1 mutazione puntuale ogni 100 aminoacidi. Due sequenze S1 ed S2 distano 1 unità PAM se S1 può essere trasformata in S2 con una media di 1 mutazione puntuale ogni 100 aminoacidi. In una sequenza la stessa posizione può mutare più volte e tornare quindi al carattere originario; dunque due sequenze che distano 1 PAM possono differire di meno dell1%. In una sequenza la stessa posizione può mutare più volte e tornare quindi al carattere originario; dunque due sequenze che distano 1 PAM possono differire di meno dell1%.

18 Matrici PAM Esistono diversi tipi di matrici PAM. Ognuna di esse è utilizzata per confrontare due sequenze che distano un certo numero di unità PAM luna dallaltra. Esistono diversi tipi di matrici PAM. Ognuna di esse è utilizzata per confrontare due sequenze che distano un certo numero di unità PAM luna dallaltra. Ad es. la PAM120 può essere utilizzata per confrontare sequenze che distano 120 unità PAM. Ad es. la PAM120 può essere utilizzata per confrontare sequenze che distano 120 unità PAM. La entry (i,j) della matrice PAM120 contiene lo score assegnato alla coppia di aminoacidi (Ai,Aj); tale score è proporzionale alla frequenza con cui ci si aspetta che Ai sostituisca Aj in due sequenze che distano 120 unità PAM. La entry (i,j) della matrice PAM120 contiene lo score assegnato alla coppia di aminoacidi (Ai,Aj); tale score è proporzionale alla frequenza con cui ci si aspetta che Ai sostituisca Aj in due sequenze che distano 120 unità PAM. Esistono diversi tipi di matrici PAM. Ognuna di esse è utilizzata per confrontare due sequenze che distano un certo numero di unità PAM luna dallaltra. Esistono diversi tipi di matrici PAM. Ognuna di esse è utilizzata per confrontare due sequenze che distano un certo numero di unità PAM luna dallaltra. Ad es. la PAM120 può essere utilizzata per confrontare sequenze che distano 120 unità PAM. Ad es. la PAM120 può essere utilizzata per confrontare sequenze che distano 120 unità PAM. La entry (i,j) della matrice PAM120 contiene lo score assegnato alla coppia di aminoacidi (Ai,Aj); tale score è proporzionale alla frequenza con cui ci si aspetta che Ai sostituisca Aj in due sequenze che distano 120 unità PAM. La entry (i,j) della matrice PAM120 contiene lo score assegnato alla coppia di aminoacidi (Ai,Aj); tale score è proporzionale alla frequenza con cui ci si aspetta che Ai sostituisca Aj in due sequenze che distano 120 unità PAM.

19 Matrice PAM 120

20 Matrici BLOSUM Le matrici BLOSUM sono matrici di sostituzione di aminoacidi simili alle PAM. Le matrici BLOSUM sono matrici di sostituzione di aminoacidi simili alle PAM. Mentre la matrici PAM si basano su allineamenti globali tra sequenze, le BLOSUM si basano su allineamenti di blocchi di segmenti di sequenze strettamente correlate. Mentre la matrici PAM si basano su allineamenti globali tra sequenze, le BLOSUM si basano su allineamenti di blocchi di segmenti di sequenze strettamente correlate. I segmenti appartenenti a ciascun blocco vengono suddivisi in clusters in base alla percentuale di similarità. Ogni cluster sarà considerato come ununica sequenza. I segmenti appartenenti a ciascun blocco vengono suddivisi in clusters in base alla percentuale di similarità. Ogni cluster sarà considerato come ununica sequenza. Ad es. nella costruzione della matrice BLOSUM62 ogni cluster sarà costituito da sequenze che hanno identità superiore al 62%. Ad es. nella costruzione della matrice BLOSUM62 ogni cluster sarà costituito da sequenze che hanno identità superiore al 62%. Anche in questo caso la entry (i,j) della matrice è proporzionale alla frequenza di sostituzione dellaminoacido Ai con laminoacido Aj. Anche in questo caso la entry (i,j) della matrice è proporzionale alla frequenza di sostituzione dellaminoacido Ai con laminoacido Aj. Le matrici BLOSUM sono matrici di sostituzione di aminoacidi simili alle PAM. Le matrici BLOSUM sono matrici di sostituzione di aminoacidi simili alle PAM. Mentre la matrici PAM si basano su allineamenti globali tra sequenze, le BLOSUM si basano su allineamenti di blocchi di segmenti di sequenze strettamente correlate. Mentre la matrici PAM si basano su allineamenti globali tra sequenze, le BLOSUM si basano su allineamenti di blocchi di segmenti di sequenze strettamente correlate. I segmenti appartenenti a ciascun blocco vengono suddivisi in clusters in base alla percentuale di similarità. Ogni cluster sarà considerato come ununica sequenza. I segmenti appartenenti a ciascun blocco vengono suddivisi in clusters in base alla percentuale di similarità. Ogni cluster sarà considerato come ununica sequenza. Ad es. nella costruzione della matrice BLOSUM62 ogni cluster sarà costituito da sequenze che hanno identità superiore al 62%. Ad es. nella costruzione della matrice BLOSUM62 ogni cluster sarà costituito da sequenze che hanno identità superiore al 62%. Anche in questo caso la entry (i,j) della matrice è proporzionale alla frequenza di sostituzione dellaminoacido Ai con laminoacido Aj. Anche in questo caso la entry (i,j) della matrice è proporzionale alla frequenza di sostituzione dellaminoacido Ai con laminoacido Aj.

21 GapsGaps Abbiamo visto che due sequenze biologiche possono differire tra loro non solo per sostituzione di un residuo con un altro ma anche per inserzione o delezione di residui. Abbiamo visto che due sequenze biologiche possono differire tra loro non solo per sostituzione di un residuo con un altro ma anche per inserzione o delezione di residui. E quindi spesso necessario introdurre degli spazi - in una o in entrambe le sequenze da allineare, anche al fine di portare le sequenze alla stessa lunghezza. E quindi spesso necessario introdurre degli spazi - in una o in entrambe le sequenze da allineare, anche al fine di portare le sequenze alla stessa lunghezza. Una sequenza di spazi contigui si definisce gap. Una sequenza di spazi contigui si definisce gap. Ovviamente è necessario determinare un criterio per linserimento di tali gap. Ovviamente è necessario determinare un criterio per linserimento di tali gap. Linserimento di un gap abbassa lo score dellallineamento; in questo modo, essendo il nostro scopo quello di massimizzare lo score dellallineamento, verranno inseriti gaps solo quando ciò è strettamente necessario. Linserimento di un gap abbassa lo score dellallineamento; in questo modo, essendo il nostro scopo quello di massimizzare lo score dellallineamento, verranno inseriti gaps solo quando ciò è strettamente necessario. Abbiamo visto che due sequenze biologiche possono differire tra loro non solo per sostituzione di un residuo con un altro ma anche per inserzione o delezione di residui. Abbiamo visto che due sequenze biologiche possono differire tra loro non solo per sostituzione di un residuo con un altro ma anche per inserzione o delezione di residui. E quindi spesso necessario introdurre degli spazi - in una o in entrambe le sequenze da allineare, anche al fine di portare le sequenze alla stessa lunghezza. E quindi spesso necessario introdurre degli spazi - in una o in entrambe le sequenze da allineare, anche al fine di portare le sequenze alla stessa lunghezza. Una sequenza di spazi contigui si definisce gap. Una sequenza di spazi contigui si definisce gap. Ovviamente è necessario determinare un criterio per linserimento di tali gap. Ovviamente è necessario determinare un criterio per linserimento di tali gap. Linserimento di un gap abbassa lo score dellallineamento; in questo modo, essendo il nostro scopo quello di massimizzare lo score dellallineamento, verranno inseriti gaps solo quando ciò è strettamente necessario. Linserimento di un gap abbassa lo score dellallineamento; in questo modo, essendo il nostro scopo quello di massimizzare lo score dellallineamento, verranno inseriti gaps solo quando ciò è strettamente necessario.

22 Gap Penalties La maggior parte degli algoritmi di allineamento usano delle gap penalties diverse per lapertura di un nuovo gap e per lestensione di un gap già esistente. La maggior parte degli algoritmi di allineamento usano delle gap penalties diverse per lapertura di un nuovo gap e per lestensione di un gap già esistente. Il GOP (Gap Opening Penalty) è la penalità da pagare ogni qual volta viene inserito un gap. Il GOP (Gap Opening Penalty) è la penalità da pagare ogni qual volta viene inserito un gap. Il GEP (Gap Extension Penalty) è la penalità da pagare ogni qual volta viene esteso un gap già esistente. Il GEP (Gap Extension Penalty) è la penalità da pagare ogni qual volta viene esteso un gap già esistente. Solitamente GOP>GEP, cioè aprire un nuovo gap è più costoso che estenderne uno esistente; in questo modo si tende ad avere inserzioni e delezioni di parecchi residui per volta piuttosto che inserzioni o delezioni sparse. Solitamente GOP>GEP, cioè aprire un nuovo gap è più costoso che estenderne uno esistente; in questo modo si tende ad avere inserzioni e delezioni di parecchi residui per volta piuttosto che inserzioni o delezioni sparse. La maggior parte degli algoritmi di allineamento usano delle gap penalties diverse per lapertura di un nuovo gap e per lestensione di un gap già esistente. La maggior parte degli algoritmi di allineamento usano delle gap penalties diverse per lapertura di un nuovo gap e per lestensione di un gap già esistente. Il GOP (Gap Opening Penalty) è la penalità da pagare ogni qual volta viene inserito un gap. Il GOP (Gap Opening Penalty) è la penalità da pagare ogni qual volta viene inserito un gap. Il GEP (Gap Extension Penalty) è la penalità da pagare ogni qual volta viene esteso un gap già esistente. Il GEP (Gap Extension Penalty) è la penalità da pagare ogni qual volta viene esteso un gap già esistente. Solitamente GOP>GEP, cioè aprire un nuovo gap è più costoso che estenderne uno esistente; in questo modo si tende ad avere inserzioni e delezioni di parecchi residui per volta piuttosto che inserzioni o delezioni sparse. Solitamente GOP>GEP, cioè aprire un nuovo gap è più costoso che estenderne uno esistente; in questo modo si tende ad avere inserzioni e delezioni di parecchi residui per volta piuttosto che inserzioni o delezioni sparse.

23 Gap Penalties Esempio di apertura di un gap: Esempio di apertura di un gap: Esempio di estensione di un gap già esistente: Esempio di estensione di un gap già esistente: Esempio di apertura di un gap: Esempio di apertura di un gap: Esempio di estensione di un gap già esistente: Esempio di estensione di un gap già esistente: a c t c a a … t c a t c a … - t c a t c … a c t c a a … - - t c a t …- t c a t c …

24 Algoritmi per il lallineamento Pairwise Come trovare lallinemento ottimale? Come trovare lallinemento ottimale? Il metodo più ovvio per determinare lallineamento ottimale tra due sequenze consiste nel costruire tutti i possibili allineamenti e valutare quello con lo score più alto: Il metodo più ovvio per determinare lallineamento ottimale tra due sequenze consiste nel costruire tutti i possibili allineamenti e valutare quello con lo score più alto: APPROCCIO IMPRATICABILE Allineare sequenze di appena 20 caratteri (lunghezza inusuale per una biosequenza, che solitamente è formata da un numero molto maggiore di caratteri) richiederebbe un tempo sicuramente inaccettabile. Allineare sequenze di appena 20 caratteri (lunghezza inusuale per una biosequenza, che solitamente è formata da un numero molto maggiore di caratteri) richiederebbe un tempo sicuramente inaccettabile. Come trovare lallinemento ottimale? Come trovare lallinemento ottimale? Il metodo più ovvio per determinare lallineamento ottimale tra due sequenze consiste nel costruire tutti i possibili allineamenti e valutare quello con lo score più alto: Il metodo più ovvio per determinare lallineamento ottimale tra due sequenze consiste nel costruire tutti i possibili allineamenti e valutare quello con lo score più alto: APPROCCIO IMPRATICABILE Allineare sequenze di appena 20 caratteri (lunghezza inusuale per una biosequenza, che solitamente è formata da un numero molto maggiore di caratteri) richiederebbe un tempo sicuramente inaccettabile. Allineare sequenze di appena 20 caratteri (lunghezza inusuale per una biosequenza, che solitamente è formata da un numero molto maggiore di caratteri) richiederebbe un tempo sicuramente inaccettabile.

25 Allineamento mediante Programmazione Dinamica Date due stringhe S e T, con |S|=n e |T|=m, il nostro obiettivo è il calcolo dellallineamento ottimale di S e T. Date due stringhe S e T, con |S|=n e |T|=m, il nostro obiettivo è il calcolo dellallineamento ottimale di S e T. Gli algoritmi di programmazione dinamica vengono utilizzati nella risoluzione di problemi di ottimizzazione; nel nostro caso ci interessa massimizzare lo score dellallineamento. Gli algoritmi di programmazione dinamica vengono utilizzati nella risoluzione di problemi di ottimizzazione; nel nostro caso ci interessa massimizzare lo score dellallineamento. Un algoritmo di programmazione dinamica trova la soluzione migliore spezzando il problema originale in sottoproblemi più semplici da risolvere. Un algoritmo di programmazione dinamica trova la soluzione migliore spezzando il problema originale in sottoproblemi più semplici da risolvere. La soluzione di ogni sottoproblema si basa sulle soluzioni dei sottoproblemi già risolti. La soluzione di ogni sottoproblema si basa sulle soluzioni dei sottoproblemi già risolti. Date due stringhe S e T, con |S|=n e |T|=m, il nostro obiettivo è il calcolo dellallineamento ottimale di S e T. Date due stringhe S e T, con |S|=n e |T|=m, il nostro obiettivo è il calcolo dellallineamento ottimale di S e T. Gli algoritmi di programmazione dinamica vengono utilizzati nella risoluzione di problemi di ottimizzazione; nel nostro caso ci interessa massimizzare lo score dellallineamento. Gli algoritmi di programmazione dinamica vengono utilizzati nella risoluzione di problemi di ottimizzazione; nel nostro caso ci interessa massimizzare lo score dellallineamento. Un algoritmo di programmazione dinamica trova la soluzione migliore spezzando il problema originale in sottoproblemi più semplici da risolvere. Un algoritmo di programmazione dinamica trova la soluzione migliore spezzando il problema originale in sottoproblemi più semplici da risolvere. La soluzione di ogni sottoproblema si basa sulle soluzioni dei sottoproblemi già risolti. La soluzione di ogni sottoproblema si basa sulle soluzioni dei sottoproblemi già risolti.

26 Programmazione Dinamica (2) Consideriamo lalgoritmo di programmazione dinamica proposto da Needleman & Wunsch (1970). Consideriamo lalgoritmo di programmazione dinamica proposto da Needleman & Wunsch (1970). Date due sequenze S e T, confrontiamo il primo residuo di S con il primo residuo di T considerando i seguenti score: Date due sequenze S e T, confrontiamo il primo residuo di S con il primo residuo di T considerando i seguenti score: Ci chiediamo quindi se conviene allineare il primo residuo di S con il primo residuo di T o il primo residuo di S con un gap o il primo residuo di T con un gap; scegliamo quindi di intraprendere lazione cui è associato lo score maggiore. Ci chiediamo quindi se conviene allineare il primo residuo di S con il primo residuo di T o il primo residuo di S con un gap o il primo residuo di T con un gap; scegliamo quindi di intraprendere lazione cui è associato lo score maggiore. Consideriamo lalgoritmo di programmazione dinamica proposto da Needleman & Wunsch (1970). Consideriamo lalgoritmo di programmazione dinamica proposto da Needleman & Wunsch (1970). Date due sequenze S e T, confrontiamo il primo residuo di S con il primo residuo di T considerando i seguenti score: Date due sequenze S e T, confrontiamo il primo residuo di S con il primo residuo di T considerando i seguenti score: Ci chiediamo quindi se conviene allineare il primo residuo di S con il primo residuo di T o il primo residuo di S con un gap o il primo residuo di T con un gap; scegliamo quindi di intraprendere lazione cui è associato lo score maggiore. Ci chiediamo quindi se conviene allineare il primo residuo di S con il primo residuo di T o il primo residuo di S con un gap o il primo residuo di T con un gap; scegliamo quindi di intraprendere lazione cui è associato lo score maggiore.

27 Programmazione Dinamica (3) Utilizziamo una matrice n x m, con |S|=n e |T|=m, che andremo a riempire riga per riga: Utilizziamo una matrice n x m, con |S|=n e |T|=m, che andremo a riempire riga per riga: Il valore di ogni entry viene calcolato con la seguente formula: Il valore di ogni entry viene calcolato con la seguente formula: Caso base: Caso base: Utilizziamo una matrice n x m, con |S|=n e |T|=m, che andremo a riempire riga per riga: Utilizziamo una matrice n x m, con |S|=n e |T|=m, che andremo a riempire riga per riga: Il valore di ogni entry viene calcolato con la seguente formula: Il valore di ogni entry viene calcolato con la seguente formula: Caso base: Caso base:

28 Programmazione Dinamica (4) In questo modo ad ogni passo scegliamo il massimo tra gli score che otterremmo allineando il residuo i di S con il residuo j di T, o allineando il residuo i di S con un gap o allineando il residuo j di T con un gap. Considerando Avremo:

29 Programmazione Dinamica (5) La entry (n,m) sarà lo score dellallineamento: La entry (n,m) sarà lo score dellallineamento: A questo punto come facciamo ad ottenere lallineamento vero e proprio? A questo punto come facciamo ad ottenere lallineamento vero e proprio? La entry (n,m) sarà lo score dellallineamento: La entry (n,m) sarà lo score dellallineamento: A questo punto come facciamo ad ottenere lallineamento vero e proprio? A questo punto come facciamo ad ottenere lallineamento vero e proprio?

30 Programmazione Dinamica (6) Mediante un traceback procediamo a ritroso a partire dalla entry (6,5). Sappiamo che: Quindi possiamo risalire scegliendo indifferentemente la entry (6,4) o la entry (5,5)

31 Programmazione Dinamica (7) Seguendo la strada indicata dalle frecce otterremo il seguente allineamento: a - cbcdb- ca-dbd

32 Allineamento globale e locale Lalgoritmo di allineamento che abbiamo considerato, produce lallineamento globale di due sequenze, ovvero allinea due sequenze su tutta la loro lunghezza. Lalgoritmo di allineamento che abbiamo considerato, produce lallineamento globale di due sequenze, ovvero allinea due sequenze su tutta la loro lunghezza. Una variante dellalgoritmo di Needleman-Wunsch consente di eseguire lallineamento locale di due sequenze; Una variante dellalgoritmo di Needleman-Wunsch consente di eseguire lallineamento locale di due sequenze; Questo è utile quando abbiamo a che fare con sequenze che non presentano unalta similarità su tutta la loro lunghezza ma che contengono comunque regioni ad alta similarità (Vedi BLAST). Questo è utile quando abbiamo a che fare con sequenze che non presentano unalta similarità su tutta la loro lunghezza ma che contengono comunque regioni ad alta similarità (Vedi BLAST). Lalgoritmo di local alignment restituisce gli n allineamenti di sottosequenze di S e T di massimo score. Lalgoritmo di local alignment restituisce gli n allineamenti di sottosequenze di S e T di massimo score. Lalgoritmo di allineamento che abbiamo considerato, produce lallineamento globale di due sequenze, ovvero allinea due sequenze su tutta la loro lunghezza. Lalgoritmo di allineamento che abbiamo considerato, produce lallineamento globale di due sequenze, ovvero allinea due sequenze su tutta la loro lunghezza. Una variante dellalgoritmo di Needleman-Wunsch consente di eseguire lallineamento locale di due sequenze; Una variante dellalgoritmo di Needleman-Wunsch consente di eseguire lallineamento locale di due sequenze; Questo è utile quando abbiamo a che fare con sequenze che non presentano unalta similarità su tutta la loro lunghezza ma che contengono comunque regioni ad alta similarità (Vedi BLAST). Questo è utile quando abbiamo a che fare con sequenze che non presentano unalta similarità su tutta la loro lunghezza ma che contengono comunque regioni ad alta similarità (Vedi BLAST). Lalgoritmo di local alignment restituisce gli n allineamenti di sottosequenze di S e T di massimo score. Lalgoritmo di local alignment restituisce gli n allineamenti di sottosequenze di S e T di massimo score.

33 Allineamento Multiplo Fino ad ora abbiamo visto come produrre allineamenti di coppie di sequenze. Gli algoritmi visti hanno complessità quadratica (nella lunghezza delle sequenze) in tempo e spazio. Fino ad ora abbiamo visto come produrre allineamenti di coppie di sequenze. Gli algoritmi visti hanno complessità quadratica (nella lunghezza delle sequenze) in tempo e spazio. La variante di Myers-Miller consente di produrre allineamenti di coppie di sequenze in tempo quadratico e spazio lineare. La variante di Myers-Miller consente di produrre allineamenti di coppie di sequenze in tempo quadratico e spazio lineare. Il problema dellallineamento di n sequenze non è risolubile in tempo polinomiale. Occorre quindi ricorrere ad euristiche ed approssimazioni. Il problema dellallineamento di n sequenze non è risolubile in tempo polinomiale. Occorre quindi ricorrere ad euristiche ed approssimazioni.

34 Allineamento Progressivo Il metodo più comune per eseguire un allineamento multiplo è il cosiddetto allineamento progressivo, basato sulla costruzione di una successione di allineamenti a coppie. Il metodo più comune per eseguire un allineamento multiplo è il cosiddetto allineamento progressivo, basato sulla costruzione di una successione di allineamenti a coppie. Dato un insieme S costituito da n sequenze da allineare, si scelgono due sequenze s1 ed s2 e si allineano; questo allineamento rimane fissato nei passi successivi. Dato un insieme S costituito da n sequenze da allineare, si scelgono due sequenze s1 ed s2 e si allineano; questo allineamento rimane fissato nei passi successivi. Si sceglie quindi una terza sequenza s3 e si allinea al precedente allineamento, e così via. Si sceglie quindi una terza sequenza s3 e si allinea al precedente allineamento, e così via. Questo è un approccio euristico e non garantisce di trovare lallineamento multiplo ottimale; tuttavia è efficiente e nella pratica dà dei risultati ragionevoli. Questo è un approccio euristico e non garantisce di trovare lallineamento multiplo ottimale; tuttavia è efficiente e nella pratica dà dei risultati ragionevoli. Il metodo più comune per eseguire un allineamento multiplo è il cosiddetto allineamento progressivo, basato sulla costruzione di una successione di allineamenti a coppie. Il metodo più comune per eseguire un allineamento multiplo è il cosiddetto allineamento progressivo, basato sulla costruzione di una successione di allineamenti a coppie. Dato un insieme S costituito da n sequenze da allineare, si scelgono due sequenze s1 ed s2 e si allineano; questo allineamento rimane fissato nei passi successivi. Dato un insieme S costituito da n sequenze da allineare, si scelgono due sequenze s1 ed s2 e si allineano; questo allineamento rimane fissato nei passi successivi. Si sceglie quindi una terza sequenza s3 e si allinea al precedente allineamento, e così via. Si sceglie quindi una terza sequenza s3 e si allinea al precedente allineamento, e così via. Questo è un approccio euristico e non garantisce di trovare lallineamento multiplo ottimale; tuttavia è efficiente e nella pratica dà dei risultati ragionevoli. Questo è un approccio euristico e non garantisce di trovare lallineamento multiplo ottimale; tuttavia è efficiente e nella pratica dà dei risultati ragionevoli.

35 Allineamento Progressivo (2) Leuristica più importante utilizzata negli algoritmi di allineamento progressivo prevede che le coppie che presentano un maggior grado di similarità siano allineate per prime. Leuristica più importante utilizzata negli algoritmi di allineamento progressivo prevede che le coppie che presentano un maggior grado di similarità siano allineate per prime. Ciò è giustificato dal fatto che coppie di sequenze maggiormente somiglianti hanno maggiore probabilità di essere derivate più recentemente da un antenato comune e quindi il loro allineamento fornisce linformazione più affidabile che è possibile ricavare dalle sequenze. Ciò è giustificato dal fatto che coppie di sequenze maggiormente somiglianti hanno maggiore probabilità di essere derivate più recentemente da un antenato comune e quindi il loro allineamento fornisce linformazione più affidabile che è possibile ricavare dalle sequenze. Inoltre le posizioni dei gaps in sequenze maggiormente correlate sono tipicamente più accurate rispetto a quelle relative a sequenze meno simili, per cui i gaps degli allineamenti iniziali vanno preservati durante lallineamento progressivo. Inoltre le posizioni dei gaps in sequenze maggiormente correlate sono tipicamente più accurate rispetto a quelle relative a sequenze meno simili, per cui i gaps degli allineamenti iniziali vanno preservati durante lallineamento progressivo.

36 ClustalWClustalW ClustalW è il tool più popolare per lallineamento multiplo di biosequenze. ClustalW è il tool più popolare per lallineamento multiplo di biosequenze. Dato un insieme S di n sequenze da allineare, ClustalW allinea tutte le coppie di sequenze di S separatamente e costruisce una matrice con le distanze tra ogni coppia di sequenze. Dato un insieme S di n sequenze da allineare, ClustalW allinea tutte le coppie di sequenze di S separatamente e costruisce una matrice con le distanze tra ogni coppia di sequenze. ClustalW è il tool più popolare per lallineamento multiplo di biosequenze. ClustalW è il tool più popolare per lallineamento multiplo di biosequenze. Dato un insieme S di n sequenze da allineare, ClustalW allinea tutte le coppie di sequenze di S separatamente e costruisce una matrice con le distanze tra ogni coppia di sequenze. Dato un insieme S di n sequenze da allineare, ClustalW allinea tutte le coppie di sequenze di S separatamente e costruisce una matrice con le distanze tra ogni coppia di sequenze. Seq. A Seq. B Seq. C Seq. D Seq. A 0.00 Seq. B 0.110.00 Seq. C 0.320.430.00 Seq. D 0.170.180.570.00

37 ClustalW: Albero filogenetico Viene quindi costruito un albero guida filogenetico utilizzando il metodo neighbour-joining. Viene quindi costruito un albero guida filogenetico utilizzando il metodo neighbour-joining. Si sceglie la coppia più vicina: questa andrà a formare il primo sottoalbero: Si sceglie la coppia più vicina: questa andrà a formare il primo sottoalbero: Viene quindi costruito un albero guida filogenetico utilizzando il metodo neighbour-joining. Viene quindi costruito un albero guida filogenetico utilizzando il metodo neighbour-joining. Si sceglie la coppia più vicina: questa andrà a formare il primo sottoalbero: Si sceglie la coppia più vicina: questa andrà a formare il primo sottoalbero: AB AB Seq. A Seq. B Seq. C Seq. D Seq. A 0.00 Seq. B 0.110.00 Seq. C 0.320.430.00 Seq. D 0.170.180.570.00

38 ClustalW: Albero filogenetico (2) Sostituiamo nella tabella la entry AB alle singole entry A e B e calcoliamo le distanze di AB dalle sequenze rimanenti facendo una semplice media aritmetica: Seq. AB Seq. C Seq. D Seq. AB 0.00 Seq. C 0.00 Seq. D 0.00 ? 0.57? 0.375 0.175 Iterando il procedimento si ottiene lalbero completo.

39 ClustalW: Albero filogenetico (3) Otterremo un albero i cui rami hanno lunghezza proporzionale alla distanza tra le sequenze : Otterremo un albero i cui rami hanno lunghezza proporzionale alla distanza tra le sequenze : Questalbero verrà utilizzato per guidare lallineamento progressivo. Questalbero verrà utilizzato per guidare lallineamento progressivo. Nel nostro esempio verranno allineate per prime le sequenze A e B. Successivamente verrà allineata la sequenza D allallineamento AB e infine verrà allineata la sequenza C allallineamento ABD. Nel nostro esempio verranno allineate per prime le sequenze A e B. Successivamente verrà allineata la sequenza D allallineamento AB e infine verrà allineata la sequenza C allallineamento ABD. A B C D

40 Albero filogenetico: un esempio Lalbero filogenetico in figura è costruito mediante ClustalW a partire dalle sequenze della proteina mnSOD su diversi organismi: il clustering ottenuto rispecchia in maniera abbastanza fedele quella che è la filogenesi classica (cioè basata su dati geopaleontologici). Lalbero filogenetico in figura è costruito mediante ClustalW a partire dalle sequenze della proteina mnSOD su diversi organismi: il clustering ottenuto rispecchia in maniera abbastanza fedele quella che è la filogenesi classica (cioè basata su dati geopaleontologici).

41 Allineamento con ClustalW Nellallineamento di sequenze nucleotidiche è possibile trovare solo simboli * nel caso di identità della colonna al 100%. Nellallineamento di sequenze nucleotidiche è possibile trovare solo simboli * nel caso di identità della colonna al 100%. La presenza di un simbolo * in fondo ad una colonna indica un match del 100%. La presenza di un simbolo * in fondo ad una colonna indica un match del 100%. Il simbolo : indica unalta similarità (>75%). Il simbolo : indica unalta similarità (>75%). Il simbolo. indica una media similarità (50%-75%). Il simbolo. indica una media similarità (50%-75%). La presenza di un simbolo * in fondo ad una colonna indica un match del 100%. La presenza di un simbolo * in fondo ad una colonna indica un match del 100%. Il simbolo : indica unalta similarità (>75%). Il simbolo : indica unalta similarità (>75%). Il simbolo. indica una media similarità (50%-75%). Il simbolo. indica una media similarità (50%-75%).

42 ClustalW: Server on line Il server ufficiale di ClustalW si trova sul sito dellEMBL: Il server ufficiale di ClustalW si trova sul sito dellEMBL:http://www.ebi.ac.uk/clustalw/index.html Vi sono comunque molti altri server di ClustalW; uno dei più popolari è quello dello Swiss Institute of Bioinformatics: Vi sono comunque molti altri server di ClustalW; uno dei più popolari è quello dello Swiss Institute of Bioinformatics:http://www.ch.embnet.org/software/ClustalW.html Questa versione di ClustalW ha uninterfaccia semplificata rispetto a quella ufficiale su EMBL. Questa versione di ClustalW ha uninterfaccia semplificata rispetto a quella ufficiale su EMBL.

43 ClustalW: uso locale E anche possibile scaricare la versione locale di ClustalW per ambienti Windows (DOS) e Linux: E anche possibile scaricare la versione locale di ClustalW per ambienti Windows (DOS) e Linux:ftp://ftp.ebi.ac.uk/pub/software/dos/clustalw/ftp://ftp.ebi.ac.uk/pub/software/unix/clustalw/ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalW/http://www.biolinux.org/clustalw.html

44 Blast2Seq Blast2Seq è un tool della famiglia BLAST che permette di eseguire lallineamento di una coppia di sequenze utilizzando lalgoritmo di allineamento locale di BLAST. Blast2Seq è un tool della famiglia BLAST che permette di eseguire lallineamento di una coppia di sequenze utilizzando lalgoritmo di allineamento locale di BLAST. E importante sottolineare la differenza tra questo tipo di approccio e quello mostrato nelle slides precedenti: E importante sottolineare la differenza tra questo tipo di approccio e quello mostrato nelle slides precedenti: Lallineamento Pairwise Globale di coppie di sequenze mette in luce leventuale similarità globale tra le due sequenze. Lallineamento Pairwise Globale di coppie di sequenze mette in luce leventuale similarità globale tra le due sequenze. Lallineamento Pairwise effettuato da Blast2Seq mette in luce le eventuali similarità locali tra le due sequenze. Due sequenze possono anche essere molto diverse nella loro interezza ma avere comunque delle regioni molto simili: a partire da tale similarità è spesso possibile formulare interessanti ipotesi sulla presenza di determinati motivi e quindi sulla funzione delle molecole analizzate. Lallineamento Pairwise effettuato da Blast2Seq mette in luce le eventuali similarità locali tra le due sequenze. Due sequenze possono anche essere molto diverse nella loro interezza ma avere comunque delle regioni molto simili: a partire da tale similarità è spesso possibile formulare interessanti ipotesi sulla presenza di determinati motivi e quindi sulla funzione delle molecole analizzate.


Scaricare ppt "Allineamento Pairwise e Multiplo di Bio-Sequenze."

Presentazioni simili


Annunci Google