La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Ricerche in database e allineamenti a coppie 1 È un errore madornale elaborare teorie prima di avere i dati. Senza accorgersene uno incomincia a distorcere.

Presentazioni simili


Presentazione sul tema: "Ricerche in database e allineamenti a coppie 1 È un errore madornale elaborare teorie prima di avere i dati. Senza accorgersene uno incomincia a distorcere."— Transcript della presentazione:

1 Ricerche in database e allineamenti a coppie 1 È un errore madornale elaborare teorie prima di avere i dati. Senza accorgersene uno incomincia a distorcere i fatti per adattarli alle teorie invece di far sì che le teorie spieghino i fatti. ( A. Conan Doyle, A scandal in Bohemia, Strand Magazine, July 1891 )

2 Sommario Dot plot Allineamenti semplici Gap Matrici di punteggio Programmazione dinamica: lalgoritmo di Needleman e Wunsch Allineamenti globali e locali Ricerche in database Allineamenti multipli di sequenza 2

3 Introduzione 1 Ogni allineamento tra due o più sequenze di nucleotidi o aminoacidi rappresenta unipotesi esplicita riguardo alla storia evolutiva di quelle sequenze Confronti tra sequenze correlate hanno favorito numerosi progressi nella comprensione del loro contenuto informativo e della loro funzione Le tecniche di allineamento e confronto di sequenze e di ricerca di sequenze simili in database sono i pilastri della bioinformatica 3

4 Introduzione 2 Sequenze strettamente correlate tra loro sono in genere facili da allineare e, viceversa, lallinea- mento rappresenta un indicatore importante del loro livello di correlazione Gli allineamenti di sequenze servono per: determinare la funzione di una sequenza genetica appena scoperta (confronto con sequenze simili) determinare la relazione evolutiva fra geni, protei- ne e intere specie predire la struttura e la funzione di proteine nuove in base a proteine simili note 4

5 Dot plot 1 dot plot Uno dei metodi più semplici per valutare la simi- larità fra due sequenze consiste nel visualizzare le regioni di similarità per mezzo di dot plot Il dot plot è un metodo grafico di visualizzazione della similarità Meno ovvio è il suo stretto rapporto con gli allineamenti Il dot plot è una tabella o matrice o, in alternati- va, un piano cartesiano Le righe (le ascisse) corrispondono ai residui di una sequenza e le colonne (le ordinate) ai residui della seconda sequenza 5

6 Dot plot 2 6 Dot plot: (a) rappresentazione matriciale e (b) rappresentazione grafica nel piano cartesiano (a)(b)

7 Dot plot 3 Ciò indica che vi sono state inserzioni o delezioni nei segmenti tra le regio- ni di similarità 7 Le regioni di similarità saranno pertanto visualizzabili come linee diagonali che procedono nella direzione SudOvest NordEst; sequenze ripetute produrranno diagonali parallele Il dot plot cattura dunque, in una singola immagine, non solo la similarità complessiva tra due sequenze, ma anche linsieme completo e la relativa qualità dei diversi allineamenti possibili Spesso alcune regioni di similarità possono risultare spostate, in modo da apparire su diagonali parallele, ma non collineari

8 Dot plot 4 Per ridurlo si può passare dal confronto dei singoli residui a quello di brevi sequenze (fine- stre scorrevoli) di più residui In tal caso, il dot è riportato solo quando in una finestra di w residui, s sono identici 8 Le identità casuali producono nelle matrici dot plot un rumore di fondo elevato (soprattutto per sequenze lunghe e simili) Inoltre, ciò accade quasi sempre negli allinea- menti tra acidi nucleici a causa dellalfabeto di sole quattro lettere

9 Dot plot 5 A valori crescenti di s corrisponde una stringenza sempre maggiore (massima per s = w ) Ovviamente, la variazione di w e s ha influenza sul rumore di fondo I valori di w e s più adatti al confronto di se- quenze nucleotidiche e proteiche sono determina- ti empiricamente con processi tipo trialanderror 9

10 Dot plot 6 Una matrice dot plot che consideri solo le identità non fornisce una reale indicazione dei rapporti di similarità per le proteine, ove la non identità tra aminoacidi può avere implicazioni biologiche pro- fondamente diverse Infatti: leucinaisoleucina in alcuni casi la sostituzione di un residuo con un altro non identico, ma con proprietà molto simili (ad es.: leucina ed isoleucina), può essere quasi irrilevante in altri casi, due residui non identici possono avere proprietà molto diverse 10

11 Allineamenti semplici 1 Un allineamento semplice tra due sequenze è una corrispondenza a coppie tra i caratteri di ogni sequenza omologhi Lallineamento di sequenze nucleotidiche o amino- acidiche riflette la relazione evolutiva fra due o più omologhi, cioè sequenze che hanno in comune uno stesso antenato Non esistono gradi di omologia: ad ogni data po- sizione di un allineamento, le sequenze possiedono un antenato in comune o non lo possiedono La similarità complessiva si può invece quantificare per mezzo di un valore frazionario 11

12 Allineamenti semplici 2 In particolare, in ogni data posizione allinterno di una sequenza possono avvenire tre tipi di cambiamenti: mutazione Una mutazione, che sostituisce un carattere con un altro inserzione Uninserzione, che aggiunge una o più posizioni delezione Una delezione, che elimina una o più posizioni In natura, inserzioni e delezioni sono significativamen- te meno frequenti delle mutazioni gap Poiché non esistono gli omologhi dei nucleotidi inseriti o cancellati, negli allineamenti sono comunemente ag- giunti dei gap che rispecchiano il verificarsi di questo tipo di cambiamenti 12

13 Allineamenti semplici 3 Nel caso più semplice, in cui non sono permessi gap, lallineamento di due sequenze si riduce alla scelta del punto di partenza per la sequenza più corta AATCTATAAATCTATAAATCTATA AAGATA AAGATA AAGATA Per determinare quale dei tre allineamenti sia quello ottimale, occorre stabilire un punteggio da valutare re- lativamente ad ogni allineamento dove n è la lunghezza della sequenza più lunga Per un punteggio di non/corrispondenza pari a 0/1, i tre allineamenti vengono valutati rispettivamente 4, 1 e 3 13 { n i 1 Punteggio di non corrispondenza se seq1 iseq2 i Punteggio di corrispondenza se seq1 iseq2 i

14 Gap Considerare la possibilità di eventi di inserzione e delezione aumenta considerevolmente il numero di allineamenti possibili fra coppie di sequenze Per esempio, le due sequenze AATCTATA e AAGATA che possono essere allineate senza gap in soli tre modi, ammettono 28 allineamenti diversi, con linserimento di due gap allinterno della sequenza più cortaEsempio AATCTATAAATCTATAAATCTATA AAG AT AAA G ATAAA GATA 14

15 Penalità semplici per utilizzo di gap gap penalty Introduzione nel punteggio di valutazione di alli- neamento di un termine di penalità per lapertura di un gap (gap penalty) Assumendo un punteggio di non/corrispondenza pari a 0/1 ed una gap penalty uguale a 1, i punteggi per i tre allineamenti con gap risultereb- bero 1, 3, 3 AATCTATAAATCTATAAATCTATA AAG AT AAA G ATAAA GATA 15 { n i 1 Punteggio di non corrispondenza se seq1 iseq2 i Punteggio di corrispondenza se seq1 iseq2 i Punteggio per lapertura di gap se seq1 i o seq2 i

16 Penalità per creazione e lunghezza dei gap 1 Usando gap penalty semplici, non è infrequente calco- lare più allineamenti ottimali (in base al criterio scelto) Penalizzare diversamente i gap isolati e quelli che appa- iono in sequenza Concretamente, ogni dato allineamento a coppie rap- presenta unipotesi sul percorso evolutivo che due sequenze hanno intrapreso dallultimo antenato in comune Quando si considerano diverse ipotesi in competi- zione, quella che invoca il minor numero di eventi improbabili è, per definizione, quella più probabilmente corretta 16

17 Penalità per creazione e lunghezza dei gap 2 Siano s 1 ed s 2 due sequenze nucleotidiche arbitrarie di lunghezza 12 e 9, rispettivamente Ogni allineamento avrà necessariamente tre gap nella sequen- za più corta Assumendo che le sequenze siano omologhe dallinizio alla fine, la differenza di lunghezza può essere dovuta allinserzione di nucleotidi nella sequenza più lunga o alla delezione di nucleotidi nella sequenza più corta, o a una combinazione delle due indel Poiché la sequenza del precursore è ignota, non esiste un metodo per determinare la causa di un gap, che si attribuisce genericamente ad un evento indel (inserzione/delezione) Dato che inserzioni/delezioni multiple di nucleotidi non sono infrequenti, è statisticamente più probabile che la differenza di lunghezza fra le due sequenze sia il risultato di un singolo indel da 3 nucleotidi, piuttosto che di più indel distinti 17

18 Penalità per creazione e lunghezza dei gap 3 La funzione di punteggio deve premiare gli allinea- menti che sono più probabili dal punto di vista evolutivo Assegnando una penalità sulla lunghezza dei gap (che dipende dal numero di caratteri sequenziali mancanti) più bassa della penalità per la creazione di nuovi gap, la funzione di punteggio premia gli allineamenti che presentano gap sequenziali Esempio Esempio: usando una penalità di creazione gap pari2, una penalità per la lunghezza di 1 (per gap) e valori di non/corrispondenza uguali a 0/1, i punteggi per i tre allineamenti sono rispettivamente 3, 1, 1 AATCTATAAATCTATAAATCTATA AAG AT AAA G ATAAA GATA 18

19 Matrici di punteggio 1 Esattamente come la gap penalty può essere suddivisa per premiare gli allineamenti evolutivamente più pro- babili, così anche la penalità per non corrispondenza può essere resa non uniforme, sulla base della sem- plice osservazione che alcune sostituzioni sono più comuni di altre Esempio alanina Esempio: si considerino due sequenze proteiche, una delle quali possiede unalanina in una data posizione valina lisina Una sostituzione con un altro aminoacido piccolo e idrofobico, come la valina, ha un minor impatto sulla proteina risultante, piuttosto che una sostituzione con un residuo grande e carico come, ad esempio, la lisina 19

20 Matrici di punteggio 2 20 Lisina Alanina Valina

21 Matrici di punteggio 3 transizioni transversioni Si premiano moderatamente le corri- spondenze di nucleotidi, si dà una piccola penalità alle transizioni (sostituzione fra purine/pirimidine, A - G / C - T ) e una penali- tà più severa per le transversioni, in cui una purina sostituisce una pirimidina o viceversa 21 ATCG A T C G Intuitivamente, una sostituzione più conservativa, a diffe- renza di una più drastica, può avvenire più frequentemente, perché preserva la funzionalità originale della proteina Dato un punteggio di allineamento per ogni possibile coppia di nucleotidi o residui, la risultante matrice di punteggio è utilizzata per assegnare uno score ad ogni posizione non gap di un allineamentoEsempio

22 Matrici di punteggio 4 22 Si possono considerare diversi criteri nella creazione di una matrice di punteggio per gli allineamenti di se- quenze aminoacidiche Similarità chimicofisica Frequenze di sostituzione osservate fenilalaninatirosinatripto- fano Nelle matrici basate sulla similarità, laccoppiamento di due aminoacidi differenti, che però possiedono en- trambi gruppi funzionali aromatici (aminoacidi idrofobi- ci e caratterizzati da una catena laterale contenente un anello di benzene; sono fenilalanina, tirosina e tripto- fano) potrebbe ricevere un punteggio positivo, mentre laccoppiamento di aminoacidi non polari con amino- acidi carichi potrebbe ricevere una penalità

23 Matrici di punteggio 5 23 Le matrici di punteggio possono essere ricavate in base allidrofobicità, alla presenza di carica, allelet- tronegatività e alla dimensione del residuo In alternativa, si possono utilizzare criteri di similarità del genoma codificante: punteggio assegnato in base al numero minimo di sostituzioni nucleotidiche neces- sarie per convertire un codone da un residuo allaltro Difficoltà di combinare vari punteggi, chimici, fisici e genetici, in una singola matrice significativa

24 Matrici di punteggio 6 24 Il metodo più comune per derivare matrici di punteg- gio è osservare le frequenze effettive di sostituzione dei vari residui aminoacidici in natura Se una sostituzione tra due particolari aminoacidi è osservata frequentemente, le posizioni che vedono i due residui allineati ottengono punteggio favorevole Viceversa, sono penalizzati gli allineamenti tra residui fra i quali, nellevoluzione, non si osserva una sosti- tuzione frequente

25 Matrici PAM 1 PAMPercent Accepted Mutation Le matrici di tipo PAM si basano sul concetto di Percent Accepted Mutation e furono proposte nel 1978 da M. Dayhoff et al., sulla base di uno studio di filogenesi mole- colare compiuto su 71 famiglie di proteine Furono sviluppate esaminando le mutazioni allinterno di superfamiglie di sequenze aminoacidiche strettamente cor- relate e rilevando come le sostituzioni che occorrevano non fossero casuali Si concluse che alcune sostituzioni di aminoacidi avvengono più frequentemente di altre, probabilmente a causa del fatto che tali sostituzioni non alterano significativamente la struttura e la funzione di una proteina Proteine omologhe non devono necessariamente essere costi- tuite dagli stessi aminoacidi in ogni posizione 25

26 Matrici PAM 2 Due proteine distano 1 PAM se si differenziano per 1 aminoacido su 100 e se la mutazione è accepted, cioè non ha portato a perdita di funzionalità In altre parole… due sequenze s 1 ed s 2 distano 1 unità PAM se s 1 può essere trasformata in s 2 con una media di una mutazione puntuale ogni 100 aminoacidi In una sequenza, la stessa posizione può mutare più volte e tornare quindi al carattere originario; dunque due sequenze che distano 1 PAM possono differire di meno dell1% Esempi di questo tipo sono proteine ortologhe (che svolgono la stessa funzione in organismi diversi), ma non mutazioni patologiche che si associano invece a perdita di funzionalità PAM 1 Per generare una matrice PAM 1, si considerano una coppia (più sequenze rappresentative) di proteine molto simili (identità 85%), in cui lallineamento può essere definito senza ambiguità 26

27 Matrici PAM 3 Più in dettaglio… Viene costruito un allineamento fra sequenze con identità molto alta Si calcola la mutabilità relativa m j per ogni aminoacido j (il numero di volte in cui un aminoacido è sostituito da un altro) Per ogni coppia di aminoacidi i e j, si calcola F ij, che rappresenta il numero di volte che laminoacido j è sostituito dallaminoacido i Si divide F ij per i valori di mutabilità relativa, normalizzati per la frequenza di ogni aminoacido logodds Si valuta il logaritmo, per ottenere ogni elemento P ij della matrice PAM 1, detta anche matrice di logodds 27

28 Matrici PAM 4 Esempio 1) Si costruisce un allineamento multiplo di sequenze: ACGCTAFKI GCGCTLFKI GCGCTAFKI ASGCTAFKL ACGCTAFKL ACACTAFKL GCGCTGFKI 28

29 Matrici PAM 5 29 ACGCTAFKI ACACTAFKL G A I L ACGCTAFKL C S ASGCTAFKL GCGCTLFKI A L A G GCGCTAFKI A G GCGCTGFKI Esempio (continua) albero filogenetico 2) Dallallineamento, viene creato un albero filogenetico, che indica lordine in cui potrebbero essere avvenute le varie sostituzioni mostrate dallallineamento

30 Matrici PAM 6 30 Esempio (continua) 3) Per ogni tipo di aminoacido, viene calcolata la frequenza di sostituzione (con un qualsiasi altro aminoacido) Si assume che le sostituzioni siano simmetriche, cioè che avvengano con la stessa probabilità relativamente ad una data coppia di aminoacidi Per esempio, per determinare la frequenza F G,A F A,G, delle sostituzioni fra A e G, si contano tutti i rami A G e G A

31 Matrici PAM 7 31 Esempio (continua) 4) Si calcola la mutabilità relativa m j di ogni aminoacido La mutabilità relativa è il numero di volte in cui un ami- noacido viene sostituito da un qualsiasi altro nellalbero filogenetico Tale numero viene poi normalizzato con il numero totale delle mutazioni che potrebbero avere effetto sul residuo …ovvero, il denominatore della frazione è dato dal numero totale delle sostituzioni nellalbero, moltiplicato per due, moltiplicato per la frequenza del particolare aminoacido, moltiplicato per un fattore di scala pari a 100 Il valore 100 è usato perché la matrice PAM 1 rappresenti la probabilità di sostituzione per 100 residui

32 Matrici PAM 8 32 Esempio (continua) Consideriamo laminoacido A (alanina): vi sono 4 muta- zioni che lo coinvolgono allinterno dellalbero filogenetico Dividiamo questo valore per il doppio del numero totale di mutazioni (6212), moltiplicato per la frequenza relativa del residuo f A ( ), moltiplicato per 100 n A4 ( )0.0209

33 Matrici PAM 9 33 Esempio (continua) 5) Si calcola la probabilità di mutazione M ij, per ogni coppia di aminoacidi M ij n j F ij / j F ij …e quindi M G,A( ) dove il denominatore j F ij rappresenta il numero totale delle sostituzioni che coinvolgono laminoacido A nellalbero filogenetico

34 Matrici PAM Esempio (continua) 6) Infine, ogni M ij viene diviso per la frequenza di occor- renza del residuo i ed il logaritmo del valore risultante costituisce il relativo elemento P ij della matrice PAM Per G, la frequenza di occorrenza f G è pari a Il valore P G,A log ( )1.01 7) Ripetendo il procedimento descritto per ogni coppia di aminoacidi si ottengono tutti i valori extradiagonali della matrice PAM; i valori diagonali P ii si calcolano invece ponendo M ii1 n i ed eseguendo il calcolo effettuato al punto 6)

35 Matrici PAM 11 Le matrici PAM di ordine superiore vengono generate per successive moltiplicazioni della matrice PAM 1, perché la probabilità di due eventi indipendenti è pari al prodotto delle probabilità di ciascun evento singolo Mentre per la matrice PAM 1 è vero che un evento mutazionale corrisponde ad una differenza 1%, que- sto non è vero per le matrici di ordine superiore Infatti, le successive mutazioni hanno una probabilità via via crescente di avvenire in corrispondenza di aminoacidi già mutati Il grado di differenza aumenta con laumentare del nu- mero di mutazioni, ma mentre questultimo può au- mentare allinfinito, la differenza tende asintoticamen- te al 100% 35

36 Matrici PAM 12 La scelta della matrice PAM più indicata, per un particolare allineamento di sequenze, dipende dalla loro lunghezza e dal loro grado di correlazione PAM 2 è calcolata da PAM 1 ipotizzando un altro passo evolutivo PAM n è ottenuta da PAM n1 PAM 100, quindi, rappresenta 100 passi evolutivi, in cia- scuno dei quali si è avuto un 1% di sostituzioni rispetto al passo precedente 36 PAM 1 PAM 100 PAM 250 sequenze vicine filogeneticamente sequenze lontane filogeneticamente

37 Matrici PAM Matrice PAM 250

38 Matrici PAM Nota Ogni elemento P ij della matrice PAM misura quanto la sostituzione dellaminoacido A i con laminoacido A j è più (o meno) probabile del caso Pertanto: P ij 0 più frequente di quanto atteso per caso P ij 0 come il caso P ij 0 meno frequente di quanto atteso per caso

39 Matrici BLOSUM 1 BLOSUMBLOcks amino acid SUBstitution Matrices Le matrici BLOSUM (BLOcks amino acid SUBstitution Matrices) furono introdotte nel 1992 da S. Henikoff e J. G. Henikoff per attribuire un punteggio alle sostitu- zioni tra sequenze aminoacidiche Il loro scopo era quello di sostituirsi alle matrici PAM, facendo uso della maggiore quantità di dati che si era resa disponibile successivamente al lavoro della Dayhoff BLOCKS Le matrici BLOSUM sono basate sulla banca dati BLOCKS, che contiene una collezione di allineamenti multipli di segmenti proteici senza gap clustering Per ottenere la matrice BLOSUM, vengono raggruppati allineamenti senza gap di proteine correlate, utilizzan- do tecniche statistiche di raggruppamento (clustering) 39

40 Matrici BLOSUM 2 Lapproccio via clustering aiuta ad eliminare i problemi statistici che possono verificarsi quando si osserva una frequenza di sostituzione molto bassa per una parti- colare coppia di aminoacidi Ogni blocco di allineamenti contiene sequenze con un numero di aminoacidi identici superiore ad una certa percentuale N Ad esempio, nella costruzione della matrice BLOSUM62 ogni cluster sarà costituito da sequenze che hanno identità superiore al 62% Da ogni blocco è possibile ricavare la frequenza relativa di sostituzione degli aminoacidi, che può essere utilizzata per calcolare una matrice di score 40

41 Matrici BLOSUM 3 Gli elementi B ij della matrice vengono valutati in base alla formula B ij = k log ( M ( A i, A j ) /C ( A i, A j )), k costante –M ( A i, A j ) è la frequenza di sostituzione dellaminoacido A i con laminoacido A j, osservata nei blocchi di proteine omologhe considerate –C ( A i, A j ) è la frequenza di sostituzione attesa, stimata come prodotto delle frequenze degli aminoacidi A j e A j nella totalità dei blocchi di proteine omologhe considerate Anche in questo caso la entry ( i, j ) della matrice è proporzionale alla frequenza di sostituzione dellami- noacido A i con laminoacido A j 41 BLOSUM35BLOSUM62 sequenze vicine filogeneticamente sequenze lontane filogeneticamente

42 Esempio: BLOSUM62 42

43 PAM o BLOSUM 1 I due tipi di matrici partono da presupposti diversi In PAM si assume un modello in cui le sostituzioni ami- noacidiche osservate a grandi distanze evolutive deriva- no esclusivamente dallassommarsi di tante mutazioni indipendenti; i punteggi risultanti esprimono quanto sia più probabile che lappaiamento di una coppia di aminoacidi sia dovuta ad omologia piuttosto che al caso Le matrici BLOSUM non sono invece basate esplicitamen- te su un modello evolutivo delle mutazioni; ciascun blocco è ottenuto dallosservazione diretta di una famiglia di proteine correlate (quindi probabilmente legate evolu- tivamente), ma senza valutare esplicitamente la loro somiglianza 43

44 PAM o BLOSUM 2 Lindice PAM crescente indica score per proteine più distanti tra loro, esprimendo una distanza evolutiva; lindice BLOSUM crescente indica proteine più simili tra loro, esprimendo il valore minimo di conservazione del BLOCK Le PAM tendono a premiare sostituzioni aminoacidiche derivanti da mutazioni di singola base, penalizzando le sostituzioni che implicano cambi di codone più complessi, più che motivi strutturali degli aminoacidi, come fanno invece le BLOSUM 44

45 PAM o BLOSUM 3 Il confronto fra PAM e BLOSUM, ad un livello di sostituzioni paragonabili, indica che i due tipi di matrice producono risultati simili In genere, le matrici BLOSUM sono ritenute più adatte per effettuare ricerche di similarità di sequenza BLOSUM62 BLOSUM62 è la matrice impostata di default nei programmi di ricerca di similarità È importante però sempre scegliere la matrice più adatta in base alla distanza filogenetica tra le sequen- ze da confrontare Per sequenze vicine (organismi vicini), PAM con indice basso o BLOSUM con indice alto Per sequenze distanti, PAM con indice alto e BLOSUM con indice basso 45

46 Programmazione dinamica: Lalgoritmo di Needleman e Wunsch 1 Una volta selezionato un metodo per assegnare un punteggio ad un allineamento, è necessario definire un algoritmo per stabilire il(/i) miglior(/i) allineamento(/i) tra due sequenze La ricerca esaustiva fra tutti i possibili allineamenti è generalmente non praticabile Per due sequenze, lunghe rispettivamente 100 e 95 nucleotidi, vi sono 55 milioni di allineamenti possibili, nel caso di cinque gap inseriti nella sequenza più breve Lapproccio tramite ricerca esaustiva diventa rapida- mente intrattabile programmazione dinamica Uso della programmazione dinamica: si suddivide il problema in più sottoproblemi di dimensione ragionevole, le cui soluzioni vanno ricombinate a costituire la soluzione del problema originale 46

47 Programmazione dinamica: Lalgoritmo di Needleman e Wunsch 2 similarità globali S. B. Needleman e C. D. Wunsch, nel 1970, furono i primi a risolvere il problema con un algoritmo in grado di trovare similarità globali in un tempo proporzionale al prodotto delle lunghezze delle due sequenze La chiave per comprenderne lapproccio consiste nel- losservare come il problema dellallineamento possa essere suddiviso in sottoproblemi 47

48 Programmazione dinamica: Lalgoritmo di Needleman e Wunsch 3 Esempio Esempio: allineare CACGA e CGA, con lipotesi di pena- lizzare uniformemente gap e non corrispondenze Possibili scelte da effettuare relativamente al primo carattere: 1) Posizionare un gap al primo posto nella prima sequenza (controintuitivo, dato che la prima sequenza è più lunga) 2) Posizionare un gap al primo posto nella seconda sequenza 3) Allineare i primi due caratteri Nei primi due casi, il punteggio di allineamento per la prima posizione sarà uguale alla gap penalty Nel terzo caso, il punteggio di allineamento per la prima posizione sarà uguale al punteggio di corrispondenza Il resto del punteggio dipenderà, in entrambi i casi, da come verrà allineata la parte rimanente delle due sequenze 48

49 Programmazione dinamica: Lalgoritmo di Needleman e Wunsch 4 Esempio (continua) Se conoscessimo il punteggio per il miglior allineamento ottenibile tra le parti di sequenza rimanenti, potremmo facilmente calcolare il miglior punteggio complessivo re- lativo ad ognuna delle tre scelte effettuate 49 Prima Posizione Punteggio Sequenze da allineare CCCC 1 ACGA GA C 1 CACGA GA C 1 ACGA CGA

50 Programmazione dinamica: Lalgoritmo di Needleman e Wunsch 5 Esempio (continua) Supponendo di tentare lallineamento a partire dal- lipotesi in cui si allineano i due caratteri iniziali (senza inserimento di gap), resta da calcolare il punteggio di allineamento delle sequenze ACGA e GA In questa operazione, più volte si presenterà la neces- sità di calcolare punteggi relativi a sottosequenze (es. ACGA e GA ) La programmazione dinamica utilizza una tabella in cui si memorizzano i punteggi parziali di allineamento, per evitare di ricalcolarli ogni volta 50

51 Programmazione dinamica: Lalgoritmo di Needleman e Wunsch 6 Esempio Esempio: tabella per lal- lineamento delle sequen- ze ACAGTAG e ACTCG, dove la gap penalty è 1 ed il punteggio di non/corri- spondenza è 0/1 51 ACTCG A 1 C 2 A 3 G 4 T 5 A 6 G 7 Lalgoritmo di programmazione dinamica calcola gli al- lineamenti ottimali fra sequenze riempiendo una tabel- la con i punteggi parziali Gli assi orizzontale e verticale descrivono, rispettivamen- te, le due sequenze da allineare

52 Programmazione dinamica: Lalgoritmo di Needleman e Wunsch 7 52 Lallineamento delle due sequenze equivale a costruire un percorso che va dallangolo in alto a sinistra allangolo in basso a destra della tabella Uno spostamento orizzontale rappresenta un gap nella sequenza verticale e viceversa Uno spostamento lungo la diagonale rappresenta lalli- neamento dei relativi nucleotidi nelle due sequenze La prima riga e la prima colonna della tabella sono inizializzate con i multipli della gap penalty (dato che ogni gap aggiunge una penalità al punteggio totale di allinea- mento)

53 Programmazione dinamica: Lalgoritmo di Needleman e Wunsch 8 53 Come si calcolano gli altri elementi della tabella? Lelemento in posizione (2,2) si calcola sondando le seguenti tre possibilità: 1) Sommando il valore della casella a sinistra, in posizione (2,1), alla gap penalty, il che equivale a considerare un gap nella sequenza verticale 2) Sommando il valore della casella superiore, in posizione (1,2), alla gap penalty, il che equivale a considerare un gap nella sequenza orizzontale 3) Sommando il valore dellelemento diagonale in posizione (1,1) al punteggio di corrispondenza o alla penalità di non corri- spondenza (corrispondenza, in questo caso) per i due nucleo- tidi in esame, il che rappresenta un allineamento Si calcola infine il valore massimo fra quelli ottenuti per le tre opzioni (2,2,1) e lo si assegna allelemento (2,2)

54 Programmazione dinamica: Lalgoritmo di Needleman e Wunsch 9 54 Si può quindi procedere al riempimento dellintera seconda riga, per poi passare alla riga successiva, fino a completare la tabella ACTCG A C A G T A G Esempio N(3,5) max {(11),(21),(11)} max {0,3,0)} 0

55 Programmazione dinamica: Lalgoritmo di Needleman e Wunsch Completata la tabella, il valore contenuto nellangolo in basso a destra rappresenta il punteggio per lallinea- mento ottimo tra le due sequenze (2, nel caso del- lesempio) Nota Nota: Il punteggio è stato determinato senza dover assegnare un punteggio in modo esaustivo a tutti i possibili allineamenti tra le due sequenze Con la tabella dei punteggi parziali è possibile rico- struire gli allineamenti ottimali (in generale più di uno) tra le due sequenze Tracciare un percorso dalla posizione più in basso a destra a quella più in alto a sinistra

56 Programmazione dinamica: Lalgoritmo di Needleman e Wunsch Per il valore N(7,5) esiste di nuovo una sola possibilità, che porta, per allineamento, allelemento N(6,4)1 (con penalità di non corrispon- denza fra i due nucleotidi) Il procedimento deve essere reiterato finché tutti i possi- bili percorsi vengano comple- tati fino alla posizione (1,1) ACTCG A C A G T A G Esempio Il valore N(8,6)2 potrebbe essere stato ottenuto seguendo tre diversi percorsi, ma lunico che può produrre il valore 2 è quello che procede per allineamento provenendo da N(7,5)1

57 Programmazione dinamica: Lalgoritmo di Needleman e Wunsch Per convertire un percorso in un allineamento occorre percorrere a ritroso ogni cammino da ( n1, m1) a (1,1), se n ed m rappresentano le lunghezze delle due sequenze da allineare, ricordando che: un movimento verticale rappresenta un gap nella sequenza lungo lasse orizzontale un movimento orizzontale rappresenta un gap nella sequenza lungo lasse verticale un movimento diagonale rappresenta un allineamento dei nucleotidi delle due sequenze nella posizione corrente

58 Esempio G G CG AG TCG TAG Programmazione dinamica: Lalgoritmo di Needleman e Wunsch ACTCG A C A G T A G TCG GTAG TCG AGTAG C TCG CAGTAG AC TCG ACAGTAG Nota Nota: Seguendo tutti i percorsi ( n1, m1)(1,1) nella tabella dei punteggi parziali, si possono ricostruire tutti i possibili allineamenti ottimali fra le due sequenze

59 Lalgoritmo di Needleman e Wunsch Esempio 1 59 CGA C A C G A Calcolare lallineamento fra le sequenze CACGA e CGA N(5,2) max {(41),(11),(30)} max {5,2,3)} 2 N(5,3) max {(21),(01),(11)} max {3,1,0)} 0 N(5,4) max {(01),(11),(00)} max {1,0,0)} 0 N(6,2) max {(51),(21),(40)} max {6,3,4)} 3 N(6,3) max {(31),(01),(20)} max {4,1,2)} 1 N(6,4) max {(11),(01),(01)} max {2,1,1)} 1 N(2,2) max {(11),(11),(01)} max {2,2,1)} 1 N(2,3) max {(11),(21),(10)} max {0,3,1)} 0 N(2,4) max {(01),(31),(20)} max {1,4,2)} 1 N(3,2) max {(21),(11),(10)} max {3,0,1)} 0 N(3,3) max {(01),(01),(10)} max {1,1,1)} 1 N(3,4) max {(11),(11),(01)} max {0,2,1)} 1 N(4,2) max {(31),(01),(21)} max {4,1,1)} 1 N(4,3) max {(11),(11),(00)} max {2,0,0)} 0 N(4,4) max {(01),(11),(10)} max {1,0,1)} 1

60 Lalgoritmo di Needleman e Wunsch Esempio 2 60 CGA C A C G A Calcolare lallineamento fra le sequenze CACGA e CGA Due allineamenti ottimi con score 1 CGA CGACACGA C GA CACGA Due percorsi possibili Due percorsi possibili

61 Allineamenti globali e locali 1 61 Allineamento globale Allineamento globale: si tenta di allineare il numero massi- mo di caratteri fra le due sequenze; candidate ideali sono le sequenze di lunghezza simile Allineamento locale Allineamento locale: si tenta di allineare pezzi di sequenze con alto grado di similitudine; lallineamento termina quando termina lisola di accoppiamento; candidate ideali sono sequenze con lunghezze significativamente diverse, che presentano regioni fortemente conservate

62 Allineamenti globali e locali 2 62 allineamento globale Lalgoritmo di Needleman e Wunsch esegue lallineamento globale fra sequenze, cioè le confronta nella loro interezza La gap penalty è fissata, senza pesare la posizione dei gap (collocati allinterno o alle estremità delle sequenze) Non sempre è il modo migliore per effettuare lallineamento Esempio pattern matching Esempio: supponiamo di voler cercare unoccorrenza della sequenza breve ACGT allinterno della sequenza più lunga AAACACGTGTCT (operazione nota come pattern matching) Dei diversi allineamenti possibili, lallineamento di interesse è: AAACACGTGTCT ACG T Quando si cerca il miglior allineamento tra una sequenza corta ed un intero genoma (per isolare un gene, ad esempio) occorre evitare di penalizzare i gap che appaiono in una o in entrambe le estremità di una sequenza

63 Allineamenti globali e locali 3 63 I gap terminali sono di solito il risultato di unacquisizione di dati incompleta e non hanno significato biologico è opportuno trattarli diversamente dai gap interni allineamento semiglobale Come occorre modificare lalgoritmo di programmazione dinamica per cablare questo nuovo comportamento? Con lalgoritmo di Needleman e Wunsch, per le sequenze ACTCG e ACAGTAG, muovendosi prima verticalmente verso la riga inferiore della tabella e quindi orizzontalmente sullul- tima riga fino a raggiungerne lultimo elemento, si ottiene ACTCG ACTCG ACAGTAG ACAGTAG

64 Allineamenti globali e locali 4 64 Infatti, dallangolo in alto a sinistra della tabella, ogni movimento verso il basso aggiunge un ulteriore gap nellal- lineamento allinizio della prima sequenza… …e, poiché ogni gap aggiunge una gap penalty al punteggio totale di allineamento, la prima colonna è stata inizializzata con i multipli della gap penalty Viceversa, se si vuole consentire la presenza di gap iniziali nella prima sequenza senza assegnare penalità Occorre inizializzare la prima colonna della tabella con tutti zero Ugualmente, inizializzando la prima riga della tabella con tutti zero, si consentono gap iniziali nella seconda sequenza senza assegnare penalità

65 Allineamenti globali e locali 5 65 Per ammettere gap alla fine di una sequenza senza asse- gnare penalità serve interpretare diversamente il significato di alcuni spostamenti allinterno della tabella Esempio Esempio: supponiamo di avere il seguente allineamentoACACTGATCG ACACTG ACACTG Utilizzandolo per costruire un percorso nella tabella dei punteg- gi parziali, dopo aver allineato i primi sei nucleotidi, si sarebbe raggiunta la riga inferiore Per raggiungere langolo inferiore destro si dovrebbero esegui- re quattro spostamenti orizzontali Consentire movimenti orizzontali nellultima riga della tabella senza assegnare gap penalty Ugualmente, movimenti verticali sullultima colonna non pena- lizzati

66 Allineamenti globali e locali 6 66 ACACTGATCG A C A C T G

67 Allineamenti globali e locali 7 67 Riassumendo: Inizializzando la prima riga e la prima colonna della tabella dei punteggi parziali con il valore zero… …e permettendo movimenti non penalizzati orizzontali e verticali, rispettivamente, nellultima riga e nellultima colonna della tabella Si esegue un allineamento semiglobale Sfortunatamente, talvolta, nemmeno gli allineamenti semiglobali offrono la flessibilità necessaria per affrontare tutti i problemi connessi allallineamento di sequenze

68 Lalgoritmo di Smith e Waterman 1 68 Nel 1981, T. F. Smith e M. S. Waterman svilupparono un nuovo algoritmo in grado di individuare anche similarità locali Esempio Esempio: supponiamo di avere una lunga sequenza di DNA e di voler isolare ogni sottosequenza simile ad ogni parte del genoma del lievito Un allineamento semiglobale non è sufficiente perché verrà comunque penalizzato in ogni posizione di non corrispondenza Anche se esistesse una sottosequenza interessante, perché parzialmente coincidente con il genoma del lie- vito, tutti i nucleotidi non corrispondenti concorrereb- bero a generare un punteggio di allineamento insoddi- sfacente Allineamento locale

69 Lalgoritmo di Smith e Waterman 2 69 Esempio Esempio: Si considerino le due sequenze AACCTATAGCT e GCGATATA Utilizzando lalgoritmo di allineamento semiglobale con gap penalty pari a 1 e punteggi di non/corrispondenza uguali a1/1, si ottiene lallineamento: AAC CTATAGCT GCAATATA piuttosto scadente dato che quattro delle prime cinque posizioni sono non corrispondenze o gap, così come le ultime tre posizioni (2) Tuttavia, si rileva una regione di corrispondenza al centro delle due sequenze: la sottosequenza TATA Modificare lalgoritmo per identificare corrispondenze fra sottosequenze, ignorando non corrispondenze e gap prima e dopo la regione di corrispondenza

70 Lalgoritmo di Smith e Waterman 3 70 Per lallineamento locale: Inizializzare a zero prima riga e prima colonna (come nellallineamento semiglobale) Considerare penalità per non corrispondenza pari a 1 Inserire uno zero nella tabella laddove tutti gli altri metodi restituiscono un punteggio negativo Dopo aver costruito la tabella: Trovare il punteggio parziale massimo Procedere allindietro, per ricostruire lallineamento, fino a quando non si raggiunge uno zero Lallineamento locale risultante rappresenterà la migliore sottosequenza di corrispondenza tra le due sequenze date

71 Lalgoritmo di Smith e Waterman 4 71 AACCTATAGCT G C G A T A T A quando si lavora con sequenze lunghe diver- se migliaia, o milioni, di nucleotidi, i metodi di allineamento locale possono identificare sottosequenze corrispondenti, impossibili da trovare per mezzo di allineamenti globali o semiglobali Concludendo… quando si lavora con sequenze lunghe diver- se migliaia, o milioni, di nucleotidi, i metodi di allineamento locale possono identificare sottosequenze corrispondenti, impossibili da trovare per mezzo di allineamenti globali o semiglobali

72 I dati biologici I dati biologici : Margareth Dayhoff compila un atlante di proteine omologhe, studiando le relazioni tra le sequenze primarie; viene reso pubblico in versione elettronica nel 1970 nella banca dati NBRF (National Biomedical Research Foundation) Inizio anni 70: nasce la tecnologia del DNA ricombinante, che permette di manipolare le sequenze nucleotidiche e di com- prendere la struttura, la funzione e lorganizzazione del DNA Fine anni 70: pubblicazione dei primi dati genomici, con le prime sequenze nucleotidiche codificanti liberamente accessibili attra- verso la rete (ristretta a poche università) 1980 [Kurt Stueber]: nasce una banca dati nel Laboratorio Europeo di Biologia Molecolare (EMBL) ad Heidelberg 1982 [Walter Goad]: nasce una banca dati simile negli USA, che darà vita alla GenBank 1986: nel National Institute of Genetics a Mishima (Giappone) nasce un mirror della GeneBank, la DDBJ 2001: Il Consorzio Pubblico Internazionale e la Celera Genomics forniscono i dati del genoma umano completo

73 I database biologici 1 73 Lo sviluppo delle biotecnologie molecolari ha portato alla produzione di enormi quantità di dati biologici I database sono progettati come contenitori, costruiti per immagazzinare dati in modo efficiente e razionale, per ren- derli facilmente accessibili agli utenti Il fine ultimo è quello di recuperare ed analizzare i dati mediante gli appositi strumenti di cui ciascun database dispone Numerose sono oggi le banche dati biologiche esistenti: Banche dati primarie Banche dati primarie (sequenze nucleotidiche e aminoacidiche) Banche dati specializzate Banche dati specializzate (domini e motivi proteici, strutture proteiche, geni, trascrittoma, profili di espressione, pathway metaboliche, etc.)

74 I database biologici 2 74 Le banche dati biologiche raccolgono informazioni e dati derivati da: Letteratura in vitro in vivo Analisi di laboratorio (in vitro e in vivo) in silico Analisi bioinformatiche (in silico) flatfile Molte banche dati biologiche sono fruibili da parte della comunità scientifica in formato flatfile, cioè file se- quenziali nei quali ogni record di informazione è ripor- tato su una o più linee consecutive identificate da un particolare codice Tali file sono dunque semplici file di testo strutturati in modo tale da essere analizzabili mediante opportuni tool in grado di estrarre le informazioni di interesse HTMLXML Alternativa: dati in formato HTML o XML, di facile consultazione via browser

75 I database biologici 3 75 entry Ogni banca dati è caratterizzata da un elemento bio- logico centrale che costituisce loggetto intorno al quale viene costruita la entry principale del database Ciascuna entry raccoglie quindi le informazioni che caratterizzano lelemento centrale (attributi) Una entry di una banca dati di sequenze nucleotidiche potrebbe contenere, oltre alla sequenza di una mole- cola di DNA, il nome dellorganismo cui la sequenza appartiene la lista degli articoli scientifici che riportano dati su quella sequenza le caratteristiche funzionali (cioè se si tratta di un gene o di una sequenza non codificante) altra informazione ritenuta di interesse

76 I database biologici 4 76 Le banche dati mettono a disposizione strumenti bioin- formatici per lelaborazione dei dati in esse contenuti, tra i quali: ENTREZ SRSDBGET Sistemi di interrogazione (ENTREZ, associato a GenBank, SRS, per EMBL, DBGET, per DDBJ) BLASTFASTA Tool per lo screening (BLAST, FASTA) ClustalW AntiClustalTCoffeeProbCons Tool per lallineamento multiplo di sequenze (ClustalW, AntiClustal, TCoffee, ProbCons) GenScanPromoser Tool per lidentificazione di esoni ed elementi regolatori che caratterizzano un gene (GenScan, Promoser) …

77 Banche dati primarie 1 77 primarie Le banche dati primarie contengono sequenze nucleo- tidiche (DNA e RNA) o aminoacidiche (proteine) Le principali banche dati primarie sono: GenBankNCBI National Center for Biotechnology Information GenBank (NCBI National Center for Biotechnology Information, fondato nel 1982 a Bethesda, USA, ); il database standard contie- ne basi in sequenze EMBL datalibrary EMBL European Molecular Biology Laboratory EMBL datalibrary (costituita nel 1980 allEMBL European Molecular Biology Laboratory, di Heidelberg, Germania, DDBJDNA DataBase of Japan National Institute of Genetics DDBJ (DNA DataBase of Japan, nato nel 1986 dal National Institute of Genetics a Mishima in Giappone,

78 Banche dati primarie 2 78 Fra le tre banche dati biologiche è stato stipulato un accordo internazionale affinché il contenuto dei dati di sequenza venga mantenuto consistente (gli aggiorna- menti quotidiani apportati in ciascuna banca vengono automaticamente trasmessi alle altre) I tre istituti cooperano, inoltre, al fine di condividere e rendere pubblicamente disponibili tutti i dati di cui dispongono e che differiscono tra loro solamente per il formato con cui vengono rilasciati

79 NCBI 1 79

80 NCBI 2 80 National Institute of Healt È un database di sequenze genetiche di proprietà del National Institute of Healt statunitense, una collezione annotata di tutte le sequenze di DNA disponibili pub- blicamente ENTREZ Accesso ai dati attraverso ENTREZ, sistema di inter- rogazione delle diverse basi dati gestite dallNCBI, che costituisce quindi un hub completo per la ricerca di informazioni PubMed OMIN Disponibile via web per la ricerca e lestrazione dei dati da banche dati di sequenze nucleotidiche, proteiche, dalla banca dati bibliografica PubMed, dalla banca dati delle malattie mendeliane OMIN, e da ogni banca dati sviluppata dallNCBI Sistema chiuso: non è possibile ottenere il software che gestisce il sistema

81 NCBI 3 81 NCBI Principali database in NCBI: Gene Gene: contiene dati inerenti i geni di tutte le specie caratterizzate, quali la struttura genica ed il contesto genomico, le ontologie, le interazioni con altri geni ed i link alle sequenze ed alle relative pubblicazioni scien- tifiche Nucleotide Nucleotide: contiene le sequenze nucleotidiche di tutte le specie caratterizzate, siano esse codificanti o meno ProteinNucleotide Protein: ha la stessa struttura di Nucleotide, ma è relativo alle sequenze aminoacidiche PubMed PubMed Central PubMed: è il database delle pubblicazioni scientifiche di carattere biologico e biomedico; per ogni articolo è disponibile labstract; PubMed Central contiene articoli completi scaricabili gratuitamente

82 NCBI 4 82 Entrez Entrez offre anche la possibilità di effettuare ricerche incrociate per stabilire un collegamento diretto tra i vari database di NCBI (sequenzastrutturamappa geneticaletteratura)

83 Banche dati proteiche 1 83 Le banche di sequenze proteiche possono essere ottenute in seguito a: Determinazione diretta della sequenza proteica Traduzione di sequenze nucleotidiche per le quali sia stata individuata o predetta la funzione del gene codificante la proteina Studi di espressione genica Cristallografia e determinazione delle strutture secondarie e terziarie

84 Banche dati proteiche 2 84 SWISS-PROT SWISS-PROT (Protein knowledgebase, 1986): banca dati di riferimento sviluppata a Ginevra; contiene informazioni accuratamente annotate (spesso a mano) TrEMBL TrEMBL (Translated EMBL): risultato della traduzione automatica in aminoacidi di tutte le sequenze annotate nella banca dati EMBL come codificanti proteine; supplemento a SWISS-PROT PIR PIR (Protein Information Resource): soprattutto indi- rizzato a definire gli standard di annotazione UNIPROT Insieme hanno formato il consorzio UNIPROT, repo- sitory centralizzato di tutte le sequenze proteiche

85 Banche dati specializzate 85 specializzate Le banche dati specializzate si sono sviluppate succes- sivamente Raccolgono insiemi di dati omogenei dal punto di vista tassonomico e/o funzionale, disponibili nelle banche dati primarie e/o in letteratura, o derivanti da approcci sperimentali, rivisti e annotati con informazioni di valore aggiunto Esempi Esempi: wwPDB wwPDB (world wide Protein Data Bank), banca dati di riferimento per i dati strutturali 3D di proteine, comprendente le coordinate atomiche determinate attraverso analisi cristal- lografiche ai raggi X, analisi NMR, etc. GDBMGI SGD Database di sequenze genomiche: GDB (uomo), MGI (topo), SGD (lievito) UniGeneLocusLinkdbEST Database di geni e trascritti: UniGene, LocusLink, dbEST, etc.

86 Ricerche in database 1 86 Gli allineamenti di sequenze possono rappresentare un prezioso strumento per confrontare due sequenze note Un uso molto più comune degli allineamenti, tuttavia, consiste nella ricerca allinterno di un database, contenente dati biologici, delle sequenze che sono simili ad una particolare sequenza di interesse sequenza query I risultati della ricerca, che consistono in altre sequen- ze che si allineano bene con (e quindi sono simili a) la sequenza query, possono infatti fornire: unindicazione sul ruolo funzionale della sequenza in esame indizi sulla sua regolazione ed espressione in relazione con sequenze simili in altre specie

87 Ricerche in database 2 87 Esempio Esempio: sequenziamento di una parte del genoma umano che potrebbe costituire un gene non precedentemente iden- tificato GenBank comparazione del gene putativo con le milioni di sequenze depositate a GenBank presso lNCBI Nelleseguire ricerche allinterno di un database biolo- gico, la dimensione stessa del database, e dei singoli dati in esso contenuti, spesso preclude lapproccio ovvio che consiste nellallineare la sequenza query con tutte le altre sequenze, per ottenere i punteggi di allineamento più alti Si utilizzano particolari tecniche di indicizzazione e ricerche guidate da euristiche

88 Ricerche in database 3 88 Molti degli algoritmi usati comunemente non garanti- scono il raggiungimento dellottimo, ma forniscono confidenza statistica sul reperimento della maggior parte delle sequenze che si allineano bene con la sequenza query BLAST Basic Local Alignment Search Tool BLAST (Basic Local Alignment Search Tool) FASTA FastAllFASTNFASTP FASTA (per FastAll, unestensione di FASTN e FASTP che erano dedicati, rispettivamente, alla ricerca di allineamenti in catene nucleotidiche e polipeptidiche) Lefficienza è un prerequisito ed un connotato fondamentale per questi metodi, che sono divenuti un supporto impre- scindibile per la biologia molecolare

89 BLAST e varianti 89 BLAST Uno degli strumenti più conosciuti e più comunemente usati per la ricerca di sequenze in database biologici è BLAST, introdotto da S. Altschul et al. nel 1990 BLAST BLAST esegue la ricerca degli allineamenti locali più lunghi, senza gap, ovvero rileva sottosequenze del database simili a sottosequenze della sequenza query BLAST BLAST può eseguire migliaia di confronti fra sequenze in pochi minuti e, in poco tempo, è possibile confrontare una sequenza query con lintero database per ricercare tutte le sequenze simili ad essa Ne esistono diverse varianti e versioni, per la ricerca di sequenze nucleotidiche e proteiche BLASTP, BLASTN, BLASTX, TBLASTN (Translated BLAST Nucleotide), BLAST 2.0, PSIBLAST

90 BLASTN 90 Ricerca le corrispondenze di sequenze nucleotidiche, usando la semplice matrice di score con penalità uniformi per transizioni e transversioni, per assegnare i punteggi agli allineamenti senza gap ATCG A T C G 444 5

91 BLASTP 1 91 Ricerca le corrispondenze di sequenze proteiche, usando le matrici PAM o BLOSUM per assegnare i pun- teggi agli allineamenti senza gap parole Suddivide la sequenza query in parole o sottosequenze di lunghezza prefissata (4, lunghezza di default) Utilizza una finestra scorrevole, di uguale dimensione della lunghezza della parola, lungo lintera sequenza Esempio Esempio: la query proteica AILVPTV produrrebbe quattro parole diverse AILV, ILVP, LVPT, VPTV Le parole composte principalmente da aminoacidi comu- ni vengono eliminate Le parole rimaste vengono ricercate allinterno delle sequenze del database

92 BLASTP 2 92 Quando si trova una corrispondenza, la corrispondenza viene estesa in entrambe le direzioni, finché il punteggio di allineamento non scende sotto una data soglia Lestensione prevede laggiunta di nuovi residui alla regione di corrispondenza ed il ricalcolo del punteggio in accordo con la matrice di punteggio usata La scelta del valore di soglia è un parametro importante perché determina la probabilità che le sequenze risultanti siano omologhi biologicamente rilevanti della sequenza query Esempio Esempio: Ricerca di AILVPTV AILV MVQGWALYDFLKCRAILVGTVIAML… AILVPTV MVQGWALYDFLKCRAILVGTVIAML…

93 BLAST e varianti (cont.) 93 Numerosi algoritmi di allineamento di sequenza e di ricerca in database sono stati sviluppati per tipi specifici di dati BLASTN, BLASTX: BLASTN, BLASTX: consentono rispettivamente la ricerca allinterno di database di sequenze di nucleotidi e la traduzione dalla sequenza nucleotidica in sequenza proteica prima della ricerca TBLASTN: TBLASTN: confronta la proteina query con il database di sequenze nucleotidiche; per effettuare questo tipo di confronto le sequenze nucleotidiche nel database vengono dinamica- mente tradotte in sequenze aminoacidiche e successivamente confrontate con la proteina query BLAST 2.0 BLAST 2.0: inserisce gap per ottimizzare lallineamento PSIBLAST matrici di punteggio PSIBLAST: riassume i risultati della ricerca di sequenze in matrici di punteggio dipendenti dalla posizione, utili per individuare omologhi remoti e per la modellizzazione e la predizione della struttura delle proteine

94 FASTA e varianti 1 94 FASTA Gli algoritmi FASTA costituiscono unaltra famiglia di strumenti di allineamento e di ricerca Eseguono allineamenti locali con gap tra sequenze dello stesso tipo Sono più sensibili degli algoritmi BLASTlike, special- mente per sequenze query ripetitive Sono computazionalmente più onerosi Anche in questo caso la sequenza viene suddivisa in parole di lunghezza 46 per le sequenze genomiche di lunghezza 12 per le sequenze polipeptidiche Successivamente viene costruita una tabella per la sequenza query che mostra le posizioni di ogni parola allinterno della sequenza

95 FASTA e varianti 2 95 Esempio Si consideri la sequenza aminoacidica FAMLGFIKYLPGCM che, per parole di lunghezza 1, produrrebbe la seguente tabella: fenilalanina La colonna della fenilalanina ( F ) contiene i valori 1 e 6, che corrispondono alle posizioni di F nella sequenza query ACDEFGHIKLMNPQRSTVWY

96 FASTA e varianti 3 96 Esempio (continua) Per confrontare la sequenza query con la sequenza bersaglio TGFIKYLPGACT, si costruisce, relativamente a questultima, una seconda tabella che mette in relazione le posizioni rispettive degli aminoacidi glicina Si consideri la posizione 2, relativa al residuo di glicina ( G ) Nella sequenza query, la G è presente alle posizioni 5 e 12 Le distanze tra 5 e 12 e la posizione della prima G nella sequenza bersaglio (2) producono i due valori 3 e 10 Analogamente in corrispondenza della seconda G, in posi- zione 9, si ottengono i valori (59)4 e (129) TGFIKYLPGACT

97 FASTA e varianti 4 97 Esempio (continua) treonina Agli aminoacidi che non si trovano nella sequenza query, come la treonina ( T ), non sono assegnati valori (le colonne relative nella tabella bersaglio possono essere eliminate) Lelevato numero di elementi con distanza 3 suggerisce che spostando di tre posizioni verso sinistra la sequenza query (o di tre posizioni verso destra la sequenza bersaglio) si può ottenere un allineamento ragionevole FAMLGFIKYLPGCM TGFIKYLPGACT

98 FASTA e varianti 5 98 Confrontando le tabelle compensate delle due sequen- ze, si possono trovare rapidamente le aree di identità Tali aree vengono quindi unite a formare sequenze più lunghe, che vengono allineate usando lalgoritmo di Smith e Waterman FASTA Tuttavia, poiché lallineamento è inizialmente vincolato ad una regione nota di due sequenze simili, FASTA è molto più veloce rispetto alleseguire con la program- mazione dinamica un allineamento completo tra la sequenza query e tutti i possibili bersagli

99 Punteggi di allineamento 1 99 Anche se la ricerca in un database produrrà sempre un risultato, senza informazioni aggiuntive, le sequenze trovate non potranno essere sempre considerate cor- relate con la sequenza query Il punteggio di allineamento è il principale indicatore di quanto i risultati della ricerca siano simili alla sequenza query I punteggi di allineamento variano in base allo stru- mento di ricerca utilizzato Non rappresentano, da soli, un indicatore sufficiente a garantire la correlazione fra sequenze

100 Punteggi di allineamento Se il risultato di una ricerca ha punteggio di allinea- mento S è lecito chiedersi: Dato un insieme di sequenze non correlate alla sequenza query, qual è la probabilità di trovare casualmente una corrispondenza con punteggio di allineamento S ? Per affrontare il problema, i motori di ricerca in data- base biologici forniscono ulteriori punteggi, noti come E (o valore E ) o P, per ogni risultato Sono diversi: E è proporzionale al numero atteso di sequenze casuali con punteggio S P è la probabilità che esistano una o più sequenze casuali con punteggio S Sono strettamente correlati e spesso hanno valori simili

101 Punteggi di allineamento Valori piccoli per E e P indicano come poco probabile che il risultato di una ricerca sia stato ottenuto casualmente Valori di E 103 sono considerati indicativi di risultati statisticamente significativi Spesso, gli algoritmi di allineamento forniscono risul- tati con E 1050 Forte probabilità di relazione evolutiva fra la sequenza query ed i risultati della ricerca

102 Allineamenti multipli Gli allineamenti multipli sono utili quando si osservano un certo numero di sequenze simili, per esempio per determinarne le frequenze di sostituzione Lallineamento multiplo riassume la storia evolutiva di una famiglia di proteine Quindi, si possono ricavare informazioni su: La conservazione dei residui dipendente dalla funzione La conservazione dei residui dipendente dalla struttura Esempi di informazioni funzionali/strutturali che si ottengono da un allineamento multiplo: Negli enzimi, le regioni maggiormente conservate corrispondono probabilmente al sito attivo Un pattern conservato di residui idrofobici alternati a residui idrofilici suggerisce un foglietto beta Un pattern conservato di residui idrofobici ogni 4 residui suggerisce lesistenza di un alfa elica Gli allineamenti multipli sono estremamente utili anche per la creazione delle matrici di punteggio, PAM e BLOSUM

103 Allineamenti multipli Significato evolutivo dellallineamento multiplo Esempio di allineamento multiplo di sequenze

104 Allineamenti multipli Le tecniche più semplici per eseguire allineamenti multipli sono estensioni logiche dei metodi di program- mazione dinamica (tipo Needleman e Wunsch) Per allineare n sequenze occorre una griglia ndimen- sionale La complessità computazionale dei metodi di allinea- mento multiplo cresce rapidamente con il numero di sequenze da allineare Anche con notevole potenza di calcolo e parallelismo massiccio, gli allineamenti multipli rappresentano un problema intrattabile oltre le venti sequenze di media lunghezza e complessità Metodi di allineamento guidati da euristicheClustal

105 Allineamenti multipli Clustal allineamento progressivo Lalgoritmo Clustal, proposto da Higgins e Sharp nel 1988, attua una tecnica di allineamento progressivo, allineando prima sequenze strettamente correlate, per poi aggiungere sequenze a divergenza crescente Si costruisce un albero filogenetico per determinare il grado di similarità tra le sequenze da allineare Usando lalbero come guida, le sequenze strettamente correlate vengono allineate a coppie tramite program- mazione dinamica, fino a raggiungere lallineamento multiplo completo

106 Allineamenti multipli La selezione di unopportuna matrice di punteggio è fondamentale nel caso di allineamenti multipli Lutilizzo di una matrice di punteggio non appropriata genererà un allineamento scadente Uso di conoscenza a priori sul grado di similarità delle sequenze da allineare ClustalW In ClustalW, le sequenze sono pesate in base alla loro divergenza dalla coppia di sequenze più strettamente correlate e le gap penalty (per apertura ed estensione) e la scelta della matrice di punteggio si basano sul peso di ciascuna sequenza Altra strategia per allineamenti multipli: non penaliz- zare gap allineati

107 Allineamenti multipli Gli allineamenti multipli, così come quelli a coppie, sono basati esclusivamente sulla similarità nucleotidica o aminoacidica fra sequenze La similarità tra sequenze è un importante indicatore di analogie funzionali, ma spesso i biologi molecolari dispongono di ulteriori conoscenze sulla struttura o funzione di una particolare proteina o gene Informazioni su struttura secondaria, presenza di regioni di loop superficiali, localizzazione di siti attivi, possono essere utilizzate per aggiustare a mano gli allineamenti multipli, allo scopo di produrre risultati biologicamente significativi

108 Concludendo… Un allineamento fra due o più sequenze genetiche o polipeptidiche rappresenta unipotesi sul percorso at- traverso cui due sequenze omologhe si sono evolute divergendo dallantenato comune Mentre il percorso evolutivo non può essere dedotto con certezza, gli algoritmi di allineamento possono essere usati per identificare similarità che hanno bassa probabilità di verificarsi per caso La scelta della funzione di punteggio è cruciale per la qualità del risultato di allineamento Uso di matrici di punteggio, quali PAM e BLOSUM

109 Concludendo… Lalgoritmo di programmazione dinamica di Needleman e Wunsch, per lallineamento globale di sequenze, e la tecnica di Smith e Waterman, per lallineamento locale, costituiscono le basi fondanti su cui sono stati costruiti numerosi algoritmi di ricerca in databaseBLASTFASTAClustal Questi algoritmi usano tecniche di indicizzazione, euristiche e metodi di comparazione veloce per ottenere un confronto rapido fra una sequenza query ed un intero database di sequenze


Scaricare ppt "Ricerche in database e allineamenti a coppie 1 È un errore madornale elaborare teorie prima di avere i dati. Senza accorgersene uno incomincia a distorcere."

Presentazioni simili


Annunci Google