Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoAmedeo Corsini Modificato 8 anni fa
1
Programmi per l’ALLINEAMENTO DELLE SEQUENZE La creazione di programmi per l’allineamento delle sequenze richiede la definizione di: *** Un criterio oggettivo e preciso per misurare la similarità *** *** Un algoritmo che utilizzando il criterio di similarità stabilito produca il miglio allineamento possibile *** Per algoritmo si intende un “metodo di calcolo descrivibile con un numero definito di regole che conduce ad un risultato dopo un numero finito di operazioni” Un algoritmo tradotto in un opportuno linguaggio informatico costituisce un programma.
2
Ad esempio il criterio di similarità più banale che si possa definire è l’individuazione degli amminoacidi identici. Il migliore allineamento (quello che produce il maggior numero di amminoacidi identici) potrà essere trovato con un algoritmo che faccia scorrere due sequenze una sull’altra, lettera per lettera ed ogni volta confronta tutte le coppie di lettere incolonnate cercando quelle identiche. Ad ogni coppia identica potremmo attribuire 1 punto e 0 punti a ciascuna coppia di residui differenti Trovare il miglior allineamento tra: 1)AAKKQW 2)AAKQW
3
AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW 12 34 56 78 910 Allineamento #5: 4 punti; #6: 3 punti; #7: 1 punto.
4
Il nostro semplice algoritmo deve effettuare un numero di operazioni (numero di confronti fra coppie di lettere incolonnate) pari al prodotto delle lunghezze delle due sequenze. (nel nostro esempio 5 X 6 = 30 confronti ) Questa condizione viene indicata con l’espressione matematica O(nm) (Ordine di n per m) dove n e m sono le lunghezze delle due sequenze. Se le lunghezze sono uguali: O(n 2 ) (Ordine di n quadro)
5
Quanto più grandi sono n e m e quindi il numero di operazioni da eseguire tanto più lunghi saranno i tempi di calcolo del programma! Alcuni problemi di bioinformatica richiedono algoritmi più complessi come ad esempio O(n 3 ) o O(k n ) che spesso si traducono in tempi di calcolo così grandi da essere del tutto inutili in pratica. Gli algoritmi utili devono produrre risultati affidabili ma in tempi ragionevoli! Molti programmi sono soluzioni di compromesso fra le due esigenze.
6
Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE R K H Q E D N W T S F Y M I L A V C G P R 100 75 50 40 30 20 10 10 5 5 1 1 -1 -2 -2 –5 -15 -20 –30 -50 Possiamo ad esempio creare una scala di punteggi di sostituzione dell’amminoacido arginina R, con se stesso e con tutti gli altri amminoacidi ordinati per somiglianza di proprietà chimico fisiche. Somiglianza decrescente con l’arginina punteggi (score) [ARBITRARI!]
7
Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE E’ necessario stabilire un punteggio (score) per ciascuna delle possibili sostituzioni amminoacidiche. Poiché gli amminoacidi sono 20 creeremo una matrice 20 x 20 (400 caselle) 20 sostituzioni identiche (cioè R con R, A con A ecc.) + 2 set equivaleni di 190 sostituzioni non identiche (cioè R con A, R con K ecc.)
8
ACDEFGHIKLMNPQRSTVWY AxA CxyC DD EE FyF GG HH II KK LL MM NN PP QQ RR SS TT VV WW YY ACDEFGHIKLMNPQRSTVWY
9
Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE Esistono matrici di score basati sulla: *** somiglianza di proprietà chimico fisiche *** *** probabilità di sostituzione di un codone con un altro *** *** probabilità di sostituzione di un aa con altri aa all’interno di allineamenti di famiglie di proteine omologhe (matrici PAM e BLOSUM) ***
11
per misurare la probabilità relativa di una particolare sostituzione, per esempio Asp => Glu, possiamo contare quanti Asp sono diventati Glu in allineamenti di sequenze omologhe. E’ comunque necessario evitare di considerare allineamenti in cui possano essere avvenuti sostituzioni multiple in determinate posizioni. Pertanto questi calcoli devono venire effettuati su coppie di sequenze MOLTO SIMILI tra loro, in modo da poter assumere che nessuna posizione è mutata più di una volta la divergenza di due sequenze si può misurare in PAM: 1 PAM = 1 Percent Accepted Mutation Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE PAM
12
Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE PAM PAM = percent accepted mutation Unità di misura dell’accumulo di mutazioni quindi della distanza evolutiva 2 sequenze hanno distanza evolutiva di 1 PAM se hanno accumulato l’1% di mutazioni Attenzione!!! Con l’accumularsi delle mutazioni le nuove mutazioni colpiscono siti già mutati pertanto per valori elevati di PAM la % di differenze amminoacidiche in due sequenze è inferiore al valore PAM Ad esempio PAM 100 non significa 100% di differenze aa ma 100 passi evolutivi ciascuno dei quali produce l’1% di mutazioni ed equivale a circa il 60% di differenze amminoacidiche (40% identità). PAM 250 equivale a circa l’ 80% di differenze amminoacidiche (20% identità).
13
Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE PAM Relazione tra la distanza evolutiva PAM e le differenze tra due sequenze proteiche 0 50 100 150 200 250 80 60 40 20 PAM % di aa differenti
14
Calcolo degli score PAM La frequenza delle sostituzioni amminoacidiche viene calcolata in coppie di sequenze poco divergenti (1 PAM). Frequenze di sostituzioni amminoacidiche per sequenze più divergenti vengono calcolate a partire da queste, moltiplicando le matrici di sostituzione 1 PAM per se stesse, fino ad ottenere matrici PAM 250, corrispondenti a identità di sequenza del 20% PAM 0 30 80 110 200 250 %id 100 75 60 50 25 20
15
C 12 G -3 5 P -3 -1 6 S 0 1 1 1 A -2 1 1 1 2 T -2 0 0 1 1 3 D -5 1 -1 0 0 0 4 E -5 0 -1 0 0 0 3 4 N -4 0 -1 1 0 0 2 1 2 Q -5 -1 0 -1 0 -1 2 2 1 4 H -3 -2 0 -1 -1 -1 1 1 2 3 6 K -5 -2 -1 0 -1 0 0 0 1 1 0 5 R -4 -3 0 0 -2 -1 -1 -1 0 1 2 3 6 V -2 -1 -1 -1 0 0 -2 -2 -2 -2 -2 -2 -2 4 M -5 -3 -2 -2 -1 -1 -3 -2 0 -1 -2 0 0 2 6 I -2 -3 -2 -1 -1 0 -2 -2 -2 -2 -2 -2 -2 4 2 5 L -6 -4 -3 -3 -2 -2 -4 -3 -3 -2 -2 -3 -3 2 4 2 6 F -4 -5 -5 -3 -4 -3 -6 -5 -4 -5 -2 -5 -4 -1 0 1 2 9 Y 0 -5 -5 -3 -3 -3 -4 -4 -2 -4 0 -4 -5 -2 -2 -1 -1 7 10 W -8 -7 -6 -2 -6 -5 -7 -7 -4 -5 -3 -3 2 -6 -4 -5 -2 0 0 17 C G P S A T D E N Q H K R V M I L F Y W PAM250
16
A C D E F G H I K L R -3 -4 -3 -3 -5 -4 1 -2 2 –4 PAM120 R -2 -4 -1 -1 -4 -3 2 -2 3 –3 PAM250 M N P Q R S T V W Y R -1 -1 -1 1 6 -1 -2 -3 1 –5 PAM120 R 0 0 0 1 6 0 -1 -2 2 –4 PAM250 nel confronto tra la PAM120 e la PAM250, si vede come in generale diminuiscano le penalizzazioni associate a sostituzioni di qualsiasi tipo
17
Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE BLOSUM Le matrici BLOSUM derivano dalla banca dati BLOCKS che contiene allineamenti multipli di sequenze proteiche prive di gap. Gli allineamenti vengono classificati in base alla minima percentuale di identità delle proteine nell’allineamento (P). Gli score Blosum vengono ricavati dalle frequenze di sostituzione delle varie coppie di aa all’interno di un dato allineamento. Un matrice ricavata da un allineamento con fattore P = xy prende il nome di BLOSUMxy
18
G 7 P -2 9 D -1 -1 7 E -2 0 2 6 N 0 -2 2 0 6 H -2 -2 0 0 1 10 Q -2 -1 0 2 0 1 6 K -2 -1 0 1 0 -1 1 5 R -2 -2 -1 0 0 0 1 3 7 S 0 -1 0 0 1 -1 0 -1 -1 4 T -2 -1 -1 -1 0 -2 -1 -1 -1 2 5 A 0 -1 -2 -1 -1 -2 -1 -1 -2 1 0 5 M -2 -2 -3 -2 -2 0 0 -1 -1 -2 -1 -1 6 V -3 -3 -3 -3 -3 -3 -3 -2 -2 -1 0 0 1 5 I -4 -2 -4 -3 -2 -3 -2 -3 -3 -2 -1 -1 2 3 5 L -3 -3 -3 -2 -3 -2 -2 -3 -2 -3 -1 -1 2 1 2 5 F -3 -3 -4 -3 -2 -2 -4 -3 -2 -2 -1 -2 0 0 0 1 8 Y -3 -3 -2 -2 -2 2 -1 -1 -1 -2 -1 -2 0 -1 0 0 3 8 W -2 -3 -4 -3 -4 -3 -2 -2 -2 -4 -3 -2 -2 -3 -2 -2 1 3 15 C -3 -4 -3 -3 -2 -3 -3 -3 -3 -1 -1 -1 -2 -1 -3 -2 -2 -3 -5 12 G P D E N H Q K R S T A M V I L F Y W C BLOSUM45
19
C 12 G -3 5 P -3 -1 6 S 0 1 1 1 A -2 1 1 1 2 T -2 0 0 1 1 3 D -5 1 -1 0 0 0 4 E -5 0 -1 0 0 0 3 4 N -4 0 -1 1 0 0 2 1 2 Q -5 -1 0 -1 0 -1 2 2 1 4 H -3 -2 0 -1 -1 -1 1 1 2 3 6 K -5 -2 -1 0 -1 0 0 0 1 1 0 5 R -4 -3 0 0 -2 -1 -1 -1 0 1 2 3 6 V -2 -1 -1 -1 0 0 -2 -2 -2 -2 -2 -2 -2 4 M -5 -3 -2 -2 -1 -1 -3 -2 0 -1 -2 0 0 2 6 I -2 -3 -2 -1 -1 0 -2 -2 -2 -2 -2 -2 -2 4 2 5 L -6 -4 -3 -3 -2 -2 -4 -3 -3 -2 -2 -3 -3 2 4 2 6 F -4 -5 -5 -3 -4 -3 -6 -5 -4 -5 -2 -5 -4 -1 0 1 2 9 Y 0 -5 -5 -3 -3 -3 -4 -4 -2 -4 0 -4 -5 -2 -2 -1 -1 7 10 W -8 -7 -6 -2 -6 -5 -7 -7 -4 -5 -3 -3 2 -6 -4 -5 -2 0 0 17 C G P S A T D E N Q H K R V M I L F Y W PAM250
20
La scelta della Matrice da usare è in primo luogo dipendente da quanto sono conservate le sequenze che stiamo indagando (identità elevate fra le sequenze) PAM100 Blosum90 PAM120 Blosum80 PAM160 Blosum60 PAM200 Blosum52 PAM250 Blosum45 (identità bassa fra le sequenze) % id ~ 20-50% id ~ 70-90% id ~50-70% id
21
Allineamenti con GAP Qualsiasi programma di allineamento non può trascurare la possibilità che nel corso dell’evoluzione si siano verificate inserzioni e delezioni. Tuttavia deve essere stabilito un limite al numero di gap che possono essere inseriti all’interno di un allineamento. Inoltre il criterio scelto deve essere trasformato in una forma matematica da implementare nell’algoritmo di allineamento.
22
Allineamenti con GAP Il criterio più utilizzato: Ad ogni gap è attribuito un punteggio negativo che viene ottenuto mediante somma algebrica di una penalità di apertura del gap (gap open penalty; “gop”) e una penalità di estenzione (gap extention penalty; “gep”) per ciascuna posizione in più nel gap. Ad esempio se: (gap open penalty) gop = -12 (gap extention penalty) gep = -4 Per un gap di 3 posizioni avremmo score = -12 –4 –4 = -20 --XXXXX---XXXXXXXX XXXXXXXXXXXXXXXXX- -12 -4 In formula: Score = gop + gep*(len – 1) len = lungezza gap
23
CALCOLO DEL PUNTEGGIO DI ALLINEAMENTO --A 1 A 2 A 3 A 4 A 5 ----A 6 A 7 A 8 A 9 A 10 ……A 220 A 221 AAAA BBB 1 B 2 B 3 B 4 B 5 BBBBB 6 B 7 B 8 B 9 B 10 ……B 220 B 221 ---- L = numero di coppie A/B incolonnate S(A i, B i ) = score della coppia iesima G = numero di Gap “interni” all’allineamento) len(j) = lunghezza del Gap jesimo
24
“DOT PLOT” Una soluzione alternativa al problema dei Gap DOROTHY--------HODGKIN DOROTHYCROWFOOTHODGKIN
25
Duplicazione intragenica
26
Confronto di una sequenza con se stessa: individuazione di duplicazioni intrageniche e repeats
27
Sequenza palindromica: MAX I STAY AWAY AT SIX AM
28
ACDEFGHIKKKAILDHQKTSV A C D E F G H I K L M N R E R S T V W Y
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.