La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Programmi per l’ALLINEAMENTO DELLE SEQUENZE

Presentazioni simili


Presentazione sul tema: "Programmi per l’ALLINEAMENTO DELLE SEQUENZE"— Transcript della presentazione:

1 Programmi per l’ALLINEAMENTO DELLE SEQUENZE
La creazione di programmi per l’allineamento delle sequenze richiede la definizione di: *** Un criterio oggettivo e preciso per stabilire qual’è il miglior allineamento possibile *** *** Un algoritmo che utilizzando il criterio stabilito produca il miglio allineamento possibile *** Per algoritmo si intende un “metodo di calcolo descrivibile con un numero definito di regole che conduce ad un risultato dopo un numero finito di operazioni” Un algoritmo tradotto in un opportuno linguaggio informatico costituisce un programma.

2 Ad esempio il criterio più banale che si possa definire è l’individuazione dell’allineamento con più amminoacidi identici: definiamo allineamento migliore quello con la più alta percentuale di identità. Il migliore allineamento (quello che produce il maggior numero di amminoacidi identici) potrebbe essere trovato con un algoritmo che faccia scorrere due sequenze una sull’altra, lettera per lettera ed ogni volta confronta tutte le coppie di lettere incolonnate cercando quelle identiche. Ad ogni coppia identica potremmo attribuire 1 punto e 0 punti a ciascuna coppia di residui differenti Trovare il miglior allineamento tra: AAKKQW AAKQW

3 AAKKQW AAKQW 1 2 3 4 5 6 7 8 9 10 Allineamento #5: 4 punti; #6: 3 punti; #7: 1 punto.

4 O(nm) (Ordine di n per m) O(n2) (Ordine di n quadro)
Il nostro semplice algoritmo deve effettuare un numero di operazioni (numero di confronti fra coppie di lettere incolonnate) pari al prodotto delle lunghezze delle due sequenze. (nel nostro esempio 5 X 6 = 30 confronti) Questa condizione viene indicata con l’espressione matematica O(nm) (Ordine di n per m) dove n e m sono le lunghezze delle due sequenze. Se le lunghezze sono uguali: O(n2) (Ordine di n quadro)

5 Quanto più grandi sono n e m e quindi il numero di operazioni da eseguire tanto più lunghi saranno i tempi di calcolo del programma! Alcuni problemi di bioinformatica richiedono algoritmi più complessi come ad esempio O(n3) o O(kn) che spesso si traducono in tempi di calcolo così grandi da essere del tutto inutili in pratica. Gli algoritmi utili devono produrre risultati affidabili ma in tempi ragionevoli! Molti programmi sono soluzioni di compromesso fra le due esigenze.

6 NON PRENDE IN CONSIDERAZIONE GLI AA SIMILI
Il nostro semplice algoritmo di confronto per scivolamento è completamente inutile!!! NON PRENDE IN CONSIDERAZIONE GLI AA SIMILI NON PRENDE IN CONSIDERAZIONE LA POSSIBILITA’ CHE ESISTANO GAP FRA LE DUE SEQUENZE

7 + Criteri oggettivi per misurare la similarità
LE MATRICI DI SOSTITUZIONE E’ necessario stabilire un punteggio (score) per ciascuna delle possibili sostituzioni amminoacidiche. Poiché gli amminoacidi sono 20 creeremo una matrice 20 x 20 (400 caselle) 20 sostituzioni identiche (cioè R con R, A con A ecc.) + 2 set equivaleni di 190 sostituzioni non identiche (cioè R con A, R con K ecc.)

8 A C D E F G H I K L M N P Q R S T V W Y x y

9 Criteri oggettivi per misurare la similarità
LE MATRICI DI SOSTITUZIONE Esistono matrici di score basati sulla: *** somiglianza di proprietà chimico fisiche *** *** probabilità di sostituzione di un codone con un altro *** *** probabilità di sostituzione di un aa con altri aa all’interno di allineamenti di famiglie di proteine omologhe (matrici PAM e BLOSUM) ***

10 Somiglianza decrescente con l’arginina
Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE Possiamo ad esempio creare una scala di punteggi di sostituzione dell’amminoacido arginina R, con se stesso e con tutti gli altri amminoacidi ordinati per somiglianza di proprietà chimico fisiche. Somiglianza decrescente con l’arginina R K H Q E D N W T S F Y M I L A V C G P R – –30 -50 punteggi (score) [ARBITRARI!]

11

12 TRASCURANO GLI EFFETTI DELLA SELEZIONE NATURALE
Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE Esistono matrici di score basati sulla: *** somiglianza di proprietà chimico fisiche *** *** probabilità di sostituzione di un codone con un altro *** *** probabilità di sostituzione di un aa con altri aa all’interno di allineamenti di famiglie di proteine omologhe (matrici PAM e BLOSUM) *** ARBITRARIE TRASCURANO GLI EFFETTI DELLA SELEZIONE NATURALE

13 Criteri oggettivi per misurare la similarità
LE MATRICI DI SOSTITUZIONE BLOSUM Per misurare la probabilità relativa di una particolare sostituzione, per esempio Asp => Glu, possiamo contare quanti Asp sono diventati Glu in allineamenti di sequenze omologhe. Le matrici BLOSUM derivano dalla banca dati BLOCKS che contiene allineamenti multipli di sequenze proteiche privi di gap. Gli allineamenti vengono classificati in base alla minima percentuale di identità delle proteine nell’allineamento (P). Gli score Blosum vengono ricavati dalle frequenze di sostituzione delle varie coppie di aa all’interno di un dato allineamento. Un matrice ricavata da un allineamento con fattore P = xy prende il nome di BLOSUMxy

14 BLOSUM45 G P D E N H Q K R S T A M V I L F Y W C G 7 P -2 9 D -1 -1 7

15 Criteri oggettivi per misurare la similarità
LE MATRICI DI SOSTITUZIONE PAM per misurare la probabilità relativa di una particolare sostituzione, per esempio Asp => Glu, possiamo contare quanti Asp sono diventati Glu in allineamenti di sequenze omologhe. E’ comunque necessario evitare di considerare allineamenti in cui possano essere avvenuti sostituzioni multiple in determinate posizioni. Pertanto questi calcoli devono venire effettuati su coppie di sequenze MOLTO SIMILI tra loro, in modo da poter assumere che nessuna posizione è mutata più di una volta la divergenza di due sequenze si può misurare in PAM: 1 PAM = 1 Percent Accepted Mutation

16 Criteri oggettivi per misurare la similarità
LE MATRICI DI SOSTITUZIONE PAM PAM = percent accepted mutation Unità di misura dell’accumulo di mutazioni quindi della distanza evolutiva 2 sequenze hanno distanza evolutiva di 1 PAM se hanno accumulato l’1% di mutazioni Attenzione!!! Con l’accumularsi delle mutazioni le nuove mutazioni colpiscono siti già mutati pertanto per valori elevati di PAM la % di differenze amminoacidiche in due sequenze è inferiore al valore PAM Ad esempio PAM 100 non significa 100% di differenze aa ma 100 passi evolutivi ciascuno dei quali produce l’1% di mutazioni ed equivale a circa il 60% di differenze amminoacidiche (40% identità). PAM 250 equivale a circa l’ 80% di differenze amminoacidiche (20% identità).

17 % di aa differenti PAM Criteri oggettivi per misurare la similarità
LE MATRICI DI SOSTITUZIONE PAM Relazione tra la distanza evolutiva PAM e le differenze tra due sequenze proteiche 80 60 % di aa differenti 40 20 PAM

18 Calcolo degli score PAM
La frequenza delle sostituzioni amminoacidiche viene calcolata in coppie di sequenze poco divergenti (1 PAM). Frequenze di sostituzioni amminoacidiche per sequenze più divergenti vengono calcolate a partire da queste, moltiplicando le matrici di sostituzione 1 PAM per se stesse, fino ad ottenere matrici PAM 250, corrispondenti a identità di sequenza del 20% PAM %id

19 PAM250 C G P S A T D E N Q H K R V M I L F Y W C 12 G -3 5 P -3 -1 6

20 A C D E F G H I K L R –4 PAM120 R –3 PAM250 M N P Q R S T V W Y R –5 PAM120 R –4 PAM250 nel confronto tra la PAM120 e la PAM250, si vede come in generale diminuiscano le penalizzazioni associate a sostituzioni di qualsiasi tipo

21 PAM250 C G P S A T D E N Q H K R V M I L F Y W C 12 G -3 5 P -3 -1 6

22 BLOSUM45 G P D E N H Q K R S T A M V I L F Y W C G 7 P -2 9 D -1 -1 7

23 (identità elevate fra le sequenze) (identità bassa fra le sequenze)
La scelta della Matrice da usare è in primo luogo dipendente da quanto sono conservate le sequenze che stiamo indagando (identità elevate fra le sequenze) PAM100 <==> Blosum90 PAM120 <==> Blosum80 PAM160 <==> Blosum60 PAM200 <==> Blosum52 PAM250 <==> Blosum45 (identità bassa fra le sequenze) % id ~ 70-90% id ~50-70% id ~ 20-50% id

24 Allineamenti con GAP Qualsiasi programma di allineamento non può trascurare la possibilità che nel corso dell’evoluzione si siano verificate inserzioni e delezioni. Tuttavia deve essere stabilito un limite al numero di gap che possono essere inseriti all’interno di un allineamento. Inoltre il criterio scelto deve essere trasformato in una forma matematica da implementare nell’algoritmo di allineamento.

25 Il criterio più utilizzato:
Allineamenti con GAP Il criterio più utilizzato: Ad ogni gap è attribuito un punteggio negativo che viene ottenuto mediante somma algebrica di una penalità di apertura del gap (gap open penalty; “gop”) e una penalità di estensione (gap extention penalty; “gep”) per ciascuna posizione in più nel gap. Ad esempio se: (gap open penalty) gop = -12 (gap extention penalty) gep = -4 Per un gap di 3 posizioni avremmo score = -12 –4 –4 = -20 -12 -4 -4 In formula: Score = gop + gep*(len – 1) len = lunghezza gap --XXXXX---XXXXXXXX XXXXXXXXXXXXXXXXX-

26 --A1A2A3A4A5----A6A7A8A9A10……A220A221AAAA
CALCOLO DEL PUNTEGGIO DI ALLINEAMENTO --A1A2A3A4A5----A6A7A8A9A10……A220A221AAAA BBB1B2B3B4B5BBBBB6B7B8B9B10……B220B L = numero di coppie A/B incolonnate S(Ai, Bi) = score della coppia iesima G = numero di Gap “interni” all’allineamento) len(j) = lunghezza del Gap jesimo

27 AAKKQW AAKQW 1 2 3 4 5 6 7 8 9 10 Allineamento #5: 4 punti; #6: 3 punti; #7: 1 punto.

28 Una soluzione alternativa al problema dei Gap
“DOT PLOT” Una soluzione alternativa al problema dei Gap DOROTHY HODGKIN DOROTHYCROWFOOTHODGKIN

29 Duplicazione intragenica

30 Confronto di una sequenza con se stessa: individuazione di duplicazioni intrageniche e repeats

31 Sequenza palindromica: MAX I STAY AWAY AT SIX AM

32 A C D E F G H I K L Q T S V M N R W Y

33 Il programma DOTLET (accessibile dai tools di EXPASY) calcola dot plot utilizzando le matrici PAM e BLOSUM e permette all’utente di scegliere anche la lunghezza della finestra di calcolo e l’intensità della scala di grigio da usare nella rappresentazione

34

35 A C D E F G H I K L Q T S V M N R W Y

36

37

38 DOROTHY--------HODGKIN DOROTHYCROWFOOTHODGKIN
Dal Dot Plot è possibile estrarre l’allineamento DOROTHY HODGKIN DOROTHYCROWFOOTHODGKIN

39 A C D E F G H I K L Q T S V M N R W Y

40 A C D E F G H I K L Q T S V M N R W Y A C D E F G H I K L Q T S V - M N R

41 A C D E F G H I K L Q T S V M N R W Y C D E F G H I K A L - Q T S V M N R

42 Inizio Fine Direzioni permesse

43 Inizio Fine

44 Inizio B 1 1 3 3 C 6 A 5 7 Fine Direzioni permesse

45 Inizio 1 1 3 3 5 6 7 4 6 7 10 6 6 8 11 Fine Direzioni permesse

46 Inizio 1 1 3 Direzioni permesse 3 5 6 7 4 6 7 10 6 6 8 11 Fine

47 T F D E R I L G V Q Y W A C K N

48 PAM240 T F D E R I L G V Q Y W A C -1 -5 2 3 1 -2 4 -4 -6 -3 9 7 -7 17
-6 -3 9 7 -7 17 -8 12 5 K N 10 PAM240

49 X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 Y5

50 X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 Y5

51 X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 15 Y5 -5

52 X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 Y5 -5 -2

53 X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 6 Y5 -5

54 X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 1 Y5 -5-2

55 X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 Y5

56 Algoritmo dinamico di SMITH - WATERMAN
F D E R I L G V Q Y W A C -1 -5 2 3 1 -2 4 -4 -6 -3 7 9 12 14 -7 5 17 31 26 21 -8 16 11 6 30 25 20 15 42 37 -2 32 10 24 44 K N Algoritmo dinamico di SMITH - WATERMAN

57 PAM240 (gop = gep = -5) T F D E R I L G V Q Y W A C -1 -5 2 3 1 -2 4
-1 -5 2 3 1 -2 4 -4 -6 -3 7 9 12 14 -7 5 17 31 26 21 -8 16 11 6 30 25 20 15 42 37 32 10 24 44 39 K 43 27 34 40 22 29 35 N 19 PAM240 (gop = gep = -5)

58 Algoritmo dinamico di SMITH - WATERMAN
F D E R I L G V Q Y W A C -1 -5 2 3 1 -2 4 -4 -6 -3 7 9 12 14 -7 5 17 31 26 21 -8 16 11 6 30 25 20 15 42 37 32 10 24 44 39 K 43 27 34 40 22 29 35 N 19 Algoritmo dinamico di SMITH - WATERMAN

59 Algoritmo dinamico di SMITH - WATERMAN
F D E R I L G V Q Y W A C -1 -5 2 3 1 -2 4 -4 -6 -3 7 9 12 14 -7 5 17 31 26 21 -8 16 11 6 30 25 20 15 42 37 32 10 24 44 39 K 43 27 34 40 22 29 35 N 19 Algoritmo dinamico di SMITH - WATERMAN

60 Algoritmo dinamico di SMITH - WATERMAN
F D E R I L G V Q Y W A C -1 -5 2 3 1 -2 4 -4 -6 -3 7 9 12 14 -7 5 17 31 26 21 -8 16 11 6 30 25 20 15 42 37 32 10 24 44 39 K 43 27 34 40 22 29 35 N 19 Algoritmo dinamico di SMITH - WATERMAN

61 TFDERILGVQTYWAECLA------
||:| ||: score 44 QTFW-ECIKGDNATY 5 id su 7 -TFDERILGVQ-TYWAECLA || | | | : || score 19 QTFWECIKGDNATY id su 12

62 TFDERILGVQTYWAECLA------
||:| ||: score 44 QTFW-ECIKGDNATY 5 id su 7 «ALLINEAMENTO 1» -TFDERILGVQ-TYWAECLA || | | | : || score 19 QTFWECIKGDNATY id su 12 «ALLINEAMENTO 2»

63 Allineamenti di Acidi Nucleici
Per l’allineamento degli acidi nucleici si usano gli stessi criteri utilizzati per l’allineamento delle sequenze amminoacidiche. Tuttavia poiché non esistono sostituzioni nucleotidiche più o meno “conservative” per l’allineamento di sequenze nucleotidiche si utilizzano matrici di identità che premiano basi identiche e assegnano punteggi negativi più o meno grandi a qualsiasi sostituzione. G A C T 1


Scaricare ppt "Programmi per l’ALLINEAMENTO DELLE SEQUENZE"

Presentazioni simili


Annunci Google