Programmi per l’ALLINEAMENTO DELLE SEQUENZE

Slides:



Advertisements
Presentazioni simili
I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.
Advertisements

I programmi di ricerca in banche dati possono essere
Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:
© 2015 Giorgio Porcu - Aggiornamennto 01/12/2015 I STITUTO T ECNICO SECONDO BIENNIO T ECNOLOGIE E P ROGETTAZIONE Rappresentazione dell’ Informazione Sistemi.
Programmi per l’ALLINEAMENTO DELLE SEQUENZE La creazione di programmi per l’allineamento delle sequenze richiede la definizione di: *** Un criterio oggettivo.
2a + 10b abx2 3a + 1 y 2 a + 1 x + 2y a − Espressioni algebriche
VETTORI: DEFINIZIONI Se ad una grandezza fisica G si associa una direzione ed un verso si parla di vettori: ✔ Le grandezze fisiche possono essere di due.
Unità di apprendimento 6 Dal problema al programma.
Fondamenti di Informatica - D. Talia - UNICAL 1 Fondamenti di Informatica FONDAMENTI DI INFORMATICA Domenico Talia
I Polinomi Prof.ssa A.Comis.
1 Elementi DI INFORMATICA Università degli Studi di Cagliari Corso di Laurea in Ingegneria Elettronica Linguaggio C A.A. 2011/2012
Indici di Posizione Giulio Vidotto Raffaele Cioffi.
RICERCA DI SIMILARITA’ in DB Problema: identificare all’interno di una banca dati di sequenze quelle sequenze che sono più simili ad una sequenza di nostro.
1 Prof.ssa A.Comis. 2 Introduzione Definizione Classificazione Principi di equivalenza Regole per la risoluzione.
1 Simulazione Numerica dei Fenomeni di Trasporto Necessità di introduzione dei tensori  11  12  13  23  21  22 Vogliamo descrivere in un modo che.
CONFRONTO DI SEQUENZE Una delle analisi più informative che si possano compiere utilizzando sequenze nucleotidiche o amminoacidiche è il CONFRONTO FRA.
Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa.
CONTROLLO DELLA CONCORRENZA
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
La chimica della vita Ogni organismo vivente è una macchina sofisticata, risultato di un complesso insieme di reazioni chimiche. La costruzione e il funzionamento.
LA CLASSIFICAZIONE DIMENSIONI DEL CONCETTO DI CLASSIFICAZIONE (Marradi, ) classificazione a: operazione intellettuale con cui l’estensione di.
Le Frazioni Prof.ssa A.Comis.
© 2007 SEI-Società Editrice Internazionale, Apogeo
RNS_BOVIN ANG1_MOUSE TPA_HUMAN UROK_HUMAN
Fotogrammetria - Lezione 3
Giovanni Finaldi Russo Pietro Bruno
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Unità di apprendimento 1
Definizione di logaritmo
Le equazioni di II°Grado
Dal problema al processo risolutivo
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
IL SISTEMA DI VALUTAZIONE DELLA PERFORMANCE della PROVINCIA DI PAVIA
MOD. 1: Grandezze e misure
(7x + 8x2 + 2) : (2x + 3) 8x2 + 7x + 2 2x + 3 8x2 + 7x + 2 2x + 3 4x
Algoritmi e soluzioni di problemi
Dal problema al processo risolutivo
Cluster Analysis Definizione di Classificazione: operazione concettuale condotta adottando un solo criterio (detto fondamento della divisione) per individuare.
x : variabile indipendente
Insiemi di punti: altre caratteristiche
File hash.
Forme per rappresentare l’algoritmo:
La Statistica Istituto Comprensivo “ M. G. Cutuli”
Gli strumenti Gli strumenti di misura possono essere:
Fisica: lezioni e problemi
I MONOMI.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Prof.
Statistica Scienza che studia i fenomeni collettivi.
INTRODUZIONE A EXCEL Il foglio elettronico o foglio di calcolo è una tabella che contiene parole e numeri che possono essere elaborati applicando formule.
I RADICALI Definizione di radicali Semplificazione di radicali
I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.
LEZIONE 4 Allineamento di sequenze nucleotidiche e proteiche
Matrici Definizioni Matrici Rettangolari Quadrate 02/01/2019
Le espressioni algebriche letterali
Nome progetto scientifico
Introduzione agli Algoritmi e alle Strutture Dati
Strapazziamo le immagini…
Corso di Laurea Ingegneria Informatica Fondamenti di Informatica
LE SUCCESSIONI Si consideri la seguente sequenza di numeri:
Fogli elettronici e videoscrittura
Teoria della computabilità
Corso di Algoritmi e Strutture Dati APPUNTI SUL LINGUAGGIO C
Matrici e determinanti
I sistemi di equazioni di I grado
Le Frazioni Prof.ssa A.Comis.
Docente: Sabato Bufano
LA CLASSIFICAZIONE DIMENSIONI DEL CONCETTO DI CLASSIFICAZIONE (Marradi, ) classificazione a: operazione intellettuale con cui l’estensione di.
RICERCA DI SIMILARITA’ in DB
Vincoli di Integrità Non tutte le combinazioni possibili di valori dei domini su cui è definita una relazione sono accettabili. Alcuni attributi possono.
CONFRONTO DI SEQUENZE Una delle analisi più informative che si possano compiere utilizzando sequenze nucleotidiche o amminoacidiche è il CONFRONTO FRA.
Transcript della presentazione:

Programmi per l’ALLINEAMENTO DELLE SEQUENZE La creazione di programmi per l’allineamento delle sequenze richiede la definizione di: *** Un criterio oggettivo e preciso per stabilire qual’è il miglior allineamento possibile *** *** Un algoritmo che utilizzando il criterio stabilito produca il miglio allineamento possibile *** Per algoritmo si intende un “metodo di calcolo descrivibile con un numero definito di regole che conduce ad un risultato dopo un numero finito di operazioni” Un algoritmo tradotto in un opportuno linguaggio informatico costituisce un programma.

Ad esempio il criterio più banale che si possa definire è l’individuazione dell’allineamento con più amminoacidi identici: definiamo allineamento migliore quello con la più alta percentuale di identità. Il migliore allineamento (quello che produce il maggior numero di amminoacidi identici) potrebbe essere trovato con un algoritmo che faccia scorrere due sequenze una sull’altra, lettera per lettera ed ogni volta confronta tutte le coppie di lettere incolonnate cercando quelle identiche. Ad ogni coppia identica potremmo attribuire 1 punto e 0 punti a ciascuna coppia di residui differenti Trovare il miglior allineamento tra: AAKKQW AAKQW

AAKKQW AAKQW 1 2 3 4 5 6 7 8 9 10 Allineamento #5: 4 punti; #6: 3 punti; #7: 1 punto.

O(nm) (Ordine di n per m) O(n2) (Ordine di n quadro) Il nostro semplice algoritmo deve effettuare un numero di operazioni (numero di confronti fra coppie di lettere incolonnate) pari al prodotto delle lunghezze delle due sequenze. (nel nostro esempio 5 X 6 = 30 confronti) Questa condizione viene indicata con l’espressione matematica O(nm) (Ordine di n per m) dove n e m sono le lunghezze delle due sequenze. Se le lunghezze sono uguali: O(n2) (Ordine di n quadro)

Quanto più grandi sono n e m e quindi il numero di operazioni da eseguire tanto più lunghi saranno i tempi di calcolo del programma! Alcuni problemi di bioinformatica richiedono algoritmi più complessi come ad esempio O(n3) o O(kn) che spesso si traducono in tempi di calcolo così grandi da essere del tutto inutili in pratica. Gli algoritmi utili devono produrre risultati affidabili ma in tempi ragionevoli! Molti programmi sono soluzioni di compromesso fra le due esigenze.

NON PRENDE IN CONSIDERAZIONE GLI AA SIMILI Il nostro semplice algoritmo di confronto per scivolamento è completamente inutile!!! NON PRENDE IN CONSIDERAZIONE GLI AA SIMILI NON PRENDE IN CONSIDERAZIONE LA POSSIBILITA’ CHE ESISTANO GAP FRA LE DUE SEQUENZE

+ Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE E’ necessario stabilire un punteggio (score) per ciascuna delle possibili sostituzioni amminoacidiche. Poiché gli amminoacidi sono 20 creeremo una matrice 20 x 20 (400 caselle) 20 sostituzioni identiche (cioè R con R, A con A ecc.) + 2 set equivaleni di 190 sostituzioni non identiche (cioè R con A, R con K ecc.)

A C D E F G H I K L M N P Q R S T V W Y x y

Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE Esistono matrici di score basati sulla: *** somiglianza di proprietà chimico fisiche *** *** probabilità di sostituzione di un codone con un altro *** *** probabilità di sostituzione di un aa con altri aa all’interno di allineamenti di famiglie di proteine omologhe (matrici PAM e BLOSUM) ***

Somiglianza decrescente con l’arginina Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE Possiamo ad esempio creare una scala di punteggi di sostituzione dell’amminoacido arginina R, con se stesso e con tutti gli altri amminoacidi ordinati per somiglianza di proprietà chimico fisiche. Somiglianza decrescente con l’arginina R K H Q E D N W T S F Y M I L A V C G P R 100 75 50 40 30 20 10 10 5 5 1 1 -1 -2 -2 –5 -15 -20 –30 -50 punteggi (score) [ARBITRARI!]

TRASCURANO GLI EFFETTI DELLA SELEZIONE NATURALE Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE Esistono matrici di score basati sulla: *** somiglianza di proprietà chimico fisiche *** *** probabilità di sostituzione di un codone con un altro *** *** probabilità di sostituzione di un aa con altri aa all’interno di allineamenti di famiglie di proteine omologhe (matrici PAM e BLOSUM) *** ARBITRARIE TRASCURANO GLI EFFETTI DELLA SELEZIONE NATURALE

Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE BLOSUM Per misurare la probabilità relativa di una particolare sostituzione, per esempio Asp => Glu, possiamo contare quanti Asp sono diventati Glu in allineamenti di sequenze omologhe. Le matrici BLOSUM derivano dalla banca dati BLOCKS che contiene allineamenti multipli di sequenze proteiche privi di gap. Gli allineamenti vengono classificati in base alla minima percentuale di identità delle proteine nell’allineamento (P). Gli score Blosum vengono ricavati dalle frequenze di sostituzione delle varie coppie di aa all’interno di un dato allineamento. Un matrice ricavata da un allineamento con fattore P = xy prende il nome di BLOSUMxy

BLOSUM45 G P D E N H Q K R S T A M V I L F Y W C G 7 P -2 9 D -1 -1 7

Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE PAM per misurare la probabilità relativa di una particolare sostituzione, per esempio Asp => Glu, possiamo contare quanti Asp sono diventati Glu in allineamenti di sequenze omologhe. E’ comunque necessario evitare di considerare allineamenti in cui possano essere avvenuti sostituzioni multiple in determinate posizioni. Pertanto questi calcoli devono venire effettuati su coppie di sequenze MOLTO SIMILI tra loro, in modo da poter assumere che nessuna posizione è mutata più di una volta la divergenza di due sequenze si può misurare in PAM: 1 PAM = 1 Percent Accepted Mutation

Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE PAM PAM = percent accepted mutation Unità di misura dell’accumulo di mutazioni quindi della distanza evolutiva 2 sequenze hanno distanza evolutiva di 1 PAM se hanno accumulato l’1% di mutazioni Attenzione!!! Con l’accumularsi delle mutazioni le nuove mutazioni colpiscono siti già mutati pertanto per valori elevati di PAM la % di differenze amminoacidiche in due sequenze è inferiore al valore PAM Ad esempio PAM 100 non significa 100% di differenze aa ma 100 passi evolutivi ciascuno dei quali produce l’1% di mutazioni ed equivale a circa il 60% di differenze amminoacidiche (40% identità). PAM 250 equivale a circa l’ 80% di differenze amminoacidiche (20% identità).

% di aa differenti PAM Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE PAM Relazione tra la distanza evolutiva PAM e le differenze tra due sequenze proteiche 80 60 % di aa differenti 40 20 0 50 100 150 200 250 PAM

Calcolo degli score PAM La frequenza delle sostituzioni amminoacidiche viene calcolata in coppie di sequenze poco divergenti (1 PAM). Frequenze di sostituzioni amminoacidiche per sequenze più divergenti vengono calcolate a partire da queste, moltiplicando le matrici di sostituzione 1 PAM per se stesse, fino ad ottenere matrici PAM 250, corrispondenti a identità di sequenza del 20% PAM 0 30 80 110 200 250 %id 100 75 60 50 25 20

PAM250 C G P S A T D E N Q H K R V M I L F Y W C 12 G -3 5 P -3 -1 6

A C D E F G H I K L R -3 -4 -3 -3 -5 -4 1 -2 2 –4 PAM120 R -2 -4 -1 -1 -4 -3 2 -2 3 –3 PAM250 M N P Q R S T V W Y R -1 -1 -1 1 6 -1 -2 -3 1 –5 PAM120 R 0 0 0 1 6 0 -1 -2 2 –4 PAM250 nel confronto tra la PAM120 e la PAM250, si vede come in generale diminuiscano le penalizzazioni associate a sostituzioni di qualsiasi tipo

PAM250 C G P S A T D E N Q H K R V M I L F Y W C 12 G -3 5 P -3 -1 6

BLOSUM45 G P D E N H Q K R S T A M V I L F Y W C G 7 P -2 9 D -1 -1 7

(identità elevate fra le sequenze) (identità bassa fra le sequenze) La scelta della Matrice da usare è in primo luogo dipendente da quanto sono conservate le sequenze che stiamo indagando (identità elevate fra le sequenze) PAM100 <==> Blosum90 PAM120 <==> Blosum80 PAM160 <==> Blosum60 PAM200 <==> Blosum52 PAM250 <==> Blosum45 (identità bassa fra le sequenze) % id ~ 70-90% id ~50-70% id ~ 20-50% id

Allineamenti con GAP Qualsiasi programma di allineamento non può trascurare la possibilità che nel corso dell’evoluzione si siano verificate inserzioni e delezioni. Tuttavia deve essere stabilito un limite al numero di gap che possono essere inseriti all’interno di un allineamento. Inoltre il criterio scelto deve essere trasformato in una forma matematica da implementare nell’algoritmo di allineamento.

Il criterio più utilizzato: Allineamenti con GAP Il criterio più utilizzato: Ad ogni gap è attribuito un punteggio negativo che viene ottenuto mediante somma algebrica di una penalità di apertura del gap (gap open penalty; “gop”) e una penalità di estensione (gap extention penalty; “gep”) per ciascuna posizione in più nel gap. Ad esempio se: (gap open penalty) gop = -12 (gap extention penalty) gep = -4 Per un gap di 3 posizioni avremmo score = -12 –4 –4 = -20 -12 -4 -4 In formula: Score = gop + gep*(len – 1) len = lunghezza gap --XXXXX---XXXXXXXX XXXXXXXXXXXXXXXXX-

--A1A2A3A4A5----A6A7A8A9A10……A220A221AAAA CALCOLO DEL PUNTEGGIO DI ALLINEAMENTO --A1A2A3A4A5----A6A7A8A9A10……A220A221AAAA BBB1B2B3B4B5BBBBB6B7B8B9B10……B220B221---- L = numero di coppie A/B incolonnate S(Ai, Bi) = score della coppia iesima G = numero di Gap “interni” all’allineamento) len(j) = lunghezza del Gap jesimo

AAKKQW AAKQW 1 2 3 4 5 6 7 8 9 10 Allineamento #5: 4 punti; #6: 3 punti; #7: 1 punto.

Una soluzione alternativa al problema dei Gap “DOT PLOT” Una soluzione alternativa al problema dei Gap DOROTHY--------HODGKIN DOROTHYCROWFOOTHODGKIN

Duplicazione intragenica

Confronto di una sequenza con se stessa: individuazione di duplicazioni intrageniche e repeats

Sequenza palindromica: MAX I STAY AWAY AT SIX AM

A C D E F G H I K L Q T S V M N R W Y

Il programma DOTLET (accessibile dai tools di EXPASY) calcola dot plot utilizzando le matrici PAM e BLOSUM e permette all’utente di scegliere anche la lunghezza della finestra di calcolo e l’intensità della scala di grigio da usare nella rappresentazione

A C D E F G H I K L Q T S V M N R W Y

DOROTHY--------HODGKIN DOROTHYCROWFOOTHODGKIN Dal Dot Plot è possibile estrarre l’allineamento DOROTHY--------HODGKIN DOROTHYCROWFOOTHODGKIN

A C D E F G H I K L Q T S V M N R W Y

A C D E F G H I K L Q T S V M N R W Y A C D E F G H I K L Q T S V - M N R

A C D E F G H I K L Q T S V M N R W Y C D E F G H I K A L - Q T S V M N R

Inizio Fine Direzioni permesse

Inizio Fine

Inizio B 1 1 3 3 C 6 A 5 7 Fine Direzioni permesse

Inizio 1 1 3 3 5 6 7 4 6 7 10 6 6 8 11 Fine Direzioni permesse

Inizio 1 1 3 Direzioni permesse 3 5 6 7 4 6 7 10 6 6 8 11 Fine

T F D E R I L G V Q Y W A C K N

PAM240 T F D E R I L G V Q Y W A C -1 -5 2 3 1 -2 4 -4 -6 -3 9 7 -7 17 -6 -3 9 7 -7 17 -8 12 5 K N 10 PAM240

X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 Y5

X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 Y5

X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 15 Y5 -5

X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 Y5 -5 -2

X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 6 Y5 -5

X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 1 Y5 -5-2

X1 X2 X3 X4 X5 Y1 10 Y2 16 Y3 4 7 12 Y4 Y5

Algoritmo dinamico di SMITH - WATERMAN F D E R I L G V Q Y W A C -1 -5 2 3 1 -2 4 -4 -6 -3 7 9 12 14 -7 5 17 31 26 21 -8 16 11 6 30 25 20 15 42 37 -2 32 10 24 44 K N Algoritmo dinamico di SMITH - WATERMAN

PAM240 (gop = gep = -5) T F D E R I L G V Q Y W A C -1 -5 2 3 1 -2 4 -1 -5 2 3 1 -2 4 -4 -6 -3 7 9 12 14 -7 5 17 31 26 21 -8 16 11 6 30 25 20 15 42 37 32 10 24 44 39 K 43 27 34 40 22 29 35 N 19 PAM240 (gop = gep = -5)

Algoritmo dinamico di SMITH - WATERMAN F D E R I L G V Q Y W A C -1 -5 2 3 1 -2 4 -4 -6 -3 7 9 12 14 -7 5 17 31 26 21 -8 16 11 6 30 25 20 15 42 37 32 10 24 44 39 K 43 27 34 40 22 29 35 N 19 Algoritmo dinamico di SMITH - WATERMAN

Algoritmo dinamico di SMITH - WATERMAN F D E R I L G V Q Y W A C -1 -5 2 3 1 -2 4 -4 -6 -3 7 9 12 14 -7 5 17 31 26 21 -8 16 11 6 30 25 20 15 42 37 32 10 24 44 39 K 43 27 34 40 22 29 35 N 19 Algoritmo dinamico di SMITH - WATERMAN

Algoritmo dinamico di SMITH - WATERMAN F D E R I L G V Q Y W A C -1 -5 2 3 1 -2 4 -4 -6 -3 7 9 12 14 -7 5 17 31 26 21 -8 16 11 6 30 25 20 15 42 37 32 10 24 44 39 K 43 27 34 40 22 29 35 N 19 Algoritmo dinamico di SMITH - WATERMAN

TFDERILGVQTYWAECLA------ ||:| ||: score 44 ---------QTFW-ECIKGDNATY 5 id su 7   -TFDERILGVQ-TYWAECLA || | | | : || score 19 QTFWECIKGDNATY------ 7 id su 12

TFDERILGVQTYWAECLA------ ||:| ||: score 44 ---------QTFW-ECIKGDNATY 5 id su 7 «ALLINEAMENTO 1»   -TFDERILGVQ-TYWAECLA || | | | : || score 19 QTFWECIKGDNATY------ 7 id su 12 «ALLINEAMENTO 2»

Allineamenti di Acidi Nucleici Per l’allineamento degli acidi nucleici si usano gli stessi criteri utilizzati per l’allineamento delle sequenze amminoacidiche. Tuttavia poiché non esistono sostituzioni nucleotidiche più o meno “conservative” per l’allineamento di sequenze nucleotidiche si utilizzano matrici di identità che premiano basi identiche e assegnano punteggi negativi più o meno grandi a qualsiasi sostituzione. G A C T 1