Programmi per l’ALLINEAMENTO DELLE SEQUENZE La creazione di programmi per l’allineamento delle sequenze richiede la definizione di: *** Un criterio oggettivo.

Slides:



Advertisements
Presentazioni simili
Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:
Advertisements

© 2015 Giorgio Porcu - Aggiornamennto 01/12/2015 I STITUTO T ECNICO SECONDO BIENNIO T ECNOLOGIE E P ROGETTAZIONE Rappresentazione dell’ Informazione Sistemi.
2a + 10b abx2 3a + 1 y 2 a + 1 x + 2y a − Espressioni algebriche
Unità di apprendimento 6 Dal problema al programma.
Fondamenti di Informatica - D. Talia - UNICAL 1 Fondamenti di Informatica FONDAMENTI DI INFORMATICA Domenico Talia
I Polinomi Prof.ssa A.Comis.
1 Elementi DI INFORMATICA Università degli Studi di Cagliari Corso di Laurea in Ingegneria Elettronica Linguaggio C A.A. 2011/2012
Indici di Posizione Giulio Vidotto Raffaele Cioffi.
RICERCA DI SIMILARITA’ in DB Problema: identificare all’interno di una banca dati di sequenze quelle sequenze che sono più simili ad una sequenza di nostro.
1 Simulazione Numerica dei Fenomeni di Trasporto Necessità di introduzione dei tensori  11  12  13  23  21  22 Vogliamo descrivere in un modo che.
Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.
Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa.
CONTROLLO DELLA CONCORRENZA
La chimica della vita Ogni organismo vivente è una macchina sofisticata, risultato di un complesso insieme di reazioni chimiche. La costruzione e il funzionamento.
LA CLASSIFICAZIONE DIMENSIONI DEL CONCETTO DI CLASSIFICAZIONE (Marradi, ) classificazione a: operazione intellettuale con cui l’estensione di.
Le Frazioni Prof.ssa A.Comis.
© 2007 SEI-Società Editrice Internazionale, Apogeo
RNS_BOVIN ANG1_MOUSE TPA_HUMAN UROK_HUMAN
Fotogrammetria - Lezione 3
Algoritmi Avanzati a.a.2014/2015 Prof.ssa Rossella Petreschi
Definizione di logaritmo
Le equazioni di II°Grado
Branch and Bound Lezione n°14 Prof.ssa Rossella Petreschi
Dal problema al processo risolutivo
IL SISTEMA DI VALUTAZIONE DELLA PERFORMANCE della PROVINCIA DI PAVIA
(7x + 8x2 + 2) : (2x + 3) 8x2 + 7x + 2 2x + 3 8x2 + 7x + 2 2x + 3 4x
IL CONCETTO DI ALGORITMO
Dal problema al processo risolutivo
x : variabile indipendente
Unità di apprendimento 7
File hash.
Forme per rappresentare l’algoritmo:
Tipo di dato: array Un array è un tipo di dato usato per memorizzare una collezione di variabili dello stesso tipo. Per memorizzare una collezione di 7.
Gli enti geometrici fondamentali
La Statistica Istituto Comprensivo “ M. G. Cutuli”
Gli strumenti Gli strumenti di misura possono essere:
I MONOMI.
Interpolazione e zero-padding
Scomposizione dei polinomi
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Prof.
I RADICALI Definizione di radicali Semplificazione di radicali
© 2007 SEI-Società Editrice Internazionale, Apogeo
{ } Multipli di un numero M4 ESEMPIO 0, 4, 8, 12, 16, 20, 24, …
I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.
LEZIONE 4 Allineamento di sequenze nucleotidiche e proteiche
Confronto tra diversi soggetti:
Mario Scarpino - Francesco Sgaramella
Matrici Definizioni Matrici Rettangolari Quadrate 02/01/2019
Le espressioni algebriche letterali
Nome progetto scientifico
Diffrazione.
Interpretare la grandezza di σ
Strapazziamo le immagini…
Corso di Laurea Ingegneria Informatica Fondamenti di Informatica
* 07/16/96 Sez. 2: Ordinamento La consultazione di banche dati è sempre più cruciale in tutte le applicazioni dell’Informatica. Se vogliamo consultare.
Variazione percentuale di una grandezza
Teoria della computabilità
Corso di Algoritmi e Strutture Dati APPUNTI SUL LINGUAGGIO C
Matrici e determinanti
Le Frazioni Prof.ssa A.Comis.
Docente: Sabato Bufano
Algoritmi.
LA CLASSIFICAZIONE DIMENSIONI DEL CONCETTO DI CLASSIFICAZIONE (Marradi, ) classificazione a: operazione intellettuale con cui l’estensione di.
Le Equazioni di 1°grado Prof.ssa A.Comis.
Programmi per l’ALLINEAMENTO DELLE SEQUENZE
Corso di Fondamenti di Informatica
RICERCA DI SIMILARITA’ in DB
Vincoli di Integrità Non tutte le combinazioni possibili di valori dei domini su cui è definita una relazione sono accettabili. Alcuni attributi possono.
Corso di Fondamenti di Informatica
CONFRONTO DI SEQUENZE Una delle analisi più informative che si possano compiere utilizzando sequenze nucleotidiche o amminoacidiche è il CONFRONTO FRA.
Transcript della presentazione:

Programmi per l’ALLINEAMENTO DELLE SEQUENZE La creazione di programmi per l’allineamento delle sequenze richiede la definizione di: *** Un criterio oggettivo e preciso per misurare la similarità *** *** Un algoritmo che utilizzando il criterio di similarità stabilito produca il miglio allineamento possibile *** Per algoritmo si intende un “metodo di calcolo descrivibile con un numero definito di regole che conduce ad un risultato dopo un numero finito di operazioni” Un algoritmo tradotto in un opportuno linguaggio informatico costituisce un programma.

Ad esempio il criterio di similarità più banale che si possa definire è l’individuazione degli amminoacidi identici. Il migliore allineamento (quello che produce il maggior numero di amminoacidi identici) potrà essere trovato con un algoritmo che faccia scorrere due sequenze una sull’altra, lettera per lettera ed ogni volta confronta tutte le coppie di lettere incolonnate cercando quelle identiche. Ad ogni coppia identica potremmo attribuire 1 punto e 0 punti a ciascuna coppia di residui differenti Trovare il miglior allineamento tra: 1)AAKKQW 2)AAKQW

AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW AAKKQW AAKQW Allineamento #5: 4 punti; #6: 3 punti; #7: 1 punto.

Il nostro semplice algoritmo deve effettuare un numero di operazioni (numero di confronti fra coppie di lettere incolonnate) pari al prodotto delle lunghezze delle due sequenze. (nel nostro esempio 5 X 6 = 30 confronti ) Questa condizione viene indicata con l’espressione matematica O(nm) (Ordine di n per m) dove n e m sono le lunghezze delle due sequenze. Se le lunghezze sono uguali: O(n 2 ) (Ordine di n quadro)

Quanto più grandi sono n e m e quindi il numero di operazioni da eseguire tanto più lunghi saranno i tempi di calcolo del programma! Alcuni problemi di bioinformatica richiedono algoritmi più complessi come ad esempio O(n 3 ) o O(k n ) che spesso si traducono in tempi di calcolo così grandi da essere del tutto inutili in pratica. Gli algoritmi utili devono produrre risultati affidabili ma in tempi ragionevoli! Molti programmi sono soluzioni di compromesso fra le due esigenze.

Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE R K H Q E D N W T S F Y M I L A V C G P R – – Possiamo ad esempio creare una scala di punteggi di sostituzione dell’amminoacido arginina R, con se stesso e con tutti gli altri amminoacidi ordinati per somiglianza di proprietà chimico fisiche. Somiglianza decrescente con l’arginina punteggi (score) [ARBITRARI!]

Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE E’ necessario stabilire un punteggio (score) per ciascuna delle possibili sostituzioni amminoacidiche. Poiché gli amminoacidi sono 20 creeremo una matrice 20 x 20 (400 caselle) 20 sostituzioni identiche (cioè R con R, A con A ecc.) + 2 set equivaleni di 190 sostituzioni non identiche (cioè R con A, R con K ecc.)

ACDEFGHIKLMNPQRSTVWY AxA CxyC DD EE FyF GG HH II KK LL MM NN PP QQ RR SS TT VV WW YY ACDEFGHIKLMNPQRSTVWY

Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE Esistono matrici di score basati sulla: *** somiglianza di proprietà chimico fisiche *** *** probabilità di sostituzione di un codone con un altro *** *** probabilità di sostituzione di un aa con altri aa all’interno di allineamenti di famiglie di proteine omologhe (matrici PAM e BLOSUM) ***

per misurare la probabilità relativa di una particolare sostituzione, per esempio Asp => Glu, possiamo contare quanti Asp sono diventati Glu in allineamenti di sequenze omologhe. E’ comunque necessario evitare di considerare allineamenti in cui possano essere avvenuti sostituzioni multiple in determinate posizioni. Pertanto questi calcoli devono venire effettuati su coppie di sequenze MOLTO SIMILI tra loro, in modo da poter assumere che nessuna posizione è mutata più di una volta la divergenza di due sequenze si può misurare in PAM: 1 PAM = 1 Percent Accepted Mutation Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE PAM

Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE PAM PAM = percent accepted mutation Unità di misura dell’accumulo di mutazioni quindi della distanza evolutiva 2 sequenze hanno distanza evolutiva di 1 PAM se hanno accumulato l’1% di mutazioni Attenzione!!! Con l’accumularsi delle mutazioni le nuove mutazioni colpiscono siti già mutati pertanto per valori elevati di PAM la % di differenze amminoacidiche in due sequenze è inferiore al valore PAM Ad esempio PAM 100 non significa 100% di differenze aa ma 100 passi evolutivi ciascuno dei quali produce l’1% di mutazioni ed equivale a circa il 60% di differenze amminoacidiche (40% identità). PAM 250 equivale a circa l’ 80% di differenze amminoacidiche (20% identità).

Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE PAM Relazione tra la distanza evolutiva PAM e le differenze tra due sequenze proteiche PAM % di aa differenti

Calcolo degli score PAM La frequenza delle sostituzioni amminoacidiche viene calcolata in coppie di sequenze poco divergenti (1 PAM). Frequenze di sostituzioni amminoacidiche per sequenze più divergenti vengono calcolate a partire da queste, moltiplicando le matrici di sostituzione 1 PAM per se stesse, fino ad ottenere matrici PAM 250, corrispondenti a identità di sequenza del 20% PAM %id

C 12 G -3 5 P S A T D E N Q H K R V M I L F Y W C G P S A T D E N Q H K R V M I L F Y W PAM250

A C D E F G H I K L R –4 PAM120 R –3 PAM250 M N P Q R S T V W Y R –5 PAM120 R –4 PAM250 nel confronto tra la PAM120 e la PAM250, si vede come in generale diminuiscano le penalizzazioni associate a sostituzioni di qualsiasi tipo

Criteri oggettivi per misurare la similarità LE MATRICI DI SOSTITUZIONE BLOSUM Le matrici BLOSUM derivano dalla banca dati BLOCKS che contiene allineamenti multipli di sequenze proteiche prive di gap. Gli allineamenti vengono classificati in base alla minima percentuale di identità delle proteine nell’allineamento (P). Gli score Blosum vengono ricavati dalle frequenze di sostituzione delle varie coppie di aa all’interno di un dato allineamento. Un matrice ricavata da un allineamento con fattore P = xy prende il nome di BLOSUMxy

G 7 P -2 9 D E N H Q K R S T A M V I L F Y W C G P D E N H Q K R S T A M V I L F Y W C BLOSUM45

C 12 G -3 5 P S A T D E N Q H K R V M I L F Y W C G P S A T D E N Q H K R V M I L F Y W PAM250

La scelta della Matrice da usare è in primo luogo dipendente da quanto sono conservate le sequenze che stiamo indagando (identità elevate fra le sequenze) PAM100 Blosum90 PAM120 Blosum80 PAM160 Blosum60 PAM200 Blosum52 PAM250 Blosum45 (identità bassa fra le sequenze) % id ~ 20-50% id ~ 70-90% id ~50-70% id

Allineamenti con GAP Qualsiasi programma di allineamento non può trascurare la possibilità che nel corso dell’evoluzione si siano verificate inserzioni e delezioni. Tuttavia deve essere stabilito un limite al numero di gap che possono essere inseriti all’interno di un allineamento. Inoltre il criterio scelto deve essere trasformato in una forma matematica da implementare nell’algoritmo di allineamento.

Allineamenti con GAP Il criterio più utilizzato: Ad ogni gap è attribuito un punteggio negativo che viene ottenuto mediante somma algebrica di una penalità di apertura del gap (gap open penalty; “gop”) e una penalità di estenzione (gap extention penalty; “gep”) per ciascuna posizione in più nel gap. Ad esempio se: (gap open penalty) gop = -12 (gap extention penalty) gep = -4 Per un gap di 3 posizioni avremmo score = -12 –4 –4 = XXXXX---XXXXXXXX XXXXXXXXXXXXXXXXX In formula: Score = gop + gep*(len – 1) len = lungezza gap

CALCOLO DEL PUNTEGGIO DI ALLINEAMENTO --A 1 A 2 A 3 A 4 A A 6 A 7 A 8 A 9 A 10 ……A 220 A 221 AAAA BBB 1 B 2 B 3 B 4 B 5 BBBBB 6 B 7 B 8 B 9 B 10 ……B 220 B L = numero di coppie A/B incolonnate S(A i, B i ) = score della coppia iesima G = numero di Gap “interni” all’allineamento) len(j) = lunghezza del Gap jesimo

“DOT PLOT” Una soluzione alternativa al problema dei Gap DOROTHY HODGKIN DOROTHYCROWFOOTHODGKIN

Duplicazione intragenica

Confronto di una sequenza con se stessa: individuazione di duplicazioni intrageniche e repeats

Sequenza palindromica: MAX I STAY AWAY AT SIX AM

ACDEFGHIKKKAILDHQKTSV A C D E F G H I K L M N R E R S T V W Y