La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

WORKING WITH BIOSEQUENCES Alignments and similarity search.

Presentazioni simili


Presentazione sul tema: "WORKING WITH BIOSEQUENCES Alignments and similarity search."— Transcript della presentazione:

1 WORKING WITH BIOSEQUENCES Alignments and similarity search

2 IV LEZIONE Allineamento locale Ricerca di similarita BLAST

3 Allineamento locale. Perchè? Sequenze diverse possono presentare una o piu brevi regioni di similarità pur essendo diverse nelle restanti regioni. Queste potrebbero risultare non allineabili con un metodo per allineamento globale di sequenze. Esempio: –I geni Homeobox mostrano una regione di sequenza altamente conservata, codificante lHomeodominio, un dominio legante il DNA. –Un allineamento globale tra sequenze di fattori di trascrizione diversi con omeodominio potrebbe non individuare la corrispondente regione di similarità, mentre un allineamento locale risulta estremamente utile.

4 ALGORITMO DI SMITH & WATERMAN PER LALLINEAMENTO LOCALE Lo scopo degli algoritmi di allineamento locale di due sequenze e trovare la regione piu lunga della prima sequenza che produce un allineamento ottimale, dati certi parametri, con una regione della seconda.

5 ALGORITMO DI SMITH & WATERMAN PER LALLINEAMENTO LOCALE Anche il metodo di Smith and Waterman utilizza una matrice per comparare le due sequenze Il valore numerico contenuto in ciascuna cella rappresenta il punteggio dellallineamento locale che termina ai due residui corrispondenti I valori inferiori a 0 vengono posti a 0 Cosi, lidentificazione dei punteggi piu alti nella matrice permette di trovare i migliori allineamenti locali tra le due sequenze. Per misurare la bonta degli allineamenti si definiscono due funzioni: SIMILARITY SCORE dipende dal PUNTEGGIO PER IL MATCH di residui e dal numero di matches GAP PENALTY dipende dal numero e dalla lunghezza dei gaps

6 GAP PENALTY SIMILARITY SCORE MATCHES MISMATCHES GAPS CALCOLO DEL PUNTEGGIO PER UN ALLINEAMENTO Data una coppia di sequenze Sa e Sb Per ogni coppia di elementi a i e b j di Sa e Sb si definisce un punteggio s(a i,b j ) s(a i,b j ) = se a i = b j s(a i,b j ) = se a i b j, con > Ad ogni ogni gap viene assegnato un punteggio dato da: W k = + (k-1) Dove W k e una funzione lineare che assegna una penalita constante alla presenza del gap (, ad es. -10) e una penalita proporzionale alla lunghezza del gap meno uno. (gap opening penalty, GOP) (gap extension penalty, GEP) Il punteggio complessivo risultera: (s(a i,b j ) ) + ( W k )

7 ATTCCGAG | || A----GAC CALCOLO DEL PUNTEGGIO PER UN ALLINEAMENTO Sequenze:Possibile allineamento: ATTCCGAG AGAC Assegno i seguenti punteggi: Match: +2 Mismatch: -1 GOP: -5 GEP: -2 MATCHES33 x 2 = 6 MISMATCHES1 1 x –1 = -1 SIMILARITY SCORE 6 –1 = 5 GAPS1 (lungo 4 nucleotidi) GOP + GEP X 3 GOP-5 GEP-2 x 3 GAP PENALTY-5 + (3 x –2) = -11 PUNTEGGIO FINALE5 – 11 = -6

8 RICERCA DI SIMILARITÀ Una sequenza da sola non e informativa, deve essere analizzata comparativamente al contenuto dei database perche possano essere formulate delle ipotesi sulla sue relazioni evolutive con sequenze simili o sulla sua funzione. Domande cui si puo rispondere con una ricerca di similarita: Data una sequenza, ci sono cose simili nel database? Ho trovato un nuovo gene o una nuova proteina? Il gene ha somiglianze con qualche altro gene nella stessa specie o in altre specie? Fare ipotesi sulla funzione di una proteina Trovare le regione di sovrapposizione tra sequenze contigue Trovare la regione genomica codificante un trascritto Studiare levoluzione di popolazioni o specie

9 RICERCA DI SIMILARITÀ SIMILARITA ? OMOLOGIA OMOLOGIA proprieta di caratteri (sequenze) dovuta alla loro derivazione dallo stesso antenato comune SIMILARITA grado di somiglianza tra 2 sequenze La similarita osservata tra due sequenze PUO indicare che esse siano omologhe, cioe evolutivamente correlate La similarita e una proprieta quantitativa, si puo misurare Lomologia e una proprieta qualitativa, non si puo misurare. La similarita tra sequenze si osserva, lomologia tra sequenze si puo ipotizzare in base alla similarita osservata. Percentuale di similarita Ricerca di similarita

10 OMOLOGIA E OMOPLASIA Omologia similarita dovuta a derivazione dallo stesso antenato comune Omoplasia similarita dovuta a convergenza, stessa pressione selettiva su due linee evolutive puo condurre a caratteri simili ORTOLOGIA E PARALOGIA OMOLOGIA ANTENATO COMUNE ORTOLOGIAPARALOGIA PROCESSO DI SPECIAZIONEDUPLICAZIONE GENICA Descrivo le relazioni tra geni di una famiglia intraorganismo (paralogia) o tra diversi organismi (ortologia )

11

12 Dimensioni delle banche dati Ripetitività delle ricerche Lentezza degli algoritmi esatti Sistemi rapidi ma approssimati di allineamento Metodi euristici per lallineamento gli algoritmi esatti effettuano delle ricerche esaustive ed esplorano tutto lo spazio degli allineamenti possibili (programmazione dinamica) si tratta comunque di algoritmi di ordine n 2, ovvero per allineare due sequenze lunghe ognuna 1000 residui, effettuano 1000x1000 = un milione di confronti: troppo lenti!!!! la crescita esponenziale delle dimensioni delle banche dati di sequenze biologiche ha portato allo sviluppo di programmi (come FASTA e BLAST) in grado di effettuare velocemente ricerche di similarità, grazie a soluzioni euristiche che sono basate su assunzioni non certe, ma estremamente probabili. In pratica la ricerca è resa più veloce a scapito della certezza di avere veramente trovato la soluzione migliore.

13 BLAST Basic Local Alignment Search Tool (Altschul 1990) L algoritmo di BLAST e euristico e opera: 1Tagliando le sequenze da comparare in piccoli pezzi (parole) 2Ignorando tutte le coppie di parole (sequenza query/database) la cui comparazione da un punteggio inferiore ad un limite fissato 3Cercando di estendere tutte le hits rimanenti sino a che lallineamento locale raggiunge un certo punteggio Dati una SEQUENZA QUERY ed un DATABASE DI SEQUENZE, BLAST ricerca nel database parole di lunghezza almeno W con un punteggio di similarita di almeno T una volta allineate con la sequenza query (HSP, High Scoring Pairs). Le parole selezionate vengono estese, se possibile, fino a raggiungere un punteggio superiore a S oppure un E-value inferiore al limite specificato.

14

15 1- Seeding In sequenze di DNA W = 7 In sequenze proteiche W = 2-3

16 Two-hits algorithm Le word-hits tendono a clusterizzare lungo le diagonali Lalgoritmo two-hits richiede che le word-hits siano entro una distanza prestabilita

17 2 - Extension La fase successiva comporta lestensione dei seed Lestensione avviene in entrambe le direzioni Blast ha un meccanismo per decidere quando fermare lestensione

18 The quick brown fox jumps over the lazy dog ||| ||| ||||| | | || The quiet brown cat purrs when she sees him The quick brown fox jump ||| ||| ||||| | The quiet brown cat purr Evaluation Estensione verso destra >>>> Diamo punteggio +1 a ciascun match –1 a ciascun mismatch. Calcoliamo il drop off score a partire dal massimo raggiunto (punteggio 9). Quando il drop off raggiunge 5, si interrompe lestensione. Score -> drop off score ->

19 Il risultato di una ricerca di similarita e una lista dei migliori allineamenti, tra la sequenza query e le sequenze estratte dal database. La SIGNIFICATIVITA di ciascun allineamento si calcola come P value o E value P value e la probabilita di ottenere un allineamento con punteggio uguale o migliore di quello osservato Si calcola mettendo in relazione il punteggio osservato (S) con la distribuzione attesa di HSP quando si comparano sequenze random della stessa lunghezza e composizione di quella in analisi (query sequence) Piu il P value e vicino a 0 piu e significativo 2x e meglio do !!! E value e il numero atteso di allineamenti con punteggio uguale o migliore di quello osservato Piu e basso piu e buono

20 ATAGGGCACTTT-GCGATGA ** * *** ** ***** ATTGCCCACGTTCGCGATCG Sequenze allineate Osservazione Ipotesi alternative OMOLOGIA? CASO? Significatività di un allineamento

21 Allineamento (matrice Blosum62, gap=-11) Seq1 V D C - C Y Seq2 V E C L C Y Score Score = 20 Sequenze randomizzate Seq1 Seq2 C D V Y C C V Y L E C Sequenze originali Seq1 Seq2 V D C C Y V E C L C Y Allineamento (matrice Blosum62, gap=-11) Seq1 Seq2 C D V Y - C C V E Y L C Score = 9 Score Score allineamento (20) Distribuzione score casuali Frequenza Score Ripetere (es volte) salvando tutti i punteggi

22

23 Usare BLAST OPZIONI Sequenza querynucleotidica proteica (sequenza in formato FASTA, GenBank Accession numbers o GI numbers) Databasedatabase di seq. nucleotidiche database di seq. proteiche ProgrammaStandard BLAST (blastn) Standard protein BLAST (blastp) translated blast (blastx, tblastn, tblastx) MEGABLAST PSI-BLAST PHI-BLAST … Blast selection table

24 Usare BLAST database di seq. nucleotidiche nr All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences). No longer "non- redundant". est Database of GenBank+EMBL+DDBJ sequences from EST division. est_human est_mouse htgs Unfinished High Throughput Genomic Sequences yeast Saccharomyces cerevisiae genomic nucleotide sequences mito Database of mitochondrial sequences vector Vector subset of GenBank(R), NCBI, in month All new or revised GenBank+EMBL+DDBJ+PDB sequences alu Select Alu repeats from REPBASE, suitable for masking Alu repeats from query sequences. dbsts Database of GenBank+EMBL+DDBJ sequences from STS division. chromosome Searches Complete Genomes, Complete Chromosome, or contigs form the NCBI Reference Sequence project.

25 Usare BLAST PROGRAMMI Blastn Nucleotide query - Nucleotide db Blastp Protein query - Protein db Translating BLAST attraverso la traduzione concettuale della query sequence o dei database permette di comparare una sequenza nucleotidica con database di proteine o viceversa. Translated query - Protein db blastx Protein query - Translated db tblastn Translated query - Translated db tblastx MEGABLAST usa un algoritmo greedy (ingordo) veloce ed ottimizzato per comparare sequenze che differiscono poco Search for short nearly exact matches blastn con parametri scelti in modo da ottimizzare la ricerca di matches quasi esatti e brevi. Questi si trovano spesso per caso, percio utilizza alto E-value, piccola dimensione della parola e filtering PSI-BLAST Find members of a protein family or build a custom position- specific score matrix PHI-BLAST Find proteins similar to the query around a given pattern

26

27

28


Scaricare ppt "WORKING WITH BIOSEQUENCES Alignments and similarity search."

Presentazioni simili


Annunci Google