RICERCA DI SIMILARITA’ in DB

Slides:



Advertisements
Presentazioni simili
gruppi di amminoacidi in base alle catene laterali
Advertisements

RICERCA DI SIMILARITA’ IN BANCHE DATI
Allineamento di sequenze
I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.
Biologia computazionale
1) Algoritmi di allineamento 2) Algoritmi di ricerca in database
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
ALLINEAMENTI GLOBALI E LOCALI
FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990)
WORKING WITH BIOSEQUENCES Alignments and similarity search
SIMILARITA’ ? OMOLOGIA
Ricerca di similarità di sequenza (FASTA e BLAST)
Tipi di allineamenti.
I programmi di ricerca in banche dati possono essere
BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze.
A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.
Purtroppo non esiste un modo univoco per indicare un gene
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
III LEZIONE Allineamento di sequenze
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Allineamento di sequenze
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
ALLINEAMENTO DI SEQUENZE
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Prof.
Programmi per l’ALLINEAMENTO DELLE SEQUENZE La creazione di programmi per l’allineamento delle sequenze richiede la definizione di: *** Un criterio oggettivo.
VETTORI: DEFINIZIONI Se ad una grandezza fisica G si associa una direzione ed un verso si parla di vettori: ✔ Le grandezze fisiche possono essere di due.
DISEQUAZIONI DI SECONDO GRADO INTERE Un approccio al METODO GRAFICO di risoluzione.
RICERCA DI SIMILARITA’ in DB Problema: identificare all’interno di una banca dati di sequenze quelle sequenze che sono più simili ad una sequenza di nostro.
CALENDARIO LEZIONI AGGIORNATO
La chimica della vita Ogni organismo vivente è una macchina sofisticata, risultato di un complesso insieme di reazioni chimiche. La costruzione e il funzionamento.
RNS_BOVIN ANG1_MOUSE TPA_HUMAN UROK_HUMAN
CALENDARIO LEZIONI AGGIORNATO
Definizioni: genoma trascrittoma proteoma.
Fotogrammetria - Lezione 3
MANOVRA IN ACQUE RISTRETTE
ESERCITAZIONI ANTROPOLOGIA
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docente: Prof. Stefania Bortoluzzi.
Termini CINAHL/MeSH su EBSCOhost
Applicazioni Bioinformatiche in Ambiente Grid
LA GESTIONE DEI PACCHETTI
FORMULE E FUNZIONI SU EXCEL
Servizi web per la bioinformatica strutturale
Abbiamo visto che un algoritmo che esplora tutti i possibili allineamenti tra due sequenze di lunghezza n, è un algoritmo di ordine n2 considerando anche.
LEZIONE 6 BLAST e applicazioni speciali
WORKING WITH BIOSEQUENCES Alignments and similarity search
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Prof.
WORKING WITH BIOSEQUENCES Alignments and similarity search
BootCaT: Bootstrapping Corpora and Terminology
WORKING WITH BIOSEQUENCES Alignments and similarity search
Il sistema di numerazione decimale
LEZIONE 4 Allineamento di sequenze nucleotidiche e proteiche
32 = 9 x2 = 9 x = 3 32 = 9 √9 = 3 L’estrazione di radice
Definizioni: genoma trascrittoma proteoma.
L'ATOMO. ATOMO: è la più piccola parte di un elemento che ne conserva le proprietà. MOLECOLA: è la più piccola particella di una sostanza che ne conserva.
L'ATOMO. ATOMO: è la più piccola parte di un elemento che ne conserva le proprietà. MOLECOLA: è la più piccola particella di una sostanza che ne conserva.
ATOMO: è la più piccola parte di un elemento che ne conserva le proprietà. MOLECOLA: è la più piccola particella di una sostanza che ne conserva tutte.
Esercitazione sulle modalità
Il processo di ricombinazione omologa consiste nello scambio di sequenze di DNA tra molecole che contengono sequenze identiche o quasi. La regione in comune.
Excel 3 - le funzioni.
Programmi per l’ALLINEAMENTO DELLE SEQUENZE
CONFRONTO DI SEQUENZE Una delle analisi più informative che si possano compiere utilizzando sequenze nucleotidiche o amminoacidiche è il CONFRONTO FRA.
Transcript della presentazione:

RICERCA DI SIMILARITA’ in DB Problema: identificare all’interno di una banca dati di sequenze quelle sequenze che sono più simili ad una sequenza di nostro interesse (“query”). Soluzione: Allineare la sequenza di interesse (“query”) a tutte le sequenze del DB (sequenze “subject”) e individuare gli allineamenti migliori. L’algoritmo di Smith-Waterman impiega da centesimi a decimi di secondo per ogni allineamento. Se il DB contiene milioni di sequenze saranno necessarie decine o centinaia di migliaia di secondi, cioè alcuni giorni!!!

RICERCA DI SIMILARITA’ in DB: FASTA (di Lipman e Pearson) FASTA velocizza la ricerca utilizzando un strategia di “indicizzazione delle parole”: la sequenza query viene spezzetata in parole di 2 o 3 amminoacidi o 6 nucleotidi. La lunghezza delle parole è definita “k-tuple” (“ktup”). Ad esempio se ktup = 2 il numero di parole amminoacidiche è 20x20 cioè 400. Se ktup = 3 il numero di parole amminoacidiche è 20x20x20 cioè 8000. Il programma crea un indice con tutte le “parole” contenute nella sequenza query. DVVHKILLAPERDDKVLAFV

FASTA seleziona dal database solo le sequenze che contengono parole comprese nell’indice creato a partire dalla query. Quindi vengono create matrici dot plot di identità QUERY SUBJECT

FASTA seleziona le diagonali con più parole identiche quindi per queste diagonali calcola i punteggi utilizzando le matrici PAM e BLOSUM. Vengono tenute solo le sequenze che danno i punteggi più alti. QUERY SUBJECT

FASTA allunga le regioni in diagonale congiungendo le parole che si trovano sulla stessa diagonale. QUERY SUBJECT

FASTA congiunge le regioni che si trovano su diagonali diverse mediante gap. QUERY SUBJECT

L V A I S N G T D H E Q K F R

L V A I S N G T D H E Q K F R

L V A I S N G T D H E Q K F R

FASTA esegue l’algoritmo Smith Waterman solo per le sequenze per le quali è stato possibile creare questo allineamento iniziale e non considerando l’intera matrice dot plot ma solo una stretta fascia attorno all’allineamento iniziale. QUERY SUBJECT

L V A I S N G T D H E Q K F R x y x y x y x y x y x y x y x y x y x y

L’analisi di FASTA quindi è approssimata: Se il valore di ktup è elevato l’analisi è più veloce ma alcune sequenze omologhe possono essere perse. Ad esempio se ktup = 3 proteine omologhe alla sequenza query ma che non hanno conservato alcuni tripeptidi identici a quelli nella query verranno scartate fin dai primi stadi. Pertanto l’analisi è più precisa usando ktup = 2 o addirittura ktup = 1 se la versione del programma lo consente. L’allineamento fornito da FASTA non è il migliore in assoluto perché l’algoritmo di Smith Waterman viene applicato solo ad una fascia della matrice dot plot

RICERCA DI SIMILARITA’ in DB: (Basic Local Alignment Search Tool) BLAST (Basic Local Alignment Search Tool) BLAST come FASTA velocizza la ricerca utilizzando un strategia di “indicizzazione delle parole”: la sequenza query viene spezzetata in parole (“W-mers”). La lunghezza delle parole è definita “W” (solitamente = 3). La differenza rispetto a FASTA è che per ogni W-mer viene presa in considerazione una lista di parole affini. Viene anche calcolato un punteggio di similarità dei W-mers e tutti i W-mers che hanno uno score superiore ad una soglia arbitraria (detta “T”) vengono inseriti nell’indice dei W-mers della query.

Word (W = 3) query KQLVVAISNVGTDTLSHLEAQNKIKSASHNLSLTQKSKL LSH 16 ISH 14 MSH 14 VSH 13 LAH 13 LTH 13 LNH 13 FSH 12 LDH 12 ... Score calcolati utilizzando le matrici PAM o Blosum Parole affini Soglia (T=13)

Query: LVVAISNVGTDTLSHLEAQNKIKSASHNLSLTQKSKL A partire dalla parola allineata Blast estende l’allineamento a monte e a valle aggiornando continuamente il punteggio di allineamento e generando così allineamenti locali “ungapped” (High scoring segment pair - HSP). Blast non introduce gap nell’allineamento, ma può tollerare alcuni residui che danno punteggio negativo. Il parametro “X” stabilisce quanto lunghi possano essere i segmenti che non aumentano lo score ma lo fanno invece diminuire. Query: LVVAISNVGTDTLSHLEAQNKIKSASHNLSLTQKSKL +++AIS GT+++SH +AQ++IK+AS +L L + +++ Subjct: VILAISGFGTESMSHADAQDRIKAASYQLCLKIDRAE High scoring segment pair (HSP)

Riassumendo, i parametri fondamentali di BLAST sono: W = Lunghezza delle parole in cui viene scomposta la seq. query T = La soglia di punteggio al di sotto della quale due parole non sono più considerate equivalenti S = Score al di sopra del quale un HSP è considerato significativo e restituito all’utente X = Misura di quanto possano essere tolleratati segmenti con score negativi

BLAST effettua anche una utilissima analisi statistica dei risultati. In particolare fornisce all’utente un valore definito “E” (“Expected”) che è il numero di HSP casuali con punteggio uguale al nostro HSP che ci si può aspettare di trovare nel DB che abbiamo esplorato. Ad esempio se BLAST fornisce un HSP con score S = 54 ed E = 2 vuol dire che date le dimensioni del database scelto e della nostra sequenza possiamo aspettarci di trovare circa due HSP che danno un punteggio S = 54 per ragioni puramente casuali. Più è basso il valore di E più è affidabile il risultato! Ovviamente vengono considerati significativi solo HSP con valori di E inferiori ad 1 in particolare sono in genere considerati affidabili risultati con valori di E < 0.05.

Esiste una variante di BLAST (“gapped Blast”) che estendendo gli HSP a monte e a valle inserisce anche gap. Gapped Blast è più lento di Blast! Varianti di BLAST: BLASTP cerca in un DB di proteine una sequenza query proteica BLASTN cerca in un DB di nucleotidi una sequenza query nucleotidica BLASTX cerca in un DB di proteine una sequenza query nucleotidica dopo averla tradotta nelle sei possibili orf TBLASTN cerca in un DB di nucleotidi tradotto nelle sei possibili orf una sequenza query proteica TBLASTX cerca in un DB di nucleotidi tradotto nelle sei possibili orf una sequenza query nucleotidica dopo averla tradotta nelle sei possibili orf

Varianti di BLAST PSI-BLASTP (Position Specific Iterated BLAST) Sfrutta la proprietà transitiva della omologia. Facendo ricerche per omologia è probabile che non si riesca ad identificare le sequenze omologhe ma molto distanti dal punto di vista evolutivo. In teoria identificato un set di proteine omologhe alla sequenza query si potrebbe ripetere la ricerca utilizzando tutte le proteine dell’elenco come query per nuove ricerche di omologia. Poiché questo richiederebbe tempi lunghissimi PSI-BLAST sfrutta uno stratagemma che riduce i tempi di calcolo: Trovato un set di proteine simili alla query sequence genera una sorta di sequenza consenso o pattern di amminoacidi che utilizza in un secondo ciclo come nuova query per ricercare nel database. Se vengono trovate nuove sequenze significative il consenzo/pattern viene aggiornato e si può partire con un terzo ciclo di ricerca. Il processo può continuare fino alla convergenza (cioè non aumenta il numero di sequenze trovate).

FASTA cerca allineamenti globali pertanto individua più efficacemente proteine omologhe in cui residui identici e simili sono completamente sparpagliati su regioni molto ampie (come ad esempio l’intero allineamento) BLAST individua molto più efficacemente regioni locali ben conservate (ad esempio segmenti amminoacidici imortanti per il folding, la formazione del sito catalitico etc.)