RICERCA DI SIMILARITA’ in DB Problema: identificare all’interno di una banca dati di sequenze quelle sequenze che sono più simili ad una sequenza di nostro.

Slides:

Advertisements

Presentazioni simili

gruppi di amminoacidi in base alle catene laterali

Advertisements

RICERCA DI SIMILARITA’ IN BANCHE DATI

Allineamento di sequenze

I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.

Biologia computazionale

1) Algoritmi di allineamento 2) Algoritmi di ricerca in database

Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

ALLINEAMENTI GLOBALI E LOCALI

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990)

WORKING WITH BIOSEQUENCES Alignments and similarity search

Ricerca di similarità di sequenza (FASTA e BLAST)

Tipi di allineamenti.

I programmi di ricerca in banche dati possono essere

BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze.

A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.

Esempio di utilizzo del programma BLAST disponibile all’NCBI

A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

III LEZIONE Allineamento di sequenze

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

Allineamento di sequenze

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

ALLINEAMENTO DI SEQUENZE

Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.

Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.

---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.

Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.

Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.

Programmi per l’ALLINEAMENTO DELLE SEQUENZE La creazione di programmi per l’allineamento delle sequenze richiede la definizione di: *** Un criterio oggettivo.

Elaborazione delle Immagini Operatori Puntuali Luigi Cinque

Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa.

Product Quantization for Nearest Neighbor search.

CALENDARIO LEZIONI AGGIORNATO

La chimica della vita Ogni organismo vivente è una macchina sofisticata, risultato di un complesso insieme di reazioni chimiche. La costruzione e il funzionamento.

Effetto scuola o Valore aggiunto

RNS_BOVIN ANG1_MOUSE TPA_HUMAN UROK_HUMAN

CALENDARIO LEZIONI AGGIORNATO

Definizioni: genoma trascrittoma proteoma.

Fotogrammetria - Lezione 3

Come cercare le fonti di informazione scientifica RISORSE

ESERCITAZIONI ANTROPOLOGIA

A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docente: Prof. Stefania Bortoluzzi.

Termini CINAHL/MeSH su EBSCOhost

Applicazioni Bioinformatiche in Ambiente Grid

Classe 1 Sportivo Collegio Castelli

Excel 1 - Introduzione.

La frazione come numero razionale assoluto

FORMULE E FUNZIONI SU EXCEL

Servizi web per la bioinformatica strutturale

La Statistica Istituto Comprensivo “ M. G. Cutuli”

Abbiamo visto che un algoritmo che esplora tutti i possibili allineamenti tra due sequenze di lunghezza n, è un algoritmo di ordine n2 considerando anche.

LEZIONE 6 BLAST e applicazioni speciali

WORKING WITH BIOSEQUENCES Alignments and similarity search

A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Prof.

WORKING WITH BIOSEQUENCES Alignments and similarity search

BootCaT: Bootstrapping Corpora and Terminology

WORKING WITH BIOSEQUENCES Alignments and similarity search

LEZIONE 4 Allineamento di sequenze nucleotidiche e proteiche

Confronto tra diversi soggetti:

32 = 9 x2 = 9 x = 3 32 = 9 √9 = 3 L’estrazione di radice

Definizioni: genoma trascrittoma proteoma.

La Fabbrica delle Proteine

Algoritmi e Strutture Dati

Esercitazione sulle modalità

Il processo di ricombinazione omologa consiste nello scambio di sequenze di DNA tra molecole che contengono sequenze identiche o quasi. La regione in comune.

Excel 3 - le funzioni.

Ricerca 01/08/2019 package.

Programmi per l’ALLINEAMENTO DELLE SEQUENZE

RICERCA DI SIMILARITA’ in DB

CONFRONTO DI SEQUENZE Una delle analisi più informative che si possano compiere utilizzando sequenze nucleotidiche o amminoacidiche è il CONFRONTO FRA.

Transcript della presentazione:

RICERCA DI SIMILARITA’ in DB Problema: identificare all’interno di una banca dati di sequenze quelle sequenze che sono più simili ad una sequenza di nostro interesse (“query”). Soluzione: Allineare la sequenza di interesse (“query”) a tutte le sequenze del DB (sequenze “subject”) e individuare gli allineamenti migliori. L’algoritmo di Smith-Waterman impiega da centesimi a decimi di secondo per ogni allineamento. Se il DB contiene milioni di sequenze saranno necessarie decine o centinaia di migliaia di secondi, cioè alcuni giorni!!!

RICERCA DI SIMILARITA’ in DB: FASTA (di Lipman e Pearson) FASTA velocizza la ricerca utilizzando un strategia di “indicizzazione delle parole”: la sequenza query viene spezzetata in parole di 2 o 3 amminoacidi o 6 nucleotidi. La lunghezza delle parole è definita “k-tuple” (“ktup”). Ad esempio se ktup = 2 il numero di parole amminoacidiche è 20x20 cioè 400. Se ktup = 3 il numero di parole amminoacidiche è 20x20x20 cioè Il programma crea un indice con tutte le “parole” contenute nella sequenza query. DVVHKILLAPERDDKVLAFV

FASTA seleziona dal database solo le sequenze che contengono parole comprese nell’indice creato a partire dalla query. Quindi vengono create matrici dot plot di identità QUERY SUBJECT

FASTA seleziona le diagonali con più parole identiche quindi per queste diagonali calcola i punteggi utilizzando le matrici PAM e BLOSUM. Vengono tenute solo le sequenze che danno i punteggi più alti. QUERY SUBJECT

FASTA allunga le regioni in diagonale congiungendo le parole che si trovano sulla stessa diagonale. QUERY SUBJECT

FASTA congiunge le regioni che si trovano su diagonali diverse mediante gap. QUERY SUBJECT

LVVAISNVGTDTLSHLEAQNKIKS L V L A I S G F G T E S H A D A Q D R I K A F R

LVVAISNVGTDTLSHLEAQNKIKS V V L A I S G F G T E S H A D A Q D R I K A F R

LVVAISNVGTDTLSHLEAQNKIKS V V L A I S G F G T E S H A D A Q D R I K A F R

FASTA esegue l’algoritmo Smith Waterman solo per le sequenze per le quali è stato possibile creare questo allineamento iniziale e non considerando l’intera matrice dot plot ma solo una stretta fascia attorno all’allineamento iniziale. QUERY SUBJECT

LVVAISNVGTDTLSHLEAQNKIKS V V L A I S G F G T E S H A D A Q D R I K A F R xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy xyxy

L’analisi di FASTA quindi è approssimata: Se il valore di ktup è elevato l’analisi è più veloce ma alcune sequenze omologhe possono essere perse. Ad esempio se ktup = 3 proteine omologhe alla sequenza query ma che non hanno conservato alcuni tripeptidi identici a quelli nella query verranno scartate fin dai primi stadi. Pertanto l’analisi è più precisa usando ktup = 2 o addirittura ktup = 1 se la versione del programma lo consente. L’allineamento fornito da FASTA non è il migliore in assoluto perché l’algoritmo di Smith Waterman viene applicato solo ad una fascia della matrice dot plot

RICERCA DI SIMILARITA’ in DB: BLAST (Basic Local Alignment Search Tool) BLAST come FASTA velocizza la ricerca utilizzando un strategia di “indicizzazione delle parole”: la sequenza query viene spezzetata in parole (“W-mers”). La lunghezza delle parole è definita “W” (solitamente = 3). La differenza rispetto a FASTA è che per ogni W-mer viene presa in considerazione una lista di parole affini. Viene anche calcolato un punteggio di similarità dei W-mers e tutti i W-mers che hanno uno score superiore ad una soglia arbitraria (detta “T”) vengono inseriti nell’indice dei W-mers della query.

KQLVVAISNVGTDTLSHLEAQNKIKSASHNLSLTQKSKL query Word (W = 3) LSH 16 ISH 14 MSH 14 VSH 13 LAH 13 LTH 13 LNH 13 FSH 12 LDH Parole affini Soglia (T=13) Score calcolati utilizzando le matrici PAM o Blosum

A partire dalla parola allineata Blast estende l’allineamento a monte e a valle aggiornando continuamente il punteggio di allineamento e generando così allineamenti locali “ungapped” (High scoring segment pair - HSP). Blast non introduce gap nell’allineamento, ma può tollerare alcuni residui che danno punteggio negativo. Il parametro “X” stabilisce quanto lunghi possano essere i segmenti che non aumentano lo score ma lo fanno invece diminuire. Query: LVVAISNVGTDTLSHLEAQNKIKSASHNLSLTQKSKL +++AIS GT+++SH +AQ++IK+AS +L L Subjct: VILAISGFGTESMSHADAQDRIKAASYQLCLKIDRAE High scoring segment pair (HSP)

Riassumendo, i parametri fondamentali di BLAST sono: W =Lunghezza delle parole in cui viene scomposta la seq. query T =La soglia di punteggio al di sotto della quale due parole non sono più considerate equivalenti S =Score al di sopra del quale un HSP è considerato significativo e restituito all’utente X =Misura di quanto possano essere tolleratati segmenti con score negativi

BLAST effettua anche una utilissima analisi statistica dei risultati. In particolare fornisce all’utente un valore definito “E” (“Expected”) che è il numero di HSP casuali con punteggio uguale al nostro HSP che ci si può aspettare di trovare nel DB che abbiamo esplorato. Ad esempio se BLAST fornisce un HSP con score S = 54 ed E = 2 vuol dire che date le dimensioni del database scelto e della nostra sequenza possiamo aspettarci di trovare circa due HSP che danno un punteggio S = 54 per ragioni puramente casuali. Più è basso il valore di E più è affidabile il risultato! Ovviamente vengono considerati significativi solo HSP con valori di E inferiori ad 1 in particolare sono in genere considerati affidabili risultati con valori di E < 0.05.

Esiste una variante di BLAST (“gapped Blast”) che estendendo gli HSP a monte e a valle inserisce anche gap. Gapped Blast è più lento di Blast! Varianti di BLAST: BLASTPcerca in un DB di proteine una sequenza query proteica BLASTN cerca in un DB di nucleotidi una sequenza query nucleotidica BLASTX cerca in un DB di proteine una sequenza query nucleotidica dopo averla tradotta nelle sei possibili orf TBLASTN cerca in un DB di nucleotidi tradotto nelle sei possibili orf una sequenza query proteica TBLASTXcerca in un DB di nucleotidi tradotto nelle sei possibili orf una sequenza query nucleotidica dopo averla tradotta nelle sei possibili orf

Varianti di BLAST PSI-BLASTP(Position Specific Iterated BLAST) Sfrutta la proprietà transitiva della omologia. Facendo ricerche per omologia è probabile che non si riesca ad identificare le sequenze omologhe ma molto distanti dal punto di vista evolutivo. In teoria identificato un set di proteine omologhe alla sequenza query si potrebbe ripetere la ricerca utilizzando tutte le proteine dell’elenco come query per nuove ricerche di omologia. Poiché questo richiederebbe tempi lunghissimi PSI-BLAST sfrutta uno stratagemma che riduce i tempi di calcolo: Trovato un set di proteine simili alla query sequence genera una sorta di sequenza consenso o pattern di amminoacidi che utilizza in un secondo ciclo come nuova query per ricercare nel database. Se vengono trovate nuove sequenze significative il consenzo/pattern viene aggiornato e si può partire con un terzo ciclo di ricerca. Il processo può continuare fino alla convergenza (cioè non aumenta il numero di sequenze trovate).

FASTA cerca allineamenti globali pertanto individua più efficacemente proteine omologhe in cui residui identici e simili sono completamente sparpagliati su regioni molto ampie (come ad esempio l’intero allineamento) BLAST individua molto più efficacemente regioni locali ben conservate (ad esempio segmenti amminoacidici imortanti per il folding, la formazione del sito catalitico etc.)