FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990)

Slides:



Advertisements
Presentazioni simili
Misure ed Errori Prof Valerio CURCIO.
Advertisements

Allineamento Pairwise e Multiplo di Bio-Sequenze.
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
gruppi di amminoacidi in base alle catene laterali
RICERCA DI SIMILARITA’ IN BANCHE DATI
Allineamento di sequenze
1 Istruzioni, algoritmi, linguaggi. 2 Algoritmo per il calcolo delle radici reali di unequazione di 2 o grado Data lequazione ax 2 +bx+c=0, quali sono.
I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.
Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_ Kinasi PROT_ Fosfatasi PROT_ Prot di.
Gli Indici di Produttività di Divisia
Capitolo 4 Ordinamento Algoritmi e Strutture Dati.
I Sistemi Lineari Molti, problemi per poter essere risolti, hanno bisogno dell’introduzione di uno o più elementi incogniti. Ad esempio consideriamo il.
Sistemi di equazioni lineari
Biologia computazionale
07/04/2003Algoritmi Ricerca in una sequenza di elementi Data una sequenza di elementi, occorre verificare se un elemento fa parte della sequenza oppure.
Cenni di teoria degli errori
1) Algoritmi di allineamento 2) Algoritmi di ricerca in database
Entrez + MedLine => PubMed
Modulo 7 – reti informatiche u.d. 3 (syllabus – )
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Algoritmi di String Matching
ALLINEAMENTI GLOBALI E LOCALI
Elementi di Informatica di base
Allineamenti multipli
Software per la Bioinformatica
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
WORKING WITH BIOSEQUENCES Alignments and similarity search
SIMILARITA’ ? OMOLOGIA
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
Ricerca di similarità di sequenza (FASTA e BLAST)
Tipi di allineamenti.
I programmi di ricerca in banche dati possono essere
BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze.
BIOINFO3 - Lezione PARSING RISULTATI DI BLAST Nella lezione di ieri abbiamo visto come automatizzare lesecuzione di BLAST. Oggi proviamo.
Tutorial per l’utilizzo di k ScanProsite
ALGORITMI a.
A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.
I FRATTALI Frattale di Mandebrot
PERCEZIONE Processo psicologico di creazione di un’immagine interna del mondo esterno.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
GLI ALGORITMI VISIBILE SUL BLOG INFORMATICA ANNO SCOLASTICO 2013 / 2014 GABRIELE SCARICA 2°T.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Misure ed Errori.
A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.
Purtroppo non esiste un modo univoco per indicare un gene
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
III LEZIONE Allineamento di sequenze
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
WORKING WITH BIOSEQUENCES Alignments and similarity search.
Allineamento di sequenze
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
ALLINEAMENTO DI SEQUENZE
GLI ALGORITMI DI ORDINAMENTO
“ Pseudocodice ” Un programma per computer lavorerà su in insieme di “ variabili ” contenenti i dati del problema, soluzioni intermedie, soluzioni finali.
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Campionamento.
Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:
Tecniche di Gestione della Qualità Prof. Alessandro Ruggieri Prof. Enrico Mosconi A.A
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Prof.
RICERCA DI SIMILARITA’ in DB Problema: identificare all’interno di una banca dati di sequenze quelle sequenze che sono più simili ad una sequenza di nostro.
CALENDARIO LEZIONI AGGIORNATO
WORKING WITH BIOSEQUENCES Alignments and similarity search
RICERCA DI SIMILARITA’ in DB
Transcript della presentazione:

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca per similarità rapida anche se meno accurata contro le migliaia di sequenze depositate. Attualmente i programmi più utilizzati sono: FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990)

FASTA L’algoritmo implementato in FASTA si basa su una strategia di INDICIZZAZIONE delle parole: la proteina QUERY viene spezzettata in parole di lunghezza ktup (k-tuples) e la query viene così indicizzata (cioè si memorizzano solo gli indici, non la coppia). TFDERILGVQQTFWECIKGD 1.TF 2.FD ktup = 2 3.DE 4.ER 5.RI 6.IL 7.LG ...... 20.GD Maggiore è il valore ktup più rapida e meno accurata sarà la ricerca. Per una proteina a ktup = 2 potrò avere al massimo 202 = 400 combinazioni, sempre.

Ogni SUBJECT della banca dati viene consultata allo stesso modo, ma anzichè indicizzarla, viene consultato l’indice della query per vedere se e dove si posiziona il match, e viene memorizzata la diagonale corrispondente (indice della query –indice della subject). Se alla riga successiva della matrice, cioè alla parola successiva della subject, c’è corrispondenza sulla stessa diagonale, la parola viene memorizzata e quindi man mano si allunga la diagonale. ------------- QUERY ---------------- -----SUBJECT----- 1 2 3 4 5 6 7 8 9 -1 -2 -3 -4 Considerando una matrice di sostituzione, vengono riconosciute le migliori diagonali come i segmenti più lunghi e che totalizzano quindi lo score maggiore.

Il programma ripete queste operazioni per ogni subject della banca dati, identificando le Best Initial Regions i cui punteggi sono chiamati Init1. Con questi fa una graduatoria per decidere su quante e quali sequenze procedere. La scelta delle subject più adatte è stata fatta. Da ora procede con un numero molto minore di proteine subject. Ora il programma cerca di congiungere ogni best initial region della subject confermata utilizzando i parametri di penalty per i gaps. Le regioni vengono allungate e avranno un nuovo score, detto InitN. Alla fine tutta la regione della subject riconosciuta come simile viene allineata mediante l’algoritmo di Smith e Waterman, tenendo una finestra di analisi intorno alla diagonale principale abbastanza stretta (< 20 residui). Lo score definitivo è definito Opt.

Fase 2 : Calcolo degli Init1, generazione delle bits Query Query Subject Subject Fase 1 : Indicizzazione Fase 2 : Calcolo degli Init1, generazione delle bits Query Query Subject Subject Fase 3 :Definizione delle sequenze da approfondire, calcolo degli InitN Fase 4 : Smith-Waterman (Opt)

BLAST E’ basato anch’esso sull’indicizzazione delle parole, ma l’utilizzo degli indici è poi molto diverso. L’algoritmo è diviso in tre parti: 1- Creazione di un elenco di parole di lunghezza W dalla query e creazione di w-mers, cioè parole di lunghezza W che diano, secondo una matrice di sostituzione uno score > T se allineati sulla query stessa. TFDER LSH GVQQTFWECIKGD w = 3 t = 13 VSH = 16 ISH = 14 LAH = 13 Per ogni parola vengono generati anche tutti i possibili w-mers, quindi ci sono molte più parole che in FASTA. LTH = 13 LSH = 13

2 - Ricerca di hits in banca dati per ogni w-mer, segnando ogni volta che un match è stato trovato e che la corrispondenza è alla parola, non al suo w-mer. Ottengo così una lista di proteine in cui è stata trovata una corrispondenza con i frammenti della query. 3 - Estensione di ogni hit verso entrambe le direzioni senza inserimento di gap, finchè il loro score non scende sotto S. Si ottengono regioni dette HSP (High-scoring Segment Pair). In realtà anche se lo score scende sotto S, ma solo per alcuni residui, e poi risale, l’HSP può ancora allungarsi. Il parametro X dice la quantità di perdita di score massima tollerabile se si prosegue con l’allungamento dell’HSP. Query:83 LMVAISNVGTDTLSHLEAQNKIKSASHNLSLTLQKSK +++AIS GT+++SH +AQ++IK+AS+ L L + ++ Subject:48 VILAISGFGTESMSHADAQDRIKAASYQLCLKIDRAE HSP

BLAST ha dunque 4 parametri fondamentali: W: word size, maggiore è il numero, minore è il numero di parole generate, minore è il tempo di esecuzione. Ma la sensibilità decresce sensibilmente. T: threshold, minore è il numero, maggiore è il numero di w-mers inclusi nella lista, maggiore è il tempo di esecuzione. Si ha però un incremento di sensibilità. S: score, minore è il numero, maggiore sarà la lunghezza degli HSP X: maggiore è il numero, più estesamente sarà osservato l’intorno di una HSP, aumentando il tempo di esecuzione.

BLAST è stato recentemente implementato con un two-hit method, che prevede che l’estensione delle HSP possa avvenire solo se due hits indipendenti si verifichino entro un numero di residui A, senza gaps in mezzo. La potenza di BLAST sta nella sua base statistica che permette di dire quanto accurati sono i suoi risultati: dato un S in fatti è possibile prevedere quanti HSP si verificheranno in una banca dati della stessa grandezza di quella vera ma composta da proteine casuali. Questo numero è definito E (expected) => è molto più semplice pensare in termini di E che non in termini di S, quindi in realtà non si imposta S ma E, ed S viene calcolato automaticamente, rispattando una complessa relazione statistica tra i due valori. Tenendo E molto basso, si è quasi certi di avere solo allineamenti significativi.

Varie versioni di BLAST blastp: cerca similarità in banche dati proteiche a partire da un a query di amino acidi. blastn: cerca similarità in banche dati di nucleotidi a partire da una query di nucleotidi. blastx: cerca similarità in banche dati proteiche a partire da una query di nucleotidi che viene tradotta in tutti i frame. tblastn: cerca similarità in banche dati di nucleotidi a partire da una query di amino acidi, traducendo in amino acidi tutti i subject della banca dati, in tutti frame. tblastx: cerca similarità in banche dati di nucleotidi a partire da una query di nucleotidi, traducendo in amino acidi tutti i subject della banca dati

gapped-blast: porta avanti la fase di estensione delle HSP considerando la possibilità di inserzione dei gap. PSI-BLAST: effettua una ricerca iterativa utilizzando le HSP per generare dei profili caratteristicio della query. PHI-BLAST: estensione di PSI-BLAST per la ricerca in banca dati di pattern proteici più che di query esatte. BL2SEQ: adattamento di blast per l’allineamento a coppie MegaBLAST: può concatenare molte queries tra loro per minimizzare il tempo di esecuzione dovuto a sequenze query troppo lunghe (è adatto a sequenze nucleotidiche molto simili tra loro)

Meglio FASTA o BLAST ? Gli algoritmi di Blast e Fasta sono simili come strategia, ma molto diversi nei contenuti. Il fatto che Fasta indicizzi le query in modo esatto lo porta a ridurre di molto il numero di subject su cui lavorerà in seguito, e questo è una tappa limitante che Blast non ha grazie ai w-mers. Però Blast crea i w-mers basati su una matrice quindi può accadere che match esatti diano meno score S di match non esatti: es. secondo la Blosum62 - il match perfetto AIS-AIS dà score 12 - lo score inesatto LSH-MSH dà score 14 => il secondo è premiato più del primo

Anche se questa regola è un po’ troppo arbitraria... Per ricerche in banche dati nucleotidiche, l’indicizzazione in w-mers ha poca rilevanza. Inoltre il valore w di default di Blast per i nucleotidi è 11, il che lo porta a non riconoscere sequenze che condividano in modo esatto meno di 11 basi, è questo è un limite grosso. Fasta è molto più tollerante per sequenze che presentano gaps, visto che già nelle prime fasi prevede il loro inserimento, mentre Blast li inserisce solo in fase di allungamento. FASTA è più adatto a ricerche in banche dati nucleotidiche BLAST è più adatto a ricerche in banche dati proteiche Anche se questa regola è un po’ troppo arbitraria...

FASTA BLAST http://www.ebi.ac.uk/fasta33/ http://www.ncbi.nlm.nih.gov/BLAST/