LEZIONE 6 BLAST e applicazioni speciali

LEZIONE 6 BLAST e applicazioni speciali

BLAST - definizione Acronimo per Basic Local Alignment Search Tool
Definito per la prima volta da Altschul et al. 1990 Si tratta di un vero e proprio articolo «storico» che ad oggi è stato citato quasi 65mila volte in letteratura, il che riesce a dare un’idea della sua importanza in campo biologico

Schema che riassume il funzionamento dell’algoritmo Vedremo nel dettaglio i vari passaggi nelle prossime slides Ha alcuni punti in comune con FASTA, ma altri lo rendono estremamente diverso e maggiormente versatile

BLAST - funzionamento Come FASTA si basa sull’indicizzazione di parole
Tuttavia questa funziona in modo molto diverso rispetto a FASTA La sequenza query viene scomposta in parole di lunghezza W Primo step: partendo dalla sequenza query, vengono creati dei w-mers, cioè tute le parole di lunghezza W che, se allineate con la query, diano un punteggio > T T viene calcolato sulla base di una matrice di sostituzione

BLAST - funzionamento Visto che per orni parola W vengono generati svariati w-mers con alcuni mismatch (purché mantengano uno score > T), le parole indicizzate sono in numero molto maggiore rispetto a FASTA Secondo step: viene effettuata la ricerca dei w-mers delle query nel database e vengono memorizzati i match perfetti ritrovati, che vengono messi in relazione alla parola W originaria della query (non al w-mer con il match), registrandone la posizione nella sequenza query Si ottiene pertanto una lista di sequenze (del database) con cui è stato trovato match nei confronti di frammenti delle query

BLAST - funzionamento Terzo step: ogni hit viene esteso in entrambe le direzioni, senza inserire gap, finché lo score dell’allinemaneto scende sotto un valore soglia S Si ottengono delle regioni più lunghe rispetto ai w-mers di partenza dette HSP (High-scoring Segment Pair) Anche se l’allineamento scende sotto lo score S, questo è di solito tollerato per una determinata lunghezza data dal parametro X. Questo è utile per tollerare la presenza di regioni locali di maggiore divergenza. Se entro un numero di residui allineati X lo score torna ad essere >S allora l’allungamento dell’HSP prosegue

BLAST - parametri Sulla base di quanto abbiamo detto finora possiamo identificare quattro parametri fondamentali per BLAST: W (word size): maggiore è, minore è il numero di parole generate e più veloce è il tempo di esecuzione, a scapito però della sensibilità T (threshold): minore è questo valore, maggiore sarà il numero di w-mers inclusi nella lista e di conseguenza maggiore sarà il tempo di calcolo richiesto. Allo stesso tempo verrà però incrementata la sensibilità S (score): minore è questo valore, maggiore sarà la lunghezza degli HSP generati X: maggiore è questo valore, più estesamente sarà analizzato l’intorno delle HSP, andando ad aumentare il tempo di calcolo (ma anche sensibilità e lunghezza degli HSP stessi)

BLAST - statistica La potenza di BLAST sta nel fatto di poter dire quanto accurati siano i risultati della ricerca Dato un S, è possibile prevedere quanti saranno gli HSP ritrovati in una banca dati della stessa grandezza di quella consultata, ma composta da sequenze casuali Questo numero è definito come E (expect) Dal momento che è molto più intuitivo e semplice ragionare su E piuttosto che su S in termini di significatività statistica di un risultato, il valore che viene impostato come soglia per la ricerca è sempre E, ed S viene calcolato automaticamente tramite una complessa relazione statistica tra i due valori All’atto pratico, l’impostazione di un E molto basso darà quasi certamente risultati molto significativi

BLAST - versioni BLASTn: cerca similarità in banche dati nucleotidiche utilizzando sequenze nucleotidiche come query BLASTp: cerca similarità in banche dati proteiche utiilizzando sequenze amino acidiche come query BLASTx: cerca similarità in banche dati proteiche utilizzando sequenze nucleotidiche come query, che vengono tradotte nei 6 possibili frame di lettura tBLASTn: cerca similarità in banche dati nucleotidiche utilizzando sequenze proteiche come query. I subject della banca dati vengono tradotti nei 6 possibili frame di lettura tBLASTx: cerca similarità in banche dati nuclotidiche i cui subject sono stati tradotti nei 6 possibili frame di lettura utilizzando sequenze nucleotidiche tradotte a loro volta nei 6 possibili frame di lettura

BLAST - versioni TTCAGGCGTGCAGATGACGATGCAGTACATGGGTTTCTCTTTATTAAGTTCTTATGTCATGTTTATCATAGACT CTGAAGTCAACCAGTCAGAGGTTATCGTACGTCAAATCAGTCAGAGGTTATCAGTCAATACAGTGAATCCTGAT TCCCGTATGTGTGTTGTGACATATACACTGAATTCTGACTTAACCGCCTGTGTTATGAAATATACACTGAATCC TGACTTAACCGTAAGTGTTGTGACAGATACTGTGAATCCTGACTTACCAGTTTGTGTTGTGACATATACACTGA ATCCTGGCTTACCCGTATGTGTTGTGACAGATACTGTGAATCATGACCTACCCGTATGTGTTGTGACGTACAAC TTGAATCCCGACTTACCAGTTTGTGTTGTGACATATACACTGAATCCTGACTTACCCTTCTGTGTTGTGACATA TACACTGAATCCTGACTTACCCTTCTGTGTTGTGACATATACACTGAATCCTGACTTAACCATAGTGTTGTGAT GCGTCATCGACTSGATGTCATCCTATACATTTTTCCCATTTA Quale è il frame di lettura corretto di questa sequenza codificante? Non posso saperlo a priori...

BLAST – varianti ed implementazioni
Gapped-BLAST: porta avanti l’estensione delle HSP tenendo presente la possibilità di introdure dei gap PSI-BLAST: Position-Specific Iterated BLAST - effettua una ricerca iterativa utilizzando le HSP per generare dei profili caratteristici della query BL2SEQ: adattamento di BLAST per l’allineamento di coppie di sequenze MEGABLAST: può concatenare molte queries tra loro per minimizzare il tempo di esecuzione dovuto a queries molto lunghe (adatto per l’allineamento di sequenze nucleotidiche molto lunghe, come regioni cromosomiche, e sequenze ad alto grado di similarità) Discontinuous MEGABLAST: simile a MEGABLAST ma ottimizzato per sequenze divergenti, ad esempio regioni cromosomiche di specie differenti

BLAST – varianti ed implementazioni
DELTA-BLAST: Domain Enhanced Lookup Time Accelerated BLAST – implementazione di BLASTp che utilizza un database di domini conservati (CDD) PHI-BLAST: Pattern Hit Initiated BLAST - estensione di PSI-BLAST per la ricerca in banca dati di pattern proteici più che di queru esatte Magic BLAST: implementato recentemente per l’allineamento di dati di Next Generation Sequencing contro genomi di riferimento

BLAST – accessibilità web
Hostato sul portale dell’NCBI

BLAST – differenze rispetto a FASTA
La più importante differenza è l’indicizzazione di parole esatte in FASTA contro quella dei w-mers in BLAST. Per questo motivo il numero di subject ritrovati da FASTA nel database sarà molto ridotto e la strategia di indicizzazione è un fattore molto limitante per FASTA Tuttavia BLAST assegna i punteggi S sulla base di matrici di sostituzione e può accadere che dei match inesatti ottengano degli score più alti di match esatti della stessa lunghezza Ad esempio, AIS-AIS = 12, mentre LSH-MSH = 14 utilizzando BLOSUM62 Per sequenze nucleotidiche l’indicizzazione dei w-mers ha poca rilevanza Inoltre il W di default per BLASTn = 11, quindi tendenzialmente non verrà rilevata similarità significativa a meno che non ci sia una stringa identica di almeno 11 nucleotidi Inoltre FASTA prevede l’inserzione di GAP già nei suoi primi step, BLAST solamente in fase di elongation degli HSP In sostanza, FASTA è indicato per sequenze nucleotidiche, NON per sequenze amino acidiche che è sempre opportuno ricercare con BLAST

BLAST – applicazioni Il metodo BLAST, dall'originaria formulazione ad oggi, ha rappresentato un validissimo strumento d'analisi, che numerosi server bioinformatici consentono di utilizzare on-line per ricerche nelle principali banche dati Sono state sviluppate numerose applicazioni, basate sul metodo BLAST ma ottimizzate per il tipo di ricerca, sonda e database nei quali si intenda cercare sequenze omologhe. Gli algoritmi di BLAST sono stati progressivamente potenziati, implementando nuove funzioni che consentono, ad esempio, di adottare matrici definite sulla base del set di dati in analisi o di integrare l'analisi di similarità con quella per pattern Mentre nella maggior parte dei casi i biologi si connettono all’home page dell’NCBI per effettuare ricerche di similarità all’interno di database pubblicamente disponibili (nr, UniProt, GenBank, ecc.), tenete presente che è spesso utile utilizzare BLAST in locale, cioè scaricando un applicativo che permette la ricerca in database personalizzati e spesso non ancora rilasciati pubblicamente

BLAST – applicazioni Le applicazioni di BLASTp e BLASTn sono piuttosto intuitive Più complesse sono quelle dei BLAST «speciali», BLASTx, tBLASTn e tBLASTx Teniamo in considerazione che, dovendo lavorare su query e/o subject tradotti nei sei possibili frames di lettura, le ricerche effettuate con questi metodi saranno sensibilmente più lente rispetto ai BLASTn e BLASTp canonici BLASTx è indicato quando dispongo di una sequenza nucleotidica, che presumo sia codificante e sono interessato a traovare l’identità della proteina codificata sulla base della similarità con sequenze subject proteiche presenti all’interno di un database La sequenza query viene tradotta nei sei possibili frames di lettura, in quanto non so né lo strand (+ o -), né il frame (+1/+2/+3) in cui inizia l’ Open reading Frame Naturalmente se una sequenza nucleotidica non è codificante non otterrò alcun risultato significativo

BLAST – applicazioni tBLASTn al contrario è utilizzato per trovare regioni di similarità tra una sequenza query proteica e delle sequenze subject nucleotidiche, che si presume siano codificanti, almeno in parte (ad esempio mRNA, oppure regioni cromosomiche che comprendono esoni) Una possibile applicazione ad esempio riguarda l’annotazione di genomi e trascrittomi Questa può essere intesa sia come annotazione funzionale, cioè l’assegnazione di un «nome» e, conseguentemente, di una presunta funzione ad un gene o ad un trascitto Ma può essere anche strutturale, ad esempio per trovare le regioni genomiche che più probabilmente sono codificanti (cioè corrispondono ad esoni di geni che poi vengono trascritti in mRNA e tradotti in proteine), oppure per distinguere 5’ e 3’ UTR dalla regione codificante in un mRNA

BLAST – applicazioni Più semplicemente un tBLASTn mi potrebbe servire per trovare il gene o il trascritto codificante la proteina A nella specie X (ad esempio un orangutan) partendo dalla stessa proteina (ortologa) nella specie Y (ad esempio l’uomo) Oppure BLASTx mi potrebbe servire per capire che funzione abbia una sequenza di mRNA molto espressa nel cervello dell’orangutan confrontandola con tutte le proteine codificate dal genoma umano Per questi confronti e per derivare conclusioni scientificamente valide dobbiamo sempre tenere presenti i concetti fondamentali di similarità, omologia, ortologia e paralogia Tanto più due specie sono filogeneticamente vicine tanto più è probabile che un e-value signficativo del BLAST significhi anche che due sequenze di specie siano ortologhe, ma facciamo sempre attenzione alla possibile presenza di paraloghi, alla convergenza evolutiva e a similarità locali (ad eempio di domini che corrispondono ad una piccola parte della sequenza query)

BLAST – applicazioni tBLASTx è l’applicazione più complessa e, di conseguenza, anche quella che richiede le tempistiche più lunghe, dal momento che sia la sequenza query che le sequenze subject del database devono essere tradotte nei 6 possibili frames di lettura Questa variante di BLAST va utilizzata quando voglio confrontare sequenze nucleotidiche query presumibilmente codificanti con un database nucleotidico che a sua volta presumibilmente contiene sequenze codificanti Può servire per: evidenziare similarità quando non sono sicuro di quale sia il frame di lettura corretto di una sequenza nucleotidica query, o io abbia dubbi sul fatto che sia codificante o meno Dobbiamo tenere presente che la sensibilità del BLAST è estrememente maggiore per sequenze proteiche rispetto a sequenze nucleotidiche

BLAST – sensibilità Potenzialmente, due sequenze proteiche identiche al 100% possono anche derivare da due mRNA identici solamente al 60% Questo avviene a causa della degenerazione del codice genetico, cioè alcuni aminoacidi possono essere codificati da triplette di nucleotidi (codoni) differenti Stringhe di 4 caratteri vs stringhe di 20 caratteri Come abbiamo già visto, un allineamento tra sequenze nucleotidiche usa score di match/mismatch, mentre un allineamento tra sequenze proteiche utilizza matrici di sostituzione che meglio rappresentano la vera rilevanza bologica di una sostituzione Laddove sia possibile farlo è sempre meglio tradurre le sequenze nucleotidiche in proteine con uno dei 3 BLAST speciali per aumentare la SENSIBILITA’ del metodo

FINESTRA DOVE INCOLLARE LA SEQUENZA IN FORMATO FASTA
TIPO DI BLAST FINESTRA DOVE INCOLLARE LA SEQUENZA IN FORMATO FASTA DATABASE D’INTERESSE – MENU’ A TENDINA LIMITAZIONE RICERCA A SPECIE O CAMPO TASSONOMICO BLAST SPECIALIZZATI (VARIANO A SECONDA DEL TIPO DI BLAST) RICERCA PARAMETRI

INTERFACCIA WEB - DETTAGLI
Il menù a tendina mi permette di selezionare uno dei database disponibili tra quelli presenti nel portale NCBI (N.B. Variano a seconda che si tratti di DB nucleotidici o proteici!) Il menù organism mi permette di limitare la ricerca a determinati campi tassonomici (es. Uomo, verebrati, mammiferi, eucarioti) per rendere la ricerca più specifica e, soprattutto, più rapida (perchè il database da consultare è più piccolo)

INTERFACCIA WEB - DETTAGLI
I parametri avanzati talvolta vengono automticamente aggiustati sulla base della sequnza query Posso limitare il numero massimo di risultati da mostrare (Max target sequences) Posso limitare il massimo Expect (per essere più stringente nella ricerca) Posso cambiare la matrice di sostituzione (PAM/BLOSUM) dal menu’ a tendina Posso variare le gap penalties per esistenza ed estensione

BLAST – INTEPRETAZIONE DEI RISULTATI
I 100 risultati più significativi vengono riassunti come barre colorate in un grafico simile a quello mostrato a fianco La sequenza query è mostrata in alto some una grossa barra azzurra Le sequenze subject (i risultati) sono mostrati sotto come barre più sottili Il loro colore indica lo score di allineamento (più sono tendenti a rosso, più alto è, il nero indica uno score scarsamente significativo) Notate che le barre dei subject non sempre coprono l’intera query Nel caso a fianco la maggior parte degli hit non trova similarità fino a posizione 600

RISULTATI ALTAMENTE SIGNIFICATIVI E-value basso (tendente a 0) E-value alto (fino ad arrivare alla soglia di «expect» settata) RISULTATI SCARSAMENTE SIGNIFICATIVI

Sequenza query Indicata la lunghezza In caso di sequenza proteica, indicati anche i domini conservati trovati (ne parleremo in dettaglio nelle prossime lezioni Sequenza query Come sopra, indicate le coordinate (numero di nucleotidi o amino acidi). Sopra è riportata una scala colorimetrica per interpretare la significatività degli allineamenti Sequenze subject Ogni riga corrisponde ad una entry trovata nel database. Il colore indica lo score di allineamento e la lunghezza determina la regione di similarità. Nell’esempio a fianco la maggior parte degli hit sono ritrovati nella regione dopo l’aa in posizione 100

Gli stessi risultati riassunti nel grafico sono anche elecanti in una tabella, in ordine decrescente dal risultato più significativo a quello meno significativo (cioè in base all’e- value) In sostanza più una sequenza subject ha un e-value vicino a zero, tanto più in alto nel ranking sarà Ogni sequenza subject mostra la descrizione per esteso e l’accession ID. Con un click è possibile aprire la scheda di GenBank o UniProt corrispondente Vengono anche mostrati score di allineamento, query cover (la % della query che trova match), e-value e % di identità

Nella terza ed ultima parte della pagina dei risultati di BLAST sono mostrati gli allineamenti nel dettaglio, come mostrato in questo esempio In alto ci sono i dati del subject Vengono poi riportati i dettagli del match, come nella tabella riassuntiva Notate che per sequenze proteiche oltre al numero di identità è riportato anche il numero di «positives» (indicati nell’allineamento da un simbolo (+) Sono indicati anche il numero di gap e la loro % Infine è indicato il frame. Nell’esempio a fianco questa voce è presente in quanto si tratta dell’output di un BLASTx, mentre in un BLASTp questa voce non si ritrova

BLAST – DETTAGLIO DEI RISULTATI
Una volta effettuata una ricerca, troverete in alto, sopra al grafico a barre che abbiamo visto prima, un sommario come quello mostrato a fianco Search summary ci permette di riepilogare i parametri di ricerca Sono indicati word size, matrice di sostituzione, costo di inserzione ed elongazione dei gap, soglia di e- value, massimo numero di hit, le caratteristiche del database interrogato e molti parametri avanzati che in questo momento non è necessario approfondire

BLAST – DETTAGLIO DEI RISULTATI
Taxonomy report mi permette di identificare quanti risultati sono stati trovati per ciascuna specie e, più in generale, in quali organismi/gruppi tassonomici sono stati ritrovati degli hit significativi Distance tree of results organizza i risultati degli allineaneamenti in un semplice albero filogenetico (argomento che approfondiremo nelle prossime lezioni) Multiple alignment ed MSA viewer generano un allineamento multiplo delle sequenze (qury+subject), altro argomento che verrà trattato nelle prossime lezioni

BLAST – APPLICAZIONI SPECIALI

Sviluppate per applicazioni particolari per le quali i 5 tipi di BLAST «standard» non sono ottimali Ricerca in database con caratteristiche peculiari che richiedono l’utilizzo di parametri non standard A volte tool sperimentali Alcuni esempi… Primer-BLAST, utile supporto nel disegno di primers per PCR Global-alignment: allineamento tra due sequenze con algoritmo Needleman-Wunsch IgBLAST: utile per ricerche di sequenze di immunoglobuline e T- cell receptors

MOLE-BLAST is an experimental tool that helps taxonomists find closest database neighbors of submitted query sequences. It computes a multiple sequence alignment (MSA) between the query sequences along with their top BLAST database hits, and generates a phylogenetic tree. Query sequences in the tree are denoted with highlighted node labels. If the input sequences come from different genes or loci, MOLE-BLAST can cluster them and compute an MSA and a phylogenetic tree for each locus separately. This tool may eventually be incorporated into our supported suite of BLAST applications based on the feedback we receive. VecScreen: permette di controllare se in una sequenza nucleotidica sono presenti regioni di contaminazione da vettore TargetedLoci: ricerca di marker tassonomici (ne parleremo più avanti per le analisi filogenetiche) Multiple Alignment: per allineamento multiplo di sequenze (ne parleremo nelle prossime lezioni) con COBALT MOLE-BLAST (vedi specchietto a fianco) CD-Search e CDART (ricerche di domini conservati, ne parleremo più avanti)

BLAST – INTEGRAZIONE IN GENOME BROWSER
Può essere estremamente utile integrare sistemi di ricerca di similarità nei portali dei genome browser Questo può essere utile ad esempio per localizzare la posizione di un gene nel genoma partendo da una sequenza proteica o di mRNA Oppure per analisi di genomica comparata (identificare geni ortologhi) All’interno di un medesimo genoma, una ricerca mi permetterebbe di identificare ad esempio geni paraloghi A volte troverete BLAT anziché BLAST

BLAT Descrizione di BLAST dall’UCSC Genome browser:
BLAT on DNA is designed to quickly find sequences of 95% and greater similarity of length 25 bases or more. It may miss more divergent or shorter sequence alignments. It will find perfect sequence matches of 20 bases. BLAT on proteins finds sequences of 80% and greater similarity of length 20 amino acids or more. In practice DNA BLAT works well on primates, and protein blat on land vertebrates. BLAT is not BLAST. DNA BLAT works by keeping an index of the entire genome in memory. The index consists of all overlapping 11-mers stepping by 5 except for those heavily involved in repeats. The index takes up about 2 gigabytes of RAM. RAM can be further reduced to less than 1 GB by increasing step size to 11. The genome itself is not kept in memory, allowing BLAT to deliver high performance on a reasonably priced Linux box. The index is used to find areas of probable homology, which are then loaded into memory for a detailed alignment. Protein BLAT works in a similar manner, except with 4-mers rather than 11-mers. The protein index takes a little more than 2 gigabytes.

UTILIZZARE BLAST «IN LOCALE»
Oltre ad essere hostato sui server dell’NCBI, BLAST (nella sua versione eseguibile più recente, «BLAST+», può essere scaricato in locale sul proprio computer Questo può essere utile per ricerche «custom» all’interno di database privati che non sono stati ancora depositati nei database pubblici (ad esempio un genoma su cui si sta lavorando Altra possibile applicazione è quella di creare un server locale BLAST consultabile dall’esterno (ad esempio quando sono intenzionato a creare un genome browser personalizzato) Più in generale BLAST+, da riga di comando, permette una maggiore versatilità e l’utilizzo di parametri avanzati non accessibili dall’interfaccia online

LEZIONE 6 BLAST e applicazioni speciali

Presentazioni simili

Presentazione sul tema: "LEZIONE 6 BLAST e applicazioni speciali"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

LEZIONE 6 BLAST e applicazioni speciali

Presentazioni simili

Presentazione sul tema: "LEZIONE 6 BLAST e applicazioni speciali"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back