CALENDARIO LEZIONI AGGIORNATO

Slides:



Advertisements
Presentazioni simili
RICERCA DI SIMILARITA’ IN BANCHE DATI
Advertisements

Biologia computazionale
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
ALLINEAMENTI GLOBALI E LOCALI
FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990)
Ricerca di similarità di sequenza (FASTA e BLAST)
BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.
Allineamento di sequenze
ALLINEAMENTO DI SEQUENZE
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Table View. Problemi ricorrenti Una situazione ricorrente è quella in cui il controller potrebbe avere un’altezza superiore a quella dello schermo. In.
Programmi per l’ALLINEAMENTO DELLE SEQUENZE La creazione di programmi per l’allineamento delle sequenze richiede la definizione di: *** Un criterio oggettivo.
Fondamenti di Informatica - D. Talia - UNICAL 1 Fondamenti di Informatica FONDAMENTI DI INFORMATICA Domenico Talia
RICERCA DI SIMILARITA’ in DB Problema: identificare all’interno di una banca dati di sequenze quelle sequenze che sono più simili ad una sequenza di nostro.
1 Come cercare le fonti di informazione scientifica Operatori e wildcards a cura della Biblioteca di Agraria.
.  I tipi di dati non primitivi sono gli array, le struct e le union.  Gli array sono degli aggregati di variabili dello stesso tipo.  La dichiarazione.
Basi di dati - Fondamenti
La chimica della vita Ogni organismo vivente è una macchina sofisticata, risultato di un complesso insieme di reazioni chimiche. La costruzione e il funzionamento.
LA CLASSIFICAZIONE DIMENSIONI DEL CONCETTO DI CLASSIFICAZIONE (Marradi, ) classificazione a: operazione intellettuale con cui l’estensione di.
IL SOFTWARE (FPwin 6.0).
© 2007 SEI-Società Editrice Internazionale, Apogeo
RNS_BOVIN ANG1_MOUSE TPA_HUMAN UROK_HUMAN
ASLGest Gestione Alternanza Scuola/Lavoro
Rielaborato da Atzeni et al., Basi di Dati, Mc-Graw Hill
Definizioni: genoma trascrittoma proteoma.
DALLA TABELLA DELLE OSSERVAZIONI ALLA TABELLA DELLE FREQUENZE
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
La rappresentazione delle informazioni
ESERCITAZIONI ANTROPOLOGIA
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docente: Prof. Stefania Bortoluzzi.
Terza Lezione → Navigare nel file System → parte 2
Algoritmi e soluzioni di problemi
Excel 1 - Introduzione.
Modulo 3 Costituzione del consorzio dei partner
LE BANCHE DATI PER LE RICERCHE BIBLIOGRAFICHE
Tipo di dato: array Un array è un tipo di dato usato per memorizzare una collezione di variabili dello stesso tipo. Per memorizzare una collezione di 7.
ALLA SCOPERTA DEL DNA.
Servizi web per la bioinformatica strutturale
La Statistica Istituto Comprensivo “ M. G. Cutuli”
SAS® OnDemand for Academics SAS Studio
analizzatore di protocollo
Le fibre tessili I polimeri.
Abbiamo visto che un algoritmo che esplora tutti i possibili allineamenti tra due sequenze di lunghezza n, è un algoritmo di ordine n2 considerando anche.
LEZIONE 6 BLAST e applicazioni speciali
Gli schemi concettuali
WORKING WITH BIOSEQUENCES Alignments and similarity search
WORKING WITH BIOSEQUENCES Alignments and similarity search
Basi di dati - Fondamenti
Programmare.
PowerPoint.
BootCaT: Bootstrapping Corpora and Terminology
Definizioni: genoma trascrittoma proteoma.
Modulo 4 – Ricerca di informazioni nel web
Corsi di Laurea in Biotecnologie
Definizione di linguaggio di programmazione
Esercitazione sulle modalità
* 07/16/96 Sez. 2: Ordinamento La consultazione di banche dati è sempre più cruciale in tutte le applicazioni dell’Informatica. Se vogliamo consultare.
Excel 3 - le funzioni.
OLIMPYAWIN software utilizzato per gestire le gare sportive scolastiche in piena autonomia per varie discipline. modulo di iscrizioni on-line che permette.
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
A-to-Z Consente di Localizzare e Accedere a tutte le risorse della biblioteca: riviste online riviste cartacee riviste nelle banche dati in full text riviste.
Definizione di GENETICA
In sin tesi – l19 come si discute una tesi?
LA CLASSIFICAZIONE DIMENSIONI DEL CONCETTO DI CLASSIFICAZIONE (Marradi, ) classificazione a: operazione intellettuale con cui l’estensione di.
Programmi per l’ALLINEAMENTO DELLE SEQUENZE
RICERCA DI SIMILARITA’ in DB
Transcript della presentazione:

CALENDARIO LEZIONI AGGIORNATO 10 APRILE 17 APRILE NO (PASQUETTA) -> MERCOLEDI’ 19 aPRILE LABORATORIO 24 APRILE NO 1 MAGGIO NO -> MERCOLEDI’ 3 MAGGIO 8 MAGGIO - LABORATORIO 15 MAGGIO 22 MAGGIO 29 MAGGIO – LABORATORIO 5 GIUGNO – (DATA DI RISERVA anche per eventuale laboratorio)

LEZIONE 5 BLAST e applicazioni speciali

BLAST - definizione Acronimo per Basic Local Alignment Search Tool Definito per la prima volta da Altschul et al. 1990 Si tratta di un vero e proprio articolo «storico» che ad oggi è stato citato quasi 65mila volte in letteratura, il che riesce a dare un’idea della sua importanza in campo biologico

Schema che riassume il funzionamento dell’algoritmo Vedremo nel dettaglio i vari passaggi nelle prossime slides Ha alcuni punti in comune con FASTA, ma altri lo rendono estremamente diverso e maggiormente versatile

BLAST - funzionamento Come FASTA si basa sull’indicizzazione di parole Tuttavia questa funziona in modo molto diverso rispetto a FASTA La sequenza query viene scomposta in parole di lunghezza W Primo step: partendo dalla sequenza query, vengono creati dei w-mers, cioè tute le parole di lunghezza W che, se allineate con la query, diano un punteggio > T T viene calcolato sulla base di una matrice di sostituzione

BLAST - funzionamento Visto che per orni parola W vengono generati svariati w-mers con alcuni mismatch (purché mantengano uno score > T), le parole indicizzate sono in numero molto maggiore rispetto a FASTA Secondo step: viene effettuata la ricerca dei w-mers delle query nel database e vengono memorizzati i match perfetti ritrovati, che vengono messi in relazione alla parola W originaria della query (non al w-mer con il match), registrandone la posizione nella sequenza query Si ottiene pertanto una lista di sequenze (del database) con cui è stato trovato match nei confronti di frammenti delle query

BLAST - funzionamento Terzo step: ogni hit viene esteso in entrambe le direzioni, senza inserire gap, finché lo score dell’allinemaneto scende sotto un valore soglia S Si ottengono delle regioni più lunghe rispetto ai w-mers di partenza dette HSP (High-scoring Segment Pair) Anche se l’allineamento scende sotto lo score S, questo è di solito tollerato per una determinata lunghezza data dal parametro X. Questo è utile per tollerare la presenza di regioni locali di maggiore divergenza. Se entro un numero di residui allineati X lo score torna ad essere >S allora l’allungamento dell’HSP prosegue

BLAST - parametri Sulla base di quanto abbiamo detto finora possiamo identificare quattro parametri fondamentali per BLAST: W (word size): maggiore è, minore è il numero di parole generate e più veloce è il tempo di esecuzione, a scapito però della sensibilità T (threshold): minore è questo valore, maggiore sarà il numero di w-mers inclusi nella lista e di conseguenza maggiore sarà il tempo di calcolo richiesto. Allo stesso tempo verrà però incrementata la sensibilità S (score): minore è questo valore, maggiore sarà la lunghezza degli HSP generati X: maggiore è questo valore, più estesamente sarà analizzato l’intorno delle HSP, andando ad aumentare il tempo di calcolo (ma anche sensibilità e lunghezza degli HSP stessi)

BLAST - statistica La potenza di BLAST sta nel fatto di poter dire quanto accurati siano i risultati della ricerca Dato un S, è possibile prevedere quanti saranno gli HSP ritrovati in una banca dati della stessa grandezza di quella consultata, ma composta da sequenze casuali Questo numero è definito come E (expect) Dal momento che è molto più intuitivo e semplice ragionare su E piuttosto che su S in termini di significatività statistica di un risultato, il valore che viene impostato come soglia per la ricerca è sempre E, ed S viene calcolato automaticamente tramite una complessa relazione statistica tra i due valori All’atto pratico, l’impostazione di un E molto basso darà quasi certamente risultati molto significativi

BLAST - versioni BLASTn: cerca similarità in banche dati nucleotidiche utilizzando sequenze nucleotidiche come query BLASTp: cerca similarità in banche dati proteiche utiilizzando sequenze amino acidiche come query BLASTx: cerca similarità in banche dati proteiche utilizzando sequenze nucleotidiche come query, che vengono tradotte nei 6 possibili frame di lettura tBLASTn: cerca similarità in banche dati nucleotidiche utilizzando sequenze proteiche come query. I subject della banca dati vengono tradotti nei 6 possibili frame di lettura tBLASTx: cerca similarità in banche dati nuclotidiche i cui subject sono stati tradotti nei 6 possibili frame di lettura utilizzando sequenze nucleotidiche tradotte a loro volta nei 6 possibili frame di lettura

BLAST - versioni TTCAGGCGTGCAGATGACGATGCAGTACATGGGTTTCTCTTTATTAAGTTCTTATGTCATGTTTATCATAGACT CTGAAGTCAACCAGTCAGAGGTTATCGTACGTCAAATCAGTCAGAGGTTATCAGTCAATACAGTGAATCCTGAT TCCCGTATGTGTGTTGTGACATATACACTGAATTCTGACTTAACCGCCTGTGTTATGAAATATACACTGAATCC TGACTTAACCGTAAGTGTTGTGACAGATACTGTGAATCCTGACTTACCAGTTTGTGTTGTGACATATACACTGA ATCCTGGCTTACCCGTATGTGTTGTGACAGATACTGTGAATCATGACCTACCCGTATGTGTTGTGACGTACAAC TTGAATCCCGACTTACCAGTTTGTGTTGTGACATATACACTGAATCCTGACTTACCCTTCTGTGTTGTGACATA TACACTGAATCCTGACTTACCCTTCTGTGTTGTGACATATACACTGAATCCTGACTTAACCATAGTGTTGTGAT GCGTCATCGACTSGATGTCATCCTATACATTTTTCCCATTTA Quale è il frame di lettura corretto di questa sequenza codificante? Non posso saperlo a priori...

BLAST – applicazioni speciali Gapped-BLAST: porta avanti l’estensione delle HSP tenendo presente la possibilità di introdure dei gap PSI-BLAST: Position-Specific Iterated BLAST - effettua una ricerca iterativa utilizzando le HSP per generare dei profili caratteristici della query BL2SEQ: adattamento di BLAST per l’allineamento di coppie di sequenze MEGABLAST: può concatenare molte queries tra loro per minimizzare il tempo di esecuzione dovuto a queries molto lunghe (adatto per l’allineamento di sequenze nucleotidiche molto lunghe, come regioni cromosomiche, e sequenze ad alto grado di similarità) Discontinuous MEGABLAST: simile a MEGABLAST ma ottimizzato per sequenze divergenti, ad esempio regioni cromosomiche di specie differenti

BLAST – applicazioni speciali DELTA-BLAST: Domain Enhanced Lookup Time Accelerated BLAST – implementazione di BLASTp che utilizza un database di domini conservati (CDD) PHI-BLAST: Pattern Hit Initiated BLAST - estensione di PSI-BLAST per la ricerca in banca dati di pattern proteici più che di queru esatte Magic BLAST: implementato recentemente per l’allineamento di dati di Next Generation Sequencing contro genomi di riferimento

BLAST – accessibilità web https://blast.ncbi.nlm.nih.gov/Blast.cgi Hostato sul portale dell’NCBI

BLAST – differenze rispetto a FASTA La più importante differenza è l’indicizzazione di parole esatte in FASTA contro quella dei w-mers in BLAST. Per questo motivo il numero di subject ritrovati da FASTA nel database sarà molto ridotto e la strategia di indicizzazione è un fattore molto limitante per FASTA Tuttavia BLAST assegna i punteggi S sulla base di matrici di sostituzione e può accadere che dei match inesatti ottengano degli score più alti di match esatti della stessa lunghezza Ad esempio, AIS-AIS = 12, mentre LSH-MSH = 14 utilizzando BLOSUM62 Per sequenze nucleotidiche l’indicizzazione dei w-mers ha poca rilevanza Inoltre il W di default per BLASTn = 11, quindi tendenzialmente non verrà rilevata similarità significativa a meno che non ci sia una stringa identica di almeno 11 nucleotidi Inoltre FASTA prevede l’inserzione di GAP già nei suoi primi step, BLAST solamente in fase di elongation degli HSP In sostanza, FASTA è indicato per sequenze nucleotidiche, NON per sequenze amino acidiche che è sempre opportuno ricercare con BLAST

BLAST – applicazioni Il metodo BLAST, dall'originaria formulazione ad oggi, ha rappresentato un validissimo strumento d'analisi, che numerosi server bioinformatici consentono di utilizzare on-line per ricerche nelle principali banche dati Sono state sviluppate numerose applicazioni, basate sul metodo BLAST ma ottimizzate per il tipo di ricerca, sonda e database nei quali si intenda cercare sequenze omologhe. Gli algoritmi di BLAST sono stati progressivamente potenziati, implementando nuove funzioni che consentono, ad esempio, di adottare matrici definite sulla base del set di dati in analisi o di integrare l'analisi di similarità con quella per pattern Mentre nella maggior parte dei casi i biologi si connettono all’home page dell’NCBI per effettuare ricerche di similarità all’interno di database pubblicamente disponibili (nr, UniProt, GenBank, ecc.), tenete presente che è spesso utile utilizzare BLAST in locale, cioè scaricando un applicativo che permette la ricerca in database personalizzati e spesso non ancora rilasciati pubblicamente

BLAST – applicazioni Le applicazioni di BLASTp e BLASTn sono piuttosto intuitive Più complesse sono quelle dei BLAST «speciali», BLASTx, tBLASTn e tBLASTx Teniamo in considerazione che, dovendo lavorare su query e/o subject tradotti nei sei possibili frames di lettura, le ricerche effettuate con questi metodi saranno sensibilmente più lente rispetto ai BLASTn e BLASTp canonici BLASTx è indicato quando dispongo di una sequenza nucleotidica, che presumo sia codificante e sono interessato a traovare l’identità della proteina codificata sulla base della similarità con sequenze subject proteiche presenti all’interno di un database La sequenza query viene tradotta nei sei possibili frames di lettura, in quanto non so né lo strand (+ o -), né il frame (+1/+2/+3) in cui inizia l’ Open reading Frame Naturalmente se una sequenza nucleotidica non è codificante non otterrò alcun risultato significativo

BLAST – applicazioni tBLASTn al contrario è utilizzato per trovare regioni di similarità tra una sequenza query proteica e delle sequenze subject nucleotidiche, che si presume siano codificanti, almeno in parte (ad esempio mRNA, oppure regioni cromosomiche che comprendono esoni) Una possibile applicazione ad esempio riguarda l’annotazione di genomi e trascrittomi Questa può essere intesa sia come annotazione funzionale, cioè l’assegnazione di un «nome» e, conseguentemente, di una presunta funzione ad un gene o ad un trascitto Ma può essere anche strutturale, ad esempio per trovare le regioni genomiche che più probabilmente sono codificanti (cioè corrispondono ad esoni di geni che poi vengono trascritti in mRNA e tradotti in proteine), oppure per distinguere 5’ e 3’ UTR dalla regione codificante in un mRNA

BLAST – applicazioni Più semplicemente un tBLASTn mi potrebbe servire per trovare il gene o il trascritto codificante la proteina A nella specie X (ad esempio un orangutan) partendo dalla stessa proteina (ortologa) nella specie Y (ad esempio l’uomo) Oppure BLASTx mi potrebbe servire per capire che funzione abbia una sequenza di mRNA molto espressa nel cervello dell’orangutan confrontandola con tutte le proteine codificate dal genoma umano Per questi confronti e per derivare conclusioni scientificamente valide dobbiamo sempre tenere presenti i concetti fondamentali di similarità, omologia, ortologia e paralogia Tanto più due specie sono filogeneticamente vicine tanto più è probabile che un e-value signficativo del BLAST significhi anche che due sequenze di specie siano ortologhe, ma facciamo sempre attenzione alla possibile presenza di paraloghi, alla convergenza evolutiva e a similarità locali (ad eempio di domini che corrispondono ad una piccola parte della sequenza query)

BLAST – applicazioni tBLASTx è l’applicazione più complessa e, di conseguenza, anche quella che richiede le tempistiche più lunghe, dal momento che sia la sequenza query che le sequenze subject del database devono essere tradotte nei 6 possibili frames di lettura Questa variante di BLAST va utilizzata quando voglio confrontare sequenze nucleotidiche query presumibilmente codificanti con un database nucleotidico che a sua volta presumibilmente contiene sequenze codificanti Può servire per: evidenziare similarità quando non sono sicuro di quale sia il frame di lettura corretto di una sequenza nucleotidica query, o io abbia dubbi sul fatto che sia codificante o meno Dobbiamo tenere presente che la sensibilità del BLAST è estrememente maggiore per sequenze proteiche rispetto a sequenze nucleotidiche

BLAST – sensibilità Potenzialmente, due sequenze proteiche identiche al 100% possono anche derivare da due mRNA identici solamente al 60% Questo avviene a causa della degenerazione del codice genetico, cioè alcuni aminoacidi possono essere codificati da triplette di nucleotidi (codoni) differenti Stringhe di 4 caratteri vs stringhe di 20 caratteri Come abbiamo già visto, un allineamento tra sequenze nucleotidiche usa score di match/mismatch, mentre un allineamento tra sequenze proteiche utilizza matrici di sostituzione che meglio rappresentano la vera rilevanza bologica di una sostituzione Laddove sia possibile farlo è sempre meglio tradurre le sequenze nucleotidiche in proteine con uno dei 3 BLAST speciali per aumentare la SENSIBILITA’ del metodo

FINESTRA DOVE INCOLLARE LA SEQUENZA IN FORMATO FASTA TIPO DI BLAST FINESTRA DOVE INCOLLARE LA SEQUENZA IN FORMATO FASTA DATABASE D’INTERESSE – MENU’ A TENDINA LIMITAZIONE RICERCA A SPECIE O CAMPO TASSONOMICO BLAST SPECIALIZZATI (VARIANO A SECONDA DEL TIPO DI BLAST) RICERCA PARAMETRI

INTERFACCIA WEB - DETTAGLI Il menù a tendina mi permette di selezionare uno dei database disponibili tra quelli presenti nel portale NCBI (N.B. Variano a seconda che si tratti di DB nucleotidici o proteici!) Il menù organism mi permette di limitare la ricerca a determinati campi tassonomici (es. Uomo, verebrati, mammiferi, eucarioti) per rendere la ricerca più specifica e, soprattutto, più rapida (perchè il database da consultare è più piccolo)

INTERFACCIA WEB - DETTAGLI I parametri avanzati talvolta vengono automticamente aggiustati sulla base della sequnza query Posso limitare il numero massimo di risultati da mostrare (Max target sequences) Posso limitare il massimo Expect (per essere più stringente nella ricerca) Posso cambiare la matrice di sostituzione (PAM/BLOSUM) dal menu’ a tendina Posso variare le gap penalties per esistenza ed estensione

BLAST – INTEPRETAZIONE DEI RISULTATI I 100 risultati più significativi vengono riassunti come barre colorate in un grafico simile a quello mostrato a fianco La sequenza query è mostrata in alto some una grossa barra azzurra Le sequenze subject (i risultati) sono mostrati sotto come barre più sottili Il loro colore indica lo score di allineamento (più sono tendenti a rosso, più alto è, il nero indica uno score scarsamente significativo) Notate che le barre dei subject non sempre coprono l’intera query Nel caso a fianco la maggior parte degli hit non trova similarità fino a posizione 600

BLAST – INTEPRETAZIONE DEI RISULTATI Gli stessi risultati riassunti nel grafico sono anche elecanti in una tabella, in ordine decrescente dal risultato più significativo a quello meno significativo (cioè in base all’e- value) In sostanza più una sequenza subject ha un e-value vicino a zero, tanto più in alto nel ranking sarà Ogni sequenza subject mostra la descrizione per esteso e l’accession ID. Con un click è possibile aprire la scheda di GenBank o UniProt corrispondente Vengono anche mostrati score di allineamento, query cover (la % della query che trova match), e-value e % di identità

BLAST – INTEPRETAZIONE DEI RISULTATI Nella terza ed ultima parte della pagina dei risultati di BLAST sono mostrati gli allineamenti nel dettaglio, come mostrato in questo esempio In alto ci sono i dati del subject Vengono poi riportati i dettagli del match, come nella tabella riassuntiva Notate che per sequenze proteiche oltre al numero di identità è riportato anche il numero di «positives» (indicati nell’allineamento da un simbolo (+) Sono indicati anche il numero di gap e la loro % Infine è indicato il frame. Nell’esempio a fianco questa voce è presente in quanto si tratta dell’output di un BLASTx, mentre in un BLASTp questa voce non si ritrova