Ricerca di similarità di sequenza (FASTA e BLAST)

Slides:



Advertisements
Presentazioni simili
Struttura delle proteine
Advertisements

Allineamento Pairwise e Multiplo di Bio-Sequenze.
Sequenza-struttura-funzione
gruppi di amminoacidi in base alle catene laterali
RICERCA DI SIMILARITA’ IN BANCHE DATI
Bioinformatica Predizione della struttura secondaria dell’RNA – MFOLD
Bioinformatica Banche dati biologiche
Bioinformatica Allineamento di sequenze e ricerca di similarità
Allineamento di sequenze
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Bioinformatica Prof. Mauro Fasano
BASI DI DATI BIOLOGICHE - 3
I programmi di ricerca in banche dati possono essere oppure essere utilizzabili via web residenti in un calcolatore di cui siamo proprietari o utenti.
Esercizio 1 Implementare l’algoritmo di Needleman-Wunsch per l’allineamento globale di due sequenze A=a1a2…an e B=b1b2…bm di lunghezza n e m rispettivamente.
Biologia computazionale
Caratterizzazione di un gene clonato
Metodi basati sulle similitudini per dedurre la funzione di un gene
Il concetto di aplotipo
1) Algoritmi di allineamento 2) Algoritmi di ricerca in database
APPLICAZIONI BIOINFORMATICHE SU GRIGLIA COMPUTAZIONALE PER LINDIVIDUAZIONE DI EVENTI RICOMBINATIVI IN GENOMI DI CITRUS TRISTEZA VIRUS 1,2 Alessandro Lombardo,
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
ALLINEAMENTI GLOBALI E LOCALI
FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990)
Allineamenti multipli
Banche dati biologiche
Software per la Bioinformatica
WORKING WITH BIOSEQUENCES Alignments and similarity search
SIMILARITA’ ? OMOLOGIA
Fisica Computazionale applicata alle Macromolecole
Università degli Studi di Genova Laurea Specialistica in Biotecnologie Medico-Farmaceutiche Corso di: Biotecnologie Diagnostiche A.A. 2004/2005 Utilizzo.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
In questa lezione ci occuperemo
Tipi di allineamenti.
I programmi di ricerca in banche dati possono essere
BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze.
BIOINFO3 - Lezione PARSING RISULTATI DI BLAST Nella lezione di ieri abbiamo visto come automatizzare lesecuzione di BLAST. Oggi proviamo.
Tutorial per l’utilizzo di k ScanProsite
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
Sequenze e Banche Dati Biologiche
A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
A.A CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania.
Purtroppo non esiste un modo univoco per indicare un gene
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Roberto.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
III LEZIONE Allineamento di sequenze
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
III LEZIONE Allineamento di sequenze
WORKING WITH BIOSEQUENCES Alignments and similarity search.
La parola “Bioinformatica”
Allineamento di sequenze
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
ALLINEAMENTO DI SEQUENZE
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle Prof.
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Prof.
RICERCA DI SIMILARITA’ in DB Problema: identificare all’interno di una banca dati di sequenze quelle sequenze che sono più simili ad una sequenza di nostro.
WORKING WITH BIOSEQUENCES Alignments and similarity search
WORKING WITH BIOSEQUENCES Alignments and similarity search
RICERCA DI SIMILARITA’ in DB
Transcript della presentazione:

Ricerca di similarità di sequenza (FASTA e BLAST) Allineamento di due sequenze Allineamento multiplo di sequenze

RICERCA DI SIMILARITA’ E ALLINEAMENTO DI SEQUENZE BLAST e PSI-BLAST http://www.ncbi.nlm.nih.gov/blast/ FASTA http://fasta.bioch.virginia.edu/ oppure http://www.ebi.ac.uk/fasta33/

Alcune caratteristiche dei tools più usati: BLAST (Basic Local Alignment Search Tool), sviluppato dal National Center for Biotechnology Information, NCBI): - allineamento locale - estremamente veloce - parte cercando brevi frammenti della sequenza, che poi prova ad estendere - usa una matrice di sostituzione in entrambe le fasi del processo di allineamento (scansione del database e estensione della subsequenza): più preciso ha quattro opzioni fondamentali: BLASTP: confronta sequenze proteiche contro un database proteico BLASTN: confronta sequenze nuclotidiche contro un database nucleotidico TBLASTN: confronta una sequenza proteica contro un database nucleotidico, traducendo ciascuna sequenza del database nucleotidico nei suoi 6 frames di lettura BLASTX: confronta una sequenza nucleotidica contro un database proteico, dopo averla tradotta nei suoi 6 frames di lettura.

BLAST:

BLASTP

Seconda parte della pagina di BLAST: Numero atteso di HSP (High-scoring Segment Pair) valutato su base statistica Dimensione delle parole Penalità assegnata ai gap Scelta della matrice di sostituzione I valori di default usati da BLAST sono W=3, T=13, Matrice=BLOSUM 62

Terza parte della pagina di BLAST:

FASTA: http://www.ebi.ac.uk/fasta33/ Ktup: lunghezza delle parole Align: numero di allineamenti finali Open e residue: Penalità per i gap Vari database Sequenza in formato FASTA

Allineamento di due sequenze: BLAST: bl2seq LALIGN: http://www.ch.embnet.org/software/LALIGN_form.html EMBOSS: http://www.ebi.ac.uk/emboss/align/

LALIGN:

ALLINEAMENTO MULTIPLO DI SEQUENZE Informazione biologica maggiore rispetto a quella riportata l’allineamento di due sole sequenze: i residui più importanti dal punto di vista strutturale o funzionale saranno estremamente conservati tra tutte le sequenze dell’allineamento. “Una sequenza amminoacidica fa la timida; un paio di sequenze omologhe sussurrano; molte sequenze allineate gridano”. Per essere informativo un allineamento multiplo dovrebbe contenere una distribuzione di sequenze sia strettamente sia lontanamente correlate: Svantaggi: •tutte strettamente correlate => ridondanza •tutte lontanamente correlate => allineamento inaccurato => inutilità

ALLINEAMENTO MULTIPLO DI SEQUENZE

Programmi per l’allineamento multiplo globale: CLUSTALW: http://www.ebi.ac.uk/clustalw/ o scaricare il programma eseguibile KALIGN http://msa.cgb.ki.se/cgi-bin/msa.cgi Multalin http://bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html TCOFFEE http://www.ch.embnet.org/software/TCoffee.html

CLUSTAL W: il tool più comune utilizzato per l’allineamento multiplo di sequenza: potenziato per allineamenti di sequenze proteiche divergenti favorisce l’apertura di gaps in regioni in cui è potenzialmente presente un loop piuttosto che una struttura secondaria ordinata (in base a una penalità residuo-specifica e a una penalità ridotta in regioni idrofiliche) favorisce l’apertura di gaps nelle stesse posizioni.