Bioinformatica Scienza osservativa o deduttiva? Lo sviluppo delle Biotecnologie, che negli ultimi venti anni ha consentito di elevare la moderna biologia a "Big Science", e delle Scienze dell’Informazione, hanno introdotto nei settori delle moderne scienze biologiche una nuova branca di ricerca: la Bioinformatica. (Valle et al., 2003) Scienza osservativa o deduttiva?
La Bioinformatica nasce agli inizi degli anni ‘80 in concomitanza con lo sviluppo dei metodi di sequenziamento rapido degli acidi nucleici
Tecnologie del DNA ricombinante Sequenziamento degli acidi nucleici strumenti informatici per l’immagazzinamento e la caratterizzazione dei dati.
Una grande quantità di dati Databases 1.6 × 1010 base pairs (16 Gbp) Genoma umano 3.2 Gbp HUman Genome EquivalentS (huges) 2.5 volte il genoma umano
Grande quantità di dati Traguardi immaginabili: Comprendere gli aspetti integrativi della biologia degli organismi Correlare la sequenza, la struttura, le interazioni e le funzioni di biomolecole e loro complessi Usare dati contemporanei per dedurre eventi evoluzionistici e prevedere future modificazioni Dare precise indicazioni per la progettazione di molecole bioattive (industria, agricoltura, medicina…)
Il nuovo dogma Sequenza Struttura Funzione
Archivi di dati Banche dati o basi di dati? Databank / Database Messa a punto dei sistemi idonei per collezionare e interrogare l'enorme mole di dati biologici disponibili.
Archivi di dati Archivi di informazioni biologiche Archivi di informazioni derivate Archivi bibliografici Archivi di siti web
Archivi di dati Archivi di informazioni biologiche Sequenze annotate Strutture Pattern di espressione di proteine
Archivi di dati Archivi di informazioni biologiche Archivi di informazioni derivate Patterns, signature, consensus motifs Mutazioni e varianti Classificazioni o relazioni (es. classificazione gerarchica della struttura di proteine)
Archivi di dati Archivi di informazioni biologiche Archivi di informazioni derivate Archivi bibliografici Tutti i riferimenti bibliografici con link al pdf, se consentito
Archivi di dati Archivi di informazioni biologiche Archivi di informazioni derivate Archivi bibliografici Archivi di siti web Archivi degli archivi di cui sopra Collegamenti tra archivi
Cosa possiamo chiedere al database? Data una sequenza, trovare sequenze simili (string matching) Data la struttura di una proteina, trovare strutture simili Data una sequenza, trovare strutture simili Data una struttura, trovare sequenze che hanno strutture simili
The World Wide Web Client-server
Le principali infrastrutture EBI, il laboratorio Europeo di Bioinformatica, http://www.ebi.ac.uk NCBI, il National Center of Biotechnology Information, http://www.ncbi.nlm.nih.gov ExPASy, Expert Protein Analysis System, http://www.expasy.org
Quali gli aspetti rilevanti dell’era post-genomica? STUDI DI GENOMICA FUNZIONALE Caratterizzazione funzionale dei geni Umani e degli altri organismi modello mediante lo studio del TRASCRITTOMA e del PROTEOMA
Quali gli aspetti rilevanti dell’era post-genomica? GENOMICA COMPARATA Analisi comparativa fra i genomi a supporto della Genomica Funzionale
Quali gli aspetti rilevanti dell’era post-genomica? FARMACOGENOMICA Lo studio dell’influenza dell’eredità genetica sulla risposta al farmaco da parte di ciascun individuo.
Why do similarity search? Similarity indicates conserved function Human and mouse genes are more than 80% similar at sequence level But these genes are small fraction of genome Most sequences in the genome are not recognizably similar Comparing sequences helps us understand function Locate similar gene in another species to understand your new gene Rosetta stone
Issues to consider Dealing with gaps Do we want gaps in alignment? What are disadvantages of Many small gaps? Some big gaps?
Warning: similarity not transitive! If 1 is “similar” to 2, and 3 is “similar” to 2, is 1 similar to 3? Not necessarily AAAAAABBBBBB is similar to AAAAAA and BBBBBB But AAAAAA is not similar to BBBBBB “not transitive unless alignments are overlapping”
Summary Why are biological sequences similar to one another? Start out similar, follow different paths Knowledge of how and why sequences change over time can help you interpret similarities and differences between them
BLAST Basic Local Alignment Search Tool Algorithm for comparing a given sequence against sequences in a database A match between two sequences is an alignment Many BLAST databases and web services available
Example BLAST questions Which bacterial species have a protein that is related in lineage to a protein whose amino-acid sequence I know? Where does the DNA I’ve sequenced come from? What other genes encode proteins that exhibit structures similar to the one I’ve just determined?
Global vs. Local Global – both sequences aligned along entire lengths Local – best subsequence alignment found Global alignment of two genomic sequences may not align exons Local alignment would only pick out maximum scoring exon
BLAST Overview Three heuristic layers: seeding, extension, and evaluation Seeding – identify where to start alignment Extension – extending alignment from seeds Evaluation – Determine which alignments are statistically significant