La parola “Bioinformatica” Bioinformatica e “Informazione” La parola “Bioinformatica” ha a che vedere con in concetto di INFORMAZIONE Informazione: è un concetto ampio e multi-significato
INFORMAZIONE (liberamente tratto da wikipedia) Informazione riguarda una qualunque notizia/racconto/dato L'informazione è ciò che, ad un osservatore (o un recettore) posto in una situazione in cui si hanno almeno due occorrenze possibili, puo fare superare un'incertezza e risolvere un'alternativa (dall'ignoto al noto, dall'incerto al certo). la parola deriva dal sostantivo latino informatione(m); cfr.il verbo informare, nel significato di "dare forma alla mente", "disciplinare", "istruire", "insegnare" Riguarda il contesto in cui i dati sono raccolti, la loro codifica in forma intelligibile ed in definitiva il significato attribuito a tali dati.
INFORMAZIONE L’informazione è collegata a due concetti: DATO: un “osservabile” presentato alla conoscenza STRUTTURA: l’organizzazione ordinata del dato che lo rende intellegibile
INFORMAZIONE e DATABASE Un database (base di dati o anche banca dati) è un insieme di dati ELEMENTARI, OMOGENEI, ORDINATI e FRUIBILI (la strutturazione del dato ne permette la comprensione) Un database quindi è una collezione di dati attraverso la fruizione dei quali posso elaborare un’informazione Esempio: la rubrica telefonica è una base di dati “elementari, omogenei, ordinati e fruibili”
INFORMAZIONE e DATABASE Un esempio per capire FINESTRA (informazione) Base dati (raw) Base dati organizzata
Atlas of Protein Sequences and Structure (1965). BIONFORMATICA e BANCHE DATI La bioinformatica nasce dall’esigenza di catalogare dati (BIOLOGICI!) e dare loro un significato Il primo database bioinformatico è degli anni ’60. Margaret Dayhoff e colleghi raccolsero tutte le informazioni relative alle sequenze degli aminoacidi e pubblicò tali dati nel: Atlas of Protein Sequences and Structure (1965).
BIONFORMATICA e BANCHE DATI I dati allora noti (65 proteine!!) potevano essere contenuti in un semplice dischetto e rappresentavano il lavoro di un anno di un piccolo gruppo di ricercatori. Oggi la stessa quantità di informazioni viene prodotta un’ora circa. Nel 1982 con l’avvento delle tecnologia della PCR per il DNA inizia il progetto sul genoma umano e il gruppo del Laboratorio Europeo di Biologia Molecolare (EMBL) inizia a creare un database trascrivendo le informazioni contenute nelle riviste. Inizialmente gli inglesi stipulano un contratto di collaborazione con un gruppo americano (Los Alamos National Laboratory) da questa collaborazione nasce GenBanK. GENBANK nasce come database di sequenze, nucleotidi e proteine della NIH (National Institutes of Health) di Bethesda nel Maryland.
BIONFORMATICA e BANCHE DATI Tutti i record nelle GENBANK sono generati dall’immissione diretta delle sequenze da parte dei relativi autori. Questa banca dati di biologia molecolare è mantenuta dal National Center for Biotechnology Information (NCBI) al NIH.
BIONFORMATICA e BANCHE DATI Oggi è in stretta collaborazione con DDBJ: un centro giapponese (DNA Data base of Japan, DDBJ, Mishana) EMBL (Laboratorio Europeo di Biologia Molecolare, Hinxton UK) mantenuto dall’European Bioinformatic Institute (EBI) Ognuno di questi centri rappresenta un punto di immissione dei dati relativi alle sequenze.
NCBI 2005
BANCHE DATI esistenti Le banche dati possono essere classificate in molte categorie (elenco non esaustivo): • Banche Dati di bio-sequenze (es.: Genebank) • Banche Dati genomiche (es.: TIGR, GeneBank) • Banche dati di espressone genica (TIGR) • Banche dati di proteomica (Expasy) Banche dati metabolomica (KEGG, Kyoto) Banche dati di mutanti (SIGnAL, Salk Institute)
BANCHE DATI primarie e secondarie Attualmente la GenBank viene considerata una banca DNA centrica, e rappresenta il punto di riferimento nell'ambito della biologia molecolare. Occorre distinguere tra DB Primari (detti anche ARCHIVAL) DB secondari (CURATED)
BANCHE DATI DB PRIMARI I data base primari rappresentano i risultati emersi dalla sperimentazione in laboratorio, sono quindi i risultati di un sequenziamento ottenuto a livello di DNA. Ogni annotazione del DNA e definita come CDS (coding sequence). La sequenza di aminoacidi viene ricavata in quanto difficilmente si attua un sequenziamento a livello aminoacidico. Si deve comunque prestare molta attenzione nell’uso e nell’interpretazione dei risultati ottenuti da queste sequenze.
DB SECONDARI BANCHE DATI I data base secondari sono costruiti a partire da dati grezzi presenti in database primari Sono costrutiti grazie all’analisi e alla interpretazione dei dati. REF SEQ (NCBI) Prosite (db di famiglie di proteine e di domini) Pfam (db di domini funzionali)
Problemi per la gestione di banche dati di acidi nucleici Genbank Annotated nucleic acids sequences database (dall’autore) Problemi: Errori di sequenza mantenere le annotazioni e aggiornarle Sovrapposizioni delle sequenze (redundancy) Polimorfismo e varianti
DB SECONDARI : REF SEQ RIMEDIO 250.000 species vs 4000 species Provisional: not curated Reviewed: curate da staff di refSeq
Database per sequenze di DNA NOTA NON ESISTONO SOLO Database per sequenze di DNA
Banche dati di proteine Swissprot Annotated protein sequences database Problemi: Derivano per lo più da traduzioni
Banche dati di strutture Protein Data Bank 3D protein structures database
Banche dati derivate (secondarie) PROSITE Pattern funzionali ProDom Domini proteici FSSP, SCOP, CATH Famiglie strutturali OMIM Geni e malattie geniche associate
UN PO DI NUMERI…
NCBI 1982-2011 124 gigabasi Oggi (20/2/11) As of 15 February 2011, GenBank 182.0 has 132,015,054 loci, 124,277,818,310 bases, 132 milioni loci, 124 gigabasi
NCBI: il sistema “ENTREZ”
NCBI: tools! (molto piu che solo GenBank)
NCBI: tools! (molto piu che solo GenBank)
NCBI tools: TAXBROWSER NCBI: tools! (molto piu che solo GenBank)
BANCHE DATI DI SEQUENZE PROTEICHE
BANCHE DATI DI SEQUENZE PROTEICHE: Expasy
BANCHE DATI DI SEQUENZE PROTEICHE: Expasy
BANCHE DATI DI SEQUENZE PROTEICHE: Expasy