La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

La parola “Bioinformatica” ha a che vedere con in concetto di INFORMAZIONE Bioinformatica e “Informazione” Informazione: è un concetto ampio e multi-significato.

Presentazioni simili


Presentazione sul tema: "La parola “Bioinformatica” ha a che vedere con in concetto di INFORMAZIONE Bioinformatica e “Informazione” Informazione: è un concetto ampio e multi-significato."— Transcript della presentazione:

1 La parola “Bioinformatica” ha a che vedere con in concetto di INFORMAZIONE Bioinformatica e “Informazione” Informazione: è un concetto ampio e multi-significato

2 Informazione riguarda una qualunque notizia/racconto/dato L'informazione è ciò che, ad un osservatore (o un recettore) posto in una situazione in cui si hanno almeno due occorrenze possibili, puo fare superare un'incertezza e risolvere un'alternativa (dall'ignoto al noto, dall'incerto al certo). la parola deriva dal sostantivo latino informatione(m); cfr.il verbo informare, nel significato di "dare forma alla mente", "disciplinare", "istruire", "insegnare" Riguarda il contesto in cui i dati sono raccolti, la loro codifica in forma intelligibile ed in definitiva il significato attribuito a tali dati. INFORMAZIONE (liberamente tratto da wikipedia)

3 L’informazione è collegata a due concetti: DATO: un “osservabile” presentato alla conoscenza STRUTTURA: l’organizzazione ordinata del dato che lo rende intellegibile INFORMAZIONE

4 Un database (base di dati o anche banca dati) è un insieme di dati ELEMENTARI, OMOGENEI, ORDINATI e FRUIBILI (la strutturazione del dato ne permette la comprensione) Un database quindi è una collezione di dati attraverso la fruizione dei quali posso elaborare un’informazione INFORMAZIONE e DATABASE Esempio: la rubrica telefonica è una base di dati “elementari, omogenei, ordinati e fruibili”

5 INFORMAZIONE e DATABASE Base dati (raw)Base dati organizzata FINESTRA (informazione) Un esempio per capire

6 La bioinformatica nasce dall’esigenza di catalogare dati (BIOLOGICI!) e dare loro un significato Il primo database bioinformatico è degli anni ’60. Margaret Dayhoff e colleghi raccolsero tutte le informazioni relative alle sequenze degli aminoacidi e pubblicò tali dati nel: Atlas of Protein Sequences and Structure (1965). BIONFORMATICA e BANCHE DATI

7 I dati allora noti (65 proteine!!) potevano essere contenuti in un semplice dischetto e rappresentavano il lavoro di un anno di un piccolo gruppo di ricercatori. Oggi la stessa quantità di informazioni viene prodotta un’ora circa. Nel 1982 con l’avvento delle tecnologia della PCR per il DNA inizia il progetto sul genoma umano e il gruppo del Laboratorio Europeo di Biologia Molecolare (EMBL) inizia a creare un database trascrivendo le informazioni contenute nelle riviste. Inizialmente gli inglesi stipulano un contratto di collaborazione con un gruppo americano (Los Alamos National Laboratory) da questa collaborazione nasce GenBanK. GENBANK nasce come database di sequenze, nucleotidi e proteine della NIH (National Institutes of Health) di Bethesda nel Maryland. BIONFORMATICA e BANCHE DATI

8  Tutti i record nelle GENBANK sono generati dall’immissione diretta delle sequenze da parte dei relativi autori.  Questa banca dati di biologia molecolare è mantenuta dal National Center for Biotechnology Information (NCBI) al NIH. BIONFORMATICA e BANCHE DATI

9 Oggi è in stretta collaborazione con  DDBJ: un centro giapponese (DNA Data base of Japan, DDBJ, Mishana)  EMBL (Laboratorio Europeo di Biologia Molecolare, Hinxton UK) mantenuto dall’European Bioinformatic Institute (EBI)  Ognuno di questi centri rappresenta un punto di immissione dei dati relativi alle sequenze. BIONFORMATICA e BANCHE DATI

10 NCBI 2005

11 BANCHE DATI esistenti Le banche dati possono essere classificate in molte categorie (elenco non esaustivo): Banche Dati di bio-sequenze (es.: Genebank) Banche Dati genomiche (es.: TIGR, GeneBank) Banche dati di espressone genica (TIGR) Banche dati di proteomica (Expasy) Banche dati metabolomica (KEGG, Kyoto) Banche dati di mutanti (SIGnAL, Salk Institute)

12 BANCHE DATI primarie e secondarie Attualmente la GenBank viene considerata una banca DNA centrica, e rappresenta il punto di riferimento nell'ambito della biologia molecolare. Occorre distinguere tra DB Primari (detti anche ARCHIVAL) DB secondari (CURATED)

13 BANCHE DATI DB PRIMARI  I data base primari rappresentano i risultati emersi dalla sperimentazione in laboratorio, sono quindi i risultati di un sequenziamento ottenuto a livello di DNA.  Ogni annotazione del DNA e definita come CDS (coding sequence).  La sequenza di aminoacidi viene ricavata in quanto difficilmente si attua un sequenziamento a livello aminoacidico.  Si deve comunque prestare molta attenzione nell’uso e nell’interpretazione dei risultati ottenuti da queste sequenze.

14 BANCHE DATI DB SECONDARI I data base secondari sono costruiti a partire da dati grezzi presenti in database primari  Sono costrutiti grazie all’analisi e alla interpretazione dei dati.  REF SEQ (NCBI)  Prosite (db di famiglie di proteine e di domini)  Pfam (db di domini funzionali)

15 Problemi per la gestione di banche dati di acidi nucleici Genbank Annotated nucleic acids sequences database (dall’autore) Problemi: Errori di sequenza mantenere le annotazioni e aggiornarle Sovrapposizioni delle sequenze (redundancy) Polimorfismo e varianti

16 RIMEDIO DB SECONDARI : REF SEQ species vs 4000 species Provisional: not curated Reviewed: curate da staff di refSeq

17 NOTA NON ESISTONO SOLO Database per sequenze di DNA

18 Banche dati di proteine Swissprot Annotated protein sequences database Problemi: Derivano per lo più da traduzioni

19 Banche dati di strutture Protein Data Bank 3D protein structures database

20 Banche dati derivate (secondarie) PROSITE Pattern funzionali ProDom Domini proteici FSSP, SCOP, CATH Famiglie strutturali OMIM Geni e malattie geniche associate

21 UN PO DI NUMERI…

22 NCBI As of 15 February 2011, GenBank has 132,015,054 loci, 124,277,818,310 bases, 132 milioni loci, 124 gigabasi 124 gigabasi Oggi (20/2/11)

23 ENTREZ NCBI: il sistema “ENTREZ”

24 NCBI: tools! (molto piu che solo GenBank)

25

26 NCBI tools: TAXBROWSER NCBI: tools! (molto piu che solo GenBank)

27 BANCHE DATI DI SEQUENZE PROTEICHE

28 BANCHE DATI DI SEQUENZE PROTEICHE: Expasy

29

30


Scaricare ppt "La parola “Bioinformatica” ha a che vedere con in concetto di INFORMAZIONE Bioinformatica e “Informazione” Informazione: è un concetto ampio e multi-significato."

Presentazioni simili


Annunci Google