La parola “Bioinformatica”

Slides:



Advertisements
Presentazioni simili
Analisi e progettazione
Advertisements

Unità A1 Informazioni e dati. Obiettivi Conoscere i principali concetti legati allinformatica Saper distinguere tra informazioni e dati Conoscere il concetto.
Il favoloso viaggio alla scoperta del DNA
Tumori e predisposizione genetica
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Corso di Laurea Specialistica in Informatica Bioinformatica A. A
Quadro di riferimento INValSI Scienze I livelli di competenza
Le proteine: come sono fatte, come funzionano, e come si sono evolute
Bioinformatica Prof. Mauro Fasano
BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.
BASI DI DATI BIOLOGICHE - 3
La Formazione dei futuri docenti Nel Corso di laurea in Scienze della formazione primaria.
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
Per avere una utilità pratica un marcatore deve essere polimorfico
Corso di ingegneria genetica
Comprendere per riassumere, riassumere per comprendere
Citologia della sintesi delle Proteine
La costruzione e lo sviluppo delle competenze a scuola
NLM - National Library of Medicine NLM - National library of Medicine Che cosè? n Dove? Bethesda, MD, USA n Affiliazione: –Department of Health and Human.
INDICAZIONI PER IL CURRICOLO (strumento di lavoro)
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
Caratterizzazione di un gene clonato
Metodi basati sulle similitudini per dedurre la funzione di un gene
Bioinformatica Andrea G. B. Tettamanzi.
Entrez + MedLine => PubMed
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Banche dati biologiche
Software per la Bioinformatica
Università degli Studi di Genova Laurea Specialistica in Biotecnologie Medico-Farmaceutiche Corso di: Biotecnologie Diagnostiche A.A. 2004/2005 Utilizzo.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
In questa lezione ci occuperemo
Ricerca di similarità di sequenza (FASTA e BLAST)
Alcuni esempi di domande di esame
I DATABASE Elenco: Statistiche (Vedere i vari database):
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
Sequenze e Banche Dati Biologiche
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
L’accesso alle banche dati bibliografiche per l’area economica La ricerca economica per la tesi di laurea: abilità strumentali e strategie informative.
Nozioni base di Biologia
Le PROTEINE o PROTIDI I protidi o proteine sono composti quaternari in quanto formati essenzialmente da 4 elementi: C (carbonio), H (idrogeno), O (ossigeno)
Fondamenti di Bioinformatica e di Biologia di sistemi (c.i. 18 CFU)
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Gli aminoacidi sono 20.
Progetto innova-menti in rete Liceo scientifico Marie Curie Meda
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Organizzazione Aziendale
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
GQuery ( ncbi. nlm. nih
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Cognitivismo / information processing (IP) Mappe concettuali Preconoscenze e comprensione significativa metacognizione.
IL CODING.
Laurea Specialistica “Metodologie Chimiche Avanzate” A.A Gabriele Ricchiardi Ricercatore/Chimica Fisica Tel.:
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle Prof.
Pagina web
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Corso di Biologia Molecolare I Pagina web.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
La Fabbrica delle Proteine
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
DATABASE=collezione di dati biologici RECORD=elementi del database (o ENTRY) CAMPI=attributi dei record IDENTIFICATORE DI RECORD=alfanumerico identificativo.
Settimana dal 7 al 13 dicembre Cos'è l'Ora del Codice L'Ora del Codice, in inglese The Hour of Code, è un'iniziativa nata negli Stati Uniti nel.
Corso di bioinformatica Eugenio Notomista tel Introduzione alla bioinformatica G. Valle, M. Helmer Citterich, M. Attimonelli,
FIRB 2003 (art.8) D.D LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: CNRBA ATTIVITA’  Sviluppo programmi di analisi  Sviluppo.
Definizione di GENETICA
Transcript della presentazione:

La parola “Bioinformatica” Bioinformatica e “Informazione” La parola “Bioinformatica” ha a che vedere con in concetto di INFORMAZIONE Informazione: è un concetto ampio e multi-significato

INFORMAZIONE (liberamente tratto da wikipedia) Informazione riguarda una qualunque notizia/racconto/dato L'informazione è ciò che, ad un osservatore (o un recettore) posto in una situazione in cui si hanno almeno due occorrenze possibili, puo fare superare un'incertezza e risolvere un'alternativa (dall'ignoto al noto, dall'incerto al certo). la parola deriva dal sostantivo latino informatione(m); cfr.il verbo informare, nel significato di "dare forma alla mente", "disciplinare", "istruire", "insegnare" Riguarda il contesto in cui i dati sono raccolti, la loro codifica in forma intelligibile ed in definitiva il significato attribuito a tali dati.

INFORMAZIONE L’informazione è collegata a due concetti: DATO: un “osservabile” presentato alla conoscenza STRUTTURA: l’organizzazione ordinata del dato che lo rende intellegibile

INFORMAZIONE e DATABASE Un database (base di dati o anche banca dati) è un insieme di dati ELEMENTARI, OMOGENEI, ORDINATI e FRUIBILI (la strutturazione del dato ne permette la comprensione) Un database quindi è una collezione di dati attraverso la fruizione dei quali posso elaborare un’informazione Esempio: la rubrica telefonica è una base di dati “elementari, omogenei, ordinati e fruibili”

INFORMAZIONE e DATABASE Un esempio per capire FINESTRA (informazione) Base dati (raw) Base dati organizzata

Atlas of Protein Sequences and Structure (1965). BIONFORMATICA e BANCHE DATI La bioinformatica nasce dall’esigenza di catalogare dati (BIOLOGICI!) e dare loro un significato Il primo database bioinformatico è degli anni ’60. Margaret Dayhoff e colleghi raccolsero tutte le informazioni relative alle sequenze degli aminoacidi e pubblicò tali dati nel: Atlas of Protein Sequences and Structure (1965).

BIONFORMATICA e BANCHE DATI I dati allora noti (65 proteine!!) potevano essere contenuti in un semplice dischetto e rappresentavano il lavoro di un anno di un piccolo gruppo di ricercatori. Oggi la stessa quantità di informazioni viene prodotta un’ora circa. Nel 1982 con l’avvento delle tecnologia della PCR per il DNA inizia il progetto sul genoma umano e il gruppo del Laboratorio Europeo di Biologia Molecolare (EMBL) inizia a creare un database trascrivendo le informazioni contenute nelle riviste. Inizialmente gli inglesi stipulano un contratto di collaborazione con un gruppo americano (Los Alamos National Laboratory) da questa collaborazione nasce GenBanK. GENBANK nasce come database di sequenze, nucleotidi e proteine della NIH (National Institutes of Health) di Bethesda nel Maryland.

BIONFORMATICA e BANCHE DATI Tutti i record nelle GENBANK sono generati dall’immissione diretta delle sequenze da parte dei relativi autori. Questa banca dati di biologia molecolare è mantenuta dal National Center for Biotechnology Information (NCBI) al NIH.

BIONFORMATICA e BANCHE DATI Oggi è in stretta collaborazione con DDBJ: un centro giapponese (DNA Data base of Japan, DDBJ, Mishana) EMBL (Laboratorio Europeo di Biologia Molecolare, Hinxton UK) mantenuto dall’European Bioinformatic Institute (EBI) Ognuno di questi centri rappresenta un punto di immissione dei dati relativi alle sequenze.

NCBI 2005

BANCHE DATI esistenti Le banche dati possono essere classificate in molte categorie (elenco non esaustivo): • Banche Dati di bio-sequenze (es.: Genebank) • Banche Dati genomiche (es.: TIGR, GeneBank) • Banche dati di espressone genica (TIGR) • Banche dati di proteomica (Expasy) Banche dati metabolomica (KEGG, Kyoto) Banche dati di mutanti (SIGnAL, Salk Institute)

BANCHE DATI primarie e secondarie Attualmente la GenBank viene considerata una banca DNA centrica, e rappresenta il punto di riferimento nell'ambito della biologia molecolare. Occorre distinguere tra DB  Primari (detti anche ARCHIVAL) DB secondari (CURATED)

BANCHE DATI DB PRIMARI I data base primari rappresentano i risultati emersi dalla sperimentazione in laboratorio, sono quindi i risultati di un sequenziamento ottenuto a livello di DNA. Ogni annotazione del DNA e definita come CDS (coding sequence). La sequenza di aminoacidi viene ricavata in quanto difficilmente si attua un sequenziamento a livello aminoacidico. Si deve comunque prestare molta attenzione nell’uso e nell’interpretazione dei risultati ottenuti da queste sequenze.

DB SECONDARI BANCHE DATI I data base secondari sono costruiti a partire da dati grezzi presenti in database primari Sono costrutiti grazie all’analisi e alla interpretazione dei dati. REF SEQ (NCBI) Prosite (db di famiglie di proteine e di domini) Pfam (db di domini funzionali)

Problemi per la gestione di banche dati di acidi nucleici Genbank Annotated nucleic acids sequences database (dall’autore) Problemi: Errori di sequenza mantenere le annotazioni e aggiornarle Sovrapposizioni delle sequenze (redundancy) Polimorfismo e varianti

DB SECONDARI : REF SEQ RIMEDIO 250.000 species vs 4000 species Provisional: not curated Reviewed: curate da staff di refSeq

Database per sequenze di DNA NOTA NON ESISTONO SOLO Database per sequenze di DNA

Banche dati di proteine Swissprot Annotated protein sequences database Problemi: Derivano per lo più da traduzioni

Banche dati di strutture Protein Data Bank 3D protein structures database

Banche dati derivate (secondarie) PROSITE Pattern funzionali ProDom Domini proteici FSSP, SCOP, CATH Famiglie strutturali OMIM Geni e malattie geniche associate

UN PO DI NUMERI…

NCBI 1982-2011 124 gigabasi Oggi (20/2/11) As of 15 February 2011, GenBank 182.0 has 132,015,054 loci, 124,277,818,310 bases, 132 milioni loci, 124 gigabasi

NCBI: il sistema “ENTREZ”

NCBI: tools! (molto piu che solo GenBank)

NCBI: tools! (molto piu che solo GenBank)

NCBI tools: TAXBROWSER NCBI: tools! (molto piu che solo GenBank)

BANCHE DATI DI SEQUENZE PROTEICHE

BANCHE DATI DI SEQUENZE PROTEICHE: Expasy

BANCHE DATI DI SEQUENZE PROTEICHE: Expasy

BANCHE DATI DI SEQUENZE PROTEICHE: Expasy