I Dati Biologici vengono raccolti nelle BANCHE DATI (DATABASE, DB) BANCHE DATI di Sequenze BANCHE DATI di Strutture BANCHE DATI di Funzioni BANCHE DATI.

Slides:



Advertisements
Presentazioni simili
Modulo 5 DataBase ACCESS.
Advertisements

DBMS (DataBase Management System)
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità B1 Introduzione alle basi di dati.
Introduzione ai sistemi di basi di dati
bioChimica - 1 PON “le scienze in … gara”
Dal DNA alle Proteine: Traduzione del Messaggio Genetico
Archivio Necessità di immagazzinare in modo permanente grandi quantità di dati. Esempio: anagrafe dei cittadini di un comune.
Archivio Cé necessità di immagazzinare in modo permanente grandi quantità di dati. Esempio: anagrafe dei cittadini di un comune.
Ceppo S ucciso dal calore
L’uso dei database in azienda
1 I SISTEMI INFORMATIVI Luso dei DATABASE in azienda Giovedì, 22 aprile 2004Alessandro Capodaglio.
File.
Basi di dati. Vantaggi degli archivi digitali Risparmio di spazio: sono facilmente trasferibili e duplicabili Risparmio di tempo: si può accedere ai dati.
Access: Query semplici
Basi di dati Università Degli Studi Parthenope di Napoli
Appunti informatica- prof. Orlando De Pietro
Il "Dogma centrale" Replicazione DNA Trascrizione Trascrizione
Copolimero Assegnazione dei codoni mediante uso di copolimeri ripetuti contenenti due o tre nucleotidi Codoni presenti Amminoacidi incorporati Codoni.
DBMS ( Database Management System)
Implementare un modello di dati
Database & Information Retrieval
Esercitazione di Basi di Dati
Il linguaggio nucleotidico
TASSONOMIA DEI MICOBATTERI
INFORMATICA Corso Base Modulo G: I DataBase  Access.
ACCESS Introduzione Una delle necessità più importanti in informatica è la gestione di grandi quantità di dati. I dati possono essere memorizzati.
Progettare un database
LA TRASCRIZIONE Nella fase di trascrizione la doppia elica di una porzione di DNA viene dapprima svolta… … ad opera di un enzima detto RNA-Polimerasi.
Introduzione alle basi di dati
DATABASE Introduzione
Laboratorio informatico I
Corso di Informatica Corso di Laurea in Conservazione e Restauro dei Beni Culturali Gianluca Torta Dipartimento di Informatica Tel: Mail:
Microsoft Access (parte 5) Introduzione alle basi di dati Scienze e tecniche psicologiche dello sviluppo e dell'educazione, laurea magistrale Anno accademico:
Interrogare il database
Microsoft Access Query (II), filtri.
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
IV D Mercurio DB Lezione 1
Modulo 5 DataBase ACCESS. Informazioni e Dati INFORMAZIONI vengono scambiate con linguaggio scritto o parlato DATI rappresentazione di informazioni in.
I DATABASE.
I DBMS BASI DI DATI (DATABASE) Insieme organizzato di dati utilizzati
ESERCIZIO SULLA SINTESI PROTEICA
Microsoft Access Maschere (II).
Database Concetti di base
IV D Mercurio DB Lezione 2
Basi di dati Maria Laura Alessandroni
TRADUZIONE del RNA.
ASSOCIAZIONE F2F2 Gameti pr vg 100% pr + vg + 50%pr + pr vg + vg 25% +25% pr vg 50%pr pr vg vg 25% +25% pr + pr + vg + vg + pr pr vg vg P F 1 pr + pr vg.
Data Base ACCESS EM 09.
Esercitazione no. 4 EXCEL II Laboratorio di Informatica AA 2009/2010.
Modulo 5 Uso delle Basi di dati Paola Pupilli
Sistemi di Elaborazione delle Informazioni
© 2015 Giorgio Porcu - Aggiornamennto 28/03/2015 UdA 1A Database Progettazione Fisica G IORGIO P ORCU
La sintesi proteica La sintesi proteica è il processo che porta alla formazione delle proteine utilizzando le informazioni contenute nel DNA. Si tratta.
Lezione 5 - SQL. Linguaggi per DB Per interagire con le basi di dati occorre un linguaggio Linguaggio SQL (Structured Query Language), linguaggio standardizzato.
ICT e Sistemi informativi Aziendali Materiale di supporto alla didattica.
Microsoft Access Filtri, query. Filtri Un filtro è una funzione che provoca la visualizzazione dei soli record contenenti dati che rispondono a un certo.
Definizione di genoteca (o library) di DNA
Linguaggi per basi di dati Linguaggi di definizione dei dati Utilizzati per definire gli schemi e le autorizzazioni per l’accesso Linguaggi di manipolazione.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
1 “ Le Basi di Dati ”. 2 Parte 5: Tabelle –Creazione di una tabella –Indici e chiavi primarie –Relazioni e integrità referenziale Basi di Dati Struttura.
Modulo 5 – Database ACCESS LICEO SCIENTIFICO “ B. RESCIGNO COMPUTER SCUOLA PIANO INTEGRATO 2008/09 ESPERTO prof.ssa Rita Montella.
La Fabbrica delle Proteine
Linguaggio SQL. Linguaggi per database La diffusione del modello relazionale ha favorito l’uso prevalente di linguaggi non procedurali: in questo modo.
Il linguaggio SQL (Structured Query Language) è il linguaggio standard per creare, manipolare e interrogare database relazionali. SQL non è case-sensitive:
I DONEITÀ DI C ONOSCENZE E C OMPETENZE I NFORMATICHE ( A – D ) Un database è un insieme di record (registrazioni) e di file (archivi) organizzati per uno.
Sintesi proteica Prof. Domenico Ripolo.
Assegnazione dei codoni mediante uso di
Lezione del 7 marzo 2017 Evoluzione cellulare, omeostasi, dimensioni e forma cellulare, microscopia, cellule procariotiche ed eucariotiche, cellule vegetali.
Mutazioni Una modificazione chimica di una base
I Dati Biologici vengono raccolti nelle BANCHE DATI (DATABASE, DB)
Transcript della presentazione:

I Dati Biologici vengono raccolti nelle BANCHE DATI (DATABASE, DB) BANCHE DATI di Sequenze BANCHE DATI di Strutture BANCHE DATI di Funzioni BANCHE DATI di Pubblicazioni

PERCHE’ SONO NECESSARIE LE BANCHE DATI? Gli avanzamenti in tutti i campi della biologia degli ultimi anni sono stati accompagnati da tecnologie strumentali sempre più sofisticate. Il risultato è una enorme produzione di dati Scientifici. Dalla figura si può osservare che quantità di dati prodotti (sequenze di DNA nell'esempio) aumenta molto più velocemente del numero di pubblicazioni scientifiche.

Crescita della Banca di Sequenze di DNA GenBank

Crescita della Banca di strutture PDB

GENBANK 10**4 10**3 PDB 10**6 10**

E’ necessario disporre di nuovi sistemi di immagazzinamento e accesso all'informazione. Questa esigenza trova una risposta nelle banche dati che nel settore biologico si stanno diffondendo moltissimo e sono diventate uno strumento indispensabile per la ricerca e per la diffusione dei risultati.

Un DATABASE è una collezione di dati che viene gestita e organizzata da un software specifico, il DBMS (DataBase Management System, Sistema di Gestione di DataBase). Un DBMS è sostanzialmente un programma che si frappone fra l'utente ed i dati veri e propri. Grazie a questo programma l'utente e le applicazioni non accedono ai dati così come sono memorizzati effettivamente ma ne vedono solamente una rappresentazione logica. Ciò permette un elevato grado di indipendenza fra le applicazioni e la memorizzazione fisica dei dati. L'amministratore del database, se ne sente la necessità, può decidere di memorizzare i dati in maniera differente senza che le applicazioni, e quindi gli utenti, ne risentano. La cosa importante è che non venga cambiata la rappresentazione logica di quei dati, che è la sola cosa che i loro utilizzatori conoscono.

COME E’ FATTO UN BATABASE? Un modo semplice di immaginare un database è di pensare ad uno schedario di studenti di biotecnologia. Ogni scheda contiene una serie di campi, ad esempio: matricola, nome, cognome, luogo e data di nascita, indirizzo, sesso, ecc... Quindi il database è costituito da tanti “record” o “entry” (le schede del nostro esempio) e ogni record è costituito da tanti campi. Ogni campo, ovviamente, deve essere inequivocabilmente identificabile. Non basta scrivere a caso i dati su una scheda, ma vogliamo essere sempre in grado di distinguere se ad esempio una città corrisponda al luogo di nascita o residenza, se una data corrisponda alla data di nascita o ad un’altra data ecc.. Quindi servono degli identificatori di campo che possono corrispondere semplicemente alla posizione (es. primo campo, secondo campo, ecc.) di una casella di testo (sia in una scheda fisica, sia in un file) oppure possono essere delle "etichette" che indicano il tipo di campo (anche queste le possiamo trovare sia in una scheda fisica che in un file).

Il DB degli studenti di Scienze Biotecnologiche Stu de nte Matricol a NomeCognomeData Nascita Luogo Nascita Residen za Ses so 1513/009MarcoRossi Napoli M 2513/026LuigiEsposito Napoli M 3513/028MariaLongobardi Napoli F 4513/041MonicaEsposito SalernoNapoliF 5513/055MariaBianchi Caserta F 6513/059Salvator e Donnarum ma Salerno M 7513/075MarcoEsposito Napoli F …………………… …………………… Campi record

Database relazionali i database appartenenti a questa categoria si basano sul modello relazionale la cui struttura principale è la relazione, cioè una tabella bidimensionale composta da righe e colonne. Ciascuna riga rappresenta un'entità (record) che noi vogliamo memorizzare nel database. Le caratteristiche di ciascuna entità sono definite invece dalle colonne delle relazioni (campi), che vengono chiamate attributi. Entità con caratteristiche comuni, cioè descritti dallo stesso insieme di attributi, faranno parte della stessa relazione.

Oltre all'identificatore di campo è importante avere un “identificatore di record” chiamato anche “chiave” o ancora “ID” che deve essere diverso per ogni record. Il campo chiave o ID può essere rappresentato da un numero progressivo, oppure da una sigla alfanumerica, o anche da un nome. Comunque sia, è essenziale che sia unico. L’ID identifica univocamente i record del DB (non possono esistere 2 record con lo stesso valore nel campo chiave!)

Il DB degli studenti di Scienze Biotecnologiche Stu de nte Matricol a (ID) NomeCognomeData Nascita Luogo Nascita Residen za Ses so 1513/009MarcoRossi Napoli M 2513/026LuigiEsposito Napoli M 3513/028MariaLongobardi Napoli F 4513/041MonicaEsposito SalernoNapoliF 5513/055MariaBianchi Caserta F 6513/059Salvator e Donnarum ma Salerno M 7513/075MarcoEsposito Napoli F …………………… …………………… Campi record

Ad esempio l’ID della banca dati PDB (il “codice PDB”) ha la forma: # §§§ dove # = numero da 0 a 9 § = numero da 0 a 9 oppure lettera alfabeto inglese 1ONC 1BSR 1A2W 1KW6 1Q0C 11CY ….

Accesso alle informazioni di un DB Se il database è un database relazionale il linguaggio utilizzato per recuperare le informazioni che ci vengono mostrate si chiama SQL (Structured Query Language). Ad esempio quasi sempre è possibile fare una ricerca usando una o più “parole” unite dagli operatori booleani (AND, NOT, OR) x AND y = sia x che y x NOT y = x non accompagnato da y x OR y = x oppure y (x da solo, y da solo o entrambi)

Ad esempio nel DB degli studenti di Scienze Biotecnologiche potrei cercare: “Marco” (campo: nome) AND “Napoli” (campo: luogo nascita) “Marco” (campo: nome) NOT “Napoli” (campo: luogo nascita) “Marco” (campo: nome) OR “Mario” (campo: nome)

Sarebbe assurdo, ogni volta che si fa una ricerca scandire tutto il file che contiene i record del DB dall'inizio alla fine per trovare la parola o il valore che ci interessa. Viene fatta allora una indicizzazione, cioè si preparano degli indici, con tutti i possibili valori dei vari campi (o almeno dei principali) e la posizione corrispondente nella tabella (o meglio il file che la contiene). Gli indici sono dei file molto più piccoli. Le ricerche sono effettuate solo sugli indici e risultano quindi più veloci.

Student e Matricol a (ID) NomeCognomeData Nascita Luogo Nascita Residenz a Sesso 1513/009MarcoRossi Napoli M 2513/026LuigiEsposito Napoli M 3513/028MariaLongobard i Napoli F 4513/041MonicaEsposito SalernoNapoliF 5513/055MariaBianchi Caserta F 6513/059Salvator e Donnarum ma Salerno M 7513/075MarcoEsposito Napoli F …………………… …………………… Nome Marco: 1, 7, … Luigi: 2, … Maria: 3, 5, … Monica: 4, … Salvatore: 7, … Cognome Rossi: 1, … Esposito: 2, 4, 7, … Longobardi: 3, … Bianchi: 5, … Donnarumma: 7, … Sesso M: 1, 2, 6, … F: 3, 4, 5, 7, …

VANTAGGI 1. La consultazione è molto più rapida 2. Si può scegliere di indicizzare solo parte dei dati per rendere il file di indici più compatto e veloce da consultare. 4. La scelta è stata fatta ed utilizzata dalle banche dati biologiche basate su sistemi di interrogazioni come ENTREZ e SRS SVANTAGGI Se si aggiungono nuovi record o si aggiornano i dati preesistenti si deve ricalcolare l'indice dei dati.

DATABASE=collezione di dati biologici RECORD=elementi del database (o ENTRY) CAMPI=attributi dei record IDENTIFICATORE DI RECORD=alfanumerico identificativo di un record IDENTIFICATORE DI CAMPO=alfanumerico identificativo di un campo FLAT FILE=file di testo contenente le descrizioni dei campi di un record DataBase Management System (DBMS)=software che gestisce il DB e consente l’accesso ai dati

Basi Azotate DNA: Adenina (A), Guanina (G), Citosina (C), Timina (T) RNA: Adenina (A), Guanina (G), Citosina (C), Uracile (U)

G C A=T

N = A,C,G,T V = G,A,C D = G,A,T B = G,T,C H = A,T,C W = A,T M = A,C R = A,G K = G,T S = G,C Y = C,T Codice standard per posizioni degenerate: ATCRGNCCTBAT ATCAGACCTGAT G G T C C T R Y W S

Codice Genetico: successione di 3 basi = 1 aa U | C | A | G____ UUU F | UCU S | UAU Y | UGU C U UUC F | UCC S | UAC Y | UGC C UUA L | UCA S | UAA * | UGA * UUG L | UCG S | UAG * | UGG W | | | CUU L | CCU P | CAU H | CGU R C CUC L | CCC P | CAC H | CGC R CUA L | CCA P | CAA Q | CGA R CUG L | CCG P | CAG Q | CGG R | | | AUU I | ACU T | AAU N | AGU S A AUC I | ACC T | AAC N | AGC S AUA I | ACA T | AAA K | AGA R AUG M | ACG T | AAG K | AGG R | | | GUU V | GCU A | GAU D | GGU G G GUC V | GCC A | GAC D | GGC G GUA V | GCA A | GAA E | GGA G GUG V | GCG A | GAG E | GGG G 2° BASE 1° BASE 3° BASE * = STOP AUG = M = START Start alternativi GUG UUG CUG

DNA 5’..ATGTTTACTGATGGTGGTAAA AAACATTGA..3’ RNA 5’..AUGUUUACUGAUGGUGGUAAA AAACAUUGA..3’ Nter M F T D G G K K H Cter proteina DNA filamento senso 5’..ATGTTTACTGATGGTGGTAAA AAACATTGA..3’ 3’..TACAAATGACTACCACCATTT TTTGTAACT..5’ filamento antisenso

RNA pol Regolatori Trascrizionali ATG STOP regione codificante (open reading frame) regolatori della trascrizione PROMOTORE (attira la RNA pol) punto di inizio della trascrizione terminatore della trascrizione ATG STOP 5’ 3’ mRNA

ATG STOP regioni codificanti ESONI regioni non codificanti INTRONI pre-mRNA 5’ 3’ trascrizione mRNA 5’ 3’ SPLICING

DATABASE DI SEQUENZE DI DNA I due maggiori centri bioinformatici mondiali, N.C.B.I. di Washington negli Stati Uniti e l'E.B.I. a Cambridge in Europa, gestiscono i principali database di sequenze di DNA: Genbank e EMBL. I due database contengono essenzialmente gli stessi dati e ogni giorno si scambiano le informazioni per aggiornarsi a vicenda. Tuttavia il formato di ogni record, come appare nei corrispondenti "flat files" è leggermente diverso. N.C.B.I./Genbank E.B.I/EMBL

DATABASE EST (Expressed Sequence Tags) Cellula o tessuto mRNA cDNA Library cDNA EST DB Estrazione mRNA Trascrizione inversa Clonaggio Sequenziamento