BASI DI DATI BIOLOGICHE - 1
Sommario Introduzione. La analisi biologiche e i dati che producono. Organizzazione dei dati. Esempi.
Tipi di dati Le analisi biologiche producono dati di diverso tipo: Stringhe.Numeri.Immagini.
Tipi di dati – le stringhe Stringhe che forniscono una descrizione degli oggetti. Stringhe ottenute come risultato di analisi (ad esempio, sequenziamento).
Tipi di dati – i numeri I numeri posso essere di diverso tipo: Interi.Decimali.Reali.
Tipi di dati – le immagini Esempi di ananlisi che generano immagini. Microarray.Blot....
Tipi di dati – altri tipi Vi sono, inoltre, tipi di dati derivati dai precedenti: Intervalli numerici. Sottoinsiemi di elementi (enumerativi). Dati temporali (Data/Ora). Dati Multimediali.
Organizzazione dei dati Il problema di organizzare i dati prodotti è un problema fondamentale. Digitalizzazione. File system. Fogli di Calcolo. Basi di dati.
Organizzazione dei dati – File system Vantaggi:Semplicità. Nessun carico aggiuntivo di informazione. Svantaggi: Nessuna strutturazione dei dati. Organizzazione delegata all'utente.
Organizzazione dei dati – Fogli di calcolo Vantaggi: Elaborazioni complesse dei dati. Ordinamento dei dati. Svantaggi: Nessuna connessione tra dati di diverse analisi. Gestione della ridondaza dei dati delegata all'utente.
Organizzazione dei dati – Le basi di dati Vantaggi: Organizzazione e strutturazione dei dati. Possibilità di interrogazioni complesse. Svantaggi: Complessità della progettazione della base di dati. Conoscenza dei linguaggi per basi di dati.
Esempio – sequenziamento del DNA (1) Tale esempio metterà in evidenza: i tipi di dati prodotti da un esperimento; le diverse forme di organizzazione dei dati.
Esempio – sequenziamento del DNA (2) Un singolo cromatogramma raccoglie i seguenti dati: Numerici (qualità). Stringhe (la sequenza). Grafici (il cromatogramma). Vari: Nome della sequenza; Data di produzione;...
Esempio – sequenziamento del DNA (3) Per poter mantenere i dati nel file system, occorre: Creare un cartella. Creare un file per il cromatogramma e uno o più file per la sequenza e le informazioni sulla qualità. Dare un nome univoco al file (nella cartella). Tutto ciò comporta problemi di accesso ed organizzazione dei dati. In particolare, non si è in grado di effettuare facilmente elaborazioni significative dei dati, né di confrontare i dati fra loro.
Esempio – sequenziamento di DNA (4) Qualora si utilizzi un foglio di calcolo: Procedura simile a quella vista in precedenza. I file creati sono di tipo particolare. Principale vantaggio: i dati sono strutturati. In particolare, ad ogni colonna può essere associato un tipo; inoltre, i dati possono essere facilmente ordinati. Principali problemi: non vi sono strumenti per la gestione della ridondanza dei dati; risulta difficile rappresentare alcuni tipi di dati; non vi è modo di incrociare i dati.
Esempio – sequenziamento di DNA (5) Luso delle basi di dati consente di: Strutturare, ordinare ed elaborare i dati. Disporre di un linguaggio di interrogazione dei dati. Principali problemi: padronanza dei linguaggi di interrogazione delle basi di dati e delle metodologie e tecniche di progettazione e sviluppo di una base di dati.
Esempio – Blast Nel caso si voglia registrare il risultato di blast effettuati su una sequenza: Si deve tenere conto di numeri (e-value) e stringhe (annotazione). Potenzialmente si possono ottenere più (risultati di) blast per ogni sequenza.
Esempio – Microarray Ogni esperimento produce: Due immagini. Una matrice di 37 colonne con elementi. Moltissime informazioni correlate (protocolli, biomateriali, programmi e strumenti utilizzati).