Bioinformatica I Introduzione alle Banche Dati Biomediche.

Slides:



Advertisements
Presentazioni simili
Internet costituisce unenorme risorsa informativa Conoscere la rete vuol dire anche capire dove ed attraverso quali strumenti linformazione può essere.
Advertisements

Algebra di Boole Casazza Andrea 3EA I.I.S. Maserati.
DBMS (DataBase Management System)
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità B1 Introduzione alle basi di dati.
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità C1 Il linguaggio SQL.
PHP.
INTERNET : ARPA sviluppa ARPANET (rete di computer per scopi militari)
WEB OF SCIENCE ISI Web of Knowledge
BIBLIOTECAScuola Superiore Sant'Anna LA RICERCA INTEGRATA DELLE RISORSE ELETTRONICHE : metasearch e link resolver CONCETTI E STRUMENTI A cura di Maria.
Connessione con MySQL.
Esercitazione sulle modalità di ricerca di CINAHL.
LA RICERCA Larticolo 33, 1º comma, della Costituzione sancisce: "Larte e la scienza sono libere e libero ne è linsegnamento". Larticolo 33, 1º comma, della.
RETI INFORMATICHE.
Sistemi basati su conoscenza Conoscenza e ragionamento Prof. M.T. PAZIENZA a.a
L’uso dei database in azienda
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: Medline CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI- NAPOLI Prof.ssa.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: è meglio Google o Pubmed? CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI-
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: le banche dati
Architettura del World Wide Web
Basi di dati. Vantaggi degli archivi digitali Risparmio di spazio: sono facilmente trasferibili e duplicabili Risparmio di tempo: si può accedere ai dati.
Corso pratico di EBM n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois Torino,
Fogli elettronici - Spreadsheet
Lautore e il ricercatore nellambiente digitale 2. edizione 12 aprile 2007 Introduzione al Portale AIRE A cura di Cristina Capodaglio (Biblioteca del Dipartimento.
BIBLIOTECA CENTRALE PIETRO ARDUINO CIS DI AGRIPOLIS Corso avanzato di I° livello sulluso dei servizi bibliotecari Portale Aire/Metalib A cura del Gruppo.
RISORSE WEB Internet Per un uso consapevole delle risorse della Rete
I database per il medico / 2 n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois.
1 CSB di Economia Le nuove risorse per linformazione online settembre 2006 SFX cosa è e a cosa serve SFX è un software acquisito e implementato dallAteneo.
1 RISORSE DISPONIBILI PER GLI UTENTI B.A.U. Orientamento bibliografico – II modulo.
Corso di PHP.
DBMS ( Database Management System)
INTRODUZIONE l sistema operativo è il primo software che lutente utilizza quando accende il computer; 1)Viene caricato nella memoria RAM con loperazione.
Implementare un modello di dati
Modulo 1 – Reti Informatiche u.d. 4 (syllabus – 1.4.4)
INFORMATICA Corso Base Modulo G: I DataBase  Access.
Analisi (Analista) Progettazione (Progettista) Sviluppo o Traduzione (Sviluppatore) Documentazione.
ACCESS Introduzione Una delle necessità più importanti in informatica è la gestione di grandi quantità di dati. I dati possono essere memorizzati.
1 Ripassino Reti di Computer Carasco 19/02/ Che cosa è una rete informatica? Una rete informatica è un insieme di computer connessi tra di loro.
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
Presentazione Data Base Ovvero: il paradigma LAPM (Linux - Apache - PHP - mySQL) come supporto Open Source ad un piccolo progetto di Data Base relazionale,
BIOINFO3 - Lezione 51 INSERIMENTO DEI DATI Visto come si creano le tabelle (sinora tristemente vuote), cominciamo ad occuparci di come riempirle con dei.
Paper Based Prototipe Laboratorio di Basi di Dati 2 Università di Roma La Sapienza Tecnologie Informatiche Anno 2003/2004.
Università degli studi di Roma la Sapienza --- Laboratorio di Basi di Dati II - a.a. 2003/04 Presentato da: CAU Simone Matricola:
DATABASE Introduzione
EM 09 INTERNET … UN PO DI STORIA. EM 09 Nasce per garantire comunicazioni efficienti … Tra le sedi delle forze armate americane Tra le sedi delle forze.
Prof. Reale Nicola Studentessa Parcesepe Federica
La ricerca bibliografica
Creato da Riccardo Nuzzone
I DBMS BASI DI DATI (DATABASE) Insieme organizzato di dati utilizzati
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
Internet e HTML Diffusione di informazioni mediante la rete Internet.
Introduzione a Javascript
IV D Mercurio DB Lezione 2
InternetInternet Sede: Salvo D’acquisto 2010/2011 Docente: Vito Monno.
Cosa sono i Fogli Elettronici? Software applicativo nato dall’esigenza di –organizzare insiemi di dati tramite tabelle, schemi, grafici, ecc. –effettuare.
Data Base ACCESS EM 09.
Servizi Internet Claudia Raibulet
Regione Emilia-Romagna. Consiglio regionale, 14 febbraio la nuova società dello scambio nascita del World Wide Web (CERN Ginevra) creazione di.
Lezione 5 - SQL. Linguaggi per DB Per interagire con le basi di dati occorre un linguaggio Linguaggio SQL (Structured Query Language), linguaggio standardizzato.
Le basi di dati.
Le risorse elettroniche per l’ingegneria Maddalena Morando Biblioteca Centrale di Ingegneria.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
Il mondo del web Includere Digital-mente – Corso livello 4 docente: prof.ssa MANUELA MARSILI.
Cercare In Internet. Cercare in Rete La scuola ha un ruolo preciso in relazione a quella che nei paesi anglosassoni viene denominata: Information Literacy.
I NTERNET Rete interconnessa che permette il collegamento tra due host eterogenei, appartenenti a reti differenti separati anche da grande distanze. Internet.
Programmazione Fondi Strutturali 2007/2013 Programma Operativo Nazionale: “Competenze per lo Sviluppo” finanziato con il Fondo Sociale Europeo Piano Integrato.
La sanità nel XXI secolo si avvale non soltanto di diverse abilità mediche, ma anche di migliori informazioni sull’efficacia di ogni trattamento.
Modulo 5 – Database ACCESS LICEO SCIENTIFICO “ B. RESCIGNO COMPUTER SCUOLA PIANO INTEGRATO 2008/09 ESPERTO prof.ssa Rita Montella.
I DONEITÀ DI C ONOSCENZE E C OMPETENZE I NFORMATICHE ( A – D ) Un database è un insieme di record (registrazioni) e di file (archivi) organizzati per uno.
Come Orientarsi. 2 Se ti colleghi da fuori Azienda: Senza password: medico-sicentifica-on-linehttp://
Transcript della presentazione:

Bioinformatica I Introduzione alle Banche Dati Biomediche

Definizione Area della scienza che affronta problemi complessi utilizzando approcci computazionali per generare, analizzare e gestire grandi volumi di dati eterogenei. Convergono numerose discipline (ingegneria dei sistemi, teoria dell’informazione, statistica ed altre discipline affini) La bioinformatica si puo’ dividere in due grosse categorie non disgiunte: Costruzione delle Basi di Conoscenza Analisi di informazioni strutturate ricavate da Basi di Conoscenza

Definizione In questo primo incontro cercheremo di formalizzare la parte riguardante le banche dati fornendo utili definizioni ed alcuni semplici strumenti per sfruttare con maggiore efficienza le informazioni disponibili in rete. Nel prossimo incontro si approfondiranno gli aspetti analitici sui dati ottenuti principalmente dall’interrogazione di Banche dati

Basi di conoscenza  Conoscenza del dominio di validità dei dati  Costruzione del modello di rappresentazione dei dati  Conoscenza e scelta degli strumenti per la manipolazione del modello  Costruzione della base di conoscenza

Data Base  Le basi di dati (DB) sono uno strumento nato per gestire enormi quantità di dati  Esistono diverse tipologie di DB in funzione del modello teorico sottinteso  I DB relazionali, basati sull’algebra relazionale, sono i più comuni

Data Base Il nucleo di un DB prevede almeno di: 1. Costruire l’insieme di strutture che conterranno i dati 2. Inserire i dati 3. Aggiornare i dati 4. Interrogare i dati 5. Eliminare i dati 6. Eliminare le strutture che contengono i dati

Data Base Un dato è l’istanza (materializzazione) di una certa informazione. Può essere:  elementare (wbc all’esordio del paziente X, presenza/assenza di una certa anomalia cromosomica del paziente Y)  strutturato (emocromo all’esordio del paziente X, cariotipo completo del paziente Y)  Numerico; rappresentabile tramite un numero sulla retta reale (wbc all’esordio)  Non numerico; rappresentabile mediante un etichetta di testo, tipico di variabili qualitative (es. nazionalità: Italiano, Greco, Giapponese…)

Strutturazione dei dati Nei dati cerca di individuare:  Le entità (dati strutturati; es. paziente, farmaco …)  Gli attributi (dati elementari associati all’entità; es. nome, cognome, diagnosi per l’entità paziente; nome farmaco, casa produttrice, indicazioni …)  Le relazioni tra entità (es. una relazione tra l’entità paziente e l’entità farmaco può essere l’Assunzione). Anche le relazioni possono avere attributi (la relazione Assunzione può avere come attributi la data di somministrazione)

Strutturazione dei dati Semplificando si può dire che:  le entità collassano nel DB sotto forma di tabelle  gli attributi collassano sotto forma di campi  Ogni riga della tabella rappresenta la materializzazione di un dato strutturato ed è chiamata record  le relazioni possono essere ricavate dalle interrogazioni (query) NomeCognome… TizioRossi… ……… Nome Casa Produttrice …AspirinaBayer… ……… Assunzione CAMPI Tabelle Records

Data Base Solitamente, in ambito lavorativo, l’utente ha il permesso di effettuare sul DB: 1. Inserimento dati 2. Aggiornamento dati 3. Interrogazione Ad esempio, su MedLine, noi possiamo agire sul DB solo attraverso l’azione 3 mentre sul DB di reparto o di laboratorio possiamo effettuare tutte e tre le azioni.

Interrogazione La maggior parte dei DB, essendo relazionali, condividono una lingua franca per la gestione completa del sistema chiamata SQL (Structured Query Language). Questo linguaggio però è troppo ricco e complesso per essere usato da un utente finale. Si utilizzano allora delle interfacce tra la base di dati e l’utente che prevedono un tipo di interazione più “umana”.

Interrogazione Tutte le banche dati permettono di interrogare il sistema attraverso interfacce che permettono di effettuare ricerche limitate su campi specifici solitamente attraverso connettivi logici.

Connettivi logici Per effettuare ricerche complesse è necessario conoscere l’uso dei tre connettivi (d’ora in poi funzioni) logici di base AND, OR e NOT. Quando inseriamo una parola (stringa) nel campo di ricerca effettuiamo un’interrogazione atomica. Il risultato della ricerca può andare a buon fine (1) o no (0). Concatenando con funzioni logiche interrogazioni atomiche possiamo generare proposizioni di ricerca complesse.

AND La funzione AND agisce su due interrogazioni elementari Restituisce vero (1) solo se entrambe le interrogazioni sono vere “medulloblastoma” AND ”2004” Se le stringhe “medulloblastoma” e “2004” sono contemporaneamente presenti in un record del database allora il risultato della ricerca è vero (1)

OR La funzione OR agisce su due interrogazioni elementari Restituisce vero (1) se almeno una delle due interrogazioni è vera “medulloblastoma” OR ”2004” Se la stringa “medulloblastoma” e/o “2004” è presente in un record del database allora il risultato della ricerca è vero (1)

NOT La funzione NOT agisce su una interrogazione atomica Ne inverte il valore di verità NOT “medulloblastoma” Se la stringa “medulloblastoma” è presente in un record del database allora il risultato della ricerca è falso

Proposizioni complesse Concatenando interrogazioni atomiche con funzioni logiche si possono effettuare query complesse. Es. Estrarre tutti i record che contengono contemporaneamente “atra” e “bioinformatics” ma non “internet” oppure solo “valproic” “atra” AND “bioinformatics” NOT “internet” OR “valproic” “atra” AND “bioinformatics” NOT “internet” OR “valproic”

Interrogazione - esempio Limite sulle Tabelle (selezione di campi specifici) Limite di testo (stringa di ricerca)

Reti e protocolli di rete La maggior parte di database di uso comune sono dispersi su tutta la superficie del globo sui più disparati tipi di computer. Sfruttando le possibilità offerte da un insieme di strutture hardware (RETI) e software (protocolli) è possibile condividere tali database tra utenti molto distanti su computer diversi.

Reti e protocolli di rete Una rete è un insieme più o meno complesso di computer collegati l’uno all’altro tramite un canale attraverso cui scorrono delle informazioni. Computer diversi (ad esempio PC e Mac) rappresentano i dati in modo diverso. Canali trasmissivi diversi (modem, rete ethernet, satellite) trattano segnali fisici diversi (segnali elettrici continui, segnali elettrici digitali, onde elettromagnetiche libere) Per far fronte a questa disomogeneità nel trattamento dell’informazione i gestori e gli sviluppatori di reti hanno deciso degli standard comuni: i protocolli.

Livelli di Protocollo I protocolli sono suddivisi in livelli. I protocolli di basso livello (implementati direttamente nell’hardware) permettono di sfruttare diversi sistemi per trasmettere i dati; computer x collegato alla rete tramite modem e computer y tramite ethernet. I protocolli di livello medio gestiscono l’indirizzamento dei dati dal computer x (in USA) al computer y (in Cina). I protocolli di alto livello gestiscono la rappresentazione dei dati in modo da garantire la medesima rappresentazione sul computer x (Mac con Database su FileMaker) e sul computer y (Pc con Mozilla e Linux)

Internet Internet è una rete formata da numerose reti internazionali, nazionali, regionali e locali. Tutte queste reti devono condividere i protocolli di comunicazione La comunicazione su internet è basata sulla famiglia di protocolli TCP/IP e sul protocollo HTTP

Indirizzi Ad ogni computer collegato in internet i protocolli TCP/IP impongono di assegnare un indirizzo di rete (IP) unico che lo indentifica nel mondo. Un indirizzo di rete è formato da 4 numeri separati da punti Ogni numero può andare da 0 a 255 e quindi si possono indirizzare al massimo Ogni numero può andare da 0 a 255 e quindi si possono indirizzare al massimo 2 32 = 4 miliardi di computer

Risoluzione degli Indirizzi L’indirizzo di rete del computer centrale dell’NCBI è Questo numero viene usato dai computer per indirizzare univocamente i dati ma è ovviamente inutile dal punto di vista umano. Si è quindi deciso di associare ad ogni numero IP un nome di dominio (DN). Computers specializzati detti domain name server (DNS) convertono dinamicamente gli IP in DN e i DN in IP.

Il World Wide Web Una delle funzioni primarie di una rete è quella di consentire la condivisione di documenti. Per fare questo sono stati sviluppati diversi sistemi (Distributed Document Delivery Systems, DDDS) per permettere la consultazione di documenti in remoto senza doverli scaricare. Nel 1989 al CERN (Ginevra) è stato sviluppato un sistema DDDS che ha poi condizionato il diffondersi di internet il World Wide Web.

Ogni documento mostrato sul Web può essere composto da testo, immagini, suoni e controlli. Ogni documento Web è posto su un particolare computer chiamato Server. I documenti sono chiamati pagine Web, e l’insieme di documenti presenti sul server sono chiamati sito Web. Per poter consultare un sito Web è necessario disporre di programmi (client) chiamati Browsers (explorer, mozilla etc.) che riescono a visualizzare e trattare le pagina Web. Lo scambio delle informazioni tra server e client avviene tramite il protocollo HTTP Lo scambio delle informazioni tra server e client avviene tramite il protocollo HTTP Il World Wide Web

Come condividere le informazioni presenti in un database?  Si implementa un database su un computer (es. PubMed).  Si costruisce un server Web in grado di interrogare il database  Si assegna al computer un indirizzo IP (e quindi un nome di dominio es.  Si convertono i risultati delle interrogazioni in pagine Web consultabili da qualsiasi altro computer collegato in internet

Alcuni Database Utili  Esistono nel mondo migliaia di database ad indirizzo biomedico  Alcuni istituti hanno sviluppato dei database di database.  I risultati delle interrogazioni sono dei link a database specifici  Tra questi vediamo MedWeb

MedWeb  MedWeb è un catalogo (database) di siti correlati alle scienze biomediche.

MedWeb E’ interrogabile in modalità complessa con connettivi logici impliciti Interrogazione in AND (0 risultati) Interrogazione in OR (367 risultati) Interrogazione atomica

PubMed  Alcuni database sono fondamentali per chiunque lavori in ambito biomedico  PubMed è un data base sviluppato alla National Libray of Medicine che consente di interrogare MedLine ed alcuni altri database.  MedLine a sua volta è un database di citazioni bibliografiche provenienti da 4000 riviste biomediche. I primi articoli risalgono al 1966 ed ogni anno vengono inseriti circa nuove citazioni.

Record MedLine Ogni record MedLine (dato strutturato) contiene i seguenti campi:  autore (vengono inseriti fino a 25 cognomi, seguiti dalle iniziali dei nomi, per articolo);  titolo dell'articolo (e parole del titolo);  descrittori di soggetto (sono detti MESH, ovvero "MEdical Subject Headings") e rappresentano l'argomento di ogni singolo articolo;  abstract (o riassunto, presente nella base dati solo se fornito - in inglese - dall'autore dell'articolo, è ricercabile anche per singole parole);  fonte bibliografica (titolo della rivista in forma abbreviata, anno, volume, fascicolo, pagine);  ente di appartenenza e indirizzo del primo degli autori dell'articolo;  lingua originale in cui l'articolo è stato pubblicato;  tipo di pubblicazione (ad es. lettera, editoriale, rassegna).

PubMed

EndNote  E’ un software client che riesce ad interrogare un gran numero di banche dati tra cui MedLine.  Permette di costruirsi librerie di articoli specifici da utilizzare poi in fase di stesura dei lavori  Si integra in Word e permette di gestire la bibliografia con grande semplicità generando i riferimenti bibliografici nel formato richiesto dalla specifica rivista.

EndNote Libreria Maschera di ricerca

EndNote Barra strumenti endnote Barra di ricerca (autrore, parola chiave..) sulle librerie Risultato ricerca

Impact Factor JCR (Journal Citation Report) JCRWeb è un servizio web che permette di comparare diverse riviste scientifiche attraverso diversi indici tra cui l’IF

JCR Qui si vede una query di riviste appartenenti alla categoria ONCOLOGY ordinate per IF decrescente.

DataBase Home Made Alcune tipologie di ricerca prevedono, per loro natura, la generazione di una miriade di dati. Tra queste la tecnologia dei microarray è quella che ne produce un maggiore volume. Molte riviste pretendono, per pubblicare dati provenienti da questo tipo di ricerca, che i database siano consultabili in rete.

MicroBase  Microbase è un database generato nel nostro laboratorio per poter consultare i dati emersi da un esperimento in cui sono convolti i microarray.  Delle linee cellulari sono state trattate con diverse combinazioni con Acido Retinoico e/o Acido Valproico.  Attraverso i microarray siamo stati in grado di monitorare l’andamento temporale di oltre geni in tutte le diverse condizioni.

1BC AF BC BC D BC L BC U D AF L AK AF AF BC U AF BC AF M X U BC M AK U BC AY AY AY Altri DB (Genbank, PubMed) Analisi Dati

MicroBase Web MicroBase WEB è basato su tutte le tecnologie viste finora:  Un web server (Apache) con il suo indirizzo IP e il suo nome di dominio, fornisce le interfacce web per consultare il database su internet.  Alcuni software (script) che lavorano con protocolli di alto livello permettono la conversione dei dati in entrata verso il server web.  Diversi database (Gene Ontology, GenBank, LocuLink e molti altri) sono integrati con il database dei risultati degli esperimenti tramite un database server (MySQL) che gestisce il database complesso e processa le query. Fornisce poi i risultati agli script che li convertono in formato utilizzabile dal web server.  Il web server presenta la pagina redatta in formato HTML all’utente che ha richiesto le informazioni.

MicroBase Geni variati nel trattamento

MicroBase

Microbase

MicroBase WEB Query a MicroBase Campo di Ricerca Parola Ricerca Limite su Espressione Nel database abbiamo selezionato tutti i geni che sono variati più di 4 volte e Che hanno nel campo descrizione la parola “cyclin A”