I DATABASE Elenco: Statistiche (Vedere i vari database):

Slides:

Advertisements

Presentazioni simili

Malattie genetiche monogeniche

Advertisements

CENTRO DI BIOTECNOLOGIE

DBMS (DataBase Management System)

Ogni PC, per iniziare a lavorare, ha bisogno di un sistema operativo. Infatti questo è il primo programma che viene eseguito e che permette all'utente.

CONOSCIAMO IL WINDOWS '95.

Corsi per il personale Bicocca-Insubria

LIGHTHOUSE help utenti Lo scopo di questo breve tutorial, indirizzato agli utenti di SBBL, riguarda alcune funzioni fondamentali ed aiuta a familiarizzare.

Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –

LA RICERCA Larticolo 33, 1º comma, della Costituzione sancisce: "Larte e la scienza sono libere e libero ne è linsegnamento". Larticolo 33, 1º comma, della.

Esercitazione sulla ricerca di base di CINAHL

1 Stampa dei dati - 1 I dati visualizzati, provenienti sia da tabelle che da query, possono essere stampati selezionando lopzione Stampa dalla voce di.

Bioinformatica Prof. Mauro Fasano

BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Percorso: la rappresentazione dei dati

Ordine dei Dottori Commercialisti e degli Esperti Contabili di Ivrea, Pinerolo, Torino1 effettuate le operazioni di generazione dell'Ambiente di sicurezza.

LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: è meglio Google o Pubmed? CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI-

PUBMED 29 novembre 2012.

I database per il medico: PubMed

PubMed: le funzioni avanzate

Access: Query semplici

Internet Explorer Il browser.

CORSO DI INFORMATICA LAUREA TRIENNALE-COMUNICAZIONE & DAMS

Corso di Laurea in Ingegneria per lAmbiente e il Territorio Informatica per lAmbiente e il Territorio Docente: Giandomenico Spezzano Tutor: Alfredo Cuzzocrea.

Windows Sistema operativo con interfaccia grafica per PC IBM compatibili (varie versioni dal 95) La gestione dei file viene fatta secondo le modalità.

DBMS ( Database Management System)

MetaLib - Corso introduttivo. Parte 5 : Modulo Area Personale 3 e 22 aprile 2008 a cura di L. Rollandi.

e per generare Bibliografie

Manipolazione dei dati

Entrez + MedLine => PubMed

Lezione 12 Riccardo Sama' Copyright Riccardo Sama' Excel.

QUESTO TUTOR COSTITUISCE UNA BREVE GUIDA PER RENDERE PIU' FACILI, VELOCI ED EFFICACI LE VOSTRE RICERCHE BIBLIOGRAFICHE E LA CONSULTAZIONE DEL CATALOGO.

QUIZ – PATENTE EUROPEA – ESAME WORD

HTML Lezione 8 I collegamenti ipertestuali (link).

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia

Ricerca di similarità di sequenza (FASTA e BLAST)

Internet Explorer I preferiti Stampa di pagine web Salvataggio di pagine web Copia di elementi di pagine web in altri applicativi.

Alcuni esempi di domande di esame

BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze.

Tutorial per l’utilizzo di k ScanProsite

Microsoft Access (parte 5) Introduzione alle basi di dati Scienze e tecniche psicologiche dello sviluppo e dell'educazione, laurea magistrale Anno accademico:

A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.

Percorso didattico per l’apprendimento di Microsoft Access Modulo 5

La ricerca bibliografica

La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.

Sequenze e Banche Dati Biologiche

L’accesso alle banche dati bibliografiche per l’area economica La ricerca economica per la tesi di laurea: abilità strumentali e strategie informative.

Microsoft Access Maschere (II).

Internet e HTML Diffusione di informazioni mediante la rete Internet.

Esempio di utilizzo del programma BLAST disponibile all’NCBI

Lezione 19 Riccardo Sama' Copyright  Riccardo Sama' Access.

Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.

Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.

Tutorial Rehabilitation Reference Center support.ebsco.com.

GQuery ( ncbi. nlm. nih

Microsoft Access Chiavi, struttura delle tabelle.

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.

GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.

La parola “Bioinformatica”

Allineamento di sequenze

Cloud Tecno V. Percorso didattico per l’apprendimento di Microsoft Access 4 - Le maschere.

Microsoft Access Filtri, query. Filtri Un filtro è una funzione che provoca la visualizzazione dei soli record contenenti dati che rispondono a un certo.

Il software Aleph caratteristiche e funzionalità Aleph500 v ersione seminario a cura di Libera Marinelli Università di Genova - Centro di servizi.

Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.

FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.

Access Breve introduzione. Componenti E’ possibile utilizzare Access per gestire tutte le informazioni in un unico file. In un file di database di Access.

CLONAGGIO POSIZIONALE

Concetti di base. Per biodiversità si intende l'insieme di tutte le forme viventi geneticamente diverse e degli ecosistemi ad esse correlati Il termine.

Transcript della presentazione:

I DATABASE Elenco: Statistiche (Vedere i vari database):

NUCLEOTIDE

LIMITS È possibile limitare la ricerca, creando delle query anche piuttosto complesse

LIMITS Ad esempio scegliere solo le sequenze di Sus scrofa E possibile selezionare solo alcuni dei record risultanti ed effettuare delle operazioni solo su essi Ad esempio visualizzarne la sequenza, salvarli su file.... numero di record mostrati per pagina clickando qui si vede il record

DISPLAY Con DISPLAY è possibile selezionare il formato con cui visualizzare i risultati

SEND TO Con clipboard si possono salvare informazioni sul sito per 8 ore Con SEND TO è possibile scegliere se mandare i risultati come testo (senza link o checkbox) a video o se downloadarlo come un file locale sul PC (ad esempio per successive elaborazioni)

UN RECORD LOCUS un codice DEFINITION descrizione della sequenza ACCESSION un codice ORGANISM lorganismo a cui appartiene la sequenza (e tassonomia) REFERENCE Riferimenti bibliografici a quella sequenza o chi lha sottomessa FEATURES alcune caratteristiche e link importanti ORIGIN la sequenza

LIMITS Proviamo a limitare ulteriormente la ricerca

PREVIEW PREVIEW permette di vedere solo il numero di record che soddisfano la query.

INDEX INDEX permette di usare il numero delle query (preceduto da #) anzichè riscrivere tutto (si possono fare anche operazioni booleane

IL BOTTONE SUBSEQUENCE Una volta visualizzato un record di sequenza è possibile estrarne solo una sottosequenza o trovarne linverso complementare

IL BOTTONE FEATURES Permette di togliere dalle FEATURE del record visualizzato come ad esempio delle informazioni che potrebbero essere numerosissime e poco significative come ad esempio i SNP Vedere il record della sequenza nucleotidica della telethonina &val= http:// &val= e rimuovere gli SNP

OPERATORI BOOLEANI Questi dovreste conoscerli dalla matematica e dallinformatica! ATTENZIONE! Oltre a quello nucleare, esiste anche il genoma mitocondriale, nei database sono depositate sequenze derivanti da entrambe le sorgenti!!!

OPERATORI BOOLEANI Esempio di OR Esempio di AND (non esistono sequenze contemporaneamente di maiale e di pollo)

UN ERRORE Attenzione: se abbiamo limitato la ricerca, tutti i termini scritti sulla linea di query si riferiscono a quella limitazione (ad esempio il campo organismo)

CORRETTO! In tal caso bisogna specificare a quale campo si riferisce ogni temine della query

ATTENZIONE AL MINUSCOLO Attenzione: gli operatori booleani vanno indicati in MAIUSCOLO! Sbagliato! Giusto!

SORGENTI DEI DATI Record proveniente da DDBJ (con codice AK ) Record provenienti da REFSEQ, database di sequenze di trascritti (con codice NM_ ) Record proveniente da GENBANK, (con codice BC ) Il codice gi è identificativo allinterno del database nucleotidico globale di NCBI Come già accennato il database NUCLEOTIDICO dellNCBI contiene numerose sorgenti di dati. Dalla riga di intestazione del formato FASTA si può capire quale [gb|emb|dbj|sp|pir]

LINK A TAXONOMY Link a taxonomy (database degli organismi rappresentati in NUCLEOTIDE di NCBI Vediamo più in dettaglio alcuni dei campi ed in particolare i link agli altri database integrati in ENTREZ

LINK A PUBMED Link alle pubblicazioni scientifiche riguardanti quellargomento LEZIONE 5-01mar2005

PubMed, disponibile tramite NCBI Entrez retrieval system, è stato sviluppato dal National Center for Biotechnology Information (NCBI) alla National Library of Medicine (NLM), è localizzato presso il National Institutes of Health (NIH). Entrez retrieval systemNational Center for Biotechnology Information (NCBI)National Library of Medicine (NLM)National Institutes of Health (NIH) Entrez (come già discusso) è il sistema di ricerca testuale e di recupero utilizzato allNCBI per servizi che includono PubMed, Sequenze di nucleotidi e Proteine, Genomi completi, Tassonomia, OMIM e molti altri. PubMed è stato disegnato per fornire accesso alle citazioni della letteratura biomedica, inoltre consente laccesso e il link ad altre risorse biomolecolari di Entrez.

Esempio di una ricerca in PubMed Testo ricercato visualizzazione Parametri avanzati di ricerca

In stretta relazione con le banche dati primarie di nuceotidi, esistono numerose banche dati di geni, ad esempio presso lNCBI è stata sviluppata la banca dati LocusLink. Come si può dedurre dal nome, questo database assegna per ogni locus genetico, ossia per ogni elemento funzionale di un genoma (ad esempio un gene codificante una proteina): il nome ufficiale, eventuali sinonimi, il link a OMIM, gli accession numbers delle sequenze nucleotidiche associate a quel locus e presenti nelle banche dati primarie, Il codice della classificazione internazionale degli enzimi (se si tratta di un enzima), Il link ad altre banche dati NCBI costituenti il pacchetto per la genomica quali RefSeq (in cui a ciascuna entry è associata per es.la sequeza completa tra le ridondanti) ed UniGene.

Quindi LocusLink fornisce uninterfaccia per effettuare delle query singole a sequenze curate* ed informazioni descrittive su singoli loci genetici. A breve LocusLink verrà rimpiazzato da Entrez Gene che integrerà le informazioni provenienti da LocusLink e da RefSeq per i genomi completamente sequenziati. *si intende per sequenza curata un sequenza che è stata sottoposta ad un processo di verifica (spesso manuale) e di controllo che consente di eliminare errori, ridondanza nel numero delle sequenze (vedi database primari di nucleotidi, ecc.).

I link forniti sono estremamente interessanti: ad esempio si possono ottenere ulteriori informazioni sul gene in database come PubMed e OMIM LEZIONE 5-01mar2005

Why GeneCards? La comunità scientifica ha recentemente sviluppato un gran numero di risorse web contenenti informazioni di carattere biologico e medico, questo trend è stato incentivato dalla necessità di immagazzinare e distribuire i dati ottenuti dal Progetto Genoma Umano. Tuttavia lintegrazione di tutti I dati biomedici in un browser accessibile non è ancora stato raggiunto. Inoltre il crescente numero di differenti sorgenti di dati hanno creato un labirinto di informazioni che fa sì che spesso non si riescano a recuperare I dati voluti. Al fine di testare nuovi approcci per un navigazione efficiente nelle informazioni biomediche è stata sviluppata la GeneCards Encyclopedia.GeneCards Encyclopedia Un aspetto cruciale della strategia di GeneCards è lutilizzo della nomenclatura standard come ad esempio i simboli dei geni approvati. IL DATABASE GeneCards

Esempio di una query su GeneCards Profilo di espressione utile per valutare il livello di espressione del gene in esame in vari tessuti e calcolato con metodi differenti. Link a geni ortologhi** in altri organismi LEZIONE 5-01mar2005

**Durante il processo evolutivo è noto che si generano specie differenti da un antenato comune. Nelle specie che derivano da questo processo detto di speciazione, gran parte dei geni dellantenato comune vengono mantenuti e nella gran parte dei casi da un gene se ne ottengono due, uno per ognuna delle due specie. Questi due geni si definiscono geni ortologhi. SPECIE 1 Gene A SPECIE 2 Gene A-1 SPECIE 3 Gene A-2

Come detto in precedenza mutazioni, ossia alterazioni della sequenza nucleotidica di un gene, possono riflettersi in alterazioni della funzionalità della proteina da esso codificata. Questo mutazioni possono quindi causare le cosiddette malattie genetiche. ES: una mutazione a carico del gene della β globina fa sì che una particolare base del gene venga sostituita con unaltra, ciò altera il codone e nella proteina ciò si riflette nella sostituzione di un glutamato con una valina e in una ridotta funzionalità della proteina che causa una malattia genetica detta anemia a cellule falciformi. Mutazioni a carico di geni differenti causano molte malattie genetiche diverse per questo è stato costituito il database OMIM.

Questo database è un catalogo di geni umani e di disordini genetici prodotto da Victor A. McKusick e dai suoi colleghi alla Johns Hopkins University e svilluppato per il web dall NCBI, il National Center for Biotechnology Information. Il database contiene informazioni testuali e referenze; contiene inoltre numerosi link a MEDLINE, ai record delle sequenze all NCBI ed ad altri database ed altri link a risorse collegate. Come in altri database NCBI è possibile fare delle ricerche avanzate utilizzando opzioni quali Limits, Preview/Index, History, and Clipboard.

TEXT Since at least as early as 1970, 2 alpha loci have been known to exist in some humans (Brimhall et al., 1970): hemoglobins G (Pest) and J (Buda) showed the existence of at least 2 alpha chains in the Hungarians studied ( , ), whereas hemoglobin J (Tongariki) indicated that in Melanesians only 1 alpha locus exists ( ). The alpha locus is apparently double in Chinese (Kan, 1974), whereas in American blacks, chromosomes with single or double alpha loci are about equally frequent (Huisman, 1974). Rucknagel and Dublin (1974) estimated that a chromosome with a single alpha locus has a frequency of about 0.27 in American blacks and about 0.36 in African blacks. Rucknagel and Rising (1975) studied an American black family in which of 5 persons heterozygous for hemoglobin G (Philadelphia), an alpha-chain mutant, 3 had about 30% Hb G and 2 had 40%. They suggested that the former persons have 2 alpha hemoglobin loci and the latter persons 1 such locus… Esempio di una query sul database OMIM: da notare lestensiva descrizione di quanto noto sulla/e malattia/e determinate da mutazioni a carico del gene in esame

UCSC genome browser Questo browser genomico è stato sviluppato per fronteggiare il problema dellenorme aumento di dati genomici derivanti in particolare dai progetti di sequenziamento dei vertebrati. Ovviamente è poco utile avere lunghe stringhe di basi corrispondenti ai singoli cromosomi dei vari organismi. Per questo motivo lUCSC genome browser fornisce una rapida visualizzazione grafica di ogni regione di genoma di qualsivoglia lunghezza assieme ad una grande quantità di informazioni come: geni noti, geni predetti, ESTs (expressed sequence TAGs), mRNA, geni omologhi di altri organismi, ecc..

Organismo di cui si vuole visualizzare la regione genomica Durante il sequenziamento sitematico di un genoma, spesso vengono rilasciate versioni successive specialmente nella fase conclusiva del progetto; esse possono essere più o meno definitive. Qui si fa riferimento a varie versioni (release) del genoma umano. Gruppo di organismi di interesse LEZIONE 5-01mar2005

Pulsanti di spostamento sul genoma Pulsanti per ingrandire o rimpicciolire larea di interesse Posizione attuale sul genoma Permette di saltare sulla posizione digitata sulla finestra di sinistra Chromosoma, rappresentazione schematica e posizione attuale

Posizione (bp) Geni con esoni (sbarrette spesse) ed introni (sbarrette sottili) ESTs Grado di conservazione della sequenza tra organismi diversi

Moltissimi sono i campi a disposizione, essi possono essere visualizzati (dense-full o pack) o nascosti (hide) utilizzando le opzioni presenti nella parte inferiore della pagina Ci sono varie possibilità di visualizzazione di ogni informazione sul genome browser, si possono fare varie prove ad esercitazione

Il numero crescente di sequenze geniche note e di informazioni disponibili su di esse spesso causa dei problemi come per esempio lassegnazione di nomi multipli allo stesso gene oppure lassegnazione di funzioni differenti alla stessa proteina. Queste funzioni possono essere tutte corrette (spesso una proteina svolge più di una funzione) ma esse devono essere rese disponibili agli utenti e definite utilizzando una terminologia corretta per far sì che non si generino descrizioni troppo soggettive e lasciate completamente al libero arbitrio dello scopritore della proteina o del gene. Per questo motivo è stato fondato il database GeneOntology che fornisce una definizione precisa del ruolo svolto dalle singole proteine tramite un vocabolario (delle ontologie) che consenta di definire in modo corretto e non arbitrario il o i processi biologici cui una proteina partecipa, la/e sue funzioni molecolari e la sua localizzazione/i cellulare.

GeneOntology

The ontologies I tre principi che stanno alla base delle gene ontologies sono: molecular function, biological process e cellular component. Un prodotto genico ha una o più funzioni molecolari ed è utilizzato in uno o più processi biologici ed esso potrebbe essere associato con uno o più componenti cellulari. Per esempio, il prodotto genico citocromo C può essere descritto dal termine di funzione molecolare electron transporter activity, dal termine di processo biologico oxidative phosphorylation e induction of cell death, e dal termine della categoria componente cellulare mitochondrial matrix e mitochondrial inner membrane.

Come si vede nella precedente slide un termine di gene ontology molto generico (ad esempio organelle organization and biogenesis) contiene al suo interno più termini di gene ontology via via più specifici (es. mitochondrion organization and biogenesis). Questo fa sì che man mano che si va verso il basso le definizioni diventino sempre più precise ed i geni che soddisfano a quella descrizione sempre meno. Questo albero può quidi essere letto a più livelli, da quelli più generali che stanno in alto a quelli via via sempre più specifici che stanno in basso.

Quanti sono i database disponibili in rete? Una risposta si può ottenere al seguente sito: DBCAT, The Public Catalog of DatabasesCatalog of Databases Attualmente esistono più di 500 database di carattere biologico che sono stati raggruppati in questo sito in otto categorie principali: Il numero di database inoltre è in continua crescita e la rivista NAR (nucleic acids research) dedica ogni anno un numero speciale per la descrizione dei database biologici.