Bioinformatica Banche dati biologiche

Slides:

Advertisements

Presentazioni simili

Funzionalità di ricerca avanzata guidata EBSCOhost

Advertisements

CENTRO DI BIOTECNOLOGIE

DBMS (DataBase Management System)

WEB OF SCIENCE ISI Web of Knowledge

Esercitazione sulle modalità di ricerca di CINAHL.

Bioinformatica Entrez Utilities

Bioinformatica Banche dati biologiche

Bioinformatica Pictar – miRanda - TargetScan – miRiam

Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –

LA RICERCA Larticolo 33, 1º comma, della Costituzione sancisce: "Larte e la scienza sono libere e libero ne è linsegnamento". Larticolo 33, 1º comma, della.

Esercitazione sulla ricerca di base di CINAHL

Bioinformatica Prof. Mauro Fasano

BASI DI DATI BIOLOGICHE - 3

LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: Medline CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI- NAPOLI Prof.ssa.

LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: è meglio Google o Pubmed? CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI-

LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: le funzioni avanzate di Pubmed CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI-

PUBMED 29 novembre 2012.

Il contributo della ricerca bibliografica online

Corso pratico di EBM n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois Torino,

I database per il medico: PubMed

PubMed: le funzioni avanzate

Access: Query semplici

Internet Explorer Il browser.

CORSO DI RICERCA BIBLIOGRAFICA 3. giornata (26 ottobre 2007) Inspec Web of Science.

CORSO DI RICERCA BIBLIOGRAFICA 4. giornata (20 marzo 2008) Web of Science Beilstein e Gmelin Crossfire.

BIBLIOTECA CENTRALE PIETRO ARDUINO CIS DI AGRIPOLIS Corso avanzato di I° livello sulluso dei servizi bibliotecari Portale Aire/Metalib A cura del Gruppo.

Sistema Bibliotecario di Ateneo | Università di Padova Biblioteca e le sue risorse: servizi e strategie di ricerca Catalogo del sistema bibliotecario padovano.

DBMS ( Database Management System)

Entrez + MedLine => PubMed

Modulo 7 – reti informatiche u.d. 3 (syllabus – )

Elenco dei risultati di EBSCOhost tutorial. Benvenuti al tutorial relativo allelenco dei risultati di EBSCOhost. In questo tutorial verranno illustrate.

Introduzione a EBSCOhost Tutorial. Benvenuti alla panoramica sullinterfaccia di EBSCOhost. In questo tutorial viene illustrata linterfaccia di ricerca.

Lezione 12 Riccardo Sama' Copyright Riccardo Sama' Excel.

Software per la Bioinformatica

EBSCO Discovery Service tutorial

Ricerca di similarità di sequenza (FASTA e BLAST)

Internet Explorer I preferiti Stampa di pagine web Salvataggio di pagine web Copia di elementi di pagine web in altri applicativi.

CINAHL with Full Text ricerca avanzata guidata Tutorial

Alcuni esempi di domande di esame

Tutorial per l’utilizzo di k ScanProsite

Lavorare con le query Federica Scarrione 18/05/2009 fonte:

La ricerca bibliografica

Sequenze e Banche Dati Biologiche

ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”

L’accesso alle banche dati bibliografiche per l’area economica La ricerca economica per la tesi di laurea: abilità strumentali e strategie informative.

CORSO Di WEB DESIGN prof. Leonardo Moriello

Microsoft Access Maschere (II).

Esempio di utilizzo del programma BLAST disponibile all’NCBI

Lezione 19 Riccardo Sama' Copyright  Riccardo Sama' Access.

Tag FRAMESET. I frame sono un particolare tipo di struttura HTML, che consente di suddividere la finestra del browser in diversi riquadri distinti. Un'insieme.

IV D Mercurio DB Lezione 2

Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.

Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.

Tutorial Rehabilitation Reference Center support.ebsco.com.

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel

GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.

La parola “Bioinformatica”

Allineamento di sequenze

Microsoft Access (parte 3) Introduzione alle basi di dati Scienze e tecniche psicologiche dello sviluppo e dell'educazione, laurea magistrale Anno accademico:

Cloud Tecno V. Percorso didattico per l’apprendimento di Microsoft Access 4 - Le maschere.

Microsoft Access Filtri, query. Filtri Un filtro è una funzione che provoca la visualizzazione dei soli record contenenti dati che rispondono a un certo.

Il software Aleph caratteristiche e funzionalità Aleph500 v ersione seminario a cura di Libera Marinelli Università di Genova - Centro di servizi.

Tutorial UNOsearch Discovery Service dell’Università degli studi di Napoli “L’Orientale” Link a UNOsearch.

Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.

FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.

La sanità nel XXI secolo si avvale non soltanto di diverse abilità mediche, ma anche di migliori informazioni sull’efficacia di ogni trattamento.

DIAGNOSI MOLECOLARE DI UNA MALATTIA GENETICA E SVILUPPO DI UNA TERAPIA GIUSEPPINA ANDREOTTI M.VITTORIA CUBELLIS.

Transcript della presentazione:

Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it

Banche dati biologiche Le banche dati sono dei contenitori costruiti per immagazzinare grandi quantità di dati biologici in modo efficiente e razionale; Le banche dati biologiche raccolgono informazioni e dati derivati da: Letteratura; Analisi di laboratorio (in vitro e in vivo); Analisi bioinformatiche (in silico). Ogni banca dati è caratterizzata da un elemento biologico centrale che costituisce l’oggetto intorno al quale viene costruita la ENTRY principale della banca dati; Bioinformatica

Banche dati biologichie La maggior parte delle banche dati sono fruibili in formato Flat-file: Ogni entry è memorizzata in un file di testo generalmente strutturato, contenente le informazioni; Con il crescere dei dati si è reso necessario adottare DBMS; Uso del web per accedere a informazioni tra loro correlate (cross-referencing) attraverso link ipertestuali; Banche dati in formato XML; Bioinformatica

Banche dati biologichie Ridondanze e Errori: Errori durante l’estrazione delle sequenze; Algoritmi per la previsione di strutture imperfetti; Inserimento erroneo di duplicati nei DB; Diversi nomi per la stessa sequenza; Non vi è un’unica struttura per un gene (splicing alternativi). Lo stesso gene può essere rappresentato da numerose sequenze nei vari DB; NCBI accetta tutte le sequenze ma le eleva al rango di REFSEQ (sequenza di riferimento) e assegna un refseqID solo dopo numerosi controlli anche manuali; Bioinformatica

Banche dati primarie Sono banche dati di sequenze di acidi nucleici (DNA, RNA): EMBL datalibrary (EMBL – European Molecular Biology Laboratory - 1980); GenBank (NCBI – National Center for Biotechnology Information - 1982); DDBJ (DNA Database of Japan - 1986). Esiste un accordo tra le tre banche per cui l’inserimento di dati in una, comporta l’automatico inserimento nelle altre; EMBL adotta un formato diverso dalle altre due; Bioinformatica

NCBI - http://www.ncbi.nlm.nih.gov/ NCBI – National Center for Biotechnology Information. Gestisce un gran numero di DB tra i quali: Gene Contiene dati inerenti i geni di tutte le specie caratterizzate, quali la struttura genica ed il contesto genomico, le ontologie, le interazioni con altri geni ed i link alle sequenze ed alla relative pubblicazioni scientifiche. Nucleotide Contiene le sequenze nucleotidiche di tutte le specie caratterizzate, siano esse codificanti o meno. Protein Ha la stessa struttura di Nucleotide ma è relativo alle sequenze aminoacidiche. Pubmed E’ il database delle pubblicazioni scientifiche di carattere biologico e biomedico. Per ogni articolo è disponibile l’abstract. Pubmed Central contiene articoli completi scaricabili gratuitamente. Taxonomy Contiene la classificazione dei vari organismi; Bioinformatica

NCBI - http://www.ncbi.nlm.nih.gov/ Esempio di entry in GenBank LOCUS: Entry name; ACCESSION: Accession Number; SOURCE: Organismo; REFERENCE; Bioinformatica

NCBI - http://www.ncbi.nlm.nih.gov/ Esempio di entry in GenBank FEATURES; ORIGIN; Bioinformatica

EMBL - http://srs.ebi.ac.uk EMBL – European Molecular Biology Laboratory Anche EMBL permette di accedere a numerosi DB. EMBL DataLibrary Contiene dati inerenti Geni e Sequenze Nucleotidiche; UniProt Contiene dati proteici (gestito da un consorzio di cui fa parte EMBL); NCBI Si appoggia anche a NCBI per ricercare informazioni relative a pubblicazioni (PUBMED) o malattie genetiche (OMIM); Bioinformatica

EMBL - http://srs.ebi.ac.uk Esempio di entry in EMBL ID Entry name; AC Accession Number; OS Source Organism; OC Tassonomia; KW Parole Chiave; RA Autori; RT Titolo; DR Cross Reference; Bioinformatica

EMBL - http://srs.ebi.ac.uk Esempio di entry in EMBL FT Features; SQ Sequenza; Bioinformatica

DDBJ - http://www.ddbj.nig.ac.jp/ DDBJ – DNA Data bank of Japan Si tratta in pratica di una copia di NCBI; Mette a disposizione tool per ricercare e analizzare dati molto simili a quelli che vedremo per Entrez; Il formato adottato da DDBJ per i flat-file è identico a quello di NCBI; Bioinformatica

Interrogazione di banche dati I sistemi più utilizzati per interrogare le banche dati sono: Entrez (Sviluppato da NCBI): Permette di accedere a numerose banche dati (anche contemporaneamente) attraverso una interfaccia web. Permette di effettuare ricerche testuali sui DB utilizzando diverse sintassi per i vari DB. SRS - Sequence Retrieval System (Sviluppato da EBI – European Bioinformatics Institute); Anche DDBJ offre un metodo di ricerca e analisi dei dati via WEB (ma in pratica si tratta delle stesse cose che vedremo per Entrez e SRS); Bioinformatica

Entrez - http://www.ncbi.nlm.nih.gov/Entrez Bioinformatica

Entrez - http://www.ncbi.nlm.nih.gov/Entrez Ricerca in tutti i database Risorse principali: Nucleotide; Protein; Genome; Gene; Taxonomy; Pubmed; Bioinformatica

Entrez Cerchiamo informazioni relativamente al gene umano TP53 Clicchiamo in corrispondenza di Gene Bioinformatica

Entrez Opzioni di filtraggio; Ricerca di informazioni correlate; Dettagli; Etc; La prima voce è quello che cerchiamo Bioinformatica

Entrez Simbolo Ufficiale, Nome del Gene, Tipo di gene, Classificazione, breve Sommario Bioinformatica

Entrez Taxonomy Browser: Classificazione dell’organismo Bioinformatica

Entrez Classificazione dell’organismo Gerarchia di classificazione Bioinformatica

Entrez Bioinformatica Database contenente la informazioni sulla sequenza (in questo caso HGNC= HUGO Gene Nomenclature Committee) Bioinformatica

Entrez Nome e simbolo del gene, ID, Posizione nei Cromosomi, Sinonimi Bioinformatica

Entrez Bioinformatica Geni omologhi in altre specie; Sequenze correlate; Rreferenze (Pubmed); Bioinformatica

Entrez L’entry per TP53 sul DB GenBank (mRNA) Locus:Nome identificativo; Accession Number: ID; Keywords: parole chiavi che identificano la funzione biologica; Source Organism: Classificazione; Reference: informazioni bibliografiche; Bioinformatica

Entrez Features: Carateristiche della sequenza; Eventuali introni ed esoni, promotori, enanchers, etc… Link alla Coding Sequence Viene indicato anche il punto di inizio e di fine. Bioinformatica

Entrez Sequenza dell’mRNA relativo al gene. Bioinformatica

Entrez Salvare l’entry come file oppure in clipboard o collections (NCBI memorizza temporaneamente le informazioni); Modalità di visualizzazione Bioinformatica

Entrez Alcuni formati standard delle sequenze. (A) FASTA, (B) GCG Bioinformatica

Entrez Bioinformatica

Entrez Bioinformatica

Entrez SNP e relative citazioni SNP di interesse clinico Contesto genomico: Regione genomica di appartenenza e geni limitrofi. Le frecce indicano il filamento (destra: senso, sinistra: antisenso). Sequenza genomica di riferimento con relativi link al FASTA o entry GenBank Ogni riga rappresenta una variante di splicing (le varianti differiscono nel numero e nelle dimensioni degli esoni, indicati da rettangolini, gli introni sono rappresentati dalle linee sottili). A sinistra nomi delle sequenze di mRNA A destra lnomi delle sequenze di proteine SNP e relative citazioni SNP di interesse clinico Bioinformatica

Entrez Fenotipi patologici correlati al gene (malattie); Sono forniti dei link a delle informazioni aggiuntive; Bioinformatica

Entrez Interazioni con proteine coinvolte nell’HIV. Interazioni note con altre proteine. Link a sequenze e pubblicazioni relative. Bioinformatica

Entrez Pathways in cui il gene è coinvolto Bioinformatica Gene Ontology è un vocabolario strutturato pensato per descrivere i geni e i loro prodotti in qualsiasi tipo di organismo. Pathways in cui il gene è coinvolto Bioinformatica

Entrez Pathway: Apoptosis (KEGG) in cui TP53 è coinvolto Gene Ontology è un vocabolario strutturato pensato per descrivere i geni e i loro prodotti in qualsiasi tipo di organismo. Bioinformatica

Entrez Bioinformatica Gene Ontology è un vocabolario strutturato pensato per descrivere i geni e i loro prodotti in qualsiasi tipo di organismo. Bioinformatica

Entrez Informazioni relative alla proteina Markers correlati; Variazioni del gene o malattie associate in varie popolazioni; Omologie (Ortologhi in altre specie); Pathways in cui il gene è coinvolto; Annotazioni ontologiche (Processi, funzioni e localizzazione cellulare); Gene Ontology è un vocabolario strutturato pensato per descrivere i geni e i loro prodotti in qualsiasi tipo di organismo. Informazioni relative alla proteina (solo per geni codificanti proteine); Bioinformatica

Entrez Qui troviamo I link alle sequenze nucleotidiche e proteiche relative al gene. Diversi link per ogni variante di splicing. Bioinformatica

Entrez Sequenze correlate (ad es precalcolate con BLAST) con link ai DB Nucleotide, Protein; Link addizionali a sorgenti esterne; Bioinformatica

Entrez Modalità di visualizzazione; Salvare l’entry come file oppure in clipboard o collections (NCBI memorizza temporaneamente le informazioni); Modalità di visualizzazione; Bioinformatica

Entrez Una Tabella con le informazioni sulla struttura del gene; Una tabelle per ogni variante di splicing; Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore Contiene le sequenze nucleotidiche di tutte le specie caratterizzate, siano esse codificanti o meno. Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore Metodi di ricerca: Simbolo o nome di un gene o proteina : Ad es. BAX; Ricerca per Accession Number ad es. CAA79696, NP_778203, 263191547, BC043443, NM_002020 etc); Ricerca per autore: Ad es. Smith JR (Cognome seguito dalle iniziali senza punti); Ricercare una frase esatta: Ad es. "contactin associated protein"; Usare gli operatori booleani: AND, OR, NOT (ad es. contactin AND neurofascin); Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore Metodi di ricerca: Usare gli operatori booleani: AND, OR, NOT insieme alle parentesi g1p3 AND (response element OR promoter) Di default viene applicato l’operatore AND: Tp53 mouse Usare Wild Cards “*” oppure “?” Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore Metodi di ricerca: Usare i Limits; Cliccare su limits nella pagina principale di entrez Nucleotide Data di pubblicazione; Data di Modifica; Db sorgente: EMBL,Genbank, DDBJ, etc; Tipo di molecola: DNA,RNA, mRNA, cRNA; Localizzazione della sequenza: mitocondrio, nucleo, etc; Escludere lavori incompleti; Escludere brevetti; \ Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore Metodi di ricerca: Usare i Limits: Field tags; Selezionando ad esempio Organism possiamo usare nella ricerca il nome dell’organismo (ad es. “human, mouse, green plant, bacteria, drosophila similis” Una volta fatta la ricerca possiamo filtrare ancora i dati utilizzando il menu sulla destra della pagina dei risultati; Una volta scelti i pripri criteri di ricerca i limits restano attivi per tutta la sessione Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore Metodi di ricerca: Possono essere usati anche direttamente nel campo di ricerca racchiusi tra [ ] [accession] Accession number; [all field]; [author]; [ecrno] EC/RN Number (enzyme commission number); [Gene Name] [Issue] [title] [journal] etc…Parametri pubblicazione; [Publication date] Data di Pubblicazione e eventuale Modifica; Lunghezza della sequenza; Ricerca avanzata Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore Metodi di ricerca: Esempi: Frogs AND 2010/06[Publication Date] 110:500[Sequence Length] 2009/3/1:2009/9/30[Publication Date] NC_0000*[Accession] AND Human[Organism] Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore Metodi di ricerca: Advanced Search e History: Nella pagina della ricerca avanzata è presente una History delle query fatte recentemente: Ciascuna query ha un nome nel formato “#NUMERO”; E’ possibile riutilizzare query nella history e combinarle tra loro usando gli operatori booleani; Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore ATTENZIONE AI VARI TIPI DI ENTRY!!! Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore DIVERSI TIPI DI ENTRY. mRNA (ad es. entry U90223); DNA (ad es. Entry AF018430); Le due entry si riferiscono a: mRNA relativo ad un gene con informazioni relative a , CDS e Proteina; Informazioni relative al gene che si presenta effettivamente su un tratto di cromosoma (varianti di splicing, presenza di esoni introni etc etc); Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore mRNA ENTRY: U90223 Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore DNA Entry: AF018430 Due varianti di splicing Bioinformatica

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore DNA Entry: AF018430 Prendi i nucleotidi da 1 a 1735 dalla entry AF018429. Aggiungi i nucleotidi da 1 a 1177 dalla entry AF018430. Aggiungi i nucleotidi da 1 a 45 dalla entry AF018431. Aggiungi i nucleotidi da 658 a 732 dalla entry AF018432.7 ….. Bioinformatica

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein Contiene le sequenze create dalla traduzione di sequenze nucleotidiche codificanti provenienti da GenBank, EMBL,DDBJ; Le sequenze proteiche sono importate inoltre da db esterni quali Protein Information Resource (PIR), SWISS-PROT, Protein Research Foundation (PRF). Le sequenze proteiche sono inoltre estratte da strutture provenienti da Protein Data Bank (PDB). Bioinformatica

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein Metodi di ricerca: Sono identici a quelli visti per Nucleotide; Bioinformatica

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein Metodi di ricerca: Usare i Limits; Cliccare su limits nella pagina principale di entrez Protein Data di pubblicazione; Data di Modifica; Db sorgente: EMBL,Genbank, DDBJ, etc; Escludere lavori incompleti, brevetti, etc. Bioinformatica

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein Bioinformatica

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein Metodi di ricerca: Possono essere usati anche direttamente nel campo di ricerca racchiusi tra [ ] I tag sono identici a quelli visti per Nucleotide ad eccezione di alcuni come ad es: [molecular weight] Ricerca avanzata Bioinformatica

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein La ricerca di tp53 nel db Protein. Questa volta troviamo la sequenza proteica. Bioinformatica

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein La ricerca di tp53 nel db Protein. Ma possiamo sempre risalire alla Coding Sequence Bioinformatica

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein Scegliendo come modalità di visualizzazione “FASTA” otteniamo: Possiamo cambiare l’intervallo da visualizzare Bioinformatica

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein Scegliendo come modalità di visualizzazione “FASTA” otteniamo: Trovare regioni di similarità tra tp53 e altre sequenze (BLAST); Trovare regioni conservate in tp53 (CD-search); Bioinformatica

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein Scegliendo come modalità di visualizzazione “FASTA” otteniamo: Trovare pattern all’interno della sequenza Tutto quanto detto vale anche per Nucleotide. Bioinformatica

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene Contiene geni. Mantiene informazioni relativamente a nomenclatura, localizzazione cromosomica, prodotti dei geni, malattie etc. Bioinformatica

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene Metodi di ricerca: Sono identici a quelli visti per Nucleotide e Protein; Bioinformatica

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene Metodi di ricerca: Usare i Limits; Cliccare su limits nella pagina principale di entrez Gene Search Field tags: Chromosome; Taxonomy ID; Gene Name; Gene Length; Disease/Phenotype; Etc… Bioinformatica

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene Metodi di ricerca: Organismo Bioinformatica

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene Metodi di ricerca: Opzioni e Date; Bioinformatica

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene Metodi di ricerca: Tassonomia; Bioinformatica

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene Bioinformatica

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene Metodi di ricerca: Possono essere usati anche direttamente nel campo di ricerca racchiusi tra [ ] I tag sono identici a quelli visti per Nucleotide e Protein ad eccezione di alcuni come ad es: [exon count] [taxonomy ID] [disease/phenotype] [cromosome] Ricerca avanzata Bioinformatica

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene Esempi di Query: Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed PubMed è un database di citazioni e abstract della letteratura biomedica. Quando l’intero articolo è disponibile, vengono forniti link per la consultazione (Pubmed Central, la biblioteca nazionale degli USA). Tutorial: http://www.nlm.nih.gov/bsd/disted/pubmedtutorial Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed PubMed contiene al suo interno 4 database: MEDLINE citazioni dal 1966 ad oggi; abstract; MESH; aggiornamento settimanale; OLDMEDLINE con citazioni dal 1951 al 1965 , no abstract, no MESH PREMEDLINE (In Process citations) per citazioni non ancora indicizzate; no MeSH ; aggiornamento giornaliero PUBLISHER SUPPLIED CITATIONS per citazioni ricevute via elettronica direttamente dall’editore. Non ancora pubblicate in cartaceo. Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Anche PubMed ha il suo formato Flat file: [AU] campo autore [TI] campo titolo [TA] nome della rivista [LA] lingua di pubblicazione dell’articolo [MH] Mesh terms (soggetti) [DP] data di pubblicazione(A/M/G) [EDAT] data di inserimento nel pubmed (A/M/G) [AB] abstract Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Metodi di ricerca: Usare i Limits: La pagina di PubMed in cui normalmente si vanno ad impostare i limiti (Limits) è cambiata. Ora i limiti vengono chiamati Filters (Filtri) e sono posizionati alla sinistra dello schermo di PubMed dopo aver effettuato una ricerca. Per utilizzare i filtri basterà cliccare sulle voci che interessano (es. Publications dates, Article Types ecc …) ed automaticamente la ricerca verrà aggiornata sulla base dei filtri selezionati. Per aggiungere Filtri cliccare su “Choose additional filters” si aprirà una finestra in cui sarà possibile selezionare altri filtri che verranno aggiunti alla colonna a sinistra della pagina. Nella funzione “Manage Filters” alla destra della finestra sarà possibile invece accedere alla sezione MyNCBI in cui sarà possibile selezionare dei filtri fissi per le ricerche. Per cancellare i filtri basterà selezionare “Clear” o “Clear all” se si vogliono eliminare tutti. Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Ricerca avanzata Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Ricerca avanzata Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Usare i MESH TERMS Un vocabolario di termini medici che vengono assegnati ad un articolo per rappresentarne il contenuto; Se state effettuando una ricerca su "heart attacks", un autore potrebbe aver utilizzato le parole "heart attack", un altro "myocardial infarct", un altro ancora semplicemente "infarct; Nella semplice ricerca per parola chiave è utile inserire tutti e tre i termini per reperire gl articoli rilevanti sull'argomento; Con i MeSH, invece, tutti gli articoli rilevanti sono stati indicizzati con il termine "myocardial infarction", il termine "ufficiale" per questo concetto. Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Usare il tag MeSH - Medical Subject Headings. Dalla Pagina della ricerca avanzata è possibile accedere al vocabolario di termini medici utili alla ricerca. Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed MeSH Database. Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Proviamo a ricercare nel DB di MeSH il termine “brain neoplasm” Ci sono delle sottointestazioni relative al termine che possiamo selezionare Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Il DB è organizzato come un albero. Possiamo selezionare un nodo e ricercare le eventuali sottocategorie correlate. Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Infine possiamo aggiungere a “Search Builder” il relativo tag di ricerca oppure fare direttamente una ricerca su PubMed. Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Anche il DB MeSH ha la sua ricerca avanzata di termini medici. Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Metodi di ricerca. Esempi: Ricercare articoli scritti da “Bonnie W. Ramsey” riguardo la terapia genica nella fibrosi cistica cystic fibrosis gene therapy ramsey bw Quando si conosce solo il cognome di un autore si può usare il tag [au]: brody[au] Da alcuni anni Pubmed sta inserendo anche i nomi completi degli autori; Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Risultati di una ricerca: Filtri Send to Display Settings Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Risultati di una ricerca: Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Metodi di ricerca. Single Citation Matcher. Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Metodi di ricerca. Topic-Specific Queries. Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Metodi di Ricerca. Clinical Query: Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Metodi di Ricerca. Clinical Query: Categoria «Clinical Study»: Citazioni filtrate per uno specifico studio clinico (THERAPY, DIAGNOSIS,PROGNOSIS…ETC ETC); Categoria «Systematic Reviews»: Citazioni filtrate per review di dati provenienti da studi clinici e sintesi quantitative Categoria «Medical Genetics»: Citazioni filtrate per genetica medica Bioinformatica

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed Catalogo Riviste: Pubmed mette a disposizione anche un metodo di ricerca di riviste del settore; Bioinformatica

Entrez Esercitazioni Esercitazione 1: Ricercare dalla pagina principale di Entrez il gene il cui accession number è BC043443; Quanti risultati otteniamo nel db Gene? Quale è il nome ufficiale del gene? Gli altri possibili Nomi? In quale filamento del dna si trova? Quante varianti di Splicing? Sono tutte codificanti proteina? A quali malattie è associato? E’ coinvolto nel processo dell’apoptosi? Quanto è lunga la coding sequence della prima variante di slicing? Bioinformatica

Entrez Esercitazioni Esercitazione 1I: La citocromo c ossidasi (cox4) è un complesso multimerico localizzato nella membrana mitocondriale interna che partecipa al trasporto degli elettroni nella catena respiratoria mitocondriale. Vogliamo selezionare il gene corrispondente alla subunità 4 umana presente nel cromosoma 16 e prendere poi la sequenza nucleotidica e la relativa traduzione proteica. STEP 1: Da Entrez selezioniamo il DB Gene; STEP 2: Nel campo di ricerca digitiamo: (homo sapiens[Organism]) AND (16[Chromosome]) AND “cytochrome c oxidase” AND (“subunit 4” OR “subunit iv” OR “cox4”) STEP 3: Il primo risultato ottenuto è quello che cercavamo (isoforma 1). Cliccliamo sulla sequenza e successivamente sul link “primary Source” e poi “Genbank” STEP 4 : Recuperare la sequenza mRNA relativa. Recuperare la CDS in formato fasta e la relativa traduzione. Se avessimo avuto l’accession number NM_001861 Bioinformatica

Entrez Esercitazioni Esercitazione III: Quale è la tassonomia di “drosophila melanogaster”? Suggerimento: Dalla pagina principale di Entrez digitare drosophila melanogaster[organism] (o equivalentemente selezionando il DB taxonomy digitare drosophila melanogaster) Bioinformatica

Entrez Esercitazioni Esercitazione IV: Utilizzando Entrez cercare il gene tp53 del cane (Canis familiaris). Di che tipo di gene si tratta? In quale cromosoma si trova? Quale è il refSeq Status? Quante isoforme ci sono? In quale filamento si trova? (senso/antisenso) Ci sono geni omologhi in altri organismi? Quali? Bioinformatica

Entrez Esercitazioni Esercitazione V: Dal DB Protein selezionare la proteina CAD99002. Quale è il nome della proteina? Quale è la lunghezza della proteina? Quale è la lunghezza della coding sequence? CDS=107 PROTEIN=35 Bioinformatica

Entrez Esercitazioni Esercitazione VI: Quante proteine umane sono presenti in banca dati? Quante di queste sono codificate dal genoma mitocontriale? (suggerimento: usare limits dal db protein) All[filter] Bioinformatica

Entrez Esercitazioni Esercitazione VII: Quanti articoli ha pubblicato G. Pesole nel 2005? Quanti articoli in pubmed contengono la parola “Bioinformatics”? Quanti articoli bioinformatici ha pubblicato Alfredo Ferro fino ad oggi? Quanti di questi riguardano la backtranslation? (suggerimento: usare il nome completo) Cercare articoli review sull’ischemia cerebrale (cerebral ischemia) come argomento principale riguardante la fascia di età fra i 45 e 64 anni. (sugg: guardate bene i limits). Ricercare articoli sulla osteoporosi (osteoporosis) nelle donne. Quale è il nome completo della rivista “Ann. Entomol. Soc. Am.” Quale è il nome completo della rivista PNAS. Bioinformatica

Entrez Esercitazioni Esercitazione VIII: Trovare la tassonomia del pomodoro (tomato). Quale è il nome scientifico? Trovare la tassonomia della vite (wine grape). Quale è il nome scientifico? Bioinformatica

Entrez Esercitazioni Esercitazione IX: Ricercare tutte le sequenze nucleotidiche riguardanti i muscoli nell’uomo che si riferiscano a myosin oppure a telethonin ma non a skelectal. Bioinformatica

SRS - http://srs.ebi.ac.uk Bioinformatica

SRS - http://srs.ebi.ac.uk SRS (Sequence Retrieval System) è un sistema per la ricerca e l’estrazione di dati biologici via web; SRS consente la navigazione attraverso varie banche dati sfruttando il cross-referencing; La gran parte delle opzioni messe a disposizione da SRS sono uguali a quelle di Entrez; Generalmente quando usiamo SRS e Entrez, il numero di sequenze che otteniamo attraverso i due sistemi è diverso a causa di un diverso aggiornamento delle banche dati utilizzate dai due sistemi di interrogazione; Bioinformatica

SRS - http://srs.ebi.ac.uk Il database EMBL è stato rimosso dal tool di ricerca di SRS Bioinformatica

SRS - http://srs.ebi.ac.uk Dopo aver scelto i DB nucleotidici e standard query inseriamo nei campi di ricerca i termini da ricercare utilizzando (come per Entrez i tag appropriati) Bioinformatica

SRS - http://srs.ebi.ac.uk I termini verranno correlati con un operatore AND Bioinformatica

SRS - http://srs.ebi.ac.uk Query in formato testuale con operatori booleani e tag per restringere la ricerca. Ci sono alcune piccole differenze rispetto a Entrez: Ad esempio gli operatori booleani sono indicati con &, !, | etc. Bioinformatica

SRS - http://srs.ebi.ac.uk Risultato della ricerca: Il primo record è “ipotetical” Il terzo Record è quello che cercavamo (isoforma 1); Bioinformatica

SRS - http://srs.ebi.ac.uk E’ possibile selezionare una o più sequenze e richiamare su di essa un programma come ad es. BLAST, CLUSTALW, FASTA, Transeq (traduzione in aminoacidi), Backtranseq (backtranslation), etc etc. Bioinformatica

SRS - http://srs.ebi.ac.uk Cliccando sul link relativo otteniamo la pagina contenente le informazioni; E’ praticamente molto simile a quella di Entrez. Bioinformatica

SRS - http://srs.ebi.ac.uk Tra le altre informazioni troviamo le Features della sequenza (Introni, esoni etc etc). Traduzione Bioinformatica

SRS - http://srs.ebi.ac.uk In fondo alla pagina troviamo anche la sequenza Bioinformatica

SRS - http://srs.ebi.ac.uk Bioinformatica

SRS - http://srs.ebi.ac.uk Scegliamo il DB in cui effettuare la ricerca; Possiamo scegliere tra: Standard Query; Extended Query; Bioinformatica

SRS - http://srs.ebi.ac.uk Bioinformatica

DDBJ - http://www.ddbj.nig.ac.jp/ Bioinformatica

DDBJ - http://www.ddbj.nig.ac.jp/ Bioinformatica

DDBJ - http://getentry.ddbj.nig.ac.jp/top-e.html Bioinformatica

Altre Banche dati SWISSPROT/UNIPROT (http://www.uniprot.org/ ): banca dati originale, sviluppata in Svizzera. E’ una banca dati altamente curata, con alto livello di annotazione (descrizione della proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali e post- trasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con altri database, basso livello di ridondanza. Questa banca dati fornisce entry flat-file che si differenziano da EMBL soprattutto per quanto riguarda le features che descrivono nelle proteine la presenza di aa modificati, regioni peptidiche corrispondenti ad isoforme, domini strutturali e siti di polimorfismi; PIR (http://pir.georgetown.edu): altra banca dati di sequenze proteiche sviluppata negli USA. E’ molto curata e ben annotata, ma è poco integrata con altri database e quindi offre minori vantaggi nel suo uso. Bioinformatica

UNIPROT Bioinformatica

UNIPROT http://www.ebi.ac.uk/uniprot/remotingAPI/ Bioinformatica

UNIPROT - http://www.uniprot.org/ Ricerca Testuale Ricerchiamo la proteina relativa a TP53 in Homo Sapiens Bioinformatica

UNIPROT - http://www.uniprot.org/ Ricerca Testuale Otteniamo una lista di entry: La prima è quello che cerchiamo. Da notare l’Entry Name tipico di UniProt. Cliccando sulla entry otteniamo numerose informazioni (in parte uguali a Entrez) Bioinformatica

UNIPROT - http://www.uniprot.org/ Formato della Entry: XML, FASTA, TXT Informazioni e Funzione Ma c’e’ anche: Bibliografia; Le interazioni; Ontologie; Features: Binding site, Motif,Siti attivi; Bioinformatica

UNIPROT - http://www.uniprot.org/ Annotazioni e loro posizionamento visivo all’interno della proteina: Regioni; Binding Site; Motivi; Bioinformatica

UNIPROT - http://www.uniprot.org/ Cliccando su una regiuone è possibile vedere la sequenza e fare un BLAST Bioinformatica

UNIPROT - http://www.uniprot.org/ Bioinformatica

UNIPROT - http://www.uniprot.org/ TOOLS: A questo punto possiamo ad esempio fare un BLAST sulla proteina. Bioinformatica

UNIPROT - http://www.uniprot.org/ Otteniamo gli stessi risultati di BLAST su NCBI visualizzati in modo diverso. Bioinformatica

UNIPROT - http://www.uniprot.org/ Possiamo allineare due o più sequenze anche mettendo solo l’identificativo Bioinformatica

UNIPROT - http://www.uniprot.org/ Scaricare una o più entry Bioinformatica

UNIPROT - http://www.uniprot.org/ Mappare uno o più ID di UniProt nell’ID di un altro DB (GenBank, PIR, PDB, etc. etc.) Può essere molto utile ad esempio quando cerchiamo la struttura 3D di una proteina in PDB. Bioinformatica

UNIPROT - http://www.uniprot.org/ Ricerca Testuale Avanzata Ricerca avanzata con operatori booleani e tag per filtrare (La sintassi è leggermente diversa da quella vista per Entrez e SRS). Bioinformatica

UNIPROT - http://www.uniprot.org/ Esercitazione I: Ricercare la sequenza URIC_PAPHA. Quale è l’organismo? Quanto è lunga la sequenza? Quali sono i processi biologici in cui è coinvolta? Indicare la posizione nella proteina di Binding site. Bioinformatica

PIR - http://pir.georgetown.edu/ Bioinformatica

PIR - http://pir.georgetown.edu Clicchiamo su Search/Analysis – Text Search Bioinformatica

PIR - http://pir.georgetown.edu In modo del tutto analogo agli altri tool possiamo effettuare una ricerca utilizzando operatori booleani e/o tag per il filtraggio. Bioinformatica

PIR - http://pir.georgetown.edu Tool: BLAST; FASTA; Ricerca di pattern in DB; NEEDLEMAN- WUNSCH; CLUSTALW; T-Coffee; Muscle; Visualizzazione grafica di domini; Bioinformatica