La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Bioinformatica Entrez Utilities

Presentazioni simili


Presentazione sul tema: "Bioinformatica Entrez Utilities"— Transcript della presentazione:

1 Bioinformatica Entrez Utilities
Dr. Giuseppe Pigola –

2 Entrez-Utilities Per favorire lo sviluppo di servizi basati su Entrez, NCBI mette a disposizione le Entrez Programming Utilities (E-Utilities), insieme di script server side per l’accesso remoto alle proprie banche dati; Ad ogni possibile manipolazione dei dati e associata una specifica applicazione; le richieste vengono effettuate richiamando appositi URL cui passare i dati di input. Bioinformatica

3 Entrez-Utilities ESearch che ha il compito di restituire l'elenco degli ID associati ai documenti cercati; Per ottenere le informazioni dettagliate sui dati ricercati (es. sugli articoli) si utilizza EFetch, passando in input l'elenco dei PMID; Per ottenere soltanto un summary degli articoli si utilizza Esummary; Per controllare l'eventuale esistenza di articoli aggiuntivi collegati a quelli reperiti si utilizza Elink; EInfo restituisce delle informazioni statistiche sul database (ultimo aggiornamento, numero di record, ecc.).; ESpell viene invece usato per suggerimenti di spelling. Bioinformatica

4 Entrez-Utilities h&term=apoptosis ... Si invia una richiesta di esearch DB (es. pubmed) esearch... File XML contenente gli ID dei docs + info Per impostare i passaggi successivi ... Si invia una richiesta di fetch sui dati estrapolati con la esearch efetch... ... Record set ... ... Bioinformatica

5 Entrez-Utilities L’URL Base
eutil.fcgi? L’URL Base esearch.fcgi? egquery.fcgi? esummary.fcgi? einfo.fcgi? elink.fcgi? efetch.fcgi? epost.fcgi? Bioinformatica

6 Parametri dell’URL BASE/ esearch.fcgi? db=nucleotide&term=mouse[orgn]
Passaggio tramite GET, i parametri sono separati dal simbolo & db = nucleotide term = mouse[orgn] Bioinformatica

7 Il sistema Entrez User Entrez Core Engine Entrez History Server
Vengono estrapolati gli UID che soddisfano una query Possono essere ottenuti dei brevi sommari per ogni UID User Entrez Database Entrez History Server Consente di ottenere anche record formattati per ogni UID Per ogni UID Possono essere ottenuti anche dei link Immagazzina le history delle search effettuate su ogni Entrez db Bioinformatica

8 Entrez Core Entrez Core Engine EGQuery ESearch ESummary EGQuery
Trova gli UID che corrispondono ad una data query Visualizza I summary per ogni UID ESearch ESummary Funzionano su tutti i DB text query EGQuery count of UIDs text query ESearch set of UIDs set of UIDs ESummary DocSums Bioinformatica

9 EGQuery INPUT OUTPUT term BASE/ egquery.fcgi? term=mouse[orgn] XML
Ricerca globale su tutti i database Scopo: Trovare il numero di record che soddisfano una data query INPUT term Entrez text query BASE/ egquery.fcgi? term=mouse[orgn] Numero di record che soddifano la query all’interno di ogni database OUTPUT XML Bioinformatica

10 EGQuery Output Bioinformatica

11 ESearch INPUT OUTPUT db term db=nucleotide&term=mouse[orgn] BASE/
Effettua una ricerca su uno specifico DB INPUT db Entrez database to search term Entrez text query db=nucleotide&term=mouse[orgn] BASE/ esearch.fcgi? Numero totale di record che soddisfano la query Lista parziale degli UID Traduzione del termine OUTPUT XML Bioinformatica

12 ESearch Output – UIDs Total number of records found &retmax &retstart
first record = &retstart Matching UIDs quantity = &retmax Bioinformatica

13 Parametri per il retrive
retstart First record to retrieve from UID set (default = 0) retmax Number of records to retrieve from UID set &retmax=4 (84, 23, 19, 55, 20, 96, 73) (84, 23, 19, 55) &retstart=2&retmax=4 (84, 23, 19, 55, 20, 96, 73) (19, 55, 20, 96) Bioinformatica

14 ESearch Output – Traduzione
mouse[orgn] “Mus musculus”[Organism] Bioinformatica

15 ESearch - Esempi Ricerca in pubmed il termine Cancer per entry degli ultimi 60 giorni e recupera i primi 100 ID e traduzioni usando la history: Ricerca in PubMed PNAS Volume 97, e recupera 6 ID iniziando dalla 7-ma entry: Ricerca il termine obstetrics nelle riviste: Ricerca in PubMed Central stem cells solo in articoli fulltext: Ricerca in Nucleotide in base a una proprietà della sequenza: Ricerca in Protein in base al peso molecolare: Bioinformatica

16 ESummary INPUT OUTPUT db id BASE/ esummary.fcgi?
Scopo Utile quando EFetch non è supportata dal db INPUT db Entrez database to search id Set of UIDs BASE/ esummary.fcgi? db=nucleotide&id= , OUTPUT XML Breve summary per ogni documento ottenuto Bioinformatica

17 ESummary Output Bioinformatica

18 ESummary - Esempi In Protein visualizza i record e in xml retrieval mode: In Nucleotide visualizza i record e in xml retrieval mode: In Structure visualizza i record19923 e in xml retrieval mode: In Taxonomy dvisualizza i record 9913 e in xml retrieval mode: In UniSTS visualizza i record e in xml retrieval mode: Bioinformatica

19 Entrez Database EInfo EFetch ELink EInfo EFetch ELink
Entrez Databases Informazioni specifiche su un DB Record dettagliati a partire dagli UID Link Entrez per ogni UID EInfo EFetch ELink Sono legate al particolare db dove vengono eseguite Entrez database EInfo database statistics set of UIDs EFetch Formatted Data set of UIDs in db A ELink set of UIDs in db B Bioinformatica

20 EInfo INPUT OUTPUT db BASE/ einfo.fcgi? db=nucleotide XML
Entrez database to search BASE/ einfo.fcgi? db=nucleotide Statistiche generali di indicizzazione Lista dei campi di indicizzazione e conteggio dei record Lista dei link agli altri db OUTPUT XML Bioinformatica

21 EFetch INPUT OUTPUT db id BASE/ efetch.fcgi?
Scopo: Effettuare il download dei record INPUT db Entrez database to search id Set of UIDs BASE/ efetch.fcgi? db=nucleotide&id= , OUTPUT Varied Record formattati Bioinformatica

22 Database che supportano la EFetch
Literature PubMed Journals PubMed Central OMIM Sequences CoreNucleotide CoreEST CoreGSS Protein Genome Popset SNP Other Gene Taxonomy Bioinformatica

23 Parametri di formattazione delle efetch
rettype Tipi di record ritornati: (flat file, FASTA, EST, accession, etc.) retmode Formato dei file ritornati: (text, HTML, XML) Bioinformatica

24 ELink INPUT OUTPUT dbfrom db id cmd BASE/ elink.fcgi?
Estrapola gli UID nel db B collegati ad un insieme di UID nel db A Scopo: Trovare dati correlati in un altro db database Trovare i vicini all’interno del db dbfrom Entrez database to link from INPUT db Entrez database(s) to link to; Può essere una lista id List of UIDs cmd ELink command mode (default = neighbor) BASE/ elink.fcgi? dbfrom=protein&db=pubmed&id= OUTPUT XML Insieme di UID linkati Bioinformatica

25 &cmd=neighbor_history
ELink Output &cmd=neighbor Restituisce tutti gli UIDs correlati (pssono essere migliaia…!) &cmd=neighbor_history Restituisce solo WebEnv e query keys Bioinformatica

26 Nomi Link linkname gene_protein protein_gene gene_snp
Tutti i possibili nomi di link per un db sono dati da EInfo I nomi dei link per una data chiamata sono presenti nel file ELink XML linkname Nome del link (se omesso, saranno considerati tutti i link) gene_protein Links da gene a protein protein_gene Links da protein a gene gene_snp Links da gene a snp gene_snp_genegenotype Links da gene a snps che hanno dati di genotype Links da un chromosoma a tutti i mRNAs trascritti da geni di quel cromosoma genome_nucleotide_comp_mrna Bioinformatica

27 Specificare un nome dbfrom=protein&db=pubmed&id=148762980
&id= &linkname=protein_pubmed Bioinformatica

28 Self link = dbfrom db BASE/ elink.fcgi? dbfrom=protein&db=protein
UID linkati ad altri UID nello stesso DB con i corrispondenti score di similarità dbfrom = db BASE/ elink.fcgi? dbfrom=protein&db=protein &id= &term=lemurs[orgn] term Entrez Query Database Supportati: pubmed cdd nucleotide geo protein gds domains Bioinformatica

29 Self link Self hit Bioinformatica

30 Passare un insieme di UID a Link
dbfrom=gene&db=protein&id=G1,G2,G3 G1 G2 G3 P1 P2 P3 P4 P5 P6 Bioinformatica

31 Passare più insiemi di UID al Link
dbfrom=gene&db=protein&id=G1&id=G2&id=G3 G1 G2 G3 P1 P2 P3 P4 P5 P6 Bioinformatica

32 ELink: Fork lungo il cammino
CDD DocSums protein Formatted Data Entrez query nucleotide Formatted Data gene Formatted Data SNP Formatted Data Bioinformatica

33 History Server Entrez History Server EPost ESearch ELink WebEnv
Memorizza la lista degli UID ottenuti da ricerche precedenti ESearch ELink Locazione degli UID memorizzati, più due parametri: WebEnv Cookie assegnato dall’History Server query_key Intero, equivalente all’History number sul web Bioinformatica

34 EPost Invia alla history un file contenente un elenco di ID per un uso futuro. Url BASE: Database: IDs: db=database name id= , , Bioinformatica

35 EPost - Esempio Esempio su PubMed:
Risultato: QueryKey (come per l’interfaccia web) è il numero della query. WebEnv è un cookie che può essere utilizzato successivamente con EFetch, ELink, Esummary per accedere alla history (assieme a query_key). <ePostResult> <QueryKey>1</QueryKey> <WebEnv>NCID_1_ _ _9001_ _ </WebEnv> </ePostResult> Bioinformatica

36 ESearch – Elink e la history
Anche ESearch può depositare dei dati nella history usando il parametro: Anche ELink può depositare dei dati nella history usando il parametro: usehistory=y cmd= neighbor_history Bioinformatica

37 Recuperare i dati dalla history
Quando si usa: Si possono recuperare dati dalla history e formulare nuove query utilizzando i parametri (esempio): WebEnv=WgHmIcDG]B query_key=6 Dove i valori sono stati recuperati da una precedente EPost,ESearch,Elink,EFetch. ESearch ESummary EFetch ELink Bioinformatica

38 Accedere alla History Entrez History Server WebEnv ESearch EPost
query_key Entrez History Server ESummary ESearch usehistory=y EFetch ELink ELink cmd=neighbor_history Bioinformatica

39 Protocollo Entrez History Server ESearch usehistory=y ESummary EFetch
query ESearch usehistory=y ESummary UID List Entrez History Server EFetch EPost WebEnv ELink UID List query_key cmd=neighbor_history Bioinformatica

40 PHP e XML http://www.php.net/manual/en/refs.xml.php
function getData($database,$cookie,$qkey,$retmax,$retstart,$returnmode){ $base =' $params = array( 'db' => $database, 'retmode' => $returnmode, 'query_key' => $qkey, 'WebEnv' => $cookie, 'retmax' => $retmax, 'retstart' => $retstart, ); $url = $base. 'efetch.fcgi?' . http_build_query($params); $output = file_get_contents($url); } Bioinformatica

41 Pipeline di base ESearch ELink ELink ESummary EPost ELink ELink EFetch
Bioinformatica


Scaricare ppt "Bioinformatica Entrez Utilities"

Presentazioni simili


Annunci Google