La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Bioinformatica Entrez Utilities Dr. Giuseppe Pigola –

Presentazioni simili


Presentazione sul tema: "Bioinformatica Entrez Utilities Dr. Giuseppe Pigola –"— Transcript della presentazione:

1 Bioinformatica Entrez Utilities Dr. Giuseppe Pigola –

2 Per favorire lo sviluppo di servizi basati su Entrez, NCBI mette a disposizione le Entrez Programming Utilities (E-Utilities), insieme di script server side per laccesso remoto alle proprie banche dati; Ad ogni possibile manipolazione dei dati e associata una specifica applicazione; le richieste vengono effettuate richiamando appositi URL cui passare i dati di input. Entrez-Utilities Bioinformatica2

3 ESearch che ha il compito di restituire l'elenco degli ID associati ai documenti cercati; Per ottenere le informazioni dettagliate sui dati ricercati (es. sugli articoli) si utilizza EFetch, passando in input l'elenco dei PMID; Per ottenere soltanto un summary degli articoli si utilizza Esummary; Per controllare l'eventuale esistenza di articoli aggiuntivi collegati a quelli reperiti si utilizza Elink; EInfo restituisce delle informazioni statistiche sul database (ultimo aggiornamento, numero di record, ecc.).; ESpell viene invece usato per suggerimenti di spelling. Entrez-Utilities Bioinformatica3

4 Entrez-Utilities DB (es. pubmed)... Si invia una richiesta di esearch File XML contenente gli ID dei docs + info Per impostare i passaggi successivi Si invia una richiesta di fetch sui dati estrapolati con la esearch esearch... efetch Record set... h&term=apoptosis Bioinformatica4

5 LURL Base esearch.fcgi? egquery.fcgi? esummary.fcgi? efetch.fcgi? einfo.fcgi?elink.fcgi? epost.fcgi? eutil.fcgi? Entrez-Utilities Bioinformatica5

6 Parametri dellURL esearch.fcgi?BASE/ db=nucleotide&term=mouse[orgn] Passaggio tramite GET, i parametri sono separati dal simbolo & db = nucleotide term = mouse[orgn] Bioinformatica6

7 Il sistema Entrez Entrez Core Engine Vengono estrapolati gli UID che soddisfano una query Possono essere ottenuti dei brevi sommari per ogni UID Entrez Database Consente di ottenere anche record formattati per ogni UID Per ogni UID Possono essere ottenuti anche dei link Entrez History Server Immagazzina le history delle search effettuate su ogni Entrez db User Bioinformatica7

8 Entrez Core Entrez Core Engine Trova gli UID che corrispondono ad una data query Visualizza I summary per ogni UID EGQuery ESearch ESummary EGQuery ESearch ESummary set of UIDs count of UIDs set of UIDs DocSums text query Funzionano su tutti i DB Bioinformatica8

9 EGQuery Ricerca globale su tutti i database INPUT term Entrez text query OUTPUT XML Numero di record che soddifano la query allinterno di ogni database egquery.fcgi?BASE/ term=mouse[orgn] Scopo: Trovare il numero di record che soddisfano una data query Bioinformatica9

10 EGQuery Output Bioinformatica10

11 Effettua una ricerca su uno specifico DB INPUT db Entrez database to search OUTPUT XML Numero totale di record che soddisfano la query Lista parziale degli UID Traduzione del termine esearch.fcgi?BASE/ db=nucleotide&term=mouse[orgn] term Entrez text query ESearch Bioinformatica11

12 Total number of records found &retmax &retstart Matching UIDs first record = &retstart quantity = &retmax ESearch Output – UIDs Bioinformatica12

13 Parametri per il retrive retstart retmax First record to retrieve from UID set (default = 0) Number of records to retrieve from UID set (84, 23, 19, 55, 20, 96, 73) &retstart=2&retmax=4 &retmax=4 (84, 23, 19, 55) (19, 55, 20, 96) Bioinformatica13

14 ESearch Output – Traduzione mouse[orgn] Mus musculus[Organism] Bioinformatica14

15 ESearch - Esempi Ricerca in pubmed il termine Cancer per entry degli ultimi 60 giorni e recupera i primi 100 ID e traduzioni usando la history: e=edat&retmax=100&usehistory=y e=edat&retmax=100&usehistory=y Ricerca in PubMed PNAS Volume 97, e recupera 6 ID iniziando dalla 7-ma entry: art=6&retmax=6&tool=biomed3 art=6&retmax=6&tool=biomed3 Ricerca il termine obstetrics nelle riviste: Ricerca in PubMed Central stem cells solo in articoli fulltext: lter] lter] Ricerca in Nucleotide in base a una proprietà della sequenza: Ricerca in Protein in base al peso molecolare: Bioinformatica15

16 ESummary INPUT db Entrez database to search OUTPUT XML Breve summary per ogni documento ottenuto esummary.fcgi?BASE/ db=nucleotide&id= , id Set of UIDs Utile quando EFetch non è supportata dal db Scopo Bioinformatica16

17 ESummary Output Bioinformatica17

18 ESummary - Esempi In Protein visualizza i record e in xml retrieval mode: 8843&retmode=xml In Nucleotide visualizza i record e in xml retrieval mode: &retmode=xml In Structure visualizza i record19923 e in xml retrieval mode: retmode=xml In Taxonomy dvisualizza i record 9913 e in xml retrieval mode: retmode=xml In UniSTS visualizza i record e in xml retrieval mode: retmode=xml 8843&retmode=xml &retmode=xml retmode=xml retmode=xml retmode=xml Bioinformatica18

19 Entrez Database Entrez Databases EInfo EFetch ELink Informazioni specifiche su un DB Record dettagliati a partire dagli UID Link Entrez per ogni UID Sono legate al particolare db dove vengono eseguite EInfo EFetch ELink set of UIDs in db A database statistics set of UIDs in db B Formatted Data Entrez database set of UIDs Bioinformatica19

20 INPUT db Entrez database to search OUTPUT XML Statistiche generali di indicizzazione Lista dei campi di indicizzazione e conteggio dei record Lista dei link agli altri db einfo.fcgi?BASE/ db=nucleotide EInfo Bioinformatica20

21 EFetch INPUT db Entrez database to search OUTPUT Varied Record formattati efetch.fcgi?BASE/ db=nucleotide&id= , id Set of UIDs Effettuare il download dei record Scopo: Bioinformatica21

22 Database che supportano la EFetch Literature PubMed Journals PubMed Central OMIM Sequences CoreNucleotide CoreEST CoreGSS Protein Genome Popset SNP Other Gene Taxonomy Bioinformatica22

23 Parametri di formattazione delle efetch rettype retmode Tipi di record ritornati: (flat file, FASTA, EST, accession, etc.) Formato dei file ritornati: (text, HTML, XML) Bioinformatica23

24 ELink Estrapola gli UID nel db B collegati ad un insieme di UID nel db A INPUT db Entrez database(s) to link to; Può essere una lista OUTPUT XML Insieme di UID linkati elink.fcgi?BASE/ dbfrom=protein&db=pubmed&id= id List of UIDs dbfrom Entrez database to link from cmd ELink command mode (default = neighbor) Trovare dati correlati in un altro db database Trovare i vicini allinterno del db Scopo: Bioinformatica24

25 ELink Output &cmd=neighbor &cmd=neighbor_history Restituisce tutti gli UIDs correlati (pssono essere migliaia…!) Restituisce solo WebEnv e query keys Bioinformatica25

26 Nomi Link Tutti i possibili nomi di link per un db sono dati da EInfo I nomi dei link per una data chiamata sono presenti nel file ELink XML gene_protein Links da gene a protein protein_gene Links da protein a gene Links da gene a snp gene_snp gene_snp_genegenotype Links da gene a snps che hanno dati di genotype genome_nucleotide_comp_mrna Links da un chromosoma a tutti i mRNAs trascritti da geni di quel cromosoma linkname Nome del link (se omesso, saranno considerati tutti i link) Bioinformatica26

27 Specificare un nome dbfrom=protein&db=pubmed&id= dbfrom=protein&db=pubmed &id= &linkname=protein_pubme d Bioinformatica27

28 UID linkati ad altri UID nello stesso DB con i corrispondenti score di similarità dbdbfrom = elink.fcgi?BASE/ dbfrom=protein&db=protein &id= &term=lemurs[orgn] term Entrez Query Database Supportati: pubmedcdd nucleotidegeo proteingds domains Self link Bioinformatica28

29 Self link Self hit Bioinformatica29

30 Passare un insieme di UID a Link G1G2G3 P1P2P3P4P5P6 dbfrom=gene&db=protein&id=G1,G2,G3 Bioinformatica30

31 Passare più insiemi di UID al Link G1G2G3 P1P2P3P4P5P6 dbfrom=gene&db=protein&id=G1&id=G2&id=G3 Bioinformatica31

32 ELink: Fork lungo il cammino nucleotide Entrez query Formatted Data Formatted Data gene protein Formatted Data SNP CDD Formatted Data DocSums Bioinformatica32

33 History Server Entrez History Server Memorizza la lista degli UID ottenuti da ricerche precedenti ESearch EPost Locazione degli UID memorizzati, più due parametri: WebEnv query_key Cookie assegnato dallHistory Server Intero, equivalente allHistory number sul web ELink Bioinformatica33

34 EPost Invia alla history un file contenente un elenco di ID per un uso futuro. Url BASE: Database: IDs: db=database name id= , , Bioinformatica34

35 EPost - Esempio Esempio su PubMed: Risultato: QueryKey (come per linterfaccia web) è il numero della query. WebEnv è un cookie che può essere utilizzato successivamente con EFetch, ELink, Esummary per accedere alla history (assieme a query_key). 1 NCID_1_ _ _9001_ _ NCID_1_ _ _9001_ _ Bioinformatica35

36 ESearch – Elink e la history Anche ESearch può depositare dei dati nella history usando il parametro: Anche ELink può depositare dei dati nella history usando il parametro: usehistory=y cmd= neighbor_history Bioinformatica36

37 Recuperare i dati dalla history Quando si usa: Si possono recuperare dati dalla history e formulare nuove query utilizzando i parametri (esempio): WebEnv=WgHmIcDG]B query_key=6 Dove i valori sono stati recuperati da una precedente EPost,ESearch,Elink,EFetch. ESearchESummaryELinkEFetch Bioinformatica37

38 Accedere alla History Entrez History Server EPost ESearch usehistory=y ELink cmd=neighbor_history ESearch ESummary ELink EFetch WebEnv query_key Bioinformatica38

39 Protocollo ESearch EPost ESummary EFetch ELink Entrez History Server UID List Entrez query WebEnv query_key UID List usehistory=y cmd=neighbor_history Bioinformatica39

40 PHP e XML function getData($database,$cookie,$qkey,$retmax,$retstart,$returnmode){ $base ='http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?; $params = array( 'db' => $database, 'retmode' => $returnmode, 'query_key' => $qkey, 'WebEnv' => $cookie, 'retmax' => $retmax, 'retstart' => $retstart, ); $url = $base. 'efetch.fcgi?'. http_build_query($params); $output = file_get_contents($url); } Bioinformatica40

41 Pipeline di base ESearch EPost ESummary EFetch ELink Bioinformatica41


Scaricare ppt "Bioinformatica Entrez Utilities Dr. Giuseppe Pigola –"

Presentazioni simili


Annunci Google