La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola –

Presentazioni simili


Presentazione sul tema: "Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola –"— Transcript della presentazione:

1 Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola –

2 Banche dati biologiche Le banche dati sono dei contenitori costruiti per immagazzinare grandi quantità di dati biologici in modo efficiente e razionale; Le banche dati biologiche raccolgono informazioni e dati derivati da: Letteratura; Analisi di laboratorio (in vitro e in vivo); Analisi bioinformatiche (in silico). Ogni banca dati è caratterizzata da un elemento biologico centrale che costituisce loggetto intorno al quale viene costruita la ENTRY principale della banca dati; Bioinformatica2

3 Banche dati biologichie La maggior parte delle banche dati sono fruibili in formato Flat-file: Ogni entry è memorizzata in un file di testo generalmente strutturato, contenente le informazioni; Con il crescere dei dati si è reso necessario adottare DBMS; Uso del web per accedere a informazioni tra loro correlate (cross-referencing) attraverso link ipertestuali; Banche dati in formato XML; Bioinformatica3

4 Banche dati biologichie Ridondanze e Errori: Errori durante lestrazione delle sequenze; Algoritmi per la previsione di strutture imperfetti; Inserimento erroneo di duplicati nei DB; Diversi nomi per la stessa sequenza; Non vi è ununica struttura per un gene (splicing alternativi). Lo stesso gene può essere rappresentato da numerose sequenze nei vari DB; NCBI accetta tutte le sequenze ma le eleva al rango di REFSEQ (sequenza di riferimento) e assegna un refseqID solo dopo numerosi controlli anche manuali; Bioinformatica4

5 Banche dati primarie Sono banche dati di sequenze di acidi nucleici (DNA, RNA): EMBL datalibrary (EMBL – European Molecular Biology Laboratory ); GenBank (NCBI – National Center for Biotechnology Information ); DDBJ (DNA Database of Japan ). Esiste un accordo tra le tre banche per cui linserimento di dati in una, comporta lautomatico inserimento nelle altre; EMBL adotta un formato diverso dalle altre due; Bioinformatica5

6 NCBI - Bioinformatica6 NCBI – National Center for Biotechnology Information. Gestisce un gran numero di DB tra i quali: Gene Contiene dati inerenti i geni di tutte le specie caratterizzate, quali la struttura genica ed il contesto genomico, le ontologie, le interazioni con altri geni ed i link alle sequenze ed alla relative pubblicazioni scientifiche. Nucleotide Contiene le sequenze nucleotidiche di tutte le specie caratterizzate, siano esse codificanti o meno. Protein Ha la stessa struttura di Nucleotide ma è relativo alle sequenze aminoacidiche. Pubmed E il database delle pubblicazioni scientifiche di carattere biologico e biomedico. Per ogni articolo è disponibile labstract. Pubmed Central contiene articoli completi scaricabili gratuitamente. Taxonomy Contiene la classificazione dei vari organismi;

7 NCBI - Bioinformatica7 Esempio di entry in GenBank LOCUS: Entry name; ACCESSION: Accession Number; SOURCE: Organismo; REFERENCE;

8 NCBI - Bioinformatica8 Esempio di entry in GenBank FEATURES; ORIGIN;

9 EMBL - Bioinformatica9 EMBL – European Molecular Biology Laboratory Anche EMBL permette di accedere a numerosi DB. EMBL DataLibrary Contiene dati inerenti Geni e Sequenze Nucleotidiche; UniProt Contiene dati proteici (gestito da un consorzio di cui fa parte EMBL); NCBI Si appoggia anche a NCBI per ricercare informazioni relative a pubblicazioni (PUBMED) o malattie genetiche (OMIM);

10 EMBL - Bioinformatica10 Esempio di entry in EMBL ID Entry name; AC Accession Number; OS Source Organism; OC Tassonomia; KW Parole Chiave; RA Autori; RT Titolo; DR Cross Reference;

11 EMBL - Bioinformatica11 Esempio di entry in EMBL FT Features; SQ Sequenza;

12 DDBJ - Bioinformatica12 DDBJ – DNA Data bank of Japan Si tratta in pratica di una copia di NCBI; Mette a disposizione tool per ricercare e analizzare dati molto simili a quelli che vedremo per Entrez; Il formato adottato da DDBJ per i flat-file è identico a quello di NCBI;

13 Interrogazione di banche dati I sistemi più utilizzati per interrogare le banche dati sono: Entrez (Sviluppato da NCBI): Permette di accedere a numerose banche dati (anche contemporaneamente) attraverso una interfaccia web. Permette di effettuare ricerche testuali sui DB utilizzando diverse sintassi per i vari DB. SRS - Sequence Retrieval System (Sviluppato da EBI – European Bioinformatics Institute); Anche DDBJ offre un metodo di ricerca e analisi dei dati via WEB (ma in pratica si tratta delle stesse cose che vedremo per Entrez e SRS); Bioinformatica13

14 Entrez - Bioinformatica14

15 Entrez - Bioinformatica15 Ricerca in tutti i database Risorse principali: Nucleotide; Protein; Genome; Gene; Taxonomy; Pubmed;

16 Entrez Bioinformatica16 Cerchiamo informazioni relativamente al gene umano TP53 Clicchiamo in corrispondenza di Gene

17 Entrez Bioinformatica17 Opzioni di filtraggio; Ricerca di informazioni correlate; Dettagli; Etc; La prima voce è quello che cerchiamo

18 Entrez Bioinformatica18 Simbolo Ufficiale, Nome del Gene, Tipo di gene, Classificazione, breve Sommario

19 Entrez Bioinformatica19 Taxonomy Browser: Classificazione dellorganismo

20 Entrez Bioinformatica20 Classificazione dellorganismo Gerarchia di classificazione

21 Entrez Bioinformatica21 Database contenente la informazioni sulla sequenza (in questo caso HGNC)

22 Entrez Bioinformatica22 Nome e simbolo del gene

23 Entrez Bioinformatica23 ID unico fornito da dallautorità HGNC: HUGO Gene Nomenclature Committee

24 Entrez Bioinformatica24 Approved: Il gene ha un simbolo approvato da HGNC; Entry withdrawn: Il gene precedentemente approved non esiste più; Symbol withdrawn: - La entry, predentemente approvata è stata fusa con unaltra;

25 Entrez Bioinformatica25 Indica la posizione del gene o la regione del cromosoma

26 Entrez Bioinformatica26 Alias

27 Entrez Bioinformatica27 Il Reference Sequence ID fornito da NCBI e Accession Numbers Per le sequenze di riferimento (Link rispettivamente a mRNA, CDS, etc.)

28 Entrez Bioinformatica28 Lentry per TP53 sul DB GenBank (mRNA) Locus:Nome identificativo; Accession Number: ID; Keywords: parole chiavi che identificano la funzione biologica; Source Organism: Classificazione; Reference: informazioni bibliografiche;

29 Entrez Bioinformatica29 Features: Carateristiche della sequenza; Eventuali introni ed esoni, promotori, enanchers, etc… Traduzione

30 Entrez Bioinformatica30 Link alla Coding Sequence Viene indicato anche il punto di inizio e di fine.

31 Entrez Bioinformatica31 Sequenza dellmRNA relativo al gene.

32 Entrez Bioinformatica32 Salvare lentry come file oppure in clipboard o collections (NCBI memorizza temporaneamente le informazioni); Modalità di visualizzazione

33 Entrez Bioinformatica33 Alcuni formati standard delle sequenze. (A) FASTA, (B) GCG

34 Entrez Bioinformatica34 Link ai relativi geni per gli organismi Mouse e Rattus Norvegicus

35 Entrez Bioinformatica35 Link agli articoli correlati su Pubmed e CiteXplore

36 Entrez Bioinformatica36

37 Entrez Bioinformatica37

38 Entrez Bioinformatica38 Ogni riga rappresenta una variante di splicing (le varianti differiscono nel numero e nelle dimensioni degli esoni, indicati da rettangolini, gli introni sono rappresentati dalle linee sottili). Contesto genomico: Regione genomica di appartenenza e geni limitrofi. Le frecce indicano il filamento (destra: senso, sinistra: antisenso). Sequenza genomica di riferimento con relativi link al FASTA o entry GenBank

39 Entrez Bioinformatica39 Fenotipi patologici correlati al gene (malattie); Sono forniti dei link a delle informazioni aggiuntive;

40 Entrez Bioinformatica40 Interazioni con proteine coinvolte nellHIV. Interazioni note con altre proteine. Link a tali sequenze e pubblicazioni relative.

41 Entrez Bioinformatica41 Markers correlati; Variazioni del gene o malattie associate in varie popolazioni; Omologia (Ortologhi in altre specie); Pathways in cui il gene è coinvolto; Annotazioni ontologiche (Processi, funzioni e localizzazione cellulare); Informazioni relative alla proteina (solo per geni codificanti proteine);

42 Entrez Bioinformatica42 Qui troviamo I link alle sequenze nucleotidiche e proteiche relative al gene. Diversi link per ogni variante di splicing.

43 Entrez Bioinformatica43 Sequenze correlate (ad es precalcolate con BLAST) con link ai DB Nucleotide, Protein; Link addizionali a sorgenti esterne;

44 Entrez Bioinformatica44 Modalità di visualizzazione; Salvare lentry come file oppure in clipboard o collections (NCBI memorizza temporaneamente le informazioni);

45 Entrez Bioinformatica45 Una Tabella con le informazioni sulla struttura del gene per ogni variante di splicing;

46 Entrez Bioinformatica46 Link alla entry in Nucleotide del mRNA; Posizionandoci con il mouse sul nome di una isoforma viene visualizzato un menu a tendina con informazioni e link; Link alla entry in Protein della proteina relativa;

47 Contiene le sequenze nucleotidiche di tutte le specie caratterizzate, siano esse codificanti o meno. Bioinformatica47 Entrez - Nucleotide

48 Metodi di ricerca: Simbolo o nome di un gene o proteina : Ad es. BAX; Ricerca per Accession Number ad es. CAA79696, NP_778203, , BC043443, NM_ etc); Ricerca per autore: Ad es. Smith JR (Cognome seguito dalle iniziali senza punti); Ricercare una frase esatta: Ad es. "contactin associated protein"; Usare gli operatori booleani: AND, OR, NOT (ad es. contactin AND neurofascin); Bioinformatica48 Entrez - Nucleotide

49 Metodi di ricerca: Usare gli operatori booleani: AND, OR, NOT insieme alle parentesi Bioinformatica49 Entrez - Nucleotide g1p3 AND (response element OR promoter) Di default viene applicato loperatore AND: Tp53 mouse Usare Wild Cards * oppure ?

50 Metodi di ricerca: Usare i Limits; Cliccare su limits nella pagina principale di entrez Nucleotide Data di pubblicazione; Data di Modifica; Db sorgente: EMBL,Genbank, DDBJ, etc; Tipo di molecola: DNA,RNA, mRNA, cRNA; Localizzazione della sequenza: mitocondrio, nucleo, etc; Escludere lavori incompleti; Escludere brevetti; Bioinformatica50 Entrez - Nucleotide

51 Metodi di ricerca: Usare i Limits: Field tags; Bioinformatica51 Entrez - Nucleotide Selezionando ad esempio Organism possiamo usare nella ricerca il nome dellorganismo (ad es. human, mouse, green plant, bacteria, drosophila similis Una volta fatta la ricerca possiamo filtrare ancora i dati utilizzando il menu sulla destra della pagina dei risultati;

52 Metodi di ricerca: Usare i Limits: Possono essere usati anche direttamente nel campo di ricerca racchiusi tra [ ] Bioinformatica52 Entrez - Nucleotide [accession] Accession number; [all field]; [author]; [ecrno] EC/RN Number (enzyme commission number); [Gene Name] [Issue] [title] [journal] etc…Parametri pubblicazione; [Publication date] Data di Pubblicazione e eventuale Modifica; Lunghezza della sequenza; Ricerca avanzata

53 Metodi di ricerca: Usare i Limits. Esempi: Bioinformatica53 Entrez - Nucleotide Frogs AND 2010/06[Publication Date] 110:500[Sequence Length] 2009/3/1:2009/9/30[Publication Date] NC_0000*[Accession] AND Human[Organism]

54 Metodi di ricerca: Advanced Search: Bioinformatica54 Entrez - Nucleotide

55 Metodi di ricerca: Advanced Search e History: Bioinformatica55 Entrez - Nucleotide Nella pagina della ricerca avanzata è presente una History delle query fatte recentemente: Ciascuna query ha un nome nel formato #NUMERO; E possibile riutilizzare query nella history e combinarle tra loro usando gli operatori booleani;

56 DIVERSI TIPI DI ENTRY. mRNA (ad es. entry U90223); DNA (ad es. Entry AF018430); Le due entry si riferiscono a: mRNA relativo ad un gene con informazioni relative a, CDS e Proteina; La seconda mostra come un gene si presenta effettivamente su un tratto di cromosoma (varianti di splicing, presenza di esoni introni etc etc); Bioinformatica56 Entrez - Nucleotide

57 mRNA ENTRY : U90223 Bioinformatica57 Entrez - Nucleotide

58 DNA Entry : AF Due varianti di splicing Bioinformatica58 Entrez - Nucleotide

59 DNA Entry : AF Bioinformatica59 Entrez - Nucleotide Prendi i nucleotidi da 1 a 1735 dalla entry AF Aggiungi i nucleotidi da 1 a 1177 dalla entry AF Aggiungi i nucleotidi da 1 a 45 dalla entry AF Aggiungi i nucleotidi da 658 a 732 dalla entry AF

60 Contiene le sequenze create dalla traduzione di sequenze nucleotidiche codificanti provenienti da GenBank, EMBL,DDBJ; Le sequenze proteiche sono importate inoltre da db esterni quali Protein Information Resource (PIR), SWISS-PROT, Protein Research Foundation (PRF).Protein Information Resource (PIR)SWISS-PROTProtein Research Foundation (PRF) Le sequenze proteiche sono inoltre estratte da strutture provenienti da Protein Data Bank (PDB).Protein Data Bank (PDB) Bioinformatica60 Entrez - Protein

61 Metodi di ricerca: Sono identici a quelli visti per Nucleotide; Bioinformatica61 Entrez - Protein

62 Metodi di ricerca: Usare i Limits; Cliccare su limits nella pagina principale di entrez Protein Data di pubblicazione; Data di Modifica; Db sorgente: EMBL,Genbank, DDBJ, etc; Escludere lavori incompleti, brevetti, etc. Bioinformatica62 Entrez - Protein

63 Metodi di ricerca: Usare i Limits: Possono essere usati anche direttamente nel campo di ricerca racchiusi tra [ ] Bioinformatica63 Entrez - Protein I tag sono identici a quelli visti per Nucleotide ad eccezione di alcuni come ad es: [molecular weight] Ricerca avanzata

64 La ricerca di tp53 nel db Protein. Questa volta troviamo la sequenza proteica. Bioinformatica64 Entrez - Protein

65 La ricerca di tp53 nel db Protein. Ma possiamo sempre risalire alla Coding Sequence Bioinformatica65 Entrez - Protein

66 Scegliendo come modalità di visualizzazione FASTA otteniamo: Bioinformatica66 Entrez - Protein Possiamo cambiare lintervallo da visualizzare

67 Scegliendo come modalità di visualizzazione FASTA otteniamo: Bioinformatica67 Entrez - Protein Trovare regioni di similarità tra tp53 e altre sequenze (BLAST); Trovare regioni conservate in tp53 (CD-search);

68 Scegliendo come modalità di visualizzazione FASTA otteniamo: Bioinformatica68 Entrez - Protein Trovare pattern allinterno della sequenza Tutto quanto detto vale anche per Nucleotide.

69 Contiene geni. Mantiene informazioni relativamente a nomenclatura, localizzazione cromosomica, prodotti dei geni, malattie etc. Bioinformatica69 Entrez - Gene

70 Metodi di ricerca: Sono identici a quelli visti per Nucleotide e Protein; Bioinformatica70 Entrez - Gene

71 Metodi di ricerca: Usare i Limits; Cliccare su limits nella pagina principale di entrez Gene Search Field tags: Chromosome; Taxonomy ID; Gene Name; Gene Length; Disease/Phenotype; Etc… Bioinformatica71 Entrez - Gene

72 Metodi di ricerca: Usare i Limits: Organismo Bioinformatica72 Entrez - Gene

73 Metodi di ricerca: Usare i Limits: Opzioni e Date; Bioinformatica73 Entrez - Gene

74 Metodi di ricerca: Usare i Limits: Tassonomia; Bioinformatica74 Entrez - Gene

75 Metodi di ricerca: Usare i Limits: Possono essere usati anche direttamente nel campo di ricerca racchiusi tra [ ] Bioinformatica75 Entrez - Gene I tag sono identici a quelli visti per Nucleotide e Protein ad eccezione di alcuni come ad es: [exon count] [taxonomy ID] [disease/phenotype] [cromosome] Ricerca avanzata

76 Esempi di Query: Bioinformatica76 Entrez - Gene

77 PubMed è un database di citazioni e abstract della letteratura biomedica. PubMed Quando lintero articolo è disponibile, vengono forniti link per la consultazione (Pubmed Central, la biblioteca nazionale degli USA). Tutorial: Bioinformatica77 Entrez - Pubmed

78 PubMed contiene al suo interno 4 database: MEDLINE citazioni dal 1966 ad oggi; abstract; MESH; aggiornamento settimanale; OLDMEDLINE con citazioni dal 1951 al 1965, no abstract, no MESH PREMEDLINE (In Process citations) per citazioni non ancora indicizzate; no MeSH ; aggiornamento giornaliero PUBLISHER SUPPLIED CITATIONS per citazioni ricevute via elettronica direttamente dalleditore. Non ancora pubblicate in cartaceo. Bioinformatica78 Entrez - Pubmed

79 Anche PubMed ha il suo formato Flat file: [AU] campo autore [TI] campo titolo [TA] nome della rivista [LA] lingua di pubblicazione dellarticolo [MH] Mesh terms (soggetti) [DP] data di pubblicazione(A/M/G) [EDAT] data di inserimento nel pubmed (A/M/G) [AB] abstract Bioinformatica79 Entrez - Pubmed

80 Metodi di ricerca: Usare i Limits; Cliccare su limits nella pagina principale di entrez Pubmed Data di pubblicazione; Tipo di articolo; Linguaggio; Specie; Sesso; Bioinformatica80 Entrez - Pubmed

81 Metodi di ricerca: Ricerca Avanzata; [mesh] Medical Subject Headings (termini biomedici indicizzati in un vocabolario curato da NCBI). Usati per indicare un argomento. Esempio: tutte le pubblicazioni di smith dal 2009 al 2010 Bioinformatica81 Entrez - Pubmed

82 Bioinformatica82 Entrez - Pubmed Usare il tag MeSH - Medical Subject Headings. Dalla Pagina della ricerca avanzata è possibile accedere al vocabolario di termini medici utili alla ricerca.

83 Bioinformatica83 Entrez - Pubmed Proviamo a ricercare nel DB di MeSH il termine brain neoplasm Ci sono delle sottointestazioni relative al termine che possiamo selezionare

84 Bioinformatica84 Entrez - Pubmed Il DB è organizzato ad albero. Possiamo selezionare un nodo e ricercare le eventuali sottocategorie correlate.

85 Bioinformatica85 Entrez - Pubmed Infine possiamo aggiungere a Search Builder il relativo tag di ricerca oppure fare direttamente una ricerca su PubMed.

86 Bioinformatica86 Entrez - Pubmed Anche il DB MeSH ha la sua ricerca avanzata di termini medici.

87 Metodi di ricerca. Esempi: Ricercare articoli scritti da Bonnie W. Ramsey riguardo la terapia genica nella fibrosi cistica cystic fibrosis gene therapy ramsey bwcystic fibrosis gene therapy ramsey bw Quando si conosce solo il cognome di un autore si può usare il tag [au]: brody[au] brody[au] Da alcuni anni Pubmed sta inserendo anche i nomi completi degli autori; Bioinformatica87 Entrez - Pubmed

88 Risultati di una ricerca: Bioinformatica88 Entrez - Pubmed Filtri Send to Display Settings

89 Risultati di una ricerca: Bioinformatica89 Entrez - Pubmed

90 Metodi di ricerca. Single Citation Matcher. Bioinformatica90 Entrez - Pubmed

91 Metodi di ricerca. Topic-Specific Queries. Bioinformatica91 Entrez - Pubmed

92 Metodi di Ricerca. Clinical Query: Bioinformatica92 Entrez - Pubmed

93 Metodi di Ricerca. Clinical Query: Ricerca degli aspetti clinici della terapia genica nella fibrosi cistica, selezionare la categoria Therapy, lo scope Narrow, e la query: cystic fibrosis gene therapycystic fibrosis gene therapy Ricerca di reviews su terapia inalatoria nella polmonite: inhalation therapy pneumoniainhalation therapy pneumonia Per trovare informazioni su anemia falciforme, dalla pagina Clinical Queries scegliere Genetic Counseling dal menu Topic e immettere i termini di ricerca seguente nella casella di ricerca: sickle cell anemiasickle cell anemia Bioinformatica93 Entrez - Pubmed

94 Catalogo Riviste. Pubmed mette a disposizione anche un metodo di ricerca di riviste del settore; Bioinformatica94 Entrez - Pubmed

95 Esercitazione 1: Ricercare dalla pagina principale di Entrez il gene il cui accession number è BC043443; Quanti risultati otteniamo nel db Gene? Quale è il nome ufficiale del gene? Gli altri possibili Nomi? In quale filamento del dna si trova? Quante varianti di Splicing? Sono tutte codificanti proteina? A quali malattie è associato? E coinvolto nel processo dellapoptosi? Quanto è lunga la coding sequence della prima variante di slicing? Bioinformatica95 Entrez Esercitazioni

96 Esercitazione 1I: La citocromo c ossidasi (cox4) è un complesso multimerico localizzato nella membrana mitocondriale interna che partecipa al trasporto degli elettroni nella catena respiratoria mitocondriale. Vogliamo selezionare il gene corrispondente alla subunità 4 umana presente nel cromosoma 16 e prendere poi la sequenza nucleotidica e la relativa traduzione proteica. STEP 1: Da Entrez selezioniamo il DB Gene; STEP 2: Nel campo di ricerca digitiamo: (homo sapiens[Organism]) AND (16[Chromosome]) AND cytochrome c oxidase AND (subunit 4 OR subunit iv OR cox4) STEP 3: Il primo risultato ottenuto è quello che cercavamo (isoforma 1). Cliccliamo sulla sequenza e successivamente sul link primary Source e poi Genbank STEP 4 : Recuperare la sequenza mRNA relativa. Recuperare la CDS in formato fasta e la relativa traduzione. Bioinformatica96 Entrez Esercitazioni

97 Esercitazione III: Quale è la tassonomia di drosophila melanogaster? Suggerimento: Dalla pagina principale di Entrez digitare drosophila melanogaster[organism] (o equivalentemente selezionando il DB taxonomy digitare drosophila melanogaster) Bioinformatica97 Entrez Esercitazioni

98 Esercitazione IV: Utilizzando Entrez cercare il gene tp53 del cane (Canis familiaris). Di che tipo di gene si tratta? In quale cromosoma si trova? Quale è il refSeq Status? Quante isoforme ci sono? In quale filamento si trova? (senso/antisenso) Ci sono geni omologhi in altri organismi? Quali? Bioinformatica98 Entrez Esercitazioni

99 Esercitazione V: Dal DB Protein selezionare la proteina CAD Quale è il nome della proteina? Quale è la lunghezza della proteina? Quale è la lunghezza della coding sequence? Bioinformatica99 Entrez Esercitazioni

100 Esercitazione VI: Quante proteine umane sono presenti in banca dati? Quante di queste sono codificate dal genoma mitocontriale? (suggerimento: usare limits dal db protein) Bioinformatica100 Entrez Esercitazioni

101 Esercitazione VII: Quanti articoli ha pubblicato G. Pesole nel 2005? Quanti articoli in pubmed contengono la parola Bioinformatics? Quanti articoli bioinformatici ha pubblicato Alfredo Ferro fino ad oggi? Quanti di questi riguardano la backtranslation? (suggerimento: usare il nome completo) Cercare articoli review sullischemia cerebrale (cerebral ischemia) come argomento principale riguardante la fascia di età fra i 45 e 64 anni. (sugg: guardate bene i limits). Ricercare articoli sulla osteoporosi (osteoporosis) nelle donne. Quale è il nome completo della rivista Ann. Entomol. Soc. Am. Quale è il nome completo della rivista PNAS. Bioinformatica101 Entrez Esercitazioni

102 Esercitazione VIII: Trovare la tassonomia del pomodoro (tomato). Quale è il nome scientifico? Trovare la tassonomia della vite (wine grape). Quale è il nome scientifico? Bioinformatica102 Entrez Esercitazioni

103 SRS - Bioinformatica103

104 SRS - Bioinformatica104 SRS (Sequence Retrieval System) è un sistema per la ricerca e lestrazione di dati biologici via web; SRS consente la navigazione attraverso varie banche dati sfruttando il cross- referencing; La gran parte delle opzioni messe a disposizione da SRS sono uguali a quelle di Entrez; Generalmente quando usiamo SRS e Entrez, il numero di sequenze che otteniamo attraverso i due sistemi è diverso a causa di un diverso aggiornamento delle banche dati utilizzate dai due sistemi di interrogazione;

105 SRS - Bioinformatica105 Proviamo a ricercare il gene corrispondente alla subunità 4 umana di citocromo c ossidasi Selezioniamo Library Page dalla home page di EMBL- EBI

106 SRS - Bioinformatica106 Scegliamo il DB in cui effettuare la ricerca; Possiamo scegliere tra: Standard Query; Extended Query;

107 SRS - Bioinformatica107 Dopo aver scelto EMBL come DB e standard query inseriamo nei campi di ricerca i termini da ricercare utilizzando (come per Entrez i tag appropriati)

108 SRS - Bioinformatica108 I termini verranno correlati con un operatore AND

109 SRS - Bioinformatica109 Query in formato testuale con operatori booleani e tag per restringere la ricerca. Ci sono alcune piccole differenze rispetto a Entrez: Ad esempio gli operatori booleani sono indicati con &, !, | etc.

110 SRS - Bioinformatica110 Risultato della ricerca: Il primo record è ipotetical Il terzo Record è quello che cercavamo (isoforma 1);

111 SRS - Bioinformatica111 E possibile selezionare una o più sequenze e richiamare su di essa un programma come ad es. BLAST, CLUSTALW, FASTA, Transeq (traduzione in aminoacidi), Backtranseq (backtranslation), etc etc.

112 SRS - Bioinformatica112 Cliccando sul link relativo otteniamo la pagina contenente le informazioni; E praticamente molto simile a quella di Entrez.

113 SRS - Bioinformatica113 Tra le altre informazioni troviamo le Features della sequenza (Introni, esoni etc etc). Traduzione

114 SRS - Bioinformatica114 In fondo alla pagina troviamo anche la sequenza

115 SRS - Bioinformatica115 Esercizio I Ricercare in SRS tutte le sequenze nucleotidiche riguardanti i muscoli nelluomo che si riferiscano a myosin oppure a telethonin ma non a skelectal.

116 SRS - Bioinformatica116 Esercizio II Effettuare tutte le ricerche fatte su entrez anche su srs.

117 DDBJ - Bioinformatica117

118 DDBJ - Bioinformatica118 Ricerca di sequenze:

119 Altre Banche dati SWISSPROT/UNIPROT (http://www.ebi.ac.uk/swissprot/access.html): banca dati originale, sviluppata in Svizzera.http://www.ebi.ac.uk/swissprot/access.html E una banca dati altamente curata, con alto livello di annotazione (descrizione della proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali e post- trasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con altri database, basso livello di ridondanza. Questa banca dati fornisce entry flat-file che si differenziano da EMBL soprattutto per quanto riguarda le features che descrivono nelle proteine la presenza di aa modificati, regioni peptidiche corrispondenti ad isoforme, domini strutturali e siti di polimorfismi; PIR (http://pir.georgetown.edu): altra banca dati di sequenze proteiche sviluppata negli USA. E molto curata e ben annotata, ma è poco integrata con altri database e quindi offre minori vantaggi nel suo uso.http://pir.georgetown.edu Bioinformatica119

120 UNIPROT Bioinformatica120

121 UNIPROT Dal sito di EBI possiamo accedere al DB UniProt tramite ricerca testuale o SRS; Possiamo inoltre eseguire tools come BLAST, CLUSTALW su sequenze del DB; Possaimo accedere a una libreria Java per laccesso remoto al DB; Bioinformatica121

122 UNIPROT - Ricerca Testuale Bioinformatica122 Tool: In questo caso stiamo effettuando una ricerca

123 UNIPROT - Ricerca Testuale Bioinformatica123 Ricerchiamo la proteina relativa a TP53 in Homo Sapiens

124 UNIPROT - Ricerca Testuale Bioinformatica124 Otteniamo una lista di entry: La prima è quello che cerchiamo. Da notare lEntry Name tipico di UniProt. Cliccando sulla entry otteniamo numerose informazioni (in parte uguali a Entrez)

125 UNIPROT - Bioinformatica125 Formato della Entry: XML, FASTA, TXT Informazioni e Funzione Ma ce anche: Bibliografia; Le interazioni; Ontologie; Features: Binding site, Motif,Siti attivi;

126 UNIPROT - Bioinformatica126 TOOLS: A questo punto possiamo ad esempio fare un BLAST sulla proteina.

127 UNIPROT - Bioinformatica127 Otteniamo gli stessi risultati di BLAST su NCBI visualizzati in modo diverso.

128 UNIPROT - Bioinformatica128 Possiamo allineare due o più sequenze anche mettendo solo lidentificativo

129 UNIPROT - Bioinformatica129 Scaricare una o più entry

130 UNIPROT - Bioinformatica130 Mappare uno o più ID di UniProt nellID di un altro DB (GenBank, PIR, PDB, etc. etc.) Può essere molto utile ad esempio quando cerchiamo la struttura 3D di una proteina in PDB.

131 UNIPROT - Ricerca Testuale Avanzata Bioinformatica131 Ricerca avanzata con operatori booleani e tag per filtrare (La sintassi è leggermente diversa da quella vista per Entrez e SRS).

132 UNIPROT - Bioinformatica132 Esercitazione I: Ricercare la sequenza URIC_PAPHA. Quale è lorganismo? Quanto è lunga la sequenza? Quali sono i processi biologici in cui è coinvolta? Indicare la posizione nella proteina di Binding site.

133 PIR - Bioinformatica133

134 PIR - Clicchiamo su Search/Analysis – Text Search Bioinformatica134

135 PIR - In modo del tutto analogo agli altri tool possiamo effettuare una ricerca utilizzando operatori booleani e/o tag per il filtraggio. Bioinformatica135

136 PIR - Tool: BLAST; FASTA; Ricerca di pattern in DB; NEEDLEMAN- WUNSCH; CLUSTALW; T-Coffee; Muscle; Visualizzazione grafica di domini; Bioinformatica136


Scaricare ppt "Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola –"

Presentazioni simili


Annunci Google