La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Banche dati e software per l’identificazione di interazioni fra geni.

Presentazioni simili


Presentazione sul tema: "Banche dati e software per l’identificazione di interazioni fra geni."— Transcript della presentazione:

1 Banche dati e software per l’identificazione di interazioni fra geni

2 cellule trattate con un composto esogeno a confronto con cellule non trattate un tessuto tumorale a confronto con uno sano Supponiamo di voler studiare le differenze nell’espressione genica fra due trascrittomi. Per esempio: Composto esogeno realizziamo un esperimento microarray

3 Cos’è un microarray?

4 Fasi di un esperimento microarray Estrazione mRNA Retrotrascrizione e Marcatura Ibridazione Scansione Analisi dei dati

5 Output dell’esperimento: lista di geni differenzialmente espressi RankGeneSymbol Accession Number (Transcript) Description Differential expression (Up- or Down-regulation) P-value 1DUSP1NM_ ref|Homo sapiens dual specificity phosphatase 1 (DUSP1), mRNA SRGAP1BC gb|Homo sapiens SLIT-ROBO Rho GTPase activating protein 1, mRNA HES1NM_ ref|Homo sapiens hairy and enhancer of split 1, (Drosophila) (HES1), mRNA SMAD3U68019 gb|Homo sapiens mad protein homolog (hMAD-3) mRNA, complete cds RHEBL1NM_ ref|Homo sapiens Ras homolog enriched in brain like 1 (RHEBL1), mRNA FZD10NM_ ref|Homo sapiens frizzled homolog 10 (Drosophila) (FZD10), mRNA RGS16NM_ ref|Homo sapiens regulator of G-protein signaling 16 (RGS16), mRNA GPR56NM_ ref|Homo sapiens G protein-coupled receptor 56 (GPR56), transcript variant 3, mRNA ZNF831NM_ ref|Homo sapiens zinc finger protein 831 (ZNF831), mRNA TFPINM_ ref|Homo sapiens tissue factor pathway inhibitor (lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA BTG1NM_ ref|Homo sapiens B-cell translocation gene 1, anti-proliferative (BTG1), mRNA

6 Obiettivo: ricostruire la rete di interazioni fra geni per comprendere quale sia l’effetto a livello molecolare del fenomeno biologico indagato Esempi di reti di interazione…

7 Ricostruzione delle interazioni RankGeneSymbol Accession Number (Transcript) Description Differential expression (Up- or Down-regulation) P-value 1DUSP1NM_ ref|Homo sapiens dual specificity phosphatase 1 (DUSP1), mRNA SRGAP1BC gb|Homo sapiens SLIT-ROBO Rho GTPase activating protein 1, mRNA HES1NM_ ref|Homo sapiens hairy and enhancer of split 1, (Drosophila) (HES1), mRNA SMAD3U68019 gb|Homo sapiens mad protein homolog (hMAD-3) mRNA, complete cds RHEBL1NM_ ref|Homo sapiens Ras homolog enriched in brain like 1 (RHEBL1), mRNA FZD10NM_ ref|Homo sapiens frizzled homolog 10 (Drosophila) (FZD10), mRNA RGS16NM_ ref|Homo sapiens regulator of G-protein signaling 16 (RGS16), mRNA GPR56NM_ ref|Homo sapiens G protein-coupled receptor 56 (GPR56), transcript variant 3, mRNA ZNF831NM_ ref|Homo sapiens zinc finger protein 831 (ZNF831), mRNA TFPINM_ ref|Homo sapiens tissue factor pathway inhibitor (lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA BTG1NM_ ref|Homo sapiens B-cell translocation gene 1, anti-proliferative (BTG1), mRNA

8 …ma le interazioni? simultaneamente Vorremmo vedere simultaneamente se e come interagiscono i geni di interesse

9 Per sapere qualcosa in più sulle interazioni fra geni: Banche dati di pathway e ontologie Kegg - Kegg Genes  Info sui geni e sui trascritti - Kegg Pathway  Info sulle reti di trasduzione del segnale genico (pathway) Gene Ontology  Informazioni sulla classificazione ontologica dei geni\prodotti genici

10 Contenuti: KEGG: Kyoto Encyclopedia of Genes and Genomes

11 Rappresentazione dei dati in KEGG Entity: una molecola o un gene - identificata, eccetto che per GENE and ENZYME, con 3 lettere + 5 numeri: Binary relation: una relazione fra due entity Network: un grafo formato da un set di entity collegate Pathway: una rete di co-regolazione; un network o un insieme di network

12 Legenda dei simboli

13 Un esempio di Pathway

14 KEGG PATHWAY E’ una collezione di diagrammi o mappe ciascuna corrispondente a una rete di co-regolazione biologica con significato funzionale. Ogni pathway è identificato da: -3 lettere -> specifiche per ciascun organismo -5 numeri -> identificativi della mappa Essi possono essere: - Creati e curati manualmente - Generati attraverso simulazioni computazionali Ci sono: - Pathway di riferimento: generati dall’unione di evidenze sperimentali tratte da organismi differenti - Pathway specifici: che raccolgono le informazioni provenienti da un determinato organismo -Pathway globali: che collegano più pathway insieme

15 Sezioni di KEGG Pathway 1.Global Map Global Map 2.Metabolism Carbohydrate Energy Lipid Nucleotide Amino acid Other amino acid Glycan Cofactor/vitamin Terpenoid/PK Other secondary metabolite Xenobiotics Reaction module Chemical structure MetabolismCarbohydrateEnergyLipidNucleotideAmino acidOther amino acidGlycan Cofactor/vitaminTerpenoid/PKOther secondary metaboliteXenobioticsReaction moduleChemical structure 3.Genetic Information Processing Genetic Information Processing 4.Environmental Information Processing Environmental Information Processing 5.Cellular Processes Cellular Processes 6.Organismal Systems Organismal Systems 7.Human DiseasesHuman Diseases 8.Drug DevelopmentDrug Development Pathway metabolici Pathway regolatori

16 KEGG ORGANISMS

17 Nei pathway metabolici le entity sono quasi esclusivamente enzimi Nei pathway regolatori le entity rappresentano quasi sempre prodotti genici, ma troviamo anche composti chimici, DNA e altre molecole

18 Pathway di riferimento Standard view -generato dall’unione di evidenze sperimentali provenienti da organismi multipli - individuato dal prefisso map

19 Pathway di riferimento KEGG ORTHOLOGY (KO) view I geni assegnati ad un KO group sono evidenziati in viola

20 Pathway di riferimento Enzyme (EC) view I geni assegnati ad un KO group sono evidenziati in viola

21 Pathway di riferimento Reaction (RN) view I geni assegnati ad un KO group sono evidenziati in viola

22 Pathway organismo-specifico generato da informazioni provenienti da un unico organismo o informazioni da KEGG ORTHOLOGY I geni specifici dell’organismo coinvolto nel pathway sono colorati in verde

23 Pathway specifico per più organismi

24 Pathway organismo-specifico + drug info I geni coinvolti in malattie sono evidenziati in rosa I geni target di farmaci sono evidenziati in celeste

25 KEGG DRUG Contiene informazioni su: Farmaci approvati in Giappone, USA ed Europa che riguardano la loro struttura chimica Target dei farmaci ed enzimi che li metabolizzano Storia della trasformazione della struttura chimica delle molecole rappresentate attraverso mappe I farmaci sono identificati con la lettera D + 5 numeri ES: Gleevec D01441

26 KEGG DRUG

27 Pathway globali – reference pathway

28 Pathway globale – Homo sapiens

29 Pathway globale – Arabidopsis thaliana

30 Pathway globale Homo Sapiens + Arabidopsis Thaliana

31 Disease Pathway Map sono visti come perturbazioni di processi di regime Stadi della malattia

32 Vogliamo sapere se ci sono gruppi di geni differenzialmente espressi mappati nei pathway e in quali pathway Pathway-Express

33 Pathway-Express : Impact Analysis: mappatura dei geni differenzialmente espressi nei pathway molecolari e valutazione della propagazione della perturbazione della trasduzione del segnale genico provocata dalla variazione di espressione genica

34 Pathway-Express :

35 35 L’Impact Factor è formato da tre contributi: - Numero di geni differenzialmente espressi mappati in un pathway rispetto al numero di geni che formano il pathway  livello di rappresentatività della lista dei geni DE nel pathway - Fold-change dei geni differenzialmente espressi mappati  entità della perturbazione del pathway provocata dai geni differenzialmente espressi - Posizione dei geni differenzialmente espressi all’interno del pathway  un gene posizionato a monte (p.es. sulla membrana cellulare o su un nodo cui fa capo una sottorete) di una cascata di segnale è “più importante” di un gene posizionato a valle

36 GeneOntology

37 Cos’è un’ontologia? An ontology is a specification of a conceptualization that is designed for reuse across multiple applications and implementations. …a specification of a conceptualization is a written, formal description of a set of concepts and relationships in a domain of interest. Peter Karp (2000) Bioinformatics 16:269 … un insieme di definizioni

38 Cos’è un’ontologia genica? Ontologia genica: un vocabolario di definizioni, indipendente dall’organismo, da utilizzare per descrivere i geni attraverso i loro prodotti genici (proteine) “trasferimento” delle informazioni funzionali fra organismi differenti a parità di complessità del genoma “trasferimento” delle informazioni funzionali da organismi “meno complessi” ad organismi “più complessi” univocità nella descrizione delle caratteristiche di un gene

39 Gene Ontology Consorzio che si occupa della definizione delle ontologie geniche per la classificazione dei geni attraverso i loro prodotti genici

40

41 Che tipo di informazione è rilevante per descrivere un prodotto genico? Che cosa codifica il gene? Dove e quando il prodotto agisce? In che cosa è coinvolto?  Funzione molecolare  Componente cellulare  Processo biologico

42 Tre ontologie Funzione molecolare -> definizioni che riguardano la funzione biochimica di un prodotto genico - enzima, lega gli ioni calcio, lega i nucleotidi, etc Processo biologico -> definizioni che riguardano il processo di co- regolazione all’interno del quale il prodotto genico può essere inserito - metabolismo di una molecola, glicolisi, ciclo della cellula, apoptosi Componente cellulare -> definizioni che riguardano il “luogo” della cellula nel quale un determinato prodotto genico può agire - membrana cellulare, reticolo endoplasmatico

43 Componente cellulare Dove agisce un prodotto

44 Componente cellulare

45

46 Enzyme complexes in the component ontology refer to places, not activities. Componente cellulare

47 Funzione molecolare Attività o compito del prodotto genico glucose-6-phosphate isomerase activity

48 24th Feb 2006 Jane Lomax insulin binding insulin receptor activity Funzione molecolare

49 Processo biologico -una serie di eventi a cui prende parte il prodotto cell division

50 transcription Processo biologico

51 regulation of gluconeogenesis Processo biologico

52 limb development Processo biologico

53 GO evidence codes I geni sono associati a categorie sulla base di evidenze di diverso tipo

54 Statistiche di GeneOntology

55 Com’è organizzata un’ontologia? Ontologie Categorie ontologiche Ogni ontologia è strutturata in un Grafo Aciclico Diretto (DAG) Ogni livello del grafo costituisce una categoria ontologica o GO term  A ciascun GO term è associata una definizione univoca

56 I GO term sono legati per mezzo di due tipi di relazioni: – is-a  – part-of  Struttura di un’ontologia

57 cell membrane chloroplast mitochondrial chloroplast membrane is-a part-of Struttura di un’ontologia

58 Ogni ontologia non è una lista di termini biologici, ma è strutturata in livelli gerarchici

59 gene A Lo stesso gene può essere annotato in più di un GO term Struttura di un’ontologia

60 I geni possono essere raggruppati sulla base di livelli gerarchici e percorsi definiti dall’utente  sono ammesse le parentele multiple Struttura di un’ontologia cell membrane chloroplast mitochondrial chloroplast membrane Directed Acyclic Graph (DAG) - multiple parentage allowed

61 Come funziona GeneOntology? GO è organismo indipendente -Alcuni termini, soprattutto quelli ai più bassi livelli di gerarchia e di dettaglio, possono essere specifici per certi organismi -photosynthesis – Quando però essi vengono collassati insieme ai livelli con più alto ordine gerarchico la dipendenza dall’organismo scompare

62 Anatomia di un GO term id: GO: name: gluconeogenesis namespace: process def: The formation of glucose from noncarbohydrate precursors, such as pyruvate, amino acids and glycerol. [http://cancerweb.ncl.ac.uk/omd/index.html] exact_synonym: glucose biosynthesis xref_analog: MetaCyc:GLUCONEO-PWY is_a: GO: is_a: GO: unique GO ID term name definition synonym database ref parentage ontology

63 GO tools GO mette a disposizione strumenti per fare ricerca ottimizzata nella banca dati Altri gruppi hanno creato strumenti con differenti propositi:

64 Analisi tradizionale Gene 1 Apoptosis Cell-cell signaling Protein phosphorylation Mitosis … Gene 2 Growth control Mitosis Oncogenesis Protein phosphorylation … Gene 3 Growth control Mitosis Oncogenesis Protein phosphorylation … Gene 4 Nervous system Pregnancy Oncogenesis Mitosis … Gene 100 Positive ctrl. of cell prolif Mitosis Oncogenesis Glucose transport …

65 Ricerca gene by gene Richiede di fare una ricerca in letteratura time-consuming Analisi tradizionale

66 Se utilizziamo le annotazioni fornite da GO… …il lavoro è già fatto! GO: : apoptosis

67 Raggruppamento per processo Apoptosis Gene 1 Gene 53 Mitosis Gene 2 Gene 5 Gene45 Gene 7 Gene 35 … Positive ctrl. of cell prolif. Gene 7 Gene 3 Gene 12 … Growth Gene 5 Gene 2 Gene 6 … Glucose transport Gene 7 Gene 3 Gene 6 … Come facciamo ad ottenerlo automaticamente e….

68 ….Esiste un modo per associare una significatività statistica a questi raggruppamenti di geni? 68 Over-representation analysis: - Esistono gruppi di geni differenzialmente espressi rappresentati in maniera “sproporzionata” in qualche GO term? - Questa rappresentatività “sproporzionata” è statisticamente significativa rispetto al totale dei geni che vengono annotati in quel GO term?

69 Quanto è probabile che gruppi di geni differenzialmente espressi vengano catalogati in un GO term “by chance”? microarray 1000 genes experiment100 genes differentially regualted mitosis – 80/100 apoptosis – 40/100 p. ctrl. cell prol. – 30/100 glucose transp. – 20/100

70 Se osserviamo il numero di geni distribuiti sull’array e appartenenti alle stesse categorie, possiamo calcolare la probabilità che ci interessa: ProcessGenes on array # genes expected in occurred 100 random genes mitosis 800/ apoptosis 400/ p. ctrl. cell prol. 100/ glucose transp. 50/ Onto-Express

71 GO term significativi nell’ontologia Molecular Function Onto-Express:

72 Espansione delle ontologie e visualizzazione annidata dei GO term Onto-Express:

73 OntoExpress: 73 Molecular Function Biological Process Cellular Component

74 Sfruttare -le reti di interazioni (gene network) fra bio-entità costruite utilizzando dati di letteratura o info da banche dati eterogenee per comprendere quale sia l’effetto a livello molecolare del fenomeno biologico indagato - Co-occorrenza di bio-entità (geni, proteine, parole chiave, etc) in testi - Individuazione di connessioni fra bio-entità riportate in database di interazioni biologiche (pathway, interazioni fra proteine, interazioni chimiche o fisiche, co-espressione in esperimenti di espressione genica, etc.) Interpretazione biologica di una lista di geni: data/text mining

75 Text mining: Individuazione della co-occorrenza di parole in un testo Ricorrenza in un testo di coppie di elementi bio-entità: coppie di nomi di geni coppia gene/parola chiave “X binds Y”, “X phosphorylates Y”, “X is involved in Y process”, “X is a marker for Y disease”, …

76 1S) Individuazione nel testo di informazioni (contenute in titolo, testo e abstract) e metainformazioni (affiliazione, giornale, etc)  data retrieving and selection 2S) Analisi grammaticale del testo per individuare i diversi tipi di parole: sostantivi, aggettivi, verbi e nomi propri  parsing 3S) Conteggio del il numero di volte in cui ogni parola appare nei testi  information extraction e indexing 4S) Assegnazione di un punteggio ad ogni testo sulla base della co-occorrenza delle parole cercate (X e Y )  quanto più è alta in un testo tanto più quel testo è attinente alla co-occorrenza considerata e attesta la relazione fra X e Y  scoring 5S) Rappresentazione grafica della connessione tramite una rete Text mining: Individuazione della co-occorrenza in un testo Ricorrenza in un testo di coppie di elementi linguistici (bio- entità): coppie di nomi di geni coppia gene/parola chiave … ma come si fa?

77 Text mining: Individuazione della co-occorrenza in un testo Alcuni algoritmi sono capaci di: -rilevare sulla base di un vocabolario il tipo di interconnessione fra le bio-entità considerate “X binds Y”, “X phosphorylates Y”, “X is involved in Y process”, “X is a marker for Y disease”, … - dare un peso alla co-occorrenza a seconda della distanza che separa le bio-entità espressa in numero di parole - rilevare connessioni indirette: X è connesso a Y, Y è connesso a Z  X è connesso a Z  ciò può influire sulla valutazione dell’attinenza del documento alla connessione fra le bio-entità

78 Cosa si può fare con il Data mining? Costruire reti di “interazioni eterogenee” Banche dati utili: - MIPS: Munich Information center for Protein Interaction - BIND: Biomolecular Interaction Network Databases - HPRD: Human Protein Reference Database - IntAct: InterAction - Reactome - STRING:Search Tool for the Retrieval of Interacting Genes/Proteins - … Letteratura Scientifica

79 Integrazione di informazioni eterogenee

80 Esistono gruppi di geni della mia lista che sono coinvolti in malattie? Disease Ontology, GeneRIF e FunDO

81 Disease Ontology - Definizioni univoche e standardizzate di malattie - Integra MeSH di NCBIMeSH

82 Esempi da DO

83 Disease Ontology

84 GeneRIF Database

85 MetaMapTransfer FunDO Software basato sul text-mining che associa geni da GeneRIF e malattie da Disease Ontology

86 FunDO – Functional Disease Ontology

87 In quali malattie sono coinvolti? 314 geni differenzialmente espressi

88 GNCPro – Gene Network Central PRO

89 Sottomissione di 4 geni GNCPro aggiunge 5 geni “vicini” a quelli sottomessi per fornire nuove vie di connessione fra i geni

90 COREMINE Motore di ricerca biomedico Fornisce set di informazioni ordinate per attinenza con l’oggetto della query Consente di salvare le ricerche effettuate e di creare gruppi di discussione su temi di ricerca

91 COREMINE Input data da 13 differenti categorie Database messi in relazione per creare l’output

92 COREMINE Altre sorgenti consultabili per arricchire l’output

93 COREMINE

94 …take-home message Ogni banca dati fornisce un “pezzo” di informazione Ogni strumento di navigazione fornisce una peculiare “view” delle informazioni Non esiste UNA banca dati omnicomprensiva Non esiste UNO strumento capace di collezionare tutte le informazioni frazionate nelle banche dati L’uso di più strumenti consente di collezionare i diversi “pezzi” di informazione La costruzione del “puzzle” è compito di chi interpreta i dati

95 Esercitazione Cercare i seguenti GO term: Per ciascuno di essi: - fare l’anatomia dell’ontologia evidenziando i GO term sulla base degli “is-a” o “part-of” - indicare quanti sono i prodotti genici associati a ciascun GO term a seconda dei termini di cui sono “is-a” o “part-of” - scaricare e salvare la tree view e la graph view ed indicare chi sono i GO term “padri” dei GO term considerati - indicare quali GO term dell’albero visualizzato sono “is-a” o “part-of”


Scaricare ppt "Banche dati e software per l’identificazione di interazioni fra geni."

Presentazioni simili


Annunci Google