Banche dati e software per l’identificazione di interazioni fra geni

Slides:



Advertisements
Presentazioni simili
Misure con biomarcatori VI. Markers di funzionalità cellulare Prof. Giorgio Sartor Corso di Laurea Specialistica in Scienze per lAmbiente e il Territorio.
Advertisements

Reti sociali Reti sociali.
Algoritmi e Strutture Dati
Introduzione all’HTML
Prof. Mauro Fasano Biochimica Cellulare Prof. Mauro Fasano
Investigating Cancer KRAS Activity 1.
IL PROGETTO GENOMA UMANO (HGP)
WEB OF SCIENCE ISI Web of Knowledge
Università degli Studi di Modena e Reggio Emilia
Bioinformatica Pictar – miRanda - TargetScan – miRiam
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Sistemi di supporto alle decisioni 2. Features space
Università degli Studi Gabriele dAnnunzio Facoltà di Economia Corso di Laurea Specialistica in Economia Informatica Modellazione in silico di pathway biologici:
Bioinformatica Prof. Mauro Fasano
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.
BASI DI DATI BIOLOGICHE - 3
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
Corso di ingegneria genetica
Chip a DNA: un esempio pratico
Metodi basati sulle similitudini per dedurre la funzione di un gene
Unità Didattica 2 I Linguaggi di Programmazione
Primi Elementi di Programmazione in C++
Bioinformatica Andrea G. B. Tettamanzi.
Namespace Spazio dei nomi Ing. Luca Sabatucci. Scopo I Namespace servono a: I Namespace servono a: distinguere tra elementi e attributi con lo stesso.
Entrez + MedLine => PubMed
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
È stimato che oggi sulla terra sono presenti
Descrizione Semantica ad Alto Livello di Ambienti Virtuali in X3D
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Analisi dei dati di espressione genica ottenuti mediante microarray
Analisi dei dati di espressione genica ottenuti mediante microarray
Programma Impostazione di un nuovo Progetto
Le distribuzioni campionarie
Algoritmi e Strutture Dati
Andrea Capiluppi Dipartimento di Automatica e Informatica Politecnico di Torino, Italy & Computing Dept. The Open University, UK AICA 2004, Benevento,
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
Tutorial per l’utilizzo di k ScanProsite
CORSO DI BIOLOGIA - Programma
La vita in codice Prof.ssa Carmela Allocca.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Sequenze e Banche Dati Biologiche
Corso Web CSV – Andiamo on-line 1 Andiamo on-line Corso di formazione Elementi base per la costruzione di un sito web.
Programmazione ad oggetti
Espressione genica External input Endogenous input S2
CORSO Di WEB DESIGN prof. Leonardo Moriello
Analisi dei dati di espressione genica ottenuti mediante microarray
OpenProj: una valida alternativa a MS Project
Adriana Maggi DOCENTE DI BIOTECNOLOGIE FARMACOLOGICHE CORSO DI LAUREA SPECIALISTICA IN BIOTECNOLOGIE DEL FARMACO Lezione 2.
Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Tutorial Rehabilitation Reference Center support.ebsco.com.
STRUTTURA  FUNZIONE  EVOLUZIONE STRUTTURA  (FUNZIONE)  EVOLUZIONE Organi, tessuti ecc. Geni o segmenti genomici.
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.
Servizi Internet Claudia Raibulet
Allineamento di sequenze
DATA MINING.
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
Che cosa significa un dato?, Susi Osti – Venezia, 23 ottobre 2014 Che cosa significa un dato? Metadati e processo di produzione Confronti internazionali:
POSTGENOMICA O GENOMICA FUNZIONALE
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
Dal problema al programma – ciclo di sviluppo del software La scrittura del programma è solo una delle fasi del processo di sviluppo di un'applicazione.
FIRB 2003 (art.8) D.D LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: CNRBA ATTIVITA’  Sviluppo programmi di analisi  Sviluppo.
GENOMI DELLE PIANTE. I genomi delle piante contengono numerose classi di geni assenti o scarsamente rappresentati nei genomi animali I prodotti di questi.
Transcript della presentazione:

Banche dati e software per l’identificazione di interazioni fra geni

Supponiamo di voler studiare le differenze nell’espressione genica fra due trascrittomi. Per esempio: cellule trattate con un composto esogeno a confronto con cellule non trattate un tessuto tumorale a confronto con uno sano Composto esogeno realizziamo un esperimento microarray

Cos’è un microarray? S3 I microarray sfruttano la prorprietà di ibridazione degli acidi nucleici. Sono infatti costituiti da supporti di vetro della grandezza di un vetrino da microscopio sui quali vengono ancorati centinaia di migliaia di singoli filamenti di DNA. Ciascun gene è analizzato, infatti, grazie ad alcune centinaia di copie monofilamento di una sua regione estremamente specifica, immobilizate sul vetrino a formare uno spot. L’esposizione della superficie del vetrino ad una soluzione contenente l’mRNA dei campioni da confrontare, precedentemente marcato con due differenti sostanze capaci di emettere fluorescenza, consente l’bridazione dei frammenti di mRNA alle sonde in quantità proporzionale alla concentrazione presente nei due campioni. La successiva rivelazione della fluorescenza emessa porta alla quantificazione di questa concentrazione e, quindi, del “fold-change”, cioè della variazione di espressione fra i due campioni ibridizzati.

Fasi di un esperimento microarray Estrazione mRNA Retrotrascrizione e Marcatura Ibridazione Scansione Analisi dei dati

Output dell’esperimento: lista di geni differenzialmente espressi Rank GeneSymbol Accession Number (Transcript) Description Differential expression (Up- or Down-regulation) P-value 1 DUSP1 NM_004417 ref|Homo sapiens dual specificity phosphatase 1 (DUSP1), mRNA 0.7606655 0.0004 2 SRGAP1 BC029919 gb|Homo sapiens SLIT-ROBO Rho GTPase activating protein 1, mRNA 1.0329521 0.00038 3 HES1 NM_005524 ref|Homo sapiens hairy and enhancer of split 1, (Drosophila) (HES1), mRNA 0.7117039 0.00026 4 SMAD3 U68019 gb|Homo sapiens mad protein homolog (hMAD-3) mRNA, complete cds -0.4286814 0.00021 5 RHEBL1 NM_144593 ref|Homo sapiens Ras homolog enriched in brain like 1 (RHEBL1), mRNA -0.5070915 0.00018 7 FZD10 NM_007197 ref|Homo sapiens frizzled homolog 10 (Drosophila) (FZD10), mRNA -0.6491815 0.00015 8 RGS16 NM_002928 ref|Homo sapiens regulator of G-protein signaling 16 (RGS16), mRNA 0.6270794 0.00012 9 GPR56 NM_201525 ref|Homo sapiens G protein-coupled receptor 56 (GPR56), transcript variant 3, mRNA -0.3310189 0.0001 10 ZNF831 NM_178457 ref|Homo sapiens zinc finger protein 831 (ZNF831), mRNA 0.3905212 0.008 11 TFPI NM_001032281 ref|Homo sapiens tissue factor pathway inhibitor (lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA -0.5849317 0.0075 . . . 600 BTG1 NM_001731 ref|Homo sapiens B-cell translocation gene 1, anti-proliferative (BTG1), mRNA -0.3668739 0.05

Obiettivo: ricostruire la rete di interazioni fra geni per comprendere quale sia l’effetto a livello molecolare del fenomeno biologico indagato Esempi di reti di interazione…

Ricostruzione delle interazioni Rank GeneSymbol Accession Number (Transcript) Description Differential expression (Up- or Down-regulation) P-value 1 DUSP1 NM_004417 ref|Homo sapiens dual specificity phosphatase 1 (DUSP1), mRNA 0.7606655 0.0004 2 SRGAP1 BC029919 gb|Homo sapiens SLIT-ROBO Rho GTPase activating protein 1, mRNA 1.0329521 0.00038 3 HES1 NM_005524 ref|Homo sapiens hairy and enhancer of split 1, (Drosophila) (HES1), mRNA 0.7117039 0.00026 4 SMAD3 U68019 gb|Homo sapiens mad protein homolog (hMAD-3) mRNA, complete cds -0.4286814 0.00021 5 RHEBL1 NM_144593 ref|Homo sapiens Ras homolog enriched in brain like 1 (RHEBL1), mRNA -0.5070915 0.00018 7 FZD10 NM_007197 ref|Homo sapiens frizzled homolog 10 (Drosophila) (FZD10), mRNA -0.6491815 0.00015 8 RGS16 NM_002928 ref|Homo sapiens regulator of G-protein signaling 16 (RGS16), mRNA 0.6270794 0.00012 9 GPR56 NM_201525 ref|Homo sapiens G protein-coupled receptor 56 (GPR56), transcript variant 3, mRNA -0.3310189 0.0001 10 ZNF831 NM_178457 ref|Homo sapiens zinc finger protein 831 (ZNF831), mRNA 0.3905212 0.008 11 TFPI NM_001032281 ref|Homo sapiens tissue factor pathway inhibitor (lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA -0.5849317 0.0075 . . . 600 BTG1 NM_001731 ref|Homo sapiens B-cell translocation gene 1, anti-proliferative (BTG1), mRNA -0.3668739 0.05

…ma le interazioni? Vorremmo vedere simultaneamente se e come interagiscono i geni di interesse

Per sapere qualcosa in più sulle interazioni fra geni: Banche dati di pathway e ontologie Kegg http://www.genome.jp/kegg/ - Kegg GenesInfo sui geni e sui trascritti - Kegg PathwayInfo sulle reti di trasduzione del segnale genico (pathway) Gene Ontology http://www.geneontology.org/ Informazioni sulla classificazione ontologica dei geni\prodotti genici

KEGG: Kyoto Encyclopedia of Genes and Genomes Contenuti:

Rappresentazione dei dati in KEGG Entity: una molecola o un gene - identificata, eccetto che per GENE and ENZYME, con 3 lettere + 5 numeri: Binary relation: una relazione fra due entity Network: un grafo formato da un set di entity collegate Pathway: una rete di co-regolazione; un network o un insieme di network

Legenda dei simboli

Un esempio di Pathway

KEGG PATHWAY E’ una collezione di diagrammi o mappe ciascuna corrispondente a una rete di co-regolazione biologica con significato funzionale. Ogni pathway è identificato da: 3 lettere -> specifiche per ciascun organismo 5 numeri -> identificativi della mappa Essi possono essere: Creati e curati manualmente Generati attraverso simulazioni computazionali Ci sono: Pathway di riferimento: generati dall’unione di evidenze sperimentali tratte da organismi differenti Pathway specifici: che raccolgono le informazioni provenienti da un determinato organismo Pathway globali: che collegano più pathway insieme

Sezioni di KEGG Pathway Pathway metabolici Global Map  Metabolism      Carbohydrate   Energy   Lipid   Nucleotide   Amino acid   Other amino acid   Glycan Cofactor/vitamin   Terpenoid/PK   Other secondary metabolite   Xenobiotics      Reaction module   Chemical structure  Genetic Information Processing  Environmental Information Processing  Cellular Processes  Organismal Systems  Human Diseases Drug Development Pathway regolatori

KEGG ORGANISMS

Nei pathway metabolici le entity sono quasi esclusivamente enzimi Nei pathway regolatori le entity rappresentano quasi sempre prodotti genici, ma troviamo anche composti chimici, DNA e altre molecole

Pathway di riferimento Standard view generato dall’unione di evidenze sperimentali provenienti da organismi multipli individuato dal prefisso map

Pathway di riferimento KEGG ORTHOLOGY (KO) view I geni assegnati ad un KO group sono evidenziati in viola Da qui ci colleghiamo a KEGG Genes

Pathway di riferimento Enzyme (EC) view I geni assegnati ad un KO group sono evidenziati in viola Solo per pathway metabolici

Pathway di riferimento Reaction (RN) view I geni assegnati ad un KO group sono evidenziati in viola Solo per pathway metabolici

Pathway organismo-specifico generato da informazioni provenienti da un unico organismo o informazioni da KEGG ORTHOLOGY I geni specifici dell’organismo coinvolto nel pathway sono colorati in verde DGENES: draft genomes EGENES: EST genes

Pathway specifico per più organismi Dall’entry point kegg2.html->comparison and combination Inserire i due codici Cliccare su pathway map e selezionare il pathway

Pathway organismo-specifico + drug info I geni coinvolti in malattie sono evidenziati in rosa I geni target di farmaci sono evidenziati in celeste

KEGG DRUG Contiene informazioni su: Farmaci approvati in Giappone, USA ed Europa che riguardano la loro struttura chimica Target dei farmaci ed enzimi che li metabolizzano Storia della trasformazione della struttura chimica delle molecole rappresentate attraverso mappe I farmaci sono identificati con la lettera D + 5 numeri ES: Gleevec D01441 Interrogazione con Gleevec

KEGG DRUG

Pathway globali – reference pathway

Pathway globale – Homo sapiens

Pathway globale – Arabidopsis thaliana

Homo Sapiens + Arabidopsis Thaliana Pathway globale Homo Sapiens + Arabidopsis Thaliana

Disease Pathway Map sono visti come perturbazioni di processi di regime Stadi della malattia

Vogliamo sapere se ci sono gruppi di geni differenzialmente espressi mappati nei pathway e in quali pathway Pathway-Express

Pathway-Express : http://vortex.cs.wayne.edu/projects.htm Impact Analysis: mappatura dei geni differenzialmente espressi nei pathway molecolari e valutazione della propagazione della perturbazione della trasduzione del segnale genico provocata dalla variazione di espressione genica

Pathway-Express : http://vortex.cs.wayne.edu/projects.htm

L’Impact Factor è formato da tre contributi: Numero di geni differenzialmente espressi mappati in un pathway rispetto al numero di geni che formano il pathwaylivello di rappresentatività della lista dei geni DE nel pathway Fold-change dei geni differenzialmente espressi mappatientità della perturbazione del pathway provocata dai geni differenzialmente espressi Posizione dei geni differenzialmente espressi all’interno del pathwayun gene posizionato a monte (p.es. sulla membrana cellulare o su un nodo cui fa capo una sottorete) di una cascata di segnale è “più importante” di un gene posizionato a valle Per comprendere il fenomeno biochimico e di poter formulare queste ipotesi, consultiamo banche dati che sono state create allo scopo di organizzare le informazioni riguardanti queste reti di co-regolazione. La più importante è KEGG che ci consente di poter reperire informazioni su tutti I pathway nei quali sono coinvolti I geni ai quali siamo interessati. Cercare di interpretare un gene differenzialmente espresso alla volta così come consente di fare KEGG, però, significa annullare il grosso vantaggio di parallelizzazione insito nell’esperimento di microarray. Per questo motivo si utilizzano SW di navigazione delle banche dati sulla base della sottomissione della lista di geni DE. Di questo tipo è Pathway explorer, che ci consente di avere una visione a livello di pathway della variazione dell’epressione. Oppure viene sottomessa la lista di geni DE a Pathway Express, che oltre a piazzare I geni di cui ha informazioni nei pathway produce anche un impact factor del gene, che è un parametro che stabilisce l’importanza di quel gene nel pathway considerato a seconda del suo livello di espressione, della sua posizione nel pathway e della rete di dialogo che il gene instaura con gli altri (è una sorta di parametro di centralità). In maniera indiretta fornisce così un livello di importanza dello stesso pathway.

GeneOntology

Peter Karp (2000) Bioinformatics 16:269 Cos’è un’ontologia? An ontology is a specification of a conceptualization that is designed for reuse across multiple applications and implementations. …a specification of a conceptualization is a written, formal description of a set of concepts and relationships in a domain of interest. Peter Karp (2000) Bioinformatics 16:269 … un insieme di definizioni

Cos’è un’ontologia genica? Ontologia genica: un vocabolario di definizioni, indipendente dall’organismo, da utilizzare per descrivere i geni attraverso i loro prodotti genici (proteine) “trasferimento” delle informazioni funzionali fra organismi differenti a parità di complessità del genoma “trasferimento” delle informazioni funzionali da organismi “meno complessi” ad organismi “più complessi” univocità nella descrizione delle caratteristiche di un gene

Gene Ontology http://www.geneontology.org/ Consorzio che si occupa della definizione delle ontologie geniche per la classificazione dei geni attraverso i loro prodotti genici

http://www.geneontology.org/

Che tipo di informazione è rilevante per descrivere un prodotto genico? Che cosa codifica il gene? Dove e quando il prodotto agisce? In che cosa è coinvolto? Funzione molecolare Componente cellulare Processo biologico

Tre ontologie Funzione molecolare -> definizioni che riguardano la funzione biochimica di un prodotto genico - enzima, lega gli ioni calcio, lega i nucleotidi, etc Processo biologico -> definizioni che riguardano il processo di co-regolazione all’interno del quale il prodotto genico può essere inserito - metabolismo di una molecola, glicolisi, ciclo della cellula, apoptosi Componente cellulare -> definizioni che riguardano il “luogo” della cellula nel quale un determinato prodotto genico può agire - membrana cellulare, reticolo endoplasmatico

Componente cellulare Dove agisce un prodotto

Componente cellulare

Componente cellulare

Componente cellulare Enzyme complexes in the component ontology refer to places, not activities.

Funzione molecolare Attività o compito del prodotto genico glucose-6-phosphate isomerase activity

insulin receptor activity Funzione molecolare insulin binding insulin receptor activity 24th Feb 2006 Jane Lomax

Processo biologico -una serie di eventi a cui prende parte il prodotto cell division

Processo biologico transcription

regulation of gluconeogenesis Processo biologico regulation of gluconeogenesis

Processo biologico limb development

GO evidence codes I geni sono associati a categorie sulla base di evidenze di diverso tipo These GO phrases, or TERMS are linked to genes by expert curators at genome databses. will talk about in more detail later

Statistiche di GeneOntology

Com’è organizzata un’ontologia? Ontologie Ogni ontologia è strutturata in un Grafo Aciclico Diretto (DAG) Ogni livello del grafo costituisce una categoria ontologica o GO term  A ciascun GO term è associata una definizione univoca Categorie ontologiche

Struttura di un’ontologia I GO term sono legati per mezzo di due tipi di relazioni: is-a  part-of 

Struttura di un’ontologia cell membrane chloroplast mitochondrial chloroplast membrane membrane is-a part-of

Struttura di un’ontologia Ogni ontologia non è una lista di termini biologici, ma è strutturata in livelli gerarchici Two arrangements for DNA replication

Struttura di un’ontologia Lo stesso gene può essere annotato in più di un GO term gene A

Struttura di un’ontologia I geni possono essere raggruppati sulla base di livelli gerarchici e percorsi definiti dall’utente sono ammesse le parentele multiple cell membrane chloroplast mitochondrial chloroplast membrane membrane Directed Acyclic Graph (DAG) - multiple parentage allowed

Come funziona GeneOntology? GO è organismo indipendente Alcuni termini, soprattutto quelli ai più bassi livelli di gerarchia e di dettaglio, possono essere specifici per certi organismi photosynthesis Quando però essi vengono collassati insieme ai livelli con più alto ordine gerarchico la dipendenza dall’organismo scompare

Anatomia di un GO term unique GO ID id: GO:0006094 name: gluconeogenesis namespace: process def: The formation of glucose from noncarbohydrate precursors, such as pyruvate, amino acids and glycerol. [http://cancerweb.ncl.ac.uk/omd/index.html] exact_synonym: glucose biosynthesis xref_analog: MetaCyc:GLUCONEO-PWY is_a: GO:0006006 is_a: GO:0006092 term name ontology definition Interrogazione in GO con 0006094 synonym database ref parentage

GO tools GO mette a disposizione strumenti per fare ricerca ottimizzata nella banca dati Altri gruppi hanno creato strumenti con differenti propositi: http://neurolex.org/wiki/Category:Resource:Gene_Ontology_Tools

Analisi tradizionale Gene 1 Apoptosis Cell-cell signaling Protein phosphorylation Mitosis … Gene 2 Growth control Oncogenesis Gene 3 Growth control Mitosis Oncogenesis Protein phosphorylation … Gene 4 Nervous system Pregnancy Gene 100 Positive ctrl. of cell prolif Glucose transport Typically, this is the way the analysis would have been done. Taking your differentially regualted genes, you’d analyse them one by one - researching the what is known about that gene, and what processes it is involved in.

Analisi tradizionale Ricerca gene by gene Richiede di fare una ricerca in letteratura time-consuming So this gene by gene approach has the major disadvantage that you have to delve into the literature yourself, which is obviously very time consuming.

Se utilizziamo le annotazioni fornite da GO… …il lavoro è già fatto! But by using GO annotations, this work has already been done for you - someone has already sat down and associated a particular gene with a particular process… GO:0006915 : apoptosis

Raggruppamento per processo Mitosis Gene 2 Gene 5 Gene45 Gene 7 Gene 35 … Glucose transport Gene 7 Gene 3 Gene 6 … Apoptosis Gene 1 Gene 53 Positive ctrl. of cell prolif. Gene 7 Gene 3 Gene 12 … Growth Gene 5 Gene 2 Gene 6 … So you have the ability to group your differentially regulated genes by process… Come facciamo ad ottenerlo automaticamente e….

Over-representation analysis: ….Esiste un modo per associare una significatività statistica a questi raggruppamenti di geni? Over-representation analysis: - Esistono gruppi di geni differenzialmente espressi rappresentati in maniera “sproporzionata” in qualche GO term? - Questa rappresentatività “sproporzionata” è statisticamente significativa rispetto al totale dei geni che vengono annotati in quel GO term? Anche in questo caso I SW di navigazione delle informazioni ontologiche come OntoExpress, ci aiutano a mantenere la visione d’insieme prodotta attraverso l’esperimento. Purtroppo, le informazioni che in questo momento sono disponibili in maniera ordinata nelle banche dati non sono moltissime e ancora tanto si deve fare per l’unificazione delle ridondanze nei codici che identificano I geni. Per questo motivo si deve ricorrere comunque ad un’ispezione manuale della lista dei geni differenzialmente espressi non piazzati e reperire le informazioni che li riguardano

Quanto è probabile che gruppi di geni differenzialmente espressi vengano catalogati in un GO term “by chance”? mitosis – 80/100 apoptosis – 40/100 p. ctrl. cell prol. – 30/100 glucose transp. – 20/100 microarray 1000 genes 100 genes differentially regualted The better ones include an statistical measure of how likely your differentially regulated genes fall into that category by chance So why is that necessary So imagine you do a microarray with a 1000 genes, and you find that 100 are differentially regualted And these are the GO processes that those differentially regualted genes fall into - it looks like mitosis is overrepresented…. experiment

Se osserviamo il numero di geni distribuiti sull’array e appartenenti alle stesse categorie, possiamo calcolare la probabilità che ci interessa: Process Genes on array # genes expected in occurred 100 random genes mitosis 800/1000 80 80 apoptosis 400/1000 40 40 p. ctrl. cell prol. 100/1000 10 30 glucose transp. 50/1000 5 20 you can see that 80% of them were involved in mitosis, so the number upregulated is what you’d expect by chance. The category positive regulation of cell proliferation actually contains more differentially regualted genes than you would expect by chance Need a statistical test e.g. Chi-squared to see if this overrepresentation or enrichment of a certain class is statistically significant. Onto-Express

GO term significativi nell’ontologia Molecular Function Onto-Express: http://vortex.cs.wayne.edu/projects.htm GO term significativi nell’ontologia Molecular Function

Onto-Express: http://vortex.cs.wayne.edu/projects.htm Espansione delle ontologie e visualizzazione annidata dei GO term

OntoExpress: http://vortex.cs.wayne.edu/projects.htm Cellular Component Biological Process Molecular Function Anche in questo caso I SW di navigazione delle informazioni ontologiche come OntoExpress, ci aiutano a mantenere la visione d’insieme prodotta attraverso l’esperimento. Purtroppo, le informazioni che in questo momento sono disponibili in maniera ordinata nelle banche dati non sono moltissime e ancora tanto si deve fare per l’unificazione delle ridondanze nei codici che identificano I geni. Per questo motivo si deve ricorrere comunque ad un’ispezione manuale della lista dei geni differenzialmente espressi non piazzati e reperire le informazioni che li riguardano

Interpretazione biologica di una lista di geni: data/text mining Sfruttare le reti di interazioni (gene network) fra bio-entità costruite utilizzando dati di letteratura o info da banche dati eterogenee per comprendere quale sia l’effetto a livello molecolare del fenomeno biologico indagato - Co-occorrenza di bio-entità (geni, proteine, parole chiave, etc) in testi - Individuazione di connessioni fra bio-entità riportate in database di interazioni biologiche (pathway, interazioni fra proteine, interazioni chimiche o fisiche, co-espressione in esperimenti di espressione genica, etc.)

Text mining: Individuazione della co-occorrenza di parole in un testo Ricorrenza in un testo di coppie di elementi bio-entità: coppie di nomi di geni coppia gene/parola chiave “X binds Y”, “X phosphorylates Y”, “X is involved in Y process”, “X is a marker for Y disease”, …

Text mining: Individuazione della co-occorrenza in un testo Ricorrenza in un testo di coppie di elementi linguistici (bio-entità): coppie di nomi di geni coppia gene/parola chiave … ma come si fa? 1S) Individuazione nel testo di informazioni (contenute in titolo, testo e abstract) e metainformazioni (affiliazione, giornale, etc)data retrieving and selection 2S) Analisi grammaticale del testo per individuare i diversi tipi di parole: sostantivi, aggettivi, verbi e nomi propri parsing 3S) Conteggio del il numero di volte in cui ogni parola appare nei testiinformation extraction e indexing 4S) Assegnazione di un punteggio ad ogni testo sulla base della co-occorrenza delle parole cercate (X e Y ) quanto più è alta in un testo tanto più quel testo è attinente alla co-occorrenza considerata e attesta la relazione fra X e Yscoring 5S) Rappresentazione grafica della connessione tramite una rete

Text mining: Individuazione della co-occorrenza in un testo Alcuni algoritmi sono capaci di: rilevare sulla base di un vocabolario il tipo di interconnessione fra le bio-entità considerate “X binds Y”, “X phosphorylates Y”, “X is involved in Y process”, “X is a marker for Y disease”, … dare un peso alla co-occorrenza a seconda della distanza che separa le bio-entità espressa in numero di parole rilevare connessioni indirette: X è connesso a Y, Y è connesso a Z X è connesso a Z ciò può influire sulla valutazione dell’attinenza del documento alla connessione fra le bio-entità

Cosa si può fare con il Data mining Cosa si può fare con il Data mining? Costruire reti di “interazioni eterogenee” Banche dati utili: - MIPS: Munich Information center for Protein Interaction BIND: Biomolecular Interaction Network Databases HPRD: Human Protein Reference Database IntAct: InterAction Reactome STRING:Search Tool for the Retrieval of Interacting Genes/Proteins … Letteratura Scientifica

Integrazione di informazioni eterogenee

Disease Ontology, GeneRIF e FunDO Esistono gruppi di geni della mia lista che sono coinvolti in malattie? Disease Ontology, GeneRIF e FunDO

Disease Ontology - Definizioni univoche e standardizzate di malattie - Integra MeSH di NCBI

Esempi da DO

Disease Ontology

GeneRIF Database

Software basato sul text-mining che associa geni da GeneRIF e malattie da Disease Ontology MetaMapTransfer FunDO

FunDO – Functional Disease Ontology

FunDO – Functional Disease Ontology 314 geni differenzialmente espressi In quali malattie sono coinvolti?

GNCPro – Gene Network Central PRO

GNCPro – Gene Network Central PRO Sottomissione di 4 geni GNCPro aggiunge 5 geni “vicini” a quelli sottomessi per fornire nuove vie di connessione fra i geni

COREMINE Motore di ricerca biomedico Fornisce set di informazioni ordinate per attinenza con l’oggetto della query Consente di salvare le ricerche effettuate e di creare gruppi di discussione su temi di ricerca

COREMINE Input data da 13 differenti categorie Database messi in relazione per creare l’output

COREMINE Altre sorgenti consultabili per arricchire l’output

COREMINE

…take-home message Ogni banca dati fornisce un “pezzo” di informazione Ogni strumento di navigazione fornisce una peculiare “view” delle informazioni Non esiste UNA banca dati omnicomprensiva Non esiste UNO strumento capace di collezionare tutte le informazioni frazionate nelle banche dati L’uso di più strumenti consente di collezionare i diversi “pezzi” di informazione La costruzione del “puzzle” è compito di chi interpreta i dati

Esercitazione http://131.114.94.135/lezioni/ADO_tecnici Cercare i seguenti GO term: 0030182 0051402 Per ciascuno di essi: - fare l’anatomia dell’ontologia evidenziando i GO term sulla base degli “is-a” o “part-of” - indicare quanti sono i prodotti genici associati a ciascun GO term a seconda dei termini di cui sono “is-a” o “part-of” - scaricare e salvare la tree view e la graph view ed indicare chi sono i GO term “padri” dei GO term considerati - indicare quali GO term dell’albero visualizzato sono “is-a” o “part-of”