Analisi dei dati di espressione genica ottenuti mediante microarray

Slides:



Advertisements
Presentazioni simili
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Advertisements

Bioinformatica Prof. Mauro Fasano
Levels of constraint I vincoli (o livelli di costrizione) sono i condizionamenti impiegati dalla ricerca.
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
BASI DI DATI BIOLOGICHE - 3
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
Corso di ingegneria genetica
CAMPIONAMENTO Estratto dal Cap. 5 di:
Chip a DNA: un esempio pratico
Processi Aleatori : Introduzione – Parte I
Metodi di ricerca in Psicologia
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
I Microarray: Una nuova tecnologia
MARCATURA ISOTOPICA Radioisotopi più usati per marcare gli acidi nucleici Isotopo Emivita Tipo di emissione Energia di emissione 3H.
Array di oligonucleotidi
Opinione studenti II anno A-K Per la stragrande maggioranza degli studenti, il bilancio per il II anno A-K, è nettamente positivo. Infatti se vogliamo.
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Analisi della varianza
Verifica delle ipotesi su due campioni di osservazioni
Il sequenziamento genico
È stimato che oggi sulla terra sono presenti
FACOLTA’ DI MEDICINA E CHIRURGIA
Analisi dei dati di espressione genica ottenuti mediante microarray
Perché Real-Time? Real time PCR Analisi PCR quantitativa
Le distribuzioni campionarie
Clonaggio: vettori plasmidici
Trasferimento secondo Southern (Southern blot)
CORSO DI BIOLOGIA - Programma
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS
CORSO DI BIOLOGIA - Programma
analisi di espressione genica sue applicazioni in ambito biomedico
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Dip. Scienze Biomolecolari e Biotecnologie
Espressione genica External input Endogenous input S2
Analisi dei dati di espressione genica ottenuti mediante microarray
Fondamenti di Bioinformatica e di Biologia di sistemi (c.i. 18 CFU)
Ibridazione degli acidi nucleici e
Banche dati e software per l’identificazione di interazioni fra geni
Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.
Corso di Laurea in Scienze e tecniche psicologiche
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.
APPLICAZIONI DI GENETICA UMANA E MOLECOLARE
Allineamento di sequenze
Cenni di Bioinformatica
Dal neolitico al Xxi secolo.
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
POSTGENOMICA O GENOMICA FUNZIONALE
Corso di Laurea in Scienze e tecniche psicologiche
Tecniche della Biologia Molecolare
Era PostGenomica Sara Palumbo
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Ibridazione degli acidi nucleici e
ANALISI DELLA VARIANZA (ANOVA)
POLIMERASE CHAIN REACTION (PCR)
Arrays di acidi nucleici
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Corso di Statistica Applicata C. L. in Tecnologie forestali e ambientali 4 crediti (32 ore) Docente: Lorenzo Marini DAFNAE, Università di Padova
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
Microarrays di DNA, cDNA e oligonucleotidi
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
POSTGENOMICA O GENOMICA FUNZIONALE
POSTGENOMICA O GENOMICA FUNZIONALE
Transcript della presentazione:

Analisi dei dati di espressione genica ottenuti mediante microarray UNIVERSITA’ DEGLI STUDI DI PISA LAUREA IN INGEGNERIA BIOMEDICA CORSO DI ANALISI E MODELLI DI SEGNALI BIOMEDICI Analisi dei dati di espressione genica ottenuti mediante microarray Erika Melissari

Microarray a DNA: tecnologie di costruzione dei vetrini Microarray a cDNA - lunghezza delle sonde: 200-400 mer - sonde sintetizzate prima dell’ancoraggio al vetrino - spotted microarray Microarray ad oligonucleotidi - sonde sintetizzate direttamente sul vetrinosintetizzazione in situ - oligonucleotidi corti; lunghezza delle sonde: 20-40 mer (Affymetrix GeneChip) - oligonucleotidi lunghi; lunghezza delle sonde: 60 mer (Agilent)

I microarray: la tecnologia “Spotted” Array Affymetrix GeneChip®

I microarray: la tecnologia Agilent®

1) Estrazione dell’RNA totale dai campioni cellule trattate cellule non trattate 2) Isolamento dell’ mRNA, retrotrascrizione in cDNA e marcatura con fluorofori 3) Ibridizzazione RNA RNA 4) Scansione del vertino cDNA Cy3 Cy5 cDNA Cy3 Cy5

Microarray per l’analisi dell’espressione genica Centinaia di copie monofilamento di regioni specifiche del gene formano uno SPOT S3 I microarray sfruttano la proprietà di ibridazione degli acidi nucleici. Sono infatti costituiti da supporti di vetro della grandezza di un vetrino da microscopio sui quali vengono ancorati centinaia di migliaia di singoli filamenti di DNA. Ciascun gene è analizzato, infatti, grazie ad alcune centinaia di copie monofilamento di una sua regione estremamente specifica, immobilizate sul vetrino a formare uno spot. L’esposizione della superficie del vetrino ad una soluzione contenente l’mRNA dei campioni da confrontare, precedentemente marcato con due differenti sostanze capaci di emettere fluorescenza, consente l’bridazione dei frammenti di mRNA alle sonde in quantità proporzionale alla concentrazione presente nei due campioni. La successiva rivelazione della fluorescenza emessa porta alla quantificazione di questa concentrazione e, quindi, del “fold-change”, cioè della variazione di espressione fra i due campioni ibridizzati.

Fase “wet” di un esperimento microarray Estrazione mRNA Retrotrascrizione e Marcatura Ibridazione Scansione S4 Più nel dettaglio la parte di esperimento realizzata in laboratorio e che porta all’ibridazione del vetrino e successiva generazione dell’immagine si articola essenzialmente in quattro passaggi…. L’estrazione dell’mRNA dai campioni di interesse La retrotrascrizione in cDNA e la marcatura con i due fluorofori. I due campioni di cDNA marcato andranno a formare la mix di ibridazione. L’ibridazione overnight sul vetrino, per consentire l’appaiamento alle sonde La scansione con uno speciale scanner a doppio laser che eccita differenzialmente i due fluorofori e acquisisce separatamente i segnali di fluorescenza provenienti da essi.

Analisi dei dati Quantizzazione dei dati Immagine 16-bit formatoTIFF Pre-trattamento dei dati Normalizzazione Estrazione dei dati di espressione differenziale Verifica biologica ed interpretazione del risultato

Scansione del vetrino Scansione

Scansione del vetrino Scanner a due laser Lunghezze d’onda di eccitazione/assorbimento dei fluorocromi 635 nm - Red 532 nm - Green Canali separati in acquisizione formazione di due immagini Codifica su 16 bit 2^16 = 65536 livelli di colore Occupazione di memoria 250 MB c.a.

Quantizzazione dei dati “Gridding” dell’immagine GAL file Segmentazione spaziale Segmentazione per intensità Segmentazione: spaziale; per intensità; Segnale Background Estrazione delle intensità del foreground (segnale proveniente da ibridizzazione specifica) e del background (rumore). Per ciascuno spot: media dei pixel; mediana dei pixel.

Analisi dei dati Pre-trattamento dei dati Immagine 16-bit formatoTIFF Quantizzazione dei dati Pre-trattamento dei dati Pre-trattamento dei dati Normalizzazione Estrazione dei dati di espressione differenziale Verifica biologica ed interpretazione del risultato

Pre-trattamento dei dati Fenomeni che generano rumore: “legame del campione marcato al microarray in aree esterne allo spot spotting” scorretto; legami aspecifici del campione con il supporto; fluorescenza propria di reagenti non eliminati con il lavaggio. Correzione del background per sottrazione dal segnale utile del suo valore calcolato su aree dedicate esterne allo spotsegnale netto Applicazione di indicatori di qualità agli spot per la selezione dei geni giudicati idonei per la successiva analisi SNR = Mediana del segnale netto / SD del rumore

Analisi dei dati Normalizzazione Immagine 16-bit formatoTIFF Quantizzazione dei dati Pre-trattamento dei dati Normalizzazione Normalizzazione Estrazione dei dati di espressione differenziale Verifica biologica ed interpretazione del risultato

Normalizzazione (1) DEF: Correzione dell’effetto sistematico di fonti di variabilità che possono influenzare i risultati di un esperimento microarray. Tali fonti possono essere generate da: Quantità iniziali diverse di RNA ibridizzato sul vetrino; Diversa efficienza di incorporazione dei due fluorocromi durante il processo di marcatura; Diversa efficienza dello scanner nell’eccitazione dei due fluorofori; Diversa efficienza dei due fluorofori nell’emissione dell’energia acquistata; Diversa efficienza dello scanner nell’acquisizione dei due canali.

Validità delle correzioni operate sui dati dal processo di normalizzazione Ipotesi: i geni la cui espressione viene significativamente influenzata dalla condizione sperimentale studiata sono “pochi” rispetto alla totalità dei geni presenti sul vetrino N.B.: valida solo su vetrini dove è possibile indagare l’intero trascrittoma di un organismo 16

Normalizzazione (2) A =½ log (R*G) M = log (R/G) Esperimento Self-Self: visualizza la presenza di errori sistematici. Due aliquote dello stesso campione vengono marcate con i due fluorofori e ibridizzate sul vetrino A =½ log (R*G) M = log (R/G) Def: Fold-Change: Rapporto fra il valore di espressione del gene x nel campione trattato vs espressione del gene x nel campione di controllo Fold Change

Perché si usa il log del Fold-Change? Intervalli di rappresentatività dell’espressione differenziale

Normalizzazione (3) Il processo di normalizzazione è necessario anche per confrontare (mettere insieme) dati provenienti da repliche Repliche sperimentali: l’mRNA estratto da ogni individuo viene diviso in aliquote, marcato e ibridizzato su almeno tre vetrini insieme a un altro campione marcato con l’altro fluoroforomiglioro la qualità delle osservazioni su ciascun individuo, ma ciò non è sufficiente per quantificare l’espressione media di un gene in una popolazione di individui dello stesso tipo Repliche biologiche: l’mRNA proviene da campioni biologici dello stesso tipo ma distinti (ad esempio individui diversi). Ciascuno di essi viene marcato e ibridizzato una o al più due volte su rispettivamente uno o due vetrini miglioro l’accuratezza nella stima della media di popolazione, ma peggioro quella del singolo individuo Le repliche migliorano l’accuratezza della misura. Più repliche abbiamo, meglio riusciamo ad osservare la quota random degli errori

Come disegno un esperimento efficiente? DEF: Efficienza ~ 1/varianza delle stime …a seconda dell’obiettivo dell’esperimento “Posso comprare solo 10 array (non ho problemi a reperire campioni).” “Ho solo 10 campioni (non ho problemi a comprare array).” È chiaro dal discorso appena fatto che la decisione su quale disegno sperimentale adottare per il proprio esperimento và presa valutando l’efficienza dei diversi disegni e la sua capacità di far fronte agli interrogativi biologici ai quali vogliamo rispondere. Ma cosa significa efficienza? La letteratura ci dice che è efficace una soluzione che raggiunge l’obbiettivo per il quale è stata commissionata, mentre è efficiente una soluzione che non solo lo raggiunge, ma anche minimizzando i costi, cioè ho una soluzione ottimizzata. Se faccio centro sono efficace, se faccio centro al primo tentativo sono efficiente. Per noi l’efficienza si traduce nella capacità del disegno di minimizzare la varianza delle stime delle differenze fra due classi, cioè è proporzionale all’inverso della varianza delle stime. Essa và valutata per esperimenti equivalenti, cioè blocco il numero di array, oppure blocco il numero di campioni disponibili per l’esperimento e valuto l’efficienza. Questo si traduce nelle due classiche domande, mutuamente esclusive, che vengono poste durante la pianificazione di un esperimento, e cioè.... Non è sempre possibile realizzare esperimenti con il massimo livello di replicazioneBisogna stabilire qual è il disegno sperimentale più EFFICIENTE rispetto al quesito biologico che si vuole indagare e al budget a disposizione

Normalizzazione (4) Normalizzazione within array  per correggere errori sistematici su ciascun array separatamente Normalizzazione between arrays per correggere errori sistematici che possono rendere eterogenei array biologicamente simili (copie sperimentali o biologiche)

Normalizzazione within array Normalizzazione globale -> Centraggio della distribuzione R = K * G log2 R/G - - - -> log2 R/G – c = log2 R/(KG) c = log2 K

Normalizzazione within array Normalizzazione intensità-dipendente Interpolazione (fitting) LO(W)ESS (LOcally WEighted polynomial regreSSion) globale Fisso l’ampiezza della finestra di dati Calcolo la curva di smooting reale attraverso l’interpolazione polinomiale dei dati contenuti nella finestra Sposto la finestra e ri-calcolo la curva di smooting al suo interno “Raccordo” i pezzi in modo che non vi siano discontinuità e ricostruisco la curva di smooting reale complessiva “spazzolando” tutta la distribuzione dei dati Per ciascuna finestra calcolo lo scostamento fra smooting reale e smooting ideale “Sposto” i dati contenuti nella finestra in modo da azzerare lo scostamento 23

Normalizzazione between arrays Normalizzazione scale  riscalatura della dispersione dei log-fold-change fra array per equilibrare i valori di M fra array scale

Analisi dei dati Estrazione dei dati di espressione differenziale Immagine 16-bit formatoTIFF Quantizzazione dei dati Pre-trattamento dei dati Normalizzazione Estrazione dei dati di espressione differenziale Estrazione dei dati di espressione differenziale Verifica biologica ed interpretazione del risultato

Estrazione dei dati di espressione genica Metodi statistici - t-statistic, ANOVA (ANalysis Of VAriance), Bayesian-statistic, S-score e test su permutazione dei dati Lista di geni differenzialmente espressi - A ciascun gene è associato un p-value e un valore di log(fold-change) medio, rappresentativo della differenza di espressione rilevata fra il gruppo di soggetti che formano il campione sperimentale e il gruppo dei soggetti di controllo

Lista di geni differenzialmente espressi Rank GeneSymbol Accession Number (Transcript) Description Differential expression (Up- or Down-regulation) P-value 1 DUSP1 NM_004417 ref|Homo sapiens dual specificity phosphatase 1 (DUSP1), mRNA 0.7606655 0.0004 2 SRGAP1 BC029919 gb|Homo sapiens SLIT-ROBO Rho GTPase activating protein 1, mRNA 1.0329521 0.00038 3 HES1 NM_005524 ref|Homo sapiens hairy and enhancer of split 1, (Drosophila) (HES1), mRNA 0.7117039 0.00026 4 SMAD3 U68019 gb|Homo sapiens mad protein homolog (hMAD-3) mRNA, complete cds -0.4286814 0.00021 5 RHEBL1 NM_144593 ref|Homo sapiens Ras homolog enriched in brain like 1 (RHEBL1), mRNA -0.5070915 0.00018 7 FZD10 NM_007197 ref|Homo sapiens frizzled homolog 10 (Drosophila) (FZD10), mRNA -0.6491815 0.00015 8 RGS16 NM_002928 ref|Homo sapiens regulator of G-protein signaling 16 (RGS16), mRNA 0.6270794 0.00012 9 GPR56 NM_201525 ref|Homo sapiens G protein-coupled receptor 56 (GPR56), transcript variant 3, mRNA -0.3310189 0.0001 10 ZNF831 NM_178457 ref|Homo sapiens zinc finger protein 831 (ZNF831), mRNA 0.3905212 0.008 11 TFPI NM_001032281 ref|Homo sapiens tissue factor pathway inhibitor (lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA -0.5849317 0.0075 . . . 2500 BTG1 NM_001731 ref|Homo sapiens B-cell translocation gene 1, anti-proliferative (BTG1), mRNA -0.3668739 0.05

Analisi dei dati Verifica biologica ed interpretazione dei risultati Immagine 16-bit formatoTIFF Quantizzazione dei dati Pre-trattamento dei dati Normalizzazione Estrazione dei dati di espressione differenziale Verifica biologica ed interpretazione dei risultati Verifica biologica ed interpretazione del risultato

Verifica biologica ed Interpretazione dei risultati Validare un sottoinsieme di geni differenzialmente espressi attraverso metodiche alternative (real time RT-PCR) Analizzare la lista dei geni DE per formulare ipotesi sul fenomeno biologico indagato informazioni sui singoli genisingle-gene analysis reti biochimiche (pathway) di trasmissione del segnale pathway analysis caratterizzazione ontologicagene ontology analysis

Interpretazione biologica e single gene analysis Rank GeneSymbol Accession Number (Transcript) Description Differential expression (Up- or Down-regulation) P-value 1 DUSP1 NM_004417 ref|Homo sapiens dual specificity phosphatase 1 (DUSP1), mRNA 0.7606655 0.0004 2 SRGAP1 BC029919 gb|Homo sapiens SLIT-ROBO Rho GTPase activating protein 1, mRNA 1.0329521 0.00038 3 HES1 NM_005524 ref|Homo sapiens hairy and enhancer of split 1, (Drosophila) (HES1), mRNA 0.7117039 0.00026 4 SMAD3 U68019 gb|Homo sapiens mad protein homolog (hMAD-3) mRNA, complete cds -0.4286814 0.00021 5 RHEBL1 NM_144593 ref|Homo sapiens Ras homolog enriched in brain like 1 (RHEBL1), mRNA -0.5070915 0.00018 7 FZD10 NM_007197 ref|Homo sapiens frizzled homolog 10 (Drosophila) (FZD10), mRNA -0.6491815 0.00015 8 RGS16 NM_002928 ref|Homo sapiens regulator of G-protein signaling 16 (RGS16), mRNA 0.6270794 0.00012 9 GPR56 NM_201525 ref|Homo sapiens G protein-coupled receptor 56 (GPR56), transcript variant 3, mRNA -0.3310189 0.0001 10 ZNF831 NM_178457 ref|Homo sapiens zinc finger protein 831 (ZNF831), mRNA 0.3905212 0.008 11 TFPI NM_001032281 ref|Homo sapiens tissue factor pathway inhibitor (lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA -0.5849317 0.0075 . . . 2500 BTG1 NM_001731 ref|Homo sapiens B-cell translocation gene 1, anti-proliferative (BTG1), mRNA -0.3668739 0.05

Banche dati Banche dati NCBI http://www.ncbi.nlm.nih.gov/ - GeneInfo sui geni - Nucleotide Info sui trascritti - PubMedRicerca di pubblicazioni scientifiche di ambito medico - …. Kegg http://www.genome.jp/kegg/ - Kegg GenesInfo sui geni e sui trascritti - Kegg PathwayInfo sulle reti di trasduzione del segnale genico (pathway) Gene Ontology http://www.geneontology.org/ Informazioni sulla classificazione ontologica dei geni\prodotti genici

Per sapere qualcosa in più su un gene: Banche dati per l’annotazione dei geni Banche dati NCBI http://www.ncbi.nlm.nih.gov/ - GeneInfo sui geni - Nucleotide Info sui trascritti - Homologene Info sugli omologhi - OMIMInfo su malattie Mendeliane - PubMedRicerca di pubblicazioni di ambito medico/scientifico - ….

Banca dati Gene Nome (GeneSymbol) del genepuò essere identico per organismi differenti

Banca dati Nucleotide Codice del trascrittoè specifico per ogni organismo

“Portale”di informazioni bio-molecolari GeneCards http://www.genecards.org/

…ma le interazioni?

Interpretazione biologica della lista dei geni differenzialmente espressi: pathway e ontological analyses Utilizzare le informazioni contenute in: reti di interazione biochimica e di trasduzione del segnale genomico (pathway) pathway analysis Ontologie functional analysis relative a gruppi di geni differenzialmente espressi per ipotizzare quale sia l’effetto a livello molecolare del fenomeno biologico indagato

Per sapere qualcosa in più sulle interazioni fra geni: Banche dati di pathway e ontologie Kegg http://www.genome.jp/kegg/ contiene: - Kegg GenesInfo sui geni e sui trascritti - Kegg PathwayInfo sulle reti di trasduzione del segnale genico (pathway) Gene Ontology http://www.geneontology.org/ contiene: Informazioni sulla classificazione ontologica dei geni\prodotti genici

KEGG http://www.genome.jp/kegg/ General pathway Human Pathway Ogni scatolina rappresenta un gene rappresenta un’attivazione fra due geni --| rappresenta una inibizione fra due geni

Gene Ontology http://www.geneontology.org/ Consorzio che si occupa della definizione delle ontologie geniche per la classificazione dei geni attraverso i loro prodotti genici (Proteine) Ontologia genica: un vocabolario unico, indipendente dall’organismo, da utilizzare per la descrizione dettagliata dei geni attraverso i loro prodotti genici (proteine) possibilità di “trasferimento” delle informazioni funzionali fra organismi differenti a parità di complessità del genoma possibilità di “trasferimento” delle informazioni funzionali da organismi “meno complessi” ad organismi “più complessi” univocità nella descrizione delle caratteristiche di un gene

Tre ontologie Funzione molecolare -> funzione biochimica di un prodotto genico - enzima, lega gli ioni calcio, lega i nucleotidi, etc Processo biologico -> processo di co-regolazione all’interno del quale il prodotto genico può essere inserito - metabolismo di una molecola, glicolisi, ciclo della cellula, apoptosi Componente cellulare -> “luogo” della cellula nel quale un determinato prodotto genico può agire - membrana cellulare, reticolo endoplasmatico Struttura gerarchica -> DAG (grafi aciclici diretti)

DAG Categorie ontologiche Ontologie o GO term: tutti i sottolivelli di un’ontologia > A ciascun GO term è associata una definizione e un insieme di geni che in esso vengono annotati per ciascun organismo Ontologie Categorie ontologiche

Software per l’analisi di pathway e di ontologie Pathway Analysis - Pathway-Express Functional Analysis - Onto-Express NB: questi software ricevono come input la lista dei geni differenzialmente espressi

PathwayExpress : http://vortex.cs.wayne.edu/projects.htm Impact Analysis: mappatura dei geni differenzialmente espressi nei pathway molecolari e valutazione della propagazione della perturbazione della trasduzione del segnale genico provocata dalla variazione di espressione genica

PathwayExpress : http://vortex.cs.wayne.edu/projects.htm

L’Impact Factor è formato da tre contributi: Numero di geni differenzialmente espressi mappati in un pathway rispetto al numero di geni che formano il pathwaylivello di rappresentatività della lista dei geni DE nel pathway Fold-change dei geni differenzialmente espressi mappatientità della perturbazione del pathway provocata dai geni differenzialmente espressi Posizione dei geni differenzialmente espressi all’interno del pathwayun gene posizionato a monte (p.es. sulla membrana cellulare o su un nodo cui fa capo una sottorete) di una cascata di segnale è “più importante” di un gene posizionato a valle Per comprendere il fenomeno biochimico e di poter formulare queste ipotesi, consultiamo banche dati che sono state create allo scopo di organizzare le informazioni riguardanti queste reti di co-regolazione. La più importante è KEGG che ci consente di poter reperire informazioni su tutti I pathway nei quali sono coinvolti I geni ai quali siamo interessati. Cercare di interpretare un gene differenzialmente espresso alla volta così come consente di fare KEGG, però, significa annullare il grosso vantaggio di parallelizzazione insito nell’esperimento di microarray. Per questo motivo si utilizzano SW di navigazione delle banche dati sulla base della sottomissione della lista di geni DE. Di questo tipo è Pathway explorer, che ci consente di avere una visione a livello di pathway della variazione dell’epressione. Oppure viene sottomessa la lista di geni DE a Pathway Express, che oltre a piazzare I geni di cui ha informazioni nei pathway produce anche un impact factor del gene, che è un parametro che stabilisce l’importanza di quel gene nel pathway considerato a seconda del suo livello di espressione, della sua posizione nel pathway e della rete di dialogo che il gene instaura con gli altri (è una sorta di parametro di centralità). In maniera indiretta fornisce così un livello di importanza dello stesso pathway.

OntoExpress: http://vortex.cs.wayne.edu/projects.htm Over-representation analysis: ci sono dei gruppi di geni differenzialmente espressi rappresentati in maniera “sproporzionata” in qualche GO term? Questa rappresentatività “sproporzionata” è statisticamente significativa rispetto al totale dei geni che vengono annotati in quel GO term? Cellular Component Biological Process Molecular Function Anche in questo caso I SW di navigazione delle informazioni ontologiche come OntoExpress, ci aiutano a mantenere la visione d’insieme prodotta attraverso l’esperimento. Purtroppo, le informazioni che in questo momento sono disponibili in maniera ordinata nelle banche dati non sono moltissime e ancora tanto si deve fare per l’unificazione delle ridondanze nei codici che identificano I geni. Per questo motivo si deve ricorrere comunque ad un’ispezione manuale della lista dei geni differenzialmente espressi non piazzati e reperire le informazioni che li riguardano

Info Erika Melissari Iscrizione all’esame e date appelli Materiale Ospedale S. Chiara, edificio 43, secondo piano Ospedale S. Chiara, edificio 43, piano terra, c/o Laboratorio Dott.ssa Pellegrini erika.melissari@for.unipi.it Iscrizione all’esame e date appelli www.ing.unipi.it Prenotazione esami Materiale http://131.114.94.135/lezioni/bioingegneria