La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

UNIVERSITA DEGLI STUDI DI PISA LAUREA IN INGEGNERIA BIOMEDICA CORSO DI ANALISI E MODELLI DI SEGNALI BIOMEDICI Erika Melissari.

Presentazioni simili


Presentazione sul tema: "UNIVERSITA DEGLI STUDI DI PISA LAUREA IN INGEGNERIA BIOMEDICA CORSO DI ANALISI E MODELLI DI SEGNALI BIOMEDICI Erika Melissari."— Transcript della presentazione:

1 UNIVERSITA DEGLI STUDI DI PISA LAUREA IN INGEGNERIA BIOMEDICA CORSO DI ANALISI E MODELLI DI SEGNALI BIOMEDICI Erika Melissari

2 Microarray a DNA: tecnologie di costruzione dei vetrini Microarray a cDNA - sonde sintetizzate prima dellancoraggio al vetrino - lunghezza delle sonde: mer - tecnologia spotted microarray Microarray ad oligonucleotidi - sonde sintetizzate direttamente sul vetrino sintetizzazione in situ - oligonucleotidi corti; lunghezza delle sonde: mer (Affymetrix GeneChip) - oligonucleotidi lunghi; lunghezza delle sonde: 60 mer (Agilent)

3 I microarray: la tecnologia Spotted Array Affymetrix GeneChip ®

4 Agilent ® I microarray: la tecnologia

5 Esperimento microarray QUANTITATIVOCOMPARATIVO Classe/i sperimentale/i vs classe di controllo Metto a confronto molti campioni provenienti da 2 o più popolazioni. P.es. campioni di tessuto o di cellule: -Trattati con farmaco vs non trattati con farmaco -Tumorali vs sani -Cuore vs Fegato vs Polmone Per ciascun gene ottengo una quantificazione numerica della differenza di espressione fra le popolazioni che sto confrontando: Fold-Change Def: Fold-Change: -calcolato per ciascun gene -rapporto fra il valore medio dellespressione del gene nei campioni in condizione sperimentale vs il valore medio dellespressione del gene nei campioni in condizione di controllo

6 cellule trattate cellule non trattate cDNA Cy3 Cy5 RNA 1) Estrazione dellRNA totale dai campioni RNA 2) Isolamento dell mRNA, retrotrascrizione in cDNA e marcatura con fluorofori cDNA Cy3 Cy5 3) Ibridizzazione 4) Scansione del vertino

7 Microarray per lanalisi dellespressione genica Centinaia di copie monofilamento di regioni specifiche di ciascun gene formano uno SPOT

8 Fase wet di un esperimento microarray Estrazione mRNA Retrotrascrizione e Marcatura Ibridazione Scansione

9 Analisi dei dati Quantizzazione dei dati Verifica biologica ed interpretazione del risultato Pre-trattamento dei dati Estrazione dei dati di espressione differenziale Immagine 16-bit formatoTIFF Normalizzazione Quantizzazione dei dati

10 Trasformazione dellinformazione di colore in informazione numerica Scansione + estrazione dei valori di foreground e di background

11 Scansione del vetrino Scansione

12 Scansione del vetrino Scanner a due laser Lunghezze donda di eccitazione/assorbimento dei fluorocromi 635 nm - Red 532 nm - Green Canali separati in acquisizione formazione di due immagini Codifica su 16 bit: 2 ^16 = livelli di colore Occupazione di memoria: 250 MB 1GB Risoluzione spaziale: 5 2 μm

13 Quantizzazione dei dati Gridding dellimmagine Segmentazione: spaziale; per intensità; Segnale Background GAL file (Gene Array List file) GAL file (Gene Array List file) Segmentazione spaziale Segmentazione per intensità Estrazione delle intensità del foreground (segnale proveniente da ibridizzazione specifica) e del background (rumore). Per ciascuno spot: media dei pixel; mediana dei pixel.

14 Analisi dei dati Quantizzazione dei dati Pre-trattamento dei dati Immagine 16-bit formatoTIFF Normalizzazione Pre-trattamento dei dati Verifica biologica ed interpretazione del risultato Estrazione dei dati di espressione differenziale

15 per sottrazione dal segnale utile del suo valore calcolato su aree dedicate esterne allo spot segnale netto Fenomeni che generano rumore (background): legame del campione marcato al microarray in aree esterne allo spot spotting scorretto; legami aspecifici del campione con il supporto; fluorescenza propria di reagenti non eliminati con il lavaggio. Pre-trattamento dei dati Correzione del background Applicazione di indicatori di qualità agli spot per la selezione dei geni giudicati idonei per la successiva analisi SNR = Mediana del segnale netto / SD del rumore

16 Analisi dei dati Quantizzazione dei dati Pre-trattamento dei dati Immagine 16-bit formatoTIFF Normalizzazione Verifica biologica ed interpretazione del risultato Estrazione dei dati di espressione differenziale

17 Normalizzazione (1) Quantità iniziali diverse di RNA ibridizzato sul vetrino; Diversa efficienza di incorporazione dei due fluorocromi durante il processo di marcatura; Diversa efficienza dello scanner nelleccitazione dei due fluorofori; Diversa efficienza dei due fluorofori nellemissione dellenergia acquistata; Diversa efficienza dello scanner nellacquisizione dei due canali. DEF: Correzione delleffetto sistematico di fonti di variabilità che possono influenzare i risultati di un esperimento microarray. Tali fonti possono essere generate da:

18 Ipotesi biologica che autorizza il processo di normalizzazione Ipotesi: la condizione sperimentale studiata influenza significativamente lespressione di pochi geni rispetto alla totalità dei geni presenti sul vetrino N.B.: valida solo su vetrini dove è possibile indagare lintero trascrittoma di un organismo

19 Normalizzazione (2) Esperimento Self-Self: è un metodo utilizzato durante i primi studi sui microarray che ha consentito di rilevare la presenza di errori sistematici. Due aliquote dello stesso campione vengono marcate con i due fluorofori e ibridizzate sullo stesso vetrino SCATTERPLOT Fold Change A =½ log (R*G) M = log (R/G) MA-PLOT

20 Perché si usa il log del Fold- Change? Intervalli di rappresentatività dellespressione differenziale -Rende uguali gli intervalli di rappresentatività dei geni sotto-espressi e dei geni sovra-espressi -Rende gaussiana la distribuzione dei log(Fold-Change)

21 Normalizzazione (3) Il processo di normalizzazione è necessario anche per confrontare e mettere insieme dati provenienti da repliche Repliche sperimentali Repliche sperimentali: lmRNA estratto da ogni individuo viene diviso in aliquote, marcato e ibridizzato su almeno tre vetrini insieme a un altro campione marcato con laltro fluoroforo miglioro la qualità delle osservazioni su ciascun individuo, ma ciò non è sufficiente per quantificare lespressione media di un gene in una popolazione di individui dello stesso tipo Repliche biologiche Repliche biologiche: lmRNA proviene da campioni biologici dello stesso tipo ma distinti (ad esempio individui diversi). Ciascuno di essi viene marcato e ibridizzato una o al più due volte su rispettivamente uno o due vetrini miglioro laccuratezza nella stima della media di popolazione, ma peggioro quella del singolo individuo 1.Le repliche migliorano laccuratezza della misura. Più repliche abbiamo, meglio riusciamo ad osservare la quota random degli errori...ma i costi???

22 Come disegno un esperimento efficiente? Posso comprare solo 10 array ma non ho problemi a reperire campioni. posso puntare a migliorare la misurazione della differenza media di espressione nelle popolazioni a confronto non ibridizzo copie sperimentali ma copie biologiche Ho solo 10 campioni (non ho problemi a comprare array). posso puntare a migliorare lefficienza nella misurazione dellespressione nei singoli campioni ibridizzo più copie sperimentali per ciascun campione DEF: Efficienza ~ 1/varianza delle stime 2.Non è sempre possibile realizzare esperimenti con il massimo livello di replicazione Bisogna stabilire qual è il disegno sperimentale più EFFICIENTE rispetto al quesito biologico che si vuole indagare e al budget a disposizione

23 Normalizzazione (4) Normalizzazione within arrayNormalizzazione within array per correggere errori sistematici su ciascun array separatamente Normalizzazione between arrays Normalizzazione between arrays per correggere errori sistematici per correggere errori sistematici che possono rendere eterogenei array biologicamente simili copie sperimentali o biologiche) (copie sperimentali o biologiche)

24 Normalizzazione within array 1.Normalizzazione globale -> Centraggio della distribuzione log 2 R/G norm= log 2 R/G ± c Non normalizzata Normalizzata

25 Normalizzazione within array 2.Normalizzazione intensità-dipendente Interpolazione (fitting) LO(W)ESS (LOcally WEighted polynomial regreSSion) globale -Fisso lampiezza della finestra di dati -Calcolo la curva di smooting reale attraverso linterpolazione polinomiale dei dati contenuti nella finestra -Sposto la finestra e ri-calcolo la curva di smooting al suo interno -Raccordo i pezzi in modo che non vi siano discontinuità e ricostruisco la curva di smooting reale complessiva spazzolando tutta la distribuzione dei dati - Per ciascuna finestra calcolo lo scostamento fra smooting reale e smooting ideale - Sposto i dati contenuti nella finestra in modo da azzerare lo scostamento

26 Normalizzazione scale r iscalatura della dispersione dei log- fold-change fra array per equilibrare i valori di M fra array Normalizzazione between arrays scale 4 copie biologiche di swirl zebrafish (danio rerio)

27 Analisi dei dati Quantizzazione dei dati Pre-trattamento dei dati Immagine 16-bit formatoTIFF Normalizzazione Verifica biologica ed interpretazione del risultato Estrazione dei dati di espressione differenziale Estrazione dei dati di espressione differenziale

28 Estrazione dei risultati Metodi statistici - t-statistic, ANOVA (ANalysis Of VAriance), Bayesian-statistic, S-score e test su permutazione dei dati Lista di geni differenzialmente espressi - A ciascun gene è associato un p-value e un valore di log(fold-change) medio, rappresentativo della differenza di espressione rilevata fra il gruppo di soggetti che formano il campione sperimentale e il gruppo dei soggetti di controllo

29 Lista di geni differenzialmente espressi RankGeneSymbol Accession Number (Transcript) Description Differential expression (Up- or Down-regulation) P-value 1DUSP1NM_ ref|Homo sapiens dual specificity phosphatase 1 (DUSP1), mRNA SRGAP1BC gb|Homo sapiens SLIT-ROBO Rho GTPase activating protein 1, mRNA HES1NM_ ref|Homo sapiens hairy and enhancer of split 1, (Drosophila) (HES1), mRNA SMAD3U68019 gb|Homo sapiens mad protein homolog (hMAD-3) mRNA, complete cds RHEBL1NM_ ref|Homo sapiens Ras homolog enriched in brain like 1 (RHEBL1), mRNA FZD10NM_ ref|Homo sapiens frizzled homolog 10 (Drosophila) (FZD10), mRNA RGS16NM_ ref|Homo sapiens regulator of G-protein signaling 16 (RGS16), mRNA GPR56NM_ ref|Homo sapiens G protein-coupled receptor 56 (GPR56), transcript variant 3, mRNA ZNF831NM_ ref|Homo sapiens zinc finger protein 831 (ZNF831), mRNA TFPINM_ ref|Homo sapiens tissue factor pathway inhibitor (lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA BTG1NM_ ref|Homo sapiens B-cell translocation gene 1, anti-proliferative (BTG1), mRNA

30 Analisi dei dati Quantizzazione dei dati Pre-trattamento dei dati Immagine 16-bit formatoTIFF Normalizzazione Verifica biologica ed interpretazione del risultato Estrazione dei dati di espressione differenziale Verifica biologica ed interpretazione dei risultati

31 Verifica biologica ed Interpretazione dei risultati Validare un sottoinsieme di geni differenzialmente espressi attraverso metodiche alternative (real time RT-PCR) Analizzare la lista dei geni DE per formulare ipotesi sul fenomeno biologico indagato attraverso informazioni sui singoli geni single-gene analysis ricostruzione di reti biochimiche (pathway) di trasmissione del segnale pathway analysis caratterizzazione ontologica gene ontology analysis

32 Lista di geni differenzialmente espressi RankGeneSymbol Accession Number (Transcript) Description Differential expression (Up- or Down-regulation) P-value 1DUSP1NM_ ref|Homo sapiens dual specificity phosphatase 1 (DUSP1), mRNA SRGAP1BC gb|Homo sapiens SLIT-ROBO Rho GTPase activating protein 1, mRNA HES1NM_ ref|Homo sapiens hairy and enhancer of split 1, (Drosophila) (HES1), mRNA SMAD3U68019 gb|Homo sapiens mad protein homolog (hMAD-3) mRNA, complete cds RHEBL1NM_ ref|Homo sapiens Ras homolog enriched in brain like 1 (RHEBL1), mRNA FZD10NM_ ref|Homo sapiens frizzled homolog 10 (Drosophila) (FZD10), mRNA RGS16NM_ ref|Homo sapiens regulator of G-protein signaling 16 (RGS16), mRNA GPR56NM_ ref|Homo sapiens G protein-coupled receptor 56 (GPR56), transcript variant 3, mRNA ZNF831NM_ ref|Homo sapiens zinc finger protein 831 (ZNF831), mRNA TFPINM_ ref|Homo sapiens tissue factor pathway inhibitor (lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA BTG1NM_ ref|Homo sapiens B-cell translocation gene 1, anti-proliferative (BTG1), mRNA

33

34 Interpretazione biologica e single gene analysis RankGeneSymbol Accession Number (Transcript) Description Differential expression (Up- or Down-regulation) P-value 1DUSP1NM_ ref|Homo sapiens dual specificity phosphatase 1 (DUSP1), mRNA SRGAP1BC gb|Homo sapiens SLIT-ROBO Rho GTPase activating protein 1, mRNA HES1NM_ ref|Homo sapiens hairy and enhancer of split 1, (Drosophila) (HES1), mRNA SMAD3U68019 gb|Homo sapiens mad protein homolog (hMAD-3) mRNA, complete cds RHEBL1NM_ ref|Homo sapiens Ras homolog enriched in brain like 1 (RHEBL1), mRNA FZD10NM_ ref|Homo sapiens frizzled homolog 10 (Drosophila) (FZD10), mRNA RGS16NM_ ref|Homo sapiens regulator of G-protein signaling 16 (RGS16), mRNA GPR56NM_ ref|Homo sapiens G protein-coupled receptor 56 (GPR56), transcript variant 3, mRNA ZNF831NM_ ref|Homo sapiens zinc finger protein 831 (ZNF831), mRNA TFPINM_ ref|Homo sapiens tissue factor pathway inhibitor (lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA BTG1NM_ ref|Homo sapiens B-cell translocation gene 1, anti-proliferative (BTG1), mRNA

35 Banche dati Banche dati NCBI - Gene Info sui geni - Nucleotide Info sui trascritti - PubMed Ricerca di pubblicazioni scientifiche di ambito medico - …. Kegg - Kegg Genes Info sui geni e sui trascritti - Kegg Pathway Info sulle reti di trasduzione del segnale genico (pathway) Gene Ontology Informazioni sulla classificazione ontologica dei geni\prodotti genici

36 Per sapere qualcosa in più su un gene: Banche dati per lannotazione dei geni Banche dati NCBI - Gene Info sui geni - Nucleotide Info sui trascritti - Homologene Info sugli omologhi - OMIM Info su malattie Mendeliane - PubMed Ricerca di pubblicazioni di ambito medico/scientifico - ….

37 Banca dati Gene Nome (GeneSymbol) del gene può essere identico per organismi differenti

38 Banca dati Nucleotide Codice del trascritto è specifico per ogni organismo

39 Portaledi informazioni bio-molecolari GeneCards

40 …ma le interazioni?

41 Interpretazione biologica della lista dei geni differenzialmente espressi: pathway e ontological analyses Utilizzare le informazioni contenute in: - reti di interazione biochimica e di trasduzione del segnale genomico (pathway) pathway analysis - Ontologie functional analysis relative a gruppi di geni differenzialmente espressi allo scopo di ipotizzare quale sia leffetto a livello molecolare del fenomeno biologico indagato

42 Per sapere qualcosa in più sulle interazioni fra geni: Banche dati di pathway e ontologie Kegg contiene:http://www.genome.jp/kegg/ - Kegg Genes Info sui geni e sui trascritti - Kegg Pathway Info sulle reti di trasduzione del segnale genico (pathway) Gene Ontology contiene:http://www.geneontology.org/ Informazioni sulla classificazione ontologica dei geni\prodotti genici

43 KEGG General pathway Human Pathway human Ogni scatolina rappresenta un gene. I simboli: rappresenta unattivazione fra due geni --| rappresenta una inibizione fra due geni

44 Gene Ontology Ontologia genica: -vocabolario unico, - indipendente dallorganismo, - descrizione dettagliata dei geni attraverso i loro prodotti genici (proteine) possibilità di trasferimento delle informazioni funzionali fra organismi differenti a parità di complessità del genoma possibilità di trasferimento delle informazioni funzionali da organismi meno complessi ad organismi più complessi univocità nella descrizione delle caratteristiche di un gene Consorzio che si occupa della definizione delle ontologie geniche per la classificazione dei geni attraverso i loro prodotti genici (Proteine)

45 Cosè unontologia? An ontology is a specification of a conceptualization that is designed for reuse across multiple applications and implementations. …a specification of a conceptualization is a written, formal description of a set of concepts and relationships in a domain of interest. Peter Karp (2000) Bioinformatics 16:269 … un insieme di definizioni

46 Cosè unontologia genica? Ontologia genica: un vocabolario di definizioni, indipendente dallorganismo, che descrive i geni attraverso i loro prodotti genici (proteine) trasferimento delle informazioni funzionali fra organismi differenti a parità di complessità del genoma trasferimento delle informazioni funzionali da organismi meno complessi ad organismi più complessi univocità nella descrizione delle caratteristiche di un gene

47 Tre ontologie Funzione molecolare -> funzione biochimica di un prodotto genico - enzima, lega gli ioni calcio, lega i nucleotidi, etc Processo biologico -> processo di co-regolazione allinterno del quale il prodotto genico può essere inserito - metabolismo di una molecola, glicolisi, ciclo della cellula, apoptosi Componente cellulare -> luogo della cellula nel quale un determinato prodotto genico può agire - membrana cellulare, reticolo endoplasmatico Struttura gerarchica -> DAG (grafi aciclici diretti)

48 Componente cellulare Dove agisce un prodotto

49 Componente cellulare

50

51 Funzione molecolare Attività o compito del prodotto genico glucose-6-phosphate isomerase activity

52 24th Feb 2006 Jane Lomax insulin binding insulin receptor activity Funzione molecolare

53 Processo biologico -una serie di eventi a cui prende parte il prodotto cell division

54 transcription Processo biologico

55 regulation of gluconeogenesis Processo biologico

56 limb development Processo biologico

57 DAG Ontologie Categorie ontologiche o GO term: tutti i sottolivelli di unontologia -> A ciascun GO term è associata: - una definizione - un insieme di geni che in esso vengono annotati per ciascun organismo

58 Struttura di unontologia Ogni ontologia non è una lista di termini biologici, ma è strutturata in livelli gerarchici

59 Software per lanalisi di pathway e di ontologie Pathway Analysis - Pathway-Express Functional Analysis - Onto-Express NB: questi software ricevono come input la lista dei geni differenzialmente espressi

60 PathwayExpress : Impact Analysis: mappatura dei geni differenzialmente espressi nei pathway molecolari e valutazione della propagazione della perturbazione della trasduzione del segnale genico provocata dalla variazione di espressione genica

61 PathwayExpress :

62 62 LImpact Factor è formato da tre contributi: - Numero di geni differenzialmente espressi mappati in un pathway rispetto al numero di geni che formano il pathway livello di rappresentatività della lista dei geni DE nel pathway - Fold-change dei geni differenzialmente espressi mappati entità della perturbazione del pathway provocata dai geni differenzialmente espressi - Posizione dei geni differenzialmente espressi allinterno del pathway un gene posizionato a monte (p.es. sulla membrana cellulare o su un nodo cui fa capo una sottorete) di una cascata di segnale è più importante di un gene posizionato a valle

63 63 OntoExpress: Molecular Function Biological Process Cellular Component Over-representation analysis: ci sono dei gruppi di geni differenzialmente espressi rappresentati in maniera sproporzionata in qualche GO term? Questa rappresentatività sproporzionata è statisticamente significativa rispetto al totale dei geni che vengono annotati in quel GO term?

64 Info Ospedale S. Chiara, edificio 43, secondo piano Ospedale S. Chiara, edificio 43, piano terra, c/o Laboratorio Dott.ssa Pellegrini Erika Melissari Materiale Iscrizione allesame e date appelli Prenotazione esami


Scaricare ppt "UNIVERSITA DEGLI STUDI DI PISA LAUREA IN INGEGNERIA BIOMEDICA CORSO DI ANALISI E MODELLI DI SEGNALI BIOMEDICI Erika Melissari."

Presentazioni simili


Annunci Google