Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoCallisto Natali Modificato 9 anni fa
1
Espressione genica External input Endogenous input S2
La variazione dell’espressione genica differenziale è quel meccanismo che la cellula mette in atto in risposta agli stimoli esogeni ed endogeni. Tale variazione si traduce a livello molecolare in prima istanza in una modifica del rate di trascrizione genica, e quindi della concentrazione degli mRNA.In seconda istanza può avvenire una variazione nel rate di traduzione delle proteine. La risposta allo stimolo viene, dunque, realizzata, modificando l’equilibrio stazionario della intricata rete di coregolazione che collega i differenti geni di una cellula. L’analisi di questo spostamento dall’equilibrio non è realizzabile attraverso i classici metodi di analisi dell’espressioni, quali Nortern o …., ma richiede l’utilizzo di metodi tecnologicamente avanzati, quali i microarray.
2
Microarray per l’analisi dell’espressione genica
I microarray sfruttano la prorprietà di ibridazione degli acidi nucleici. Sono infatti costituiti da supporti di vetro della grandezza di un vetrino da microscopio sui quali vengono ancorati centinaia di migliaia di singoli filamenti di DNA. Ciascun gene è analizzato, infatti, grazie ad alcune centinaia di copie monofilamento di una sua regione estremamente specifica, immobilizate sul vetrino a formare uno spot. L’esposizione della superficie del vetrino ad una soluzione contenente l’mRNA dei campioni da confrontare, precedentemente marcato con due differenti sostanze capaci di emettere fluorescenza, consente l’bridazione dei frammenti di mRNA alle sonde in quantità proporzionale alla concentrazione presente nei due campioni. La successiva rivelazione della fluorescenza emessa porta alla quantificazione di questa concentrazione e, quindi, del “fold-change”, cioè della variazione di espressione fra i due campioni ibridizzati.
3
Diagramma di flusso operativo di un esperimento microarray
definizione dell’ipotesi biologica indagata identificazione di fattori di confondimento e schema di ibridazione valutazione dei vincoli economici valutazione dei limiti di gestione Disegno dell’esperimento Preparazione dei campioni ed ibridazione estrazione dell’mRNA marcatura dell’mRNA ibridazione lavaggio asciugatura S5 La realizzazione di un esperimento microarray nella sua completezza è costituita da differenti passaggi. La prima fase è il disegno dell’esperimento che si articola nella formulazione dettagliata dell’ipotesi biologica da indagare, l’identificazione degli elementi che potrebbero generare bias non voluti, detti apputno fattori di confondimento, e degli schemi di ibridizzazione dei campioni sui vetrini. Una volta prodotti i disegni bisogna valutare la loro efficienza nel rispondere al quesito biologico indagato e la sostenibilità in termini economici e di gestione pratica dell’esperimento. Stabilito il disegno si procede con la preparazione dei campioni e l’ibridazione e, successivamente con la scansione del vetrino e la quantizzazione dei dati definiti grezzi. L’operazione di quantizzazione porta, attraverso la sovrapposizione di filtri digitali all’immagine e l’uso di algoritmi di segmentazione, allaìestrazione dei dati numerici relativi al segnale proveniente dalle sonde marcate e correttamente ibridate, detto foreground, e a quello proveniente da ibridazione scorretta o sporco, detto background. Il confronto fra queste due intensità e l’uso di metriche per la valutazione della loro attendibilità porta viene definito processo di controllo di qualità del dato, che ha lo scopo di segnalare quali sono gli spot attendibili e quali quelli da scartare. La successiva fase di pre-trattamento e normalizzazione dei dati grezzi ha lo scopo di eliminare dai dati il background, ottenendo il segnale netto, e di correggere tutti quegli errori sistematici che sono riconducibili in generale al sistema di rivelazione dell’informazione per fluorescenza. Gli effetti di queste operazioni devono essere costantemente monitorati al fine di riconoscere dall’andamento dei dati corretti se è stato commesso qualche errore oppure se ci sono comportamenti anomali dei dati, che potrebbero far pensare a qualche problema non completamente eliminabile attraverso queste metodiche. sui dati così ripuliti viene realizzata l’analisi statistica, cioè vengono applicati modelli e test statistici opportuni per ricavare la lista dei geni differenzialmente espressi. Alcuni di essi verranno validati utilizzando metodiche alternative, quali la PCR real time, come verifica del risultato. Una volta che è stato identificato il gruppo dei geni che varia significativamente la sua espressione fra le condizioni di interesse è necessario effettuare quella che si chiama analisi di secondo livello o pathway analysis. Questa fase osserva se è possibile identificare alcuni pathway particolarmente arricchiti in geni differenzialmente espressi. Lo scopo principale della pathway analysis è tentare di ricostruire, se esistono, delle reti di coregolazione simultanea dei geni differenzialmente espressi e se esse possono fornire una spiegazione del fenomeno molecolare osservato attraverso i microarray. Da questi pathway infatti parte l’interpretazione biologica e l’annotazione dei dati. I dati di espressione genica differenziale dovrebbero essere infine resi pubblici in database appositamente creati a beneficio della comunità scientifica. Da questo punto di vista non esiste ancora un vero e prorpio obbligo ma una forte raccomandazione, anche se sempre più spesso le riviste pongono come condizione alla pubblicazione degli articoli che i dati sianostati resi pubblici scansione “gridding” e quantizzazione numerica delle intensità di fluorescenza estrazione delle intensità di “foreground” e di “background” “quality control” dei dati grezzi Quantizzazione dei dati grezzi applicazione di test statistici per determinare quali sono i geni differenzialmente espressi validazione dei risultati con RTq-PCR “pathway analysis” per l’interpretazione biologica dei risultati annotazione dei risultati nelle banche dati Pre-trattamento e normalizzazione dei dati sottrazione del “background” correzione degli errori sistematici attraverso la normalizzazione verifica dell’effetto del pre-trattamento dei dati Analisi statistica, validazione e annotazione dei risultati strutturazione secondo lo standard MIAME dell’informazione contenuta nell’esperimento sottomissione delle informazioni a database per la pubblicazione dei dati Sottomissione dell’esperimento a database pubblici
4
Categorie di esperimenti microarray
Da levare??? Class comparison Class prediction Class discovery Classi predefinite Confrontare il livello medio di espressione fra gruppi di campioni e stabilire quali sono i geni responsabili di eventuali differenze identificare geni differenzialmente espressi in differenti condizioni sperimentali: - campioni da linee cellulari che contengono BRCA1 mutato vs campioni che contengono BRCA1 non mutato - campioni di cervello di ratti trattati con un farmaco vs campioni di cervello di ratti non trattati Classi non predefinite I tipi di esperimenti che possono essere realizzati con microarray per l’analisi dell’espressione genica sono essenzialmente tre e si differenziano per lo scopo per il quale vengono progettati. Se l’intento è quello di stabilire se esiste una differenza nel livello di espressione genica fra due o più gruppi di campioni si parla di class comparison. Esempi di questo tipo di esperimenti sono l’esperimento che abbiamo realizzato per studiare gli effetti alla somministrazione prolungata di fenitoina su campioni di cervello di ratti trattati rispetto a campioni di cervello di ratti non trattati, oppure quello che realizzeremo per investigare il differente livello di espressione genica fra mRNA di campioni di linee cellulari HelaG1 nei quali è stato trasfettato il gene BRCA1 che contiene una mutazione rispetto a campioni nel quale è stato trasfettato BRCA1 non mutato. Differente è l’intento di un esperimento di class discovery. In questo caso la differenza di livelli di espressione viene utilizzata per trovare un sistema, se esiste, per classificare dei campioni. In questo caso non vengono definite a priori le classi di appartenenza e vengono analizzati i profili di espressione genica di ciascun individuo. I campioni vengono poi clusterizzati sulla base di somiglianze. E’ così che, p.es., si creano le tassonomie tumorali sulla base dei profili di espressione. Ancora diversi sono gli esperimenti di Class Prediction, che mirano a costruire profili genetici predittori di una particolare condizione sperimentale. Dopo aver definito chiaramente qual è l’interrogativo biologico al quale si vuole rispondere attraverso l’analisi dell’espressione genica è necessario pianificare con un procedimento che è differente per ciascuno dei tre casi il numero e la tipologia dei campioni da collezionare e i confronti che si vogliono realizzare con un opportuno disegno sperimentale. Questo seminario sarà incentrato sul disegno sperimentale per esperimenti di class comparison. Sviluppare profili di espressione genica differenziale da utilizzare come predittori dell’appartenenza di campioni a classi generazione di signature tumorali generazioni di profili di espressione che sono caratteristici di determinati stadi di crescita di una cellula Classi non predefinite Trovare un nuovo sistema di classificazione di campioni sulla base del profilo di espressione genica (cluster analysis) identificare nuove sottoclassi di tumori
5
Disegni sperimentali per class comparison
Non-Reference-sample (Ai, Bi,…): tutti i campioni di interesse biologico Reference-sample (R): campione senza significato biologico che serve da baseline comune per la valutazione dell’espressione relativa fra i non-reference-sample Il confronto fra le due classi è indiretto ed è realizzato attraverso il campione Reference (A vs R) vs (B vs R) Reference Design Loop Design Balanced Block Design I disegni sperimentali più largamente usati sono 3: il RD, il LD e il BBD. Nel RD inteso in senso classico il Reference non rappresenta una classe, cioè non sono interessato a confrontare ciascun campione direttamente con il reference, per cui se marco sempre con lo stesso fluorocromo il reference e sempre con l’altro i campioni non reference non devo correggere per il dye-effect gene specifico. Per dye-effect gene specifico si intende la capacità intrinseca di alcune sequenze nucleotidiche di incorporare più fluorocromo indipendentemente dal tipo di fluorocromo e dal tipo di campione. L’effetto globale di minor incorporazione, o minor brillantezza del fluorocromo rosso viene corretto con la normalizzazione globale del vetrino. Il RD ha diversi vantaggi: Il fold change viene ricavato come rapporto dei rapporti, per cui la spot-to-spot variation viene eliminata, dove si intende per spot-to spot variation la dipendenza del livello di espressione dalla morfologia dello spot. La determinazione dei fold change è più robusta perchè tutti i campioni vengono confrontati con lo stesso reference, per cui viene abbassata la varianza sperimentale. E’ robusto. Consente di fare confronti multipli fra tutti i campioni, quindi è il più adatto a fare class discovery e class prediction Performa bene anche quando la variabilità biologica è alta. Performa bene anche con molti campioni non-reference. E qualche svantaggio: Se non siamo interessati al confronto fra le due classi e il reference, cioè se il campione di reference non è una condizione sperimentale rispetto alla quale determinare la variazione di espressione, allora il RD è meno efficiente degli altri perchè colleziona la maggior parte delle info su un campione che non ci interessa. Il LD nasce come evoluzione del RD per migliorare l’efficienza a parità di numero di campioni ibridizzati. Infatti per 4 array, come nel disegno, anche se non aumenta il numero dei campioni ibridizzati, raddoppia il numero di misure per ciascun campione. Inoltre consente di fare clustering visto che è possibile effettuare tutti i confronti che servono tramite li loop. Tuttavia: visto che il confronto avviene fra campioni non reference devo correggere per il dye-effect gene specifico e per fare ciò sfrutto le due osservazioni che ho per ciascun gene nei due fluorocromi Questa efficienza rimane alta solo se il numero di campioni non reference non è alto. Aumenta la varianza delle misure perchè i confronti sono effettuati fra campioni non reference è sensibilissimo al cambiamento di mutazione di classe e ad array di qualità peggiore o inaccetabili che possono interromprere il loop rendendo l’esperimento inutile Non annulla la spot-to-spot variation (visto che lo stesso campione è confrontato ogni volta con due campioni differenti. L’ideale per abbattere questa variazione è il dye-swap puro). Il BBD abbatte la spot-to-spot variation perchè il livello di espressione di ciascun gene è misurato sullo stesso spot e sullo stesso array per due campioni appartenenti alle due classi da comparare. Esso è più efficiente del RD a parità di numero di array ibridizzati perchè consente di valutare con più precisione la media campionaria. Infatti il numero di copie biologiche che è possibile ibridizzare con un BBD è il doppio che per un RD. Tuttavia 1)Anche in questo caso devo correggere per il dye effect, che, essendo gene specifico e non campione specifico, può essere corretto sfruttando uno pseudo dye-swap. la robustezza del disegno è inferiore e la valutazione delle singole intensità è meno precisa. I non è consigliabile fare clustering perchè non c’è modo di confrontare ciascun campione di una classe con tutti gli altri dell’altra classe in maniera precisa. Il confronto fra le due classi è diretto. Ciascun campione è ibridizzato due volte, con due fluorofori, su due array differenti Il confronto fra le due classi è diretto. Per ciascun gruppo (classe) metà dei campioni sono marcati con un fluorocromo e metà con l’altro
6
Obiettivo dell’esperimento microarray
Precisione (efficienza) nella stima delle differenze fra le due classi Def: Efficienza ~ 1/varianza delle stime Come disegno un esperimento efficiente? “Posso comprare solo 10 array (non ho problemi a reperire campioni).” È chiaro dal discorso appena fatto che la decisione su quale disegno sperimentale adottare per il proprio esperimento và presa valutando l’efficienza dei diversi disegni e la sua capacità di far fronte agli interrogativi biologici ai quali vogliamo rispondere. Ma cosa significa efficienza? La letteratura ci dice che è efficace una soluzione che raggiunge l’obbiettivo per il quale è stata commissionata, mentre è efficiente una soluzione che non solo lo raggiunge, ma anche minimizzando i costi, cioè ho una soluzione ottimizzata. Se faccio centro sono efficace, se faccio centro al primo tentativo sono efficiente. Per noi l’efficienza si traduce nella capacità del disegno di minimizzare la varianza delle stime delle differenze fra due classi, cioè è proporzionale all’inverso della varianza delle stime. Essa và valutata per esperimenti equivalenti, cioè blocco il numero di array, oppure blocco il numero di campioni disponibili per l’esperimento e valuto l’efficienza. Questo si traduce nelle due classiche domande, mutuamente esclusive, che vengono poste durante la pianificazione di un esperimento, e cioè.... “Ho solo 10 campioni (non ho problemi a comprare array).”
7
“Posso comprare solo 10 array “
…ma posso collezionare i campioni che mi servono Efficienza: stima più precisa della media delle differenze fra le due popolazioni ibridizzazione di più campioni possibile sui microarray a disposizione Reference Design # sample per classe = 5 # array totali = 10 Loop Design # sample per classe = 5 # array totali = 10 In questo caso il disegno è tanto più efficiente se riesco ad avvicinarmi con la media campionaria valutata sui miei 10 array alla media reale dei log-ratio per ciascun gene, cioè è necessario ibridizzare quanti più campioni possibile sui microarray a disposizione. Generalmente si consiglia che i disegni siano sempre bilanciati, cioè che il numero degli appartenenti a ciascuna delle due classi sia uguale e questo è tanto più vero quanti meno sono i campioni che andiamo a valutare ed è addirittura obbligatorio per il BBD e per il LD. Per cui utilizzando i 3 disegni più diffusi possiamo posizionare 5 campioni per classe in un RD, sempre 5 per classe ma con il doppio delle osservazioni per ciascun gene e 10 campioni per classe con un BBD. Balanced Block # sample per classe = 10 # array totali = 10
8
“Posso comprare solo 10 array “
…ma posso collezionare i campioni che mi servono Balanced Block # sample per classe = 10 # sample totali = 20 RD LD BBD Il disegno efficiente in termini di una migliore rappresentazione dell’informazione alla quale siamo interessati è il BBD, che permette di osservare ben 20 campioni, 10 per ogni classe, e quindi di campionare più volte la differenza fra le due classi, avvicinandosi con maggior precisione alla media vera. Questo vantaggio avviene al costo di una perdita nella tolleranza alle variazioni, quindi in un certo senso, della robustezza. Significa che se dopo aver fatto l’esperimento viene modificata l’appartenenza ad una classe di qualche campione oppure se si verifica un problema sperimentale per cui qualche vetrino viene perso, si annulla velocemente il guadagno di efficienza. Se p. es. perdo un vetrino ne devo escludere due per mantenere il disegno bilanciato. La catalogazione dei campioni con il clustering avviene confrontando ciascun campione di una classe con tutti gli altri dell’altra classe, cioè su campioni individuali. Utilizzando un BBD è possibile, dopo aver normalizzato, separare i due canali e costruire la matrice dei campioni con i valori di intensità di tutti i trattati e di tutti i controlli, cioè ottenere quello che è il risultato di un esperimento con RD o LD, tuttavia nel caso del BBD con l’ibridizzazione unica di due campioni non-reference sullo stesso vetrino si crea fra di essi una forma di correlazione che è differente a seconda dell’accoppiamento fra campioni. Questa dipendenza, che viene arginata dal numero più alto di campioni si traduce in una stima meno precisa delle singole intensità e in una peggiore performance della classificazione. Inoltre nel BBD lo spot-effect si confonde con il sample effect, perchè ogni campione è visto una volta sola. Questa variabilità è tenuta a bada aumentando il numero di campioni e valutando la media delle differenze, mentre per clusterizzare i campioni ciascun individuo è preso come unità a sè, cioè mi interessa la precisione sulle singole misure. Svantaggi: - Poca tolleranza alle variazioni (variazione nell’appartenenza alle classi, perdita di un vetrino, etc)
9
“Ho solo 10 campioni “ …ma posso comprare gli array che mi servono
Efficienza: stima più precisa delle intensità dei singoli campioni ibridizzazione di più array Reference Design # sample per classe = 5 # array totali = 10 In questo caso il disegno è tanto più efficiente quanto più sono precise le stime delle singole intensità dei campioni. Il LD non è preso in considerazione perchè la valutazione sull’efficienza è in questo caso dipendente dal numero di array utilizzato, mentre questo non vale per RD e BBD. Cmq per il LD l’efficenza è mediamente più bassa del BBD. Per massimizzare l’efficienza con 10 campioni ibridizziamo 10 array con un RD e 5 con un BBD. Balanced Block # sample per classe = 5 # array totali = 5
10
“Ho solo 10 campioni “ Svantaggi:
…ma posso comprare gli array che mi servono Reference Design # sample per classe = 5 # array totali = 10 Svantaggi: - Collezione di innumerevoli informazioni “inutili” sul campione di Reference Il disegno più efficiente è il RD per tutte le caratteristiche di robustezza che abbiamo illustrato prima ed è tanto più efficiente rispetto al BBD quante più sono le classi da confrontare. RD BBD
11
Come si determina la numerosità n in maniera efficiente?
Non conosciamo le limitazioni sul numero di array da acquistare o di campioni da collezionare Per testare l’ipotesi nulla di assenza di espressione genica differenziale bisogna fissare: un livello α di significatività un livello 1-β di potenza l’effect-size δ da detettare (fold change) i livelli di varianza σ2 o τ2 dei dati il disegno sperimentale Passiamo ora alla fase di pianificazione dell’esperimento microarray. Ancora non sappiamo nè quanti campioni potremo collezionare, nè quanti array potremo acquistare, ma vogliamo dare una stima dei costi di un esperimento. Per testare l’ipotesi nulla di assenza di espressione genica differenziale è necessario fissare alcuni parametri che sono: ...... Questi parametri vengono combinati in due formule distinte per il calcolo della numerosità campionaria a seconda del disegno sperimentale scelto. Reference Design Balanced Block Design
12
RD e numerosità campionaria
n = # di array utilizzati α = = 0.1% β = 0.0595% di potenza δ = 1 Fold Change=2 σ = SD dei log-ratio per ciascuna classe variabilità biologica intra-classe + variabilità sperimentale z = percentili della distribuzione dei Fold Change n sarà il risultato del nostro calcolo. Se decido di voler utilizzare un RD n rappresenta il numero totale di array che dovrò utilizzare, che si traduce in n/2 campioni per classe. Alfa è la soglia che ci consente di accettare o rigettare l’ipotesi nulla di assenza di espressione genica differenziale. Esso rappresenta la quota di falsi positivi che siamo disposti ad accettare. La quota totale di falsi positivi accettabili in un test delle ipotesi è stabilita nel 5% per un test biomedico che non cerca significatività stringente e nel 1% in uno più conservativo. Ma poichè i test delle ipotesi sono tanti quanti sono i geni e sono tutti effettuati simultaneamente e la quota di errore rimane sempre la stessa, è necessario ripartire questa quota su tutti i test, cioè se ho geni la soglia diventa 0.05/44000 = c.a. 10^-7. Poichè questa operazione abbassa notevolmente la soglia per rigettare l’ipotesi nulla, abbassando la potenza del test se il numero di campioni resta lo stesso, il test diventa troppo conservativo. Per cui quello che solitamente si fà è ammettere di poter tollerare una quota di falsi positivi. Ecco che ne nostro caso si ammette di poter tollerare uno 0.1% di falsi positivi fra i nostri geni DE, che corrisponde a 10 geni su La soglia di potenza viene generalmente posizionata a 80%, ma per gli esperimenti microarray è necessario essere meno tolleranti e spostarla al 95%. Delta è il nostro effect-size cioè lo scostamento di fold change che vogliamo osservare con la significatività e la potenza che abbiamo fissato. Questo significa che effect-size più piccoli, seppure significativi nel nostro esperimento non è detto che siano ripetibili, cioè che se rifaccio l’esperimento con lo stesso materiale tornino significativi. Sigma è la deviazione standard dei log-ratio per ciascuna classe, cioè la SD dei delta, ed è un dato che andrebbe misurato con un esperimento preliminare. Essa misura la variazione dei log-rtaio dovuta alla metodica, cioè la sperimentale, e quella imputabile alle differenze fra campioni appartenenti alla stessa specie. Siccome stiamo utilizzando un Reference design, possiamo ipotizzare che studiando le fluttuazioni del reference sia possibile contenere la varianza sperimentale...ma a noi non interessa studiarla, vogliamo solo eliminarla. A fare questo ci pensa la normalizzazione Between Arrays che ha, appunto, lo scopo di uniformare i valori di intensità fra array, p.es. uniforma i valori di intensità delle osservazioni collezionate sui reference abbassando la variabilità sperimentale su tutto l’esperimento. Ecco in cosa stà la robustezza del RD: la varianza sui valori di intensità per tutti i campioni appartenenti alla stessa classe è solo quella biologica. Z rappresentano i percentili della distribuzione dei fold- change per ciascun gene. I percentili dividono la distribuzione dei fold change in cento parti uguali. P.es. la mediana è il cinquantesimo percentile, cioè il valore dopo il quale c’è il 50% dei dati. Per un numero sufficientemente alto di campioni questa distribuzione dovrebbe essere normale.
13
BBD e numerosità campionaria
n = # di campioni utilizzati = # array utilizzati α = = 0.1% β = 0.0595% di potenza δ = 1 Fold Change=2 τ = SD dei log-ratio per ciascuna classe variabilità biologica inter-classi + variabilità sperimentale τ 2 = 1.8 σ2 σ = 0.5 τ = 0.67 σ = 0.25 τ = 0.33 z = percentili della distribuzione dei Fold Change Tau è la deviazione standard dei log-ratio inter-classi, cioè la SD dei delta. Tau è più grande di sigma e ciò è dovuto al fatto che oltre a misurare la variabilità sperimentale, misuriamo la variabilità biologica fra classi sperimentali differenti, che è più ampia di quella intra-classe. Inoltre in tau rientra anche la variabilità dovuta all’accoppiamento casuale dei campioni. Se si ammette che nel BBD la variabilità biologica sia otto volte quella sperimentale (considerate tutte le fonti che contribuiscono ad essa nel BBD non è poi così inverosimile ed è stato sperimentalmente documentato) e considerato che esiste una relazione matematica che lega sigma del RD a Tau del BBD è possibile calcolare il numero di campioni che ci servono per osservare 2 FC con la formula sopra e con la simulazione che abbiamo appena visto.
14
Fase “wet” di un esperimento microarray
Estrazione mRNA Retrotrascrizione e Marcatura Ibridazione Scansione S4 Più nel dettaglio la parte di esperimento realizzata in laboratorio e che porta all’ibridazione del vetrino e successiva generazione dell’immagine si articola essenzialmente in quattro passaggi…. L’estrazione dell’mRNA dai campioni di interesse La retrotrascrizione in cDNA e la marcatura con i due fluorofori. I due campioni di cDNA marcato andranno a formare la mix di ibridazione. L’ibridazione overnight sul vetrino, per consentire l’appaiamento alle sonde La scansione con uno speciale scanner a doppio laser che eccita differenzialmente i due fluorofori e acquisisce separatamente i segnali di fluorescenza provenienti da essi.
15
Scansione del vetrino Scanner a due laser
Lunghezze d’onda di eccitazione dei fluorocromi 635 nm - Red 532 nm - Green Canali separati in acquisizione formazione di due immagini Codifica su 16 bit 2^16 = livelli di colore Occupazione di memoria 130 MB c.a.
16
Metodi di visualizzazione dei dati
Scatterplot MAplot A =½ log (R*G) M = log (R/G) Imageplot Boxplot PCA 2D S13 … Metodo per ridurre la rappresentazione dell’espressione genica ad uno spazio basso-dimensionale in modo da evidenziare (amplificare) le somiglianze Si cercano le direzioni rispetto alle quali i dati presentano la variabilità (informazione) maggiore e si riduce la rappresentazione solo a quelle direzioni che la “spiegano” (rappresentano) maggiormente Su uno spazio delle osservazioni ridotto è più facile individuare una somiglianza e applicare un algoritmo di clustering Aiuta a minimizzare la rumorosità dei dati (noisy gene)
17
Metodi di sottrazione del “background”
Subtract In = If – Ib Minimum In = If – Ib se I>0 In = min(If – Ib >0) se I<0 Normexp+offset (Ritchie et al, 2007) Ib ~ N(μ, σ2) If ~ exp(λ) S14 L’intensità del background viene rilevata sulle zone adiacenti lo spot e successivamente quantizzata. Tale segnale si somma a quello proveniente dalle sonde marcate e ibridizzate specificamente per cui è necessario ottenere un segnale ripulito prima di procedere ai passi successivi dell’analisi. Gli spot che presentano un foreground non sufficientemente più alto di quello del background vengono generalmetne scartati. I metodi che consentono di raggiungere questo risultato sono essenzialmente tre: subtract, minimum e normexp+offset. Non esistono vere e proprie linee guida sulla necessità di fare la sottrazione del background, ma ci sono delle indicazioni che consentono di scegliere fra i differenti metodi quello che rende minimi gli svantaggi dell’applicazione di questa operazione. Due sono gli svantaggi principali: la perdita degli spot a bassa intensità e l’aumento della variabilità alle basse intensità, che si ripercuote sull’analisi successiva.
18
Risultati Dati grezzi Subtract Minimum Normexp+ offset S15
I grafici visualizzati sono vengono denominati MAplot e hanno sulle ascisse la media geometrica delle intensità dei due canalie mentre sulle ordinate vi è il logaritmo del rpaporto fra il canale rosso e quello verde. Un buon metodo di sottrazione deve riuscire a ripulire i dati mantenendo o migliorando la distribuzione dei dati grezzi. La frastagliatura che si osserva nel MAplot in alto a dx è dovuta appunto alla sottrazione con il metodo subtract. L’aumento di variabilità alle basse intensità può contribuire a fare perdere significatività ai dtai e a destabilizzare le successive tecniche di correzione. Il metodo minimum recupera l’effetto ventaglio, producendo però un appiattimento della distribuzione alle basse intensità. L’applicazione dle metodo normexp invece non ha prodotto aumento della varianza e l’uso du un offset, cioè di una variabile additiva, ha consentito di conservare l’andamento della distribuzione dei dati, per cui si prefigura come il metodo più utile alla corretta sottrazione del background. Minimum Normexp+ offset
19
Metodi di normalizzazione
Correzione degli errori sistematici generati dalla procedura sperimentale Diversa efficienza di incorporazione dei due fluorocromi; Diversa efficienza di emissione dei due fluorocromi; Diversa efficienza dello scanner nel leggere i due canali. Sistema di rivelazione per fluorescenza S16 La normalizzazione di dati serve a correggere gli errori sistematici generati dalla procedura sperimentale. Tali errori sono generalmente legati al sistema di rivelazione per fluorescenza e si ripercuotono sui dati i maniera intensità dipendente, come si può osservare nello scatterplot centrale e nel MAplot a destra.
20
Metodi di normalizzazione within array
Ciascun array viene normalizzato separatamente Obiettivo: centrare su ciascun array la distribuzione dei log-fold-change ed eliminare gli errori intensità-dipendenti - Trasformazione linlog per attenuare l’effetto della sottrazione del rumore alle basse intensità, i dati di intensità sono presi in scala lineare alle basse intensità e in scala logaritmica alle medie e alte intensità - Metodo globale: median o centraggio della mediana valutazione dello scostamento della mediana (o media) della distribuzione reale dei log-fold-change da quella ideale ed eliminazione - Metodo intensità-dipendente: LOESS interpolazione di polinomi di primo e secondo grado a finestre di dati per determinare la “smoothing curve”. Tale curva viene utilizzata sulla visualizzazione MA dei dati per riportare la distribuzione reale dei dati a quella reale S17 L’ipotesi che consente di applicare la normalizzazione ai dati è che la maggior parte dei geni presenti sul vetrino è non differenzialmente espressa, quindi la maggior parte degli spot deve avere log fold-change pari a 0. La trasformazione linlog considera che la componente di rumore può essere considerata additiva alle basse intensità e moltiplicativa per le medie ed alte intensità. Per questo motivo un’appropriata trasformazione dei dati alle basse intensità sarà lineare, mentre dovrà essere logaritmica per le altre intensità. Il metodo median calcola la mediana della distribuzione logaritmica dei fold-change e la sottrae o la somma per centrare la distribuzione sullo zero Il metodo loess fa scorrere una finestra si dati e istante per istante interpola un polinomio di secondo grado generando una curva di smoothing che utilizza per riportare la distribuzione reale a quella attesa. Il metodo scale riscala la varianza fra array. Il metodo di normalizzazione quantile modifica i valori delle singole intensità in modo che essi abbiano la stessa distribuzione su uno o su entrambi i canali di tutti gli array.
21
Metodi di normalizzazione between arrays
Tutte le copie biologiche dello stesso gruppo vengono normalizzate insieme Obiettivo: eliminare gli errori sistematici che possono rendere eterogenei array biologicamente simili - Metodo scale riscalatura della dispersione dei log-fold-change fra array per equilibrare i valori di M fra array - Metodo di sostituzione dei quantili: quantile riscalatura dei valori delle intensità assolute fra array per uniformare le distribuzioni
22
Risultati linlog median LOESS S18
La trasformazione linlog ha prodotto una effettiva diminuzione della varianza alle basse intensità. Il metodo medianha semplicemente spostato la distribuzione dei dati senza correggere la tendenza non lineare, mentre la loess questo andamento riequilibrando anche il range di emissione fra i due canali, come si può notare dall’imageplot linlog median LOESS
23
Risultati scale S20 il metodo scale ha riequilibrato le scatole dei boxplot
24
Risultati Mentre il metodo quantile applicato allo stesso campione di riferimento marcato in rosso e presente su tutti e 15 gli array ha reso le intensità omogenee fra vetrini. quantile
25
Risultati Si visualizzano tre cluster: il primo relativo ai dati di espressione normalizzata della corteccia frontale, il secondo…. Le due componenti principali suddividono i dati in base alla differenza intrinseca di profilo di espressione genica dei due tessuti non sottoposti a trattamento e alla diversa responsività delle due aree cerebrali al trattamento.
26
Esperimento ApoAI Knockout
Materiali e metodi: - 16 topi C57BL/6 “black six” - in 8 topi è stato “spento” il gene che codifica per l’apolipoproteina AI - per ciascun topo è stato estratto l’RNA dal fegato, è stato isolato l’mRNA, è stato retrotrascritto in cDNA e marcato con un fluorocromo rosso Cianina Cy5 - il cDNA marcato di ciscun topo è stato mescolato con un’aliquota di un campione di riferimento, ottenuto facendo il pool degli RNA degli 8 topi di controllo e marcando il materiale così ottenuto con il fluorocromo verde Cianina Cy3 - le 16 miscele sono state ibridizzate su 16 microarray distinti
27
Esperimento Swirl zebrafish
Materiali e metodi: - 2 pesci zebra - in 1 pesce è presente una mutazione sul gene BMP2 - per ciascun pesce è stato estratto l’RNA, è stato isolato l’mRNA, è stato retrotrascritto in cDNA. Il cDNA di ogni pesce è stato diviso in quattro aliquote. - Due aliquote di cDNA di pesce mutato sono state marcate con il fluorocromo rosso Cianina Cy5 e le altre due con il fluorocromo verde Cianina Cy3. Analogamente per il cDNA del pesce wild-type. - il disegno sperimentale è di tipo diretto con dye-swap
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.