Microarray Technologies

Slides:



Advertisements
Presentazioni simili
FUNZIONI REALI DI DUE VARIABILI REALI
Advertisements

Geni costitutivi e non costitutivi
ERRORI L'errore è presente in ogni metodo analitico e può essere dovuto a cause diverse. L’errore può essere definito come la differenza tra il valore.
Sistemi di supporto alle decisioni 2. Features space
Corso di ingegneria genetica
Apprendimento Non Supervisionato
Appunti di inferenza per farmacisti
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Access: Query semplici
La Rappresentazione cartografica
Metodi basati sulle similitudini per dedurre la funzione di un gene
Modello di regressione lineare semplice
Analisi delle corrispondenze
Analisi dei gruppi – Cluster Analisys
Intelligenza Artificiale Algoritmi Genetici
Apprendimento Automatico Calcolo Evoluzionistico Stefano Cagnoni.
Array di oligonucleotidi
Ricerca quantitativa e ricerca qualitativa. Contenuti della lezione Lapproccio quantitativo Lapproccio quantitativo Lapproccio qualitativo Lapproccio.
Software usati in proteomica
© Copyright - Consoli – Trinaistich - Astorina
È stimato che oggi sulla terra sono presenti
Grandezze e Misure.
Perché Real-Time? Real time PCR Analisi PCR quantitativa
Le distribuzioni campionarie
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
Clonaggio: vettori plasmidici
TRATTAMENTO DEI DATI ANALITICI
Trasferimento secondo Southern (Southern blot)
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS
Cenni teorici. La corrente elettrica dal punto di vista microscopico
UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Espressione genica External input Endogenous input S2
Grandezze e Misure
Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.
Fabio Garufi - TAADF Tecniche automatiche di acquisizione dati Sensori Prima parte.
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Il residuo nella predizione
Computational analysis of data by statistical methods
INTRODUZIONE ALLA DISPERSIONE DEGLI INQUINANTI IN ARIA
Computational analysis of data by statistical methods
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Tecniche di analisi matematica. Gli studi di autenticazione e di tracciabilità sugli alimenti sono generalmente effettuati individuando variabili chimico-fisiche.
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.
ESPERIMENTO DI RÜCHARDT
Cenni di Bioinformatica
Dal neolitico al Xxi secolo.
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
PROBABILITÀ Corsi Abilitanti Speciali Classe 59A III semestre - 2.
POSTGENOMICA O GENOMICA FUNZIONALE
Corso di Laurea in Scienze e tecniche psicologiche
Tecniche della Biologia Molecolare
Era PostGenomica Sara Palumbo
TRATTAMENTO STATISTICO DEI DATI ANALITICI
POLIMERASE CHAIN REACTION (PCR)
Arrays di acidi nucleici
Clonaggio per espressione e clonaggio funzionale
I GRAFICI – INPUT 1.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Proprietà macromolecolari Il calcolo delle proprietà macromolecolari implica l’utilizzo della statistica della catena polimerica in termini di distanze.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Gli strumenti di misura
Corso PAS Misure, strumenti ed Errori di misura Didattica del Laboratorio di Fisica F. Garufi 2014.
4. Controllo Giulio Vidotto Raffaele Cioffi. Indice: 4.1 Strategie generali 4.2 Strategie specifiche 4.3 Ripetizione 4.4 Metodi per aumentare la validità.
1 TEORIA DELLA PROBABILITÁ. 2 Cenni storici i primi approcci alla teoria della probabilità sono della metà del XVII secolo (Pascal, Fermat, Bernoulli)
Microarrays di DNA, cDNA e oligonucleotidi
POSTGENOMICA O GENOMICA FUNZIONALE
POSTGENOMICA O GENOMICA FUNZIONALE
Transcript della presentazione:

Microarray Technologies Tecnologie high throughput per l’analisi contemporanea di molecole biologiche

Il genoma: informazione “quasi” stabile Nello stesso organismo tutte le cellule hanno lo stesso genoma (o quasi) - Come mai i diversi tessuti sono “diversi” ? Due cloni hanno lo stesso genoma, ma molto probabilmente manifesteranno fenotipi diversi. - Stimoli ambientali diversi? Il genoma delle cellule di uno stesso organismo è costante nel tempo (o quasi) - Condizioni ambientali in evoluzione

Programma ed I/O Stesso Programma Output variabile Stesso Genoma Tanto cibo Poco cibo Stesso Programma Output variabile Stesso Genoma Peso variabile

L’era Post-Genomica DNA RNA PROTEINE (ENZIMI) FUNZIONE (METABOLISMO) CONTROLLO DELL’ESPRESSIONE GENICA DNA RNA PROTEINE (ENZIMI) FUNZIONE (METABOLISMO) Genomica Trascrittomica Proteomica Metabolomica trascrizione traduzione Modificazioni post-traduzionali, etc…

Dal approccio a “singolo gene” verso quello a “larga scala” L’approccio Globale Dal approccio a “singolo gene” verso quello a “larga scala” ONE-GENE APROACH Real Time PCR PCR semiquantitativa Ibridazione DNA genico o cDNA con RNA totale o poly(A)+RNA (Northern blot) Ibridazione in situ LARGE SCALE APROACH Sequenziamento sistematico di ESTs da librerie di cDNA SAGE (Serial Analysis of Gene Expression) cDNA microarrays

APPROCCIO SCIENTIFICO ed ANALITICO CLASSICO L’approccio Globale MECCANICISMO In senso filosofico indica la concezione del mondo che si basa sui corpi e sui loro movimenti spaziali, coincidendo con i fondamenti del materialismo. Nel pensiero greco il M. si esprime soprattutto attraverso la teoria atomistica di Demostene e Leucippo. A partire dal XVII secolo, parallelamente ai moderni sviluppi della fisica e della matematica, il M. venne ripreso come ipotesi di spiegazione della totalità dei fenomeni naturali da Galileo ed in particolare da Descartes (v.). Esso trova poi una compiuta formulazione filosofica in Hobbes, e si sviluppa nel XVIII secolo specialmente all’interno dell’illuminismo francese. I caratteri principali che il M. assume entro questo quadro sono il rigoroso determinismo (necessaria causalità dei fenomeni naturali) e l’antifinalismo (negazione di ogni ordine finalistico). In senso scientifico il M. si caratterizza come principio direttivo una volta che le leggi della statica e della dinamica siano state determinate da Galileo e Newton: il M. è così la rivendicazione della priorità della meccanica e delle sue leggi sopra tutti gli altri aspetti della scienza fisica. Nel corso del XIX secolo si affermano tesi analoghe anche nel campo della biologia, della psicologia e della sociologia, tesi chiamate riduzionistiche (riduzione delle leggi biologiche a quelle fisico chimiche): nei primi decenni del XX secolo tali tesi sono state però messe decisamente in crisi dagli stessi sviluppi della ricerca scientifica, come dimostrato dai clamorosi risultati delle ricerche condotte da Ilya Prigogine (v.), premio Nobel 1977 per la chimica. TESI RIDUZIONISTICHE E APPROCCIO SCIENTIFICO ed ANALITICO CLASSICO

Approccio Analitico Classico: L’approccio Globale Perché usare l’approccio su larga scala? Approccio Analitico Classico: Il problema complesso viene scomposto nelle sue componenti che vengono analizzate singolarmente. Riduzionismo Il tutto è la somma delle parti Approccio Globale: Tutte le componenti del sistema complesso vengono considerate contemporaneamente perché interconnesse. Biologia dei Sistemi Complessi Il tutto NON è la somma delle parti

DNA Microarrays Diverse migliaia (fino anche a 30.000 geni) posso essere rilevati simultaneamente in un unico esperimento 2 diversi canali possono essere utilizzati simultaneamente per visualizzare le differenze nei profili di espressione di 2 campioni.

Come funzionano i Microarray?

Diversi tipi di Microarray - cDNA Microarray Più vecchi, meno efficienti. I geni target immobilizzati sulla slide sono costituiti da cDNA. La lunghezza media è elevata può arrivare anche a qualche kilobase (cDNA full lenght). Aspecificità. Oligo Array Più efficienti dei cDNA Microarray. Le librerie di oligo devono essere progettate con cura. Gli oligo utilizzati sono di solito 70meri. Risposta più specifica. -Affymetrix chips Realizzati tramite tecniche microlitografiche. Oligo molto corti. Utilizzo di Probe set. Tecnologia Single Channel.

Produzione delle Slides cDNA Microarray Produzione delle Slides Per prima cosa dobbiamo avere una collezione di cDNA da utilizzare come sonde per la realizzazione del sistema. RNA → cDNA → Clonaggio → Sequenziamento Spotting: Utilizzando un Robot i cDNA ottenuti per PCR dai cloni vengono depositati sulle slides. Deve esistere un file che associ ad ogni posizione nell’array il gene corrispondente. Crosslinking: I cDNA vengono immobilizzati sulla slide utilizzando raggi ultravioletti o calore.

Produzione delle Slides cDNA Microarrays Produzione delle Slides Spotting Technologies: Ink-jet Microspotting meccanico per capillarità

Produzione delle Slides cDNA Microarrays Produzione delle Slides

cDNA Microarrays Pro: i cDNA sono facili da ottenere. Cons: L’ibridazione aspecifica può inquinare i dati e rendere il sistema meno sensibile.

Oligo Microarrays Sequenze oligonucleotidiche rappresentative di un gene. Lunghezza intorno a 70 nucleotidi. Maggiore energia nel crosslink Cinetica di ibridazione diversa (sintesi di cDNA sample più corti)

Oligo Microarrays Pros: Specificità dell’ibridazione aumentata (a patto di aver effettuato un buon disegno sperimentale), miglioramento della sensibilità. Possibilità di avere una discriminazione qualitativa delle mutazioni. Cons: Necessarie concentrazioni superiori di oligo. Non tutti i laboratori sono in grado di sintetizzare oligo. Costi leggermente superiori

Affymetrix Technology E’ una tecnologia proprietaria per la realizzazione di microarray oligonucleotidici tramite microlitografia. Gli oligo vengono sintetizzati direttamente sulle slides. Gli oligo sono molto corti (circa 25 nucleotidi). Un gene è identificato da più di uno spot (probeset). Utilizzati in esperimenti single channel

Affymetrix Technology Single-channel? Come funziona? L’output della scansione fornisce livelli assoluti di espressione per i singoli geni, che è una misura diretta della quantità di mRNA prodotto per quel gene. Non è basato sul rapporto dei livelli forniti da due campioni. Il livello di espressione del gene è derivato dai valori dell’intero probeset.

Affymetrix Technology Pros: la misura è diretta ed indipendente. Alta efficienza. Protocolli notevolmente standardizzati. Cons: le nuove versioni del chip sono incompatibili con le precedenti a livello dati (impossibile effettuare un merge per aumentare il dataset). Tecnologia proprietaria.

Microarrays dual channel Ibridazione del cDNA sample Estrazione dell’RNA da 2 sistemi che si vogliono confrontare Sintesi cDNA Marcatura cDNA con dyes fluorescenti Ibridazione Scansione L’bridazione può tollerare piccoli mismatch. Le condizioni di ibridazione e lavaggio devono essere ottimizzate per mantenere i mismatch sotto una certa soglia I cDNA dei due campioni devono essere utilizzati in quantità bilanciate

La scansione delle slides

cDNA Microarrays Scansione della slide Il cDNA proveniente da un campione sarà marcato con un dye che emette fluorescenza rossa mentre l’altro sarà marcato con un dye che emette fluorescenza verde Colore Rosso: il campione rosso sovraesprime quel gene rispetto al campione verde (che normalmente è il controllo) Colore Giallo: entrambi i campioni esprimono quel gene con la stessa intensità Colore Verde: il campione rosso sottoesprime il gene rispetto al controllo.

Le immagini Acquisizione di 2 immagini (una per ogni lunghezza d’onda/dye) In fase di acquisizione si cerca di bilanciare i due canali. Identificazione degli spots (corrispondente ad matrice testuale 2d tramite una griglia di spots) Calcolo e sottrazione del background Flaging automatico e manuale delle immagini Produzione dei log ratios Log Sample1 Sample2

Analisi dell’immagine È necessario passare dall’immagine a valori numerici che rappresentano l’intesità del segnale per ogni spot. Addressing: individuare gli spot. Segmentation: definire la forma geometrica che delimita lo spot dal background. Flagging: distingue i good spots dai bad spots. Information extraction: calcolare l’intesità del segnale e del background su entrambi i canali per ogni spot nell’immagine.

Addressing E’ il processo di assegnare le coordinate (x,y) ad ogni spot. Di solito viene effettuato automaticamente da un software che cerca di effettuare la migliore sovrapposizione della griglia teorica (costruita in fase di progettazione dell’array) sull’immagine. Normalmente Il risultato deve essere controllato e validato dall’utente.

Fixed Circle Segmentation Adaptative Circle Segmentation Adaptative Shape Segmentation Vengono considerati pixel dello spot, quelli all’interno ad un cerchio di diametro fisso. Facile da implementare ma suppone che gli spot abbiano lo stesso diametro. Per ogni spot ne viene stimato il diametro. Si calcola l’intensità dello spot al variare di uno degli assi. Il diametro sarà la distanza tra i due massimi della derivata seconda. Non va bene se gli spot non presentano una forma perfettamente circolare. Si selezionano due pixel dal rettangolo contenente lo spot: Il pixel di intensità massima (s) e il pixel di intensità minima (e). U = {s}. Si aggiungono in maniera incrementale punti ad U garantendo che i punti aggiunti siano attigui a quelli già presenti e la cui luminosità supera una soglia che dipende da s ed e.

Estrazione delle intensità Il livello di espressione genica per un gene corrispondente ad uno spot è proporzionale alla luminosità totale generata dallo spot stesso. Si considera intensità dello spot la media (oppure la mediana) dei pixel appartenenti allo spot. All’intensità misurata contribuiscono però anche altri fattori come ibridazione non specifica e composti chimici sul microarray.

Background Il cDNA può restare attaccato alla superficie della slide in maniera aspecifica (senza andare incontro ad imbridazione). Questo può dare luogo a background. Per identificare il livello del background presente in ogni spot possiamo: Calcolare il background locale Fare un esame morfologico Sottrarre un background costante Non apportare alcuna modifica

Preprocessing dei Dati Dai raw data dobbiamo estrarre l’informazione. Per evitare di estrarre informazioni sbagliate dobbiamo cercare di eliminare l’influenza dell’errore sperimentale Nella cellula (condizione reale) Nei risultati (condizione dedotta) sample1 sample2 sample1 sample2 Gene A 30 30 = Gene A 30 45 - Gene B 10 30 - Gene B 10 45 - Gene C 50 20 + Gene C 50 30 + Il sample2 viene sovrastimato di 1,5 volte. Per riportare i valori alla normalità basta dividere ogni valore per 1,5 NORMALIZZAZIONE

Preprocessing dei Dati Normalizzazione: processing dei dati all’interno della stessa ibridazione. Standardizzazione (o Normalizzazione tra gli array): processing dei di tutti gli esperimenti (rende i dati paragonabili tra loro e quindi utilizzabili nello stesso processo di analisi)

Normalizzazione Perché normalizzare? R G Ibridazione dello stesso campione su due canali R G L’allontanamento dalla linea x=y è dovuto a errori random e sistematici

Normalizzazione Selezione dei geni per BIAS correction TUTTI I GENI Normalizzare i dati provenienti da una ibridazione self-to-self è banale, ma come ci si comporta con i dati di un esperimento in cui ogni canale (od ogni array nel caso della standardizzazione) rappresenta una diversa sorgente? Selezione dei geni per BIAS correction TUTTI I GENI Assunzione: la maggior parte dei geni sono espressi in maniera uguale nelle cellule paragonate, mentre solo una piccola parte dei geni è differenzialmente espressa (<20%). Geni Housekeeping Assunzione: sulla base della conoscenza biologica un set di geni può essere considerato come egualmente espresso nei campioni comparati. Spiked-in controls Alcuni controlli vengono immessi nei campioni a concentrazioni note per tarare il sistema Invariant set Un set di geni viene individuato come costante senza nessuna conoscenza biologica di partenza.

Metodi di normalizzazione Normalizzazione globale (SCALING) Un singolo fattore di normalizzazione (k) è calcolato per il bilanciamento dei chip o dei canali. Xinorm = k*Xi In questo modo si equalizza la media delle intensità 2) Normalizzazione intensità dipendente (Lowess o Loess - Locally Weighted Linear Regression) Invece di un singolo fattore si utilizza una funzione che compensa i bias intesità-dipendenti.

I vantaggi di Lowess High intensities M>0: Cy3>Cy5 La normalizzazione globale è inefficace nella correzione degli errori intesità-dipendenti. Il grafico evidenzia come l’utilizzo di un singolo parametro non è sufficiente allo scopo. M = log(Cy3/Cy5) Low intensities M<0: Cy3<Cy5 A

Evoluzioni di Lowess Print Tip Normalisation for cDNA and Oligo Arrays Print Tip Lowess L’attuale processo di fabbricazione degli array prevede l’utilizzo di robot che applicano i probes attraverso delle punte (capillarità) o degli ugelli (ink-jet). L’usura o le piccole differenze di fabbricazione di queste unità possono introdurre errori sistematici.

Software Tools Bioconductor: pacchetto di applicazioni per il preprocessing e l’analisi dei dati microarray per l’ambiente statistico open source R BRB: plugin per Excel. Interfaccia intuitiva, facile da usare ma meno potente e customizzabile.

Analisi dei dati Cosa vogliamo sapere dai nostri dati? Quali geni sono responsabili delle differenze tra la condizione A e la condizione B (geni differenzialmente espressi) Quali geni si muovono insieme, nella modalità di espressione, all’interno di uno stesso campione (geni coespressi) Esiste un “classificatore” che ci permette di riconoscere su base molecolare una data condizione?

Analisi dei dati Da cosa partiamo?

Clustering Metodiche per il raggruppamento dei geni (e dei campioni) che mostrano un comportamento simile dal punto di vista dell’espressione. Il Clustering gerarchico raggruppa i geni ed i campioni in gruppi via via sempre più stretti contenenti geni via via sempre più simili nell’espressione. E’ possibile quindi identificare una gerarchia ed un grado di “parentela” tra i diversi gruppi ottenuti.

Clustering Due geni che mostrano un pattern di espressione genica simile si possono considerare coespressi. Ci sono evidenze che molti geni funzionalmente correlati sono coespressi. Ad esempio geni codificanti per elementi di un complesso proteico solitamente hanno simili pattern di espressione. Geni coespressi possono dare informazioni sui meccanismi regolatori. Se un sistema regolativo controlla due o più geni questi risulteranno essere coespressi.

Clustering Sia M uno spazio metrico con su definita una metrica d. Sia S un insieme a elementi in M (es: un insieme di pattern di espressione). Un k-clusering di S è una qualunque partizione di S in k sottoinsiemi disgiunti detti cluster. C1,C2,…,Ck Lo scopo del clustering è individuare il k-clustering “migliore”, cioè tale da minimizzare una funzione obbiettivo F(C1,C2,…,Ck)R

Clustering K-means (MacQueen, 1967) Si scelgono k rappresentanti a caso tra i punti in S. Si associa ogni punto in S al rappresentante più vicino ottenendo k cluster. Si ricalcolano i k rappresentanti (prendendo il punto medio del cluster). Si ripete dal punto 2 finché si ha una variazione significativa nei centroidi o si è raggiunto un numero massimo di iterazioni.

Clustering Metriche tra cluster: Single linkage Complete linkage Gerarchici (Johnson, 1967) Inizialmente un cluster è composto da un solo elemento (avremo quindi n cluster). In ogni iterazione si identificano i due cluster che risultano essere più vicini (usando una metrica tra cluster) e questi verranno fusi insieme generando un unico cluster. Si ripete finche non rimangono k cluster.20 Metriche tra cluster: Single linkage Complete linkage Average linkage

Clustering Una situazione ideale

Ma il clustering funziona? La qualità delle pubblicazioni scientifiche sui Microarray non è molto buona. Perché? I sistemi biologici sono troppo complessi per un approccio di questo tipo. Network biologiche capaci di adattarsi -> uso altamente integrato dell’informazione. Lo stesso fenotipo si può manifestare tramite molteplici vie.

Ontology based analysis GRUPPO 1 Ciclo di Cori Proteine di membrana Metabolismo del glucosio Ciclo dell’ urea GRUPPO 2 Metabolismo del glucosio Proteine di membrana Sintesi ormoni ciclo ovarico

Biclustering OK OK NO!!! OK OK NO!!! Gruppo1 Gruppo2 Gruppo1 Gruppo2 OK OK NO!!! OK OK NO!!! Ci proponiamo di individuare tutti i biclusters che possano rappresentare (nel loro insieme) il profilo di espressione di ognuno dei gruppi. I membri di un gruppo possono presentare uno o più biclusters, non necessariamente tutti. Clustering

Altri tipi di microarrays Protein chip (interazione proteina-anticorpo SELDI TOF Suddivisione dell’estratto proteico in gruppi di proteine a reattività comune Frammentazione delle proteine Analisi quali-quantitativa tramite spettrometria di massa

Letture consigliate Contro l’insonnia