Chiara Scapoli Dipartimento di Biologia Università di Ferrara Analisi genetica di patologie complesse attraverso studi di associazione: Sclerosi Multipla e Parodontite Aggressiva Chiara Scapoli Dipartimento di Biologia Università di Ferrara
Con il termine di patologie complesse multifattoriali vengono indicate una serie di malattie comuni causate da interazioni multiple di diversi geni che interagendo tra loro e con fattori ambientali di rischio creano un gradiente di suscettibilità genetica alla patologia
Associazione allelica o Linkage disequilibrium (LD) Con il termine di LD si intende l’associazione statistica non casuale tra alleli a due diversi loci SELEZIONE NATURALE TEMPO (n° generazioni) DERIVA GENETICA STORIA della popolazione MUTAZIONI RICOMBINAZIONE
i figli ereditano differenti regioni cromosomiche dai loro genitori effetti della ricombinazione sui cromosomi all’interno di una famiglia il nipote eredita regioni cromosomiche appartenenti a tutti i 4 cromosomi dei nonni i figli ereditano differenti regioni cromosomiche dai loro genitori
a b c d e f g h a b c d f g h E a b c d f g h Fondatore Discendenteattuale
Popolazione attuale affetta Fondatore Popolazione attuale affetta Regione cromosomica condivisa “per discesa”
Associazione allelica o Linkage disequilibrium (LD) Con il termine di LD si intende l’associazione statistica non casuale tra alleli a due diversi loci Locus malattia ? (allele D) Locus malattia ? (allele d) Locus marcatore: allele B AC CE FG BA BE BC Locus marcatore: allele -
Misura dell’associazione allelica B b A B A b a B a b Siano pAB, pAb, paB, pab le frequenze dei quattro possibili aplotipi (=combinazioni di alleli) La misura di associazione allelica tra i due loci nello stesso gamete è: D = pAB * pab - pAb * paB La condizione di equilibrio è caratterizzata da D=0 (gli alleli A e B sono egualmente distribuiti negli aplotipi in accordo con le loro frequenze alleliche); D=1 indica “disequilibrio completo”
Misure di associazione allelica Coefficiente D (Lewontin & Kojima, 1960) D=PAB - PAPB = PAB Pab - PAbPaB Coefficiente D’ (Lewontin, 1964) D’ = D/DMAX DMAX min{ PAPb, PaPB } per D>0 DMAX min{ PaPb, PAPB } per D<0 Coefficiente r² (Hill & Robertson, 1968) r²=D/(PA*Pa*PB*Pb) Coefficiente (Malécot, 1943, 1966) =D/(PA*PB) Coefficiente d (Nei & Li, 1980) d = D/(PB*Pb) Coefficiente Q (Yule, 1960) Q=D/(PAB*Pab + PAPb*PaPB)
Matrice del parametro di associazione r²
Difficoltà negli studi di Linkage disequilibrium Caratteristiche del Linkage disequilibrium Diverso pattern di LD tra popolazioni Diverso pattern di LD tra regioni cromosomiche Segmenti cromosomici conservati (blocchi) separati da punti caldi di ricombinazione Estensione variabile del blocco conservato Difficoltà negli studi di Linkage disequilibrium Il pattern di associazione tra SNPs e patologia solitamente si rileva molto complesso; Le fluttuazioni della forza di associazione riflettono le diverse “età” degli SNPs e di conseguenza anche il “rumore” introdotto sia dai processi stocastici (mutazioni, drift… ) che direzionali (selezione…)
Popolazione Inglese Popolazione Italiana
Cromosoma 6 Popolazione Inglese Popolazione Italiana
Misure di associazione allelica
Potere Statistico degli studi di LD Una delle maggiori difficoltà con i test di associazione che coinvolgono un numero molto elevato di SNPs è imputabile all’esecuzione di numerosi test multipli. Una notevole riduzione del potere statistico degli studi di associazione indiretti è dovuto alla riduzione del p-value dopo l’aggiustamento di Bonferroni (Ohashi et al., 2001). Livelli di significatività estremamente bassi sono stati proposti anche per controllare il numero degli errori di I° tipo (Risch and Merikangas, 1996). Tali livelli di significatività sono raramente raggiungibili con dimensioni campionarie realistiche.
(1)Dep. of Biology and (3)Research Center for the Study of Periodontal Diseases, University of Ferrara, Italy (2)Human Genetics Research Division, University of Southampton, United Kingdom
La frequenza dell’allele malattia (Q) non è nota; Gli aplotipi non sono facilmente ricostruibili I test statistici classici usati per la stima del LD non sono applicabili
Distribuzioni Genotipiche e alleliche per uno SNP in uno studio caso-controllo Il calcolo del di regressione tra stato di affezione e genotipo al marcatore è basato sull’utilizzo delle seguenti tabelle:
Ricostruzione di un campione casuale di alleli Collins e Morton (1998) hanno definito un fattore di arricchimen-to per correggere l’eccesso di casi presenti nel disegno di studio Data la frequenza di affezione, Z, nella popolazione generale si definisce: = [(n11+n12+n13)/(n01+n02+n03)] * [(1-Z)/Z)] Il parametro di regressione , può essere ottenuto per aggiustamento del numero dei controlli come: = | a(d)-b(c)| / (a+c)(b+d) e K=2/2 Incorporando le informazioni derivanti dai marcatori multipli in una likelihood composita, l’analisi è più potente rispetto a quando ogni SNP è considerato separatamente, inoltre l’associazione può essere stimata anche senza la ricostruzione degli aplotipi.
Associatione Allelica e modello di Malécot Questo approccio si basa sul modello di Malécot che descrive il declino della associatione (della malattia) con la distanza. Applicando il metodo di Maniatis et al (AJHG, 2004) il modello stima un coeff. di regressione, , tra un marcatore (SNP) e la patologia in funzione di 4 parametri: dove S è la posizione dello SNP (Kb o LDU); è la posizione stimata per lo SNP causale, è 1 se S> e -1 altrimenti. è il declino esponenziale dell’associazione con la distanza L’asintoto L può o essere derivato dal campione [Lp] (Morton et al, 2001) o può essere stimato M rappresenta l’intercetta.
Mappe di Linkage Disequilibrium Che cosa si intende per mappa di LD? E’ una mappa espressa in unità di LD (LDU) che discrimina tra blocchi conservati di LD con distanze additive e localizzazione colineare con le mappe fisiche (Kb) b = (1-L)Me- d+L d => stimato per ogni singolo intervallo tra marcatori si è rivelato un’unità di misura per il LD
Mappe di LD: il modello di Malécot Collins & Morton, PNAS, 1998 b = (1-L)Me- d+L
Hot spot di ricombinazione (Jeffreys et al. 2001)
Mappa in LDU della regione cromosomica 5q31
Mappa in LD Units (Elahi et al Mappa in LD Units (Elahi et al.) 93 SNPs che coprono una regione di 490.25 Kb (1 SNP ogni 5.3 Kb) tipizzati in 250 trios IL-1A IL-1B IL-1F5 IL-1RN TIC
Evidenze di Associazione sotto il modello di Malécot Le evidenze di un’associazione si ricavano dall’adattamento ai dati di quattro modelli (A-D). Modello A ‘ipotesi nulla’, H0: M=0 e L=Lp. Qualsiasi associazione è attribuita al ‘background’. Modello B modello ‘piatto’, H1:M=0 e L= . Uno scostamento significativo di L sopra Lp implica un’associazione positiva nella regione, senza poterla attribuire ad una posizione o sub-regione specifica. Modello C H2: assume L=Lp ma stima M e la posizione S. Il parametro è assunto pari a 1 per le mappein LDU o è stimato dell’eq. di Malécot per le mappe in Kb. Modello D H3: L’ipotesi alternativa più complessa, stima L, M ed S.
Modelli di Associazione
Mappe basate sulla Metrica di LD Recemente sono state sviluppate mappe basate sulla “Metrica di LD” (Maniatis et al, 2002, Zhang et al, 2002). Tali mappe assegnano una posizione ai marcatori sulla base di unità di linkage disequilbrium (LDUs). La mappa in LDU viene costruita assumendo LDU =idi, dove (i) è la stima iterativa del parametro dell’equazione di Malécot e (di) è l’i-esima distanza in kb tra coppie adiacenti di k SNPs (i = 1, . . . , k-1). Dopo la convergenza, la mappa in LDU è ri-tarata in modo tale che 1 LDU corrisponda al "swept radius" 1/, definito come l’estensione del LD “utile” (Morton et al, 2001). Le stime di M e L non sono influenzate dall’assunzione di questa nuova scala, ciò assicura che il valore atteso di () rimane conforme a (1-L)Me-D+L, dove D è la distanza in LDU
La regione del cluster dell’IL-1 (2q14)
Marcatori studiati e Mappe
La regione del cluster dell’IL-1 : Verifica delle ipotesi