Genetica delle popolazioni a.a prof S. Presciuttini FREQUENZE GENOTIPICHE E GENICHE Questo documento è pubblicato sotto licenza Creative Commons Attribuzione – Non commerciale – Condividi allo stesso modo
Genetica delle popolazioni a.a prof S. Presciuttini Un esempio: proteine seriche Un esempio di variazione genetica entro e fra popolazioni è riportato nell’articolo di Das et al. (2002), relativo a tre popolazioni umane del Bengala occidentale tipizzate per quattro proteine seriche. Un esempio di variazione genetica entro e fra popolazioni è riportato nell’articolo di Das et al. (2002), relativo a tre popolazioni umane del Bengala occidentale tipizzate per quattro proteine seriche. Le “proteine seriche” fanno parte dei marcatori genetici classici, che erano già disponibili prima dell’avvento dell’analisi del DNA. La tipizzazione fa uso della tecnica di elettroforesi in gel d’amido sviluppata a metà degli anni ’50, che consente di separare miscele di proteine diverse sulla base delle loro dimensioni e cariche elettriche. Miglioramenti successivi sono stati l’introduzione della focalizzazione isoelettrica (elettroforesi in gradiente di pH), che consente una ulteriore separazione delle proteine non risolte, e l’introduzione del gel di poliacrilamide. L'analisi di alcune proteine seriche fa parte degli esami routinari del sangue, mentre altre hanno interesse solo per la variabilità genetica che mostrano nelle popolazioni
Genetica delle popolazioni a.a prof S. Presciuttini Numerosità osservate Una parte della tabella di Das et al., relativa ad uno dei marcatori tipizzati, è riportata nella figura seguente. La colonna di sinistra mostra il nome del locus (Componente Gruppo Specifico o GC), i fenotipi individuati e il nome degli alleli; a destra seguono i dati di due delle tre popolazioni studiate. Una parte della tabella di Das et al., relativa ad uno dei marcatori tipizzati, è riportata nella figura seguente. La colonna di sinistra mostra il nome del locus (Componente Gruppo Specifico o GC), i fenotipi individuati e il nome degli alleli; a destra seguono i dati di due delle tre popolazioni studiate. Consideriamo la colonna “Obs. No.” (numerosità osservata): vediamo ad es. che 5 soggetti sono “ISIS”, e dall’elenco degli alleli deduciamo che si tratta di soggetti attribuiti al genotipo omozigote per l’allele IS. I totali dei due campioni sono 38 e 45 soggetti
Genetica delle popolazioni a.a prof S. Presciuttini Frequenze alleliche Per questo locus sono stati individuati 3 alleli, denominati *IS, *IF e *2, che sono presenti nei campioni in 5 delle 6 combinazioni possibili, le cui frequenze sono 0,474, 0,329 e 0,197 Per questo locus sono stati individuati 3 alleli, denominati *IS, *IF e *2, che sono presenti nei campioni in 5 delle 6 combinazioni possibili, le cui frequenze sono 0,474, 0,329 e 0,197 Come sono calcolate le frequenze alleliche? In questo caso gli alleli sono distinguibili l'uno dall'altro (codominanza) e il calcolo è elementare. Come sono calcolate le frequenze alleliche? In questo caso gli alleli sono distinguibili l'uno dall'altro (codominanza) e il calcolo è elementare. Si tratta semplicemente di contare la numerosità di ciascun allele nel campione e di riportarla a 1 Si tratta semplicemente di contare la numerosità di ciascun allele nel campione e di riportarla a 1 per l’allele *IS, 10 copie sono presenti nei 5 genotipi ISIS, e 13 copie sono presenti sia nel genotipo ISIF che nel genotipo 2IS; quindi abbiamo 36 copie *IS, che riportate al totale dei geni esaminati per il sistema GC (che è il doppio degli individui tipizzati, 2N =76) fa esattamente 0,474. (Nota: c’è un errore di stampa nella frequenza di questo allele nella seconda popolazione). Analogamente si contano le numerosità degli altri due alleli e si riportano in frequenza relativa
Genetica delle popolazioni a.a prof S. Presciuttini Una popolazione di Kalmia latifolia è stata valutata per la frequenza allelica di un locus codominante responsabile della colorazione Esempio: colore del fiore Red buds: 5000 Pink buds: 3000 White buds: 2000 Le differenze fra i fenotipi sono attribuibili al locus dell'antocianina Quali sono le frequenze dell'allele A1 e a2? A1A1A1A2A2A2A1A1A1A2A2A2
Genetica delle popolazioni a.a prof S. Presciuttini Frequenze alleliche per sistemi codominanti Dunque nel caso di sistemi codominanti si può scrivere la regola generale p i = (2n ii + j i n ij )/(2n), cioè anche p i = (n ii + ½ j i n ij )/n (1) dove p i è la frequenza dell’allele i (i = 1, 2, o 3 nel caso del sistema GC), n ii è la numerosità del genotipo omozigote per l'allele i e j i n ij indica la somma di n ij per tutti i valori di j ( j = 1, 2, 3), tranne quando j = i; n è il numero totale degli individui del campione Se le frequenze genotipiche sono espresse in frequenze relative (a somma 1), f ij (= n ij /N, f ij = 1), esse possono essere usate al posto di n ii nell’eq. (1).
Genetica delle popolazioni a.a prof S. Presciuttini La stima delle frequenze alleliche e del loro errore In effetti noi non siamo interessati tanto alla frequenza allelica osservata in un dato campione quanto piuttosto alla frequenza allelica nella popolazione che quel campione rappresenta. In effetti noi non siamo interessati tanto alla frequenza allelica osservata in un dato campione quanto piuttosto alla frequenza allelica nella popolazione che quel campione rappresenta. Cioè noi esaminiamo un campione assumendo che esso sia rappresentativo della popolazione cui esso appartiene, e inferiamo le proprietà di questa dal campione stesso. Nel caso di sistemi codominanti si può mostrare che la miglior stima della frequenza ( i ) dell’i-esimo allele nella popolazione è data dall’eq. (1). Quindi semplicemente poniamo i = p i. Nel caso di sistemi codominanti si può mostrare che la miglior stima della frequenza ( i ) dell’i-esimo allele nella popolazione è data dall’eq. (1). Quindi semplicemente poniamo i = p i. Però ci dobbiamo porre il problema dell’errore dovuto al campionamento: se si estraggono a caso un numero limitato di genotipi, ci sarà inevitabilmente una certa variazione casuale delle frequenze alleliche calcolate nel campione rispetto a quelle della popolazione, e più è piccolo il campione, più grande è la deviazione che mediamente ci aspettiamo.
Genetica delle popolazioni a.a prof S. Presciuttini Deviazione standard ed errore standard Come la variabilità di una serie di misure è indicata dalla deviazione standard, così la variabilità di un valore statistico (es. una percentuale, una proporzione, una media ecc.) calcolato su un campione è indicata dall'errore standard. Come la variabilità di una serie di misure è indicata dalla deviazione standard, così la variabilità di un valore statistico (es. una percentuale, una proporzione, una media ecc.) calcolato su un campione è indicata dall'errore standard. la deviazione standard descrive la variabilità di una serie di misure effettuate su un campione o una popolazione. l'errore standard descrive l'incertezza nella stima di un valore statistico (es. media, proporzione ecc.);
Genetica delle popolazioni a.a prof S. Presciuttini Standard Error of Mean Standard Deviation is a measure of how individual points differ from the mean estimates in a single sample Standard Error is a measure of how much the estimate differs from the true parameter value (in the case of means, μ) If you repeated the experiment, how close would you expect the mean estimate to be to your previous estimate? Standard Error of the Mean (se): 95% Confidence Interval:
Genetica delle popolazioni a.a prof S. Presciuttini Errore standard delle frequenze alleliche Assumendo che il campionamento sia multinomiale, la varianza teorica delle frequenze alleliche V( i ) è data da Assumendo che il campionamento sia multinomiale, la varianza teorica delle frequenze alleliche V( i ) è data da V( i ) = i (1 - i )/(2N) Questa è la varianza attesa in un gran numero di campioni della stessa dimensione estratti a caso da una popolazioni in cui la frequenza allelica è i. Quindi l’errore standard delle frequenze alleliche [s.e.(p i )] si stima come s.e.(p i ) = V( i ) ½. s.e.(p i ) = V( i ) ½. Ad esempio gli errori standard delle frequenze di *IS, *If e *2 nella prima popolazione di Das et al. sono rispettivamente [0,474 x (1 – 0,474)/76] ½ = 0,057, [0,329 x (1 – 0,329)/76] ½ = 0,054, e [0,197 x (1 – 0,197)/76] ½ = 0,046, come riportato in tabella accanto alla stima delle frequenze alleliche.
Genetica delle popolazioni a.a prof S. Presciuttini Maximum variance as a function of allele frequency for a codominant locus
Genetica delle popolazioni a.a prof S. Presciuttini Why is variance highest at intermediate allele frequencies? p = 0.5 If this were a target, how variable would your outcome be in each case (red versus white hits)? Variance is constrained when value approaches limits (0 or 1) p = 0.125
Genetica delle popolazioni a.a prof S. Presciuttini Limiti di confidenza L'errore standard rappresenta un parametro fondamentale, che viene comunemente impiegato per il calcolo dei limiti fiduciali (o intervalli fiduciali o intervalli di confidenza) L'errore standard rappresenta un parametro fondamentale, che viene comunemente impiegato per il calcolo dei limiti fiduciali (o intervalli fiduciali o intervalli di confidenza) Il limite fiduciale è molto utile per avere un'idea della vera caratteristica della popolazione che stimiamo attraverso lo studio di un campione Il limite fiduciale è molto utile per avere un'idea della vera caratteristica della popolazione che stimiamo attraverso lo studio di un campione Per campioni ragionevolmente ampi (almeno osservazioni), valgono le seguenti relazioni fondamentali: Per campioni ragionevolmente ampi (almeno osservazioni), valgono le seguenti relazioni fondamentali: Che cosa significa l'espressione «confidenza 95%» o «intervallo fiduciale 95%» o «intervallo di confidenza 95%»? In parole povere, anche se non del tutto esatte, si può dire che «confidenza 95%» indica che vi è una probabilità del 95% che l'intervallo trovato includa la vera caratteristica della popolazione. Che cosa significa l'espressione «confidenza 95%» o «intervallo fiduciale 95%» o «intervallo di confidenza 95%»? In parole povere, anche se non del tutto esatte, si può dire che «confidenza 95%» indica che vi è una probabilità del 95% che l'intervallo trovato includa la vera caratteristica della popolazione.
Genetica delle popolazioni a.a prof S. Presciuttini Eterogeneità di frequenze alleliche fra popolazioni ● L’errore standard delle frequenze è essenziale per calcolare la significatività delle differenze osservate fra popolazioni. ● Per esempio, un modo molto semplice per decidere se una differenza osservata fra le frequenze alleliche di due popolazioni è significativa “al livello del 5%” è quello di calcolare i limiti di confidenza del 95% (95% C.L.) delle frequenze stimate, che si trovano come 95% C.I. = p i 1,96 x s.e.(p i ), e controllando se non ci sia sovrapposizione fra i due intervalli delimitati da questi limiti. ● Si può facilmente verificare che le frequenze alleliche stimate nelle due popolazioni di Das et al. non sono significativamente diverse le une dalle altre; quindi sulla base di questi due campioni non possiamo concludere che ci troviamo in presenza di popolazioni eterogenee per frequenze alleliche