Parte 9 Misure di variabilità genetica e indici statistici in uso nella genetica forense Genetica Forense (6 CFU) – Fulvio Cruciani Laurea Triennale in Scienze Biologiche Sapienza Università di Roma
La probabilità di match casuale «Random Match Probability» (RMP) Il peso di una corrispondenza (match) tra un profilo di DNA Q ed il profilo di un sospettato K è «quantificato» in termini di probabilità. Ovvero: qual’è la probabilità che un profilo come quello creato a partire dal materiale biologico rinvenuto corrisponda al profilo genetico di un individuo preso a caso dalla popolazione? Si applica la regola statistica del prodotto per eventi indipendenti, partendo da database di frequenze alleliche. Perché ciò sia applicabile, tuttavia, è necessario che siano rispettate due condizioni di indipendenza: (1) gli alleli di ciascun locus siano assortiti a caso nei genotipi (equilibrio di Hardy-Weinberg) e (2) gli alleli di diversi loci siano assortiti a caso gli uni rispetto agli altri nella popolazione (no linkage disequilibrium) Prima di vedere come calcolare questa probabilità, è necessario (ri)prendere in considerazione alcuni concetti base di genetica delle popolazioni
Probabilità (già visto nell’introduzione al corso) Probabilità di un evento è la frequenza relativa con cui l’evento si verifica in una lunga serie di prove ripetute sotto condizioni simili Probabilità che si verifichi un evento “A” = Pr(A) Probabilità che si verifichi un evento “B” = Pr(B) La probabilità che si verifichino l’uno o l’altro di due eventi mutuamente esclusivi: Pr(A o B) = Pr(A) + Pr(B) (Principio della somma) La probabilità che si verifichino sia l’uno che l’altro di due eventi indipendenti: Pr(A e B) = Pr(A) × Pr(B) (Principio del prodotto)
BREVE (MA FONDAMENTALE) INCISO Per la loro rilevanza in ambito genetico forense, nelle slides a seguire si parlerà di: Frequenze alleliche Frequenze genotipiche Equilibrio di Hardy – Weinberg LINKAGE DISEQUILIBRIUM
Un allele è una variazione ad un locus ad esempio Allele 1: CCGCTACGTACGGCGATCGATGGCGGCCACGCTCGCGATCGCTACGCTA Allele 2: CCGCTACGTACGGCGATCGATGGCGGCTACGCTCGCGATCGCTACGCTA La frequenza allelica è la frequenza di un certo allele in una popolazione. Es. Popolazione composta da 10 omozigoti CC 40 eterozigoti CT 50 omozigoti TT Frequenza allele C = (10 x 2 + 40)/ (2x100) = 0.3 Frequenza allele T = (50 x 2 + 40)/ (2x100) = 0.7 Eterozigosità della popolazione per il locus in esame = 1-0.32-0.72 = 0.42
Esempio: Frequenze genotipiche e frequenze alleliche del locus STR D13S317 nella popolazione caucasica americana: Attenzione al conteggio <5 per l’allele 15. Vedi didascalia figura
Legge di Hardy-Weinberg
Assunzioni della legge di Hardy-Weinberg L’accoppiamento è casuale Non c’è mutazione Non c’è migrazione Non c’è selezione La popolazione è infinita (no deriva genetica)
sia p la frequenza di A , e q la frequenza di a . = p2 AA = q2 = 2pq Quadrato di Punnet – unione casuale dei gameti* sia p la frequenza di A , e q la frequenza di a . Dopo una generazione di unione casuale dei gameti Le frequenze genotipiche saranno: = p2 = q2 = 2pq AA Aa aa Mentre le frequenze alleliche saranno: p’ = p2 + ½ 2pq = p (p + q) = p q’ = q2 + ½ 2pq = q (q + p) = q
Equilibrio di Hardy-Weinberg 1. Le frequenze genotipiche raggiungono l’equilibrio in una sola generazione di accoppiamenti casuali, con valori pari a: p2 (omozigoti tipo 1) 2pq (eterozigoti) q2 (omozigoti tipo 2) 2. Le frequenze alleliche rimangono costanti nel tempo
Principio di Hardy-Weinberg: dimostrazione nel caso di accoppiamento casuale anziché unione casuale dei gameti
Generazione successiva Le popolazioni raggiungono l’equilibrio di Hardy-Weinberg in una generazione: Esempio estremo di una ipotetica popolazione nella quale siano assenti gli eterozigoti. (per ricavare le frequenze genotipiche della generazione successiva considerare le frequenze di tutti i possibili tipi di incroci) Non in equilibrio AA Aa aa 0.6 0 0.4 p = 0.6 q = 0.4 Generazione successiva In equilibrio AA Aa aa 0.36 0.48 0.16 p2 2pq q2 p = 0.6 q = 0.4 AA Aa aa
Nelle popolazioni, le frequenze genotipiche delle diverse popolazioni sono spesso in equilibrio di Hardy-Weinberg o sono molto vicine all’equilibrio http://www.micro.utexas.edu/courses/levin/bio304/popgen/popgen.html
Equilibrio di Hardy-Weinberg Relazione tra frequenze alleliche e frequenze genotipiche Frequenza genotipica Frequenza allelica La frequenza più elevata di eterozigoti si osserva per p = q = 0,5 Per p compreso tra 1 3 e 2 3 la classe genotipica degli eterozigoti è la più frequente
Principio di Hardy-Weinberg per loci multiallelici Quando gli alleli sono più di due (loci multiallelici), la frequenza attesa all’equilibrio degli individui omozigoti sarà pari al quadrato della frequenza dell’allele presente in omozigosi, e quella degli eterozigoti sarà pari a due volte il prodotto delle frequenze degli alleli che si trovano in eterozigosi. (p + q + r)2 Microsatellite con tre alleli (GT)10 ,(GT)11, (GT)12 e frequenze p, q, r (p + q + r)2 genotipi omozigoti: (GT)10(GT)10 = p2; (GT)11(GT)11 = q2; (GT)12(GT)12 = r2. genotipi eterozigoti: (GT)10(GT)11 = 2pq; (GT)10(GT)12 = 2pr; (GT)11(GT)12 = 2qr.
Principio di Hardy-Weinberg per loci X-linked Il Principio di Hardy –Weinberg può essere anche derivato per loci sul cromosoma X, tenendo conto del fatto che i maschi possiedono un solo cromosoma di questo tipo. Considerando separatamente maschi e femmine, all’equilibrio le frequenze genotipiche nei maschi saranno pari alle frequenze alleliche (p e q) mentre nelle femmine corrisponderanno alle frequenze genotipiche previste da Hardy-Weinberg per i loci autosomici (p2, 2pq e q2). Questo equilibrio si raggiunge in una sola generazione, a patto che le frequenze alleliche nei maschi e nelle femmine siano le medesime.
Linkage disequilibrium Consideriamo due loci biallelici A e B Locus A con alleli A1 e A2 (frequenze p e q) Locus B con alleli B1 e B2 (frequenze r e s) 4 possibili cromosomi o gameti (e relative frequenze gxy) A1 B1 (frequenza = g11) A1 B2 (frequenza = g12) A2 B1 (frequenza = g21) A2 B2 (frequenza = g22) Gli alleli ai due loci saranno in equilibrio quando le frequenze dei quattro tipi di cromosomi (o gameti) saranno g11 = p × r; g12 = p × s; g21 = q × r; g22 = q × s (ovvero, gli alleli ai due loci sono assortiti nei cromosomi in modo casuale) Altrimenti si dice che i due loci sono in Linkage disequilibrium (ovvero gli alleli ai due loci non sono assortiti in modo casuale nei cromosomi)
La genetica di popolazioni nella genetica forense Equilibrio di Hardy Weinberg Linkage disequilibrium (ovvero le basi della genetica di popolazioni) Cosa hanno a che fare con la genetica forense? Sono alla base del calcolo della probabilità di match casuale utilizzata in genetica forense per dare un peso statistico alle osservazioni
La probabilità di match casuale «Random Match Probability» (RMP) Il peso di una corrispondenza (match) tra un profilo di DNA Q ed il profilo di un sospettato K è «quantificabile» in termini di probabilità. Ovvero: qual’è la probabilità che un profilo come quello creato a partire dal materiale biologico rinvenuto corrisponda al profilo genetico di un individuo preso a caso dalla popolazione? Si applica la regola statistica del prodotto per eventi indipendenti, partendo da database di frequenze alleliche. Perché ciò sia applicabile, tuttavia, è necessario che siano rispettate le due condizioni di indipendenza: (1) gli alleli di ciascun locus siano assortiti a caso nei genotipi (equilibrio di Hardy-Weinberg) e (2) gli alleli di diversi loci siano assortiti a caso gli uni rispetto agli altri nella popolazione (no linkage disequilibrium)
Probabilità di match casuale 0.222 x 0.222 x 2 = 0.1 Locus D3S1358
Probabilità di match: la regola del prodotto 1 in 10 1 in 22200 x 1 in 111 1 in 20 1 in 100 1 in 14 1 in 81 1 in 113400 x 1 in 116 1 in 17 1 in 16 1 in 31552 x 1 in 79,531,528,960,000,000
Approccio alternativo al RMP: Likelihood Ratio (LR) Il LR è un numero (non una probabilità) che esprime il rapporto tra la probabilità che si verifichi un evento sotto due diverse ipotesi che si escludono a vicenda. In genetica forense l’evento può essere l’osservazione di un match tra profili, e le due ipotesi sono quelle dell’accusa (Hp) e quelle dell’attesa (Hd) Ad esempio, nel caso semplice di un profilo single-source, sia l’accusa che la difesa riconoscono il match tra il profilo Q e quello del sospettato ma: Ipotesi dell’accusa: Il match Q-K osservato è dovuto al fatto che il DNA osservato sulla scena del crimine appartiene al sospettato. Ipotesi della difesa: Il match Q-K osservato è casuale ed il DNA osservato sulla scena del crimine appartiene ad una persona sconosciuta
Approccio alternativo al RMP: Likelihood Ratio (LR) Ipotesi dell’accusa: Il match Q-K osservato è dovuto al fatto che Il DNA osservato sulla scena del crimine appartiene al sospettato. Ipotesi della difesa: Il match Q-K osservato è casuale ed il DNA osservato sulla scena del crimine appartiene ad una persona qualsiasi sconosciuta Nella prima ipotesi la probabilità di osservare un match sarà ovviamente pari a 1 Nella seconda ipotesi, la probabilità di osservare casualmente un match tra Q ed il sospettato sarà pari alla frequenza del profilo nella popolazione generale (ovvero = RMP) Nella sua formulazione più semplice quindi, LR = 1/RMP Domanda: Perché usare LR invece di RMP se sono semplicemente uno il reciproco dell’altro?
Approccio alternativo al RMP: Likelihood Ratio (LR) Nel riportare «qualitativamente» i risultati di un valore LR alla corte sono state suggerite le seguenti linee guida: Ad esempio con un LR di 5000 c’è forte supporto (qualitativo) e si dirà (quantitativamente) che il risultato osservato è 5000 volte più probabile se il sospettato sia la fonte del DNA rinvenuto piuttosto che lo sia qualcun altro. Se LR è… Per l’ipotesi dell’accusa si ha… Da 1 a 10 Limitato supporto Da 10 a 100 Moderato supporto Da 100 a 1000 Supporto moderatamente forte Da 1000 a 10000 Forte supporto > 10000 Supporto molto forte
La legge di H-W e la misura di variabilità dei sistemi polimorfici La maggior parte delle misure di variabilità dei singoli marcatori genetici si basa sulla legge di Hardy-Weinberg. (1) L’eterozigosità (H) corrisponde (se non diversamente specificato) alla proporzione di genotipi eterozigoti in una popolazione che sia all’equilibrio H-W (eterozigosità attesa) Se p e q sono le frequenze alleliche di un sistema biallelico, allora l’eterozigosità è il ben noto prodotto H = 2pq Se il sistema è multiallelico con i alleli, indicate con pi le frequenze degli alleli, l’eterozigosità corrisponde a: H = 1 – Σpi2 Ovvero l’unità cui sottraggo la somma delle frequenze di tutti i genotipi omozigoti
La legge di H-W e la misura di variabilità dei sistemi polimorfici La maggior parte delle misure di variabilità dei singoli marcatori genetici si basa sulla legge di Hardy-Weinberg. (2) Probabilità di identità PI Considerato un locus polimorfico, corrisponde alla probabilità che due individui «estratti» a caso dalla popolazione presentino lo stesso genotipo. Questa probabilità è pari alla sommatoria del quadrato delle frequenze attese dei singoli genotipi (perché?). In una popolazione all’equilibrio H-W, considerando un sistema polimorfico con i alleli, indicate con pi le frequenze degli alleli, e con Xi la frequenza dei genotipi, questa probabilità corrisponde a: PI
La legge di H-W e la misura di variabilità dei sistemi polimorfici La maggior parte delle misure di variabilità dei singoli marcatori genetici si basa sulla legge di Hardy-Weinberg. (2) Probabilità di identità PI Considerato un locus polimorfico, corrisponde alla probabilità che due individui «estratti» a caso dalla popolazione presentino lo stesso genotipo. La probabilità di identità può essere anche calcolata per un set di loci polimorfici differenti, semplicemente moltiplicando la PI per i singoli loci, ammesso che questi siano indipendenti. Questa informazione ci dice quanto sia probabile, in media, che due profili estratti da una determinata popolazione siano uguali. Esempi (popolazione caucasica): CODIS (13 microsatelliti autosomici) PI: 3.0 ×10-15 NGM (16 microsatelliti autosomici) PI: 4.2 ×10-18 CODIS (20 microsatelliti autosomici) PI: 7.3 ×10-23 Fusion (23 microsatelliti autosomici) PI: 2.3 ×10-27
La legge di H-W e la misura di variabilità dei sistemi polimorfici La maggior parte delle misure di variabilità dei singoli marcatori genetici si basa sulla legge di Hardy-Weinberg. (3) Potere di discriminazione (PD) Considerato un locus, misura quanto un locus (oppure un set di loci) sia «potente» nel discriminare tra genotipi di una popolazione, e corrisponde alla probabilità di «estrarre» a caso dalla popolazione due individui che presentino genotipi diversi. Questa probabilità corrisponde al complemento ad uno della probabilità di identità : PD = 1 - PI
Indici di diversità al locus D13S317 U.S. Caucasians, STR D13S317 H = 0.7845 PD = 0.8896 PI = 0.1104 Nota: fare attenziona alla differenza tra: la probabilità di match casuale tra genotipo Q e genotipo casuale della popolazione (corrisponde alla frequenza nella popolazione del genotipo Q) e la probabilità di identità (PI) per l’intero locus (sempre di probabilità di match si tratta, ma media rispetto ai vari genotipi possibili).
La legge di H-W e la misura di variabilità dei sistemi polimorfici Esercitasi nel calcolo dei vari indici in uso in genetica forense. (Probabilità di match, eterozigosità, probabilità di esclusione, probabilità di identità, numero di genotipi. Più avanti vedremo anche l’indice di paternità) Ipotetico locus biallelico p = q = 0.5 H = 0.5 (val. max per locus biallelico) PI = 0.375 (val min per locus biallelico) PD = 0.625 (val max per locus biallelico) Ipotetico locus multiallelico 10 alleli di uguale frequenza H = 0.90 PI = 0.019 PD = 0.981