Analisi statistica dei dati genetici Silvano Presciuttini Istituto Zooprofilattico Sperimentale dell'Umbria e delle Marche Una nuova frontiera per la medicina.

Slides:

Advertisements

Presentazioni simili

Il Principio di Hardy-Weinberg

Advertisements

Introduzione all’uso degli indicatori di valutazione ed ai metodi di valutazione Dott.ssa Gabriella Giuliano Direttore Sanitario CREAS-IFC-CNR giugno.

Genetica delle popolazioni a.a prof S. Presciuttini GLI EFFETTI DELL'ININCROCIO Questo documento è pubblicato sotto licenza Creative Commons Attribuzione.

Genetica delle Popolazioni a.a prof S. Presciuttini L'INDICE DI FISSAZIONE “F” DI WRIGHT Questo documento è pubblicato sotto licenza Creative Commons.

Genetica delle Popolazioni a.a prof S. Presciuttini LA DERIVA GENETICA Questo documento è pubblicato sotto licenza Creative Commons Questo documento.

Genetica delle popolazioni a.a prof S. Presciuttini L'equilibrio di Hardy-Weinberg Questo documento è pubblicato sotto licenza Creative Commons.

MAPPE CROMOSOMICHE E FREQUENZA DI RICOMBINAZIONE

Genetica delle Popolazioni a.a prof S. Presciuttini DIMENSIONE EFFETTIVA DELLA POPOLAZIONE Questo documento è pubblicato sotto licenza Creative.

LA STATISTICA DESCRITTIVA

Varianti e mutazioni ALBERI GENEALOGICI

= 2x – 3 x Definizione e caratteristiche

Esercitazioni numeriche del corso di GENETICA AA 2010/2011

Dip. Economia Politica e Statistica

Variabili casuali a più dimensioni

laboratorio evoluzione Marcello Sala

RICHIAMI DI INFERENZA:

Mendel e la genetica S.M.S «Q.MAIORANA» Catania A.S.2015/2016

Ereditarietà di due o più geni indipendenti

Misure dei valori centrali

GREGORIO MENDEL

L’integrale indefinito

La circonferenza nel piano cartesiano

Misure Meccaniche e Termiche - Università di Cassino

Le primitive di una funzione

Insiemi e logica Insiemi e operazioni insiemistiche

Spiegazione di alcuni concetti

DISTRIBUZIONI TEORICHE DI PROBABILITA’

La circonferenza nel piano cartesiano

Il calcolo della probabilità

Il concetto di derivata

Dip. Economia Politica e Statistica

Insiemi di punti: altre caratteristiche

Elementi di teoria delle probabilità

Esercizi su segregazione mendeliana

PARTE TERZA OPERAZIONI CON LE PROPOSIZIONI

APPUNTI DI STATISTICA INFERENZIALE

FUNZIONI MATEMATICHE DANIELA MAIOLINO.

Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.

Precorso di Statistica

Calcolo degli indici forensi

Parte 7 Misure di variabilità genetica e

La probabilità matematica

LA LA PROBABILITA'.

L’indagine statistica

Statistica Scienza che studia i fenomeni collettivi.

Parte 9 Misure di variabilità genetica e

I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.

GREGORIO MENDEL

Corso di Genetica -Lezione 4- Cenci

Mario Scarpino - Francesco Sgaramella

VARIABILITA’ GENETICA

Definizioni di probabilità

AVVISO Il materiale riportato in queste diapositive è di esclusiva proprietà del Prof. Liborio Stuppia. La pubblicazione.

Teoria sintetica dell’evoluzione

Le primitive di una funzione

Esercizi su segregazione mendeliana

Rette e segmenti.

Dip. Economia Politica e Statistica

Precorso di Statistica

RICHIAMI DI INFERENZA:

RICHIAMI DI INFERENZA:

Dip. Economia Politica e Statistica

Transcript della presentazione:

Analisi statistica dei dati genetici Silvano Presciuttini Istituto Zooprofilattico Sperimentale dell'Umbria e delle Marche Una nuova frontiera per la medicina veterinaria: la genetica forense Perugia, 17 novembre 2009 Analisi statistica dei dati genetici Silvano Presciuttini Università di Pisa Questo documento è pubblicato sotto licenza Creative Commons Attribuzione – Non commerciale – Condividi allo stesso modo

Analisi statistica dei dati genetici Silvano Presciuttini La specificità dei dati genetici L'analisi statistica applicata a dati genetici è resa peculiare da due caratteristiche tipiche degli organismi viventi: L'analisi statistica applicata a dati genetici è resa peculiare da due caratteristiche tipiche degli organismi viventi: 1) la maggior parte delle specie a cui siamo interessati (inclusa la nostra) è diploide, cioè i dati genetici si trovano appaiati negli individui 1) la maggior parte delle specie a cui siamo interessati (inclusa la nostra) è diploide, cioè i dati genetici si trovano appaiati negli individui 2) la trasmissione dei geni da un individuo all'altro segue le regole mendeliane (una e una sola delle due copie di ciascun gene presenti in un individuo viene trasmessa a ciascun figlio con il 50% di probabilità). 2) la trasmissione dei geni da un individuo all'altro segue le regole mendeliane (una e una sola delle due copie di ciascun gene presenti in un individuo viene trasmessa a ciascun figlio con il 50% di probabilità).

Analisi statistica dei dati genetici Silvano Presciuttini Sistemi probabilistici calcolabili Per un sistema probabilistico ben definito sono necessari due ingredienti: Per un sistema probabilistico ben definito sono necessari due ingredienti:  il modello generatore di eventi, del quale fanno parte un certo numero di parametri, e  l'insieme dei valori dei parametri del modello Noto un sistema probabilistico, si può, almeno in linea di principio, calcolare la probabilità di un qualunque evento o serie di eventi Noto un sistema probabilistico, si può, almeno in linea di principio, calcolare la probabilità di un qualunque evento o serie di eventi  Non è sempre possibile: un buon esempio è quello del “solitario” di Windows XP: Solitaire: Man Versus Machine Xiang Yan*, Persi Diaconis*, Paat Rusmevichientong†, Benjamin Van Roy* *Stanford University †Cornell University

Analisi statistica dei dati genetici Silvano Presciuttini Il sistema probabilistico mendeliano Ciascun individuo trasmette ai suoi gameti per ciascun locus, a caso, una e una sola copia delle due che egli possiede nel proprio patrimonio genetico Ciascun individuo trasmette ai suoi gameti per ciascun locus, a caso, una e una sola copia delle due che egli possiede nel proprio patrimonio genetico La probabilità che le due copie di ciascun locus siano uguali o diverse in ciascun individuo è variabile da locus a locus La probabilità che le due copie di ciascun locus siano uguali o diverse in ciascun individuo è variabile da locus a locus Ciascun gamete prodotto da un dato individuo può accoppiarsi, a caso, con un gamete del sesso opposto nel formare un individuo della nuova generazione Ciascun gamete prodotto da un dato individuo può accoppiarsi, a caso, con un gamete del sesso opposto nel formare un individuo della nuova generazione

Analisi statistica dei dati genetici Silvano Presciuttini Gli alleli vanno sempre in coppia... Praticamente in tutte le analisi statistiche di dati genetici sono richieste le stime delle frequenze alleliche nelle popolazioni. Praticamente in tutte le analisi statistiche di dati genetici sono richieste le stime delle frequenze alleliche nelle popolazioni. Un compito preliminare a qualsiasi analisi statistica è dunque quello di stimare le frequenze alleliche Un compito preliminare a qualsiasi analisi statistica è dunque quello di stimare le frequenze alleliche

Analisi statistica dei dati genetici Silvano Presciuttini Frequenze geniche e genotipiche Dalla conta dei genotipi e degli alleli (quando è possibile) si arriva in modo ovvio alla definizione di frequenze genotipiche e frequenze alleliche (o geniche) Dalla conta dei genotipi e degli alleli (quando è possibile) si arriva in modo ovvio alla definizione di frequenze genotipiche e frequenze alleliche (o geniche)  Nell'esempio abbiamo 5 topi “aa” (33%), 3 topi “Aa” (20%) e 7 topi “AA” (47%), che fa 13 alleli “a” (43%) e 17 alleli “A” (57%) Che significato ha usare le une piuttosto che le altre nel calcolo statistico? In generale, come sono connesse fra loro frequenze genotipiche e frequenze geniche? Che significato ha usare le une piuttosto che le altre nel calcolo statistico? In generale, come sono connesse fra loro frequenze genotipiche e frequenze geniche?  La risposta a questa domanda fu fornita indipendentemente da due studiosi nel 1908; da loro ha preso il nome la cosiddetta legge di Hardy- Weinberg

Analisi statistica dei dati genetici Silvano Presciuttini Formazione degli zigoti per unione casuale dei gameti Immaginiamo che tutti i gameti maschili e femminili prodotti da una certa popolazione al momento della riproduzione costituiscano due enormi insiemi separati, in pratica due urne dalle quali possiamo pescare a caso. Consideriamo un locus diallelico, per il quale le frequenze dei due alleli A 1 e A 2 sono rispettivamente p e q (= 1 – p), uguali nei due sessi. Immaginiamo quindi di prelevare a caso un gamete dall’”urna” maschile e un'altro dall'urna femminile, e formiamo il genotipo dello zigote; abbiamo quattro possibilità: A 1 A 1, A 1 A 2, A 2 A 1, e A 2 A 2.

Analisi statistica dei dati genetici Silvano Presciuttini Probabilità dei genotipi degli zigoti Con che probabilità otteniamo tali genotipi? Trattandosi di eventi indipendenti dobbiamo semplicemente moltiplicare fra loro le probabilità delle diverse estrazioni, per cui troviamo che Pr(A 1 A 1 ) = p x p = p 2, Pr(A 1 A 2 ) = p x q, Pr(A 2 A 1 ) = q x p, e Pr(A 2 A 2 ) = q 2.

Analisi statistica dei dati genetici Silvano Presciuttini La legge di Hardy-Weinberg Possiamo raffigurare il processo della formazione di uno zigote mediante un diagramma di Punnett, in cui le frequenze alleliche sono rappresentate dalla lunghezza di un segmento su due assi cartesiani di lunghezza 1, così che la frequenza di ciascun genotipo è rappresentata dal prodotto di due frequenze, cioè dall'area di un quadrilatero. Possiamo raffigurare il processo della formazione di uno zigote mediante un diagramma di Punnett, in cui le frequenze alleliche sono rappresentate dalla lunghezza di un segmento su due assi cartesiani di lunghezza 1, così che la frequenza di ciascun genotipo è rappresentata dal prodotto di due frequenze, cioè dall'area di un quadrilatero.  Poichè non possiamo distinguere il genotipo A 1 A 2, da A 2 A 1, diventa ovvio che le frequenze attese dei genotipi A 1 A 1, A 1 A 2 e A 2 A 1 in una popolazione con frequenze alleliche p e q sono rispettivamente p 2, 2pq e q 2. Questa è la legge di Hardy-Weinberg

Analisi statistica dei dati genetici Silvano Presciuttini L'equilibrio di Hardy-Weinberg Le frequenze genotipiche attese, calcolate per mezzo della legge di Hardy-Weinberg, differiscono da quelle osservate di una certa quantità, che può essere piccola o grande Le frequenze genotipiche attese, calcolate per mezzo della legge di Hardy-Weinberg, differiscono da quelle osservate di una certa quantità, che può essere piccola o grande Come facciamo a decidere se le frequenze osservate coincidono “sostanzialmente” con quelle attese, o se ne discostano “troppo”? Nel secondo caso dovremmo concludere che la legge di Hardy-Weinberg non è applicata, o meglio, che la legge non è adatta a rappresentare adeguatamente quella realtà Come facciamo a decidere se le frequenze osservate coincidono “sostanzialmente” con quelle attese, o se ne discostano “troppo”? Nel secondo caso dovremmo concludere che la legge di Hardy-Weinberg non è applicata, o meglio, che la legge non è adatta a rappresentare adeguatamente quella realtà La decisione non può che essere adottata sulla base di un ragionamento statistico La decisione non può che essere adottata sulla base di un ragionamento statistico Il metodo con cui si saggia la bontà dell'accordo fra frequenze genotipiche osservate e attese prende il nome di controllo dell'equilibrio di Hardy-Weinberg Il metodo con cui si saggia la bontà dell'accordo fra frequenze genotipiche osservate e attese prende il nome di controllo dell'equilibrio di Hardy-Weinberg

Analisi statistica dei dati genetici Silvano Presciuttini Il test dell'equilibrio di H-W col “chi quadro” Nel caso di un sistema diallelico il controllo dell'equilibrio di Hardy- Weiberg è particolarmente semplice Nel caso di un sistema diallelico il controllo dell'equilibrio di Hardy- Weiberg è particolarmente semplice I valori di chi quadro si calcolano come [(oss-att) 2 /att] Il valore finale del chi quadro è la somma di tre valori parziali Il valore di chi quadro si converte in una probabilità con una apposita funzione matematica Il valore della probabilità ci dice quanto è probabile che l'equilibrio di H- W sia rispettato da questi dati

Analisi statistica dei dati genetici Silvano Presciuttini Equilibrio di H-W in 4 razze bovine

Analisi statistica dei dati genetici Silvano Presciuttini Test di ipotesi Il controllo dell'equilibrio di Hardy-Weinberg è una tipica situazione di "test delle ipotesi". Il controllo dell'equilibrio di Hardy-Weinberg è una tipica situazione di "test delle ipotesi".  Vogliamo decidere se l'affermazione “questa popolazione non rispetta l'equilibrio di H-W” è accettabile o meno Si effettuano quindi le analisi genetiche appropriate, e si valutano statisticamente i dati ottenuti: l'obiettivo dell'analisi è di associare un valore di probabilità all'eventualità che l'affermazione sia accettabile sulla base dei dati sperimentali. Si effettuano quindi le analisi genetiche appropriate, e si valutano statisticamente i dati ottenuti: l'obiettivo dell'analisi è di associare un valore di probabilità all'eventualità che l'affermazione sia accettabile sulla base dei dati sperimentali. Questo viene realizzato convertendo l' affermazione in un sistema di ipotesi, composto dalle cosiddette “Ipotesi nulla” (H 0 ) e “Ipotesi alternativa” (H 1 ) Questo viene realizzato convertendo l' affermazione in un sistema di ipotesi, composto dalle cosiddette “Ipotesi nulla” (H 0 ) e “Ipotesi alternativa” (H 1 )

Analisi statistica dei dati genetici Silvano Presciuttini Formulazione delle due ipotesi Nella verifica delle ipotesi è necessario che l'ipotesi nulla e l'ipotesi alternativa siano formulate in modo chiaro, tali che siano mutualmente esclusive ed esaustive Nella verifica delle ipotesi è necessario che l'ipotesi nulla e l'ipotesi alternativa siano formulate in modo chiaro, tali che siano mutualmente esclusive ed esaustive La procedura inferenziale è di saggiare l'ipotesi nulla, e se questa viene scartata ne consegue che dobbiamo accettare l'ipotesi alternativa La procedura inferenziale è di saggiare l'ipotesi nulla, e se questa viene scartata ne consegue che dobbiamo accettare l'ipotesi alternativa Quindi in effetti la procedura di verifica delle ipotesi funziona in un certo senso al contrario: andremo a falsificare l'ipotesi nulla in modo che l'ipotesi alternativa emerga come la sola possibile Quindi in effetti la procedura di verifica delle ipotesi funziona in un certo senso al contrario: andremo a falsificare l'ipotesi nulla in modo che l'ipotesi alternativa emerga come la sola possibile Tutto ciò avviene nel dominio delle probabilità: dato che i nostri esperimenti/osservazioni sono necessariamente limitati, alla fine dell'analisi statistica avremo ottenuto una probabilità (P) che l'ipotesi nulla sia falsa e quindi necessariamente una probabilità (1-P) che l'ipotesi alternativa sia falsa Tutto ciò avviene nel dominio delle probabilità: dato che i nostri esperimenti/osservazioni sono necessariamente limitati, alla fine dell'analisi statistica avremo ottenuto una probabilità (P) che l'ipotesi nulla sia falsa e quindi necessariamente una probabilità (1-P) che l'ipotesi alternativa sia falsa

Analisi statistica dei dati genetici Silvano Presciuttini Un esempio ipotetico Supponiamo di avere il dubbio che la bistecca che ci hanno venduto in macelleria non sia, come pretendono, di un animale di razza chianina, ma che sia invece di un'altra razza meno pregiata Supponiamo di avere il dubbio che la bistecca che ci hanno venduto in macelleria non sia, come pretendono, di un animale di razza chianina, ma che sia invece di un'altra razza meno pregiata Preleviamo allora un campione di carne e tipizziamo una serie di marcatori del DNA Preleviamo allora un campione di carne e tipizziamo una serie di marcatori del DNA Come facciamo, una volta ottenuti i dati finali, a decidere se l'affermazione “la carne proveniva da una chianina” è vera o falsa? Come facciamo, una volta ottenuti i dati finali, a decidere se l'affermazione “la carne proveniva da una chianina” è vera o falsa?

Analisi statistica dei dati genetici Silvano Presciuttini Una porzione di un database genetico I dati genetici si trovano (quasi) sempre sotto forma di distribuzione di genotipi, dove per ciascun locus (marker) sono riportati i nomi dei due alleli che li costituiscono La prima operazione da fare è quella di contare separatamente i diversi genotipi e i diversi alleli nei vari gruppi di un qualsiasi campione Ad esempio il genotipo “6-7” del marcatore 1 (ETH131) è presente 0 volte su 10 nelle charolais, 4 volte nelle frisone e 1 volta nelle chianine, mentre l'allele “6” è presente 5 volte su 20 nelle charolais, 4 volte nelle frisone e 2 volte nelle chianine

Analisi statistica dei dati genetici Silvano Presciuttini Ipotesi alternative Nel nostro caso è bene formulare le due ipotesi mutualmente esclusive in modo rigoroso: Nel nostro caso è bene formulare le due ipotesi mutualmente esclusive in modo rigoroso:  Non ci accontentiamo della formulazione  H0: la bistecca è di chianina  H1: la bistecca non è di chianina (è di una qualunque altra razza)  Questa è una formulazione ambigua, perchè in “qualunque altra razza” sono incluse anche le razze molto simili alla chianina, e la risposta finale si presta ad essere contestata  Adotteremo piuttosto la formulazione  H0: la bistecca è di chianina  H1: la bistecca è di frisona (o di un'altra razza candidata a questo tipo di frode)

Analisi statistica dei dati genetici Silvano Presciuttini In qualunque affermazione empirica è insito un certo livello di incertezza Il punto importante è che non potremo mai essere certi al 100% che un'affermazione fondata su dati empirici sia vera o falsa Il punto importante è che non potremo mai essere certi al 100% che un'affermazione fondata su dati empirici sia vera o falsa Corriamo sempre il rischio di incorrere nell'uno o nell'altro errore: Corriamo sempre il rischio di incorrere nell'uno o nell'altro errore:  possiamo prendere per buona l'affermazione a proposito della bistecca di frisona, quando invece era veramente di una chianina  Oppure possiamo negare che l'affermazione sia vera, e invece ci avevano effettivamente imbrogliato Nel primo caso si dice che commettiamo un errore del I° tipo, nel secondo caso diciamo che l'errore è del II° tipo Nel primo caso si dice che commettiamo un errore del I° tipo, nel secondo caso diciamo che l'errore è del II° tipo Questi due tipi di errore hanno evidentemente conseguenze diverse. In alcuni casi saranno più gravi le conseguenze degli errori del I° tipo, in altri casi saranno più gravi gli errori del II° tipo Questi due tipi di errore hanno evidentemente conseguenze diverse. In alcuni casi saranno più gravi le conseguenze degli errori del I° tipo, in altri casi saranno più gravi gli errori del II° tipo

Analisi statistica dei dati genetici Silvano Presciuttini Due diverse situazioni di errore AFFERMAZIONE EMPIRICA vera falsa Essa alla fine si rivelerà: Sulla base di una singola indagine concludiamo che essa è: vera falsa errore!

Analisi statistica dei dati genetici Silvano Presciuttini Errori del I° e del II° tipo Sia data l'affermazione “la bistecca è di chianina”

Analisi statistica dei dati genetici Silvano Presciuttini Probabilità di sbagliare La risposta finale al nostro dubbio (la bistecca è di chianina o di frisona?) coinvolge la determinazione di una probabilità: La risposta finale al nostro dubbio (la bistecca è di chianina o di frisona?) coinvolge la determinazione di una probabilità: Qual è la probabilità di commettere un errore del primo tipo se rifiutiamo l'ipotesi che la bistecca sia di chianina, alla luce dei dati genetici ottenuti? Qual è la probabilità di commettere un errore del primo tipo se rifiutiamo l'ipotesi che la bistecca sia di chianina, alla luce dei dati genetici ottenuti? Questa è una probabilità condizionale: Questa è una probabilità condizionale: P(“la bistecca è di chianina” è falsa | tipizzazione genetica)

Analisi statistica dei dati genetici Silvano Presciuttini La probabilità condizionale Da Wikipedia, l'enciclopedia libera Nella teoria della probabilità, la probabilità di un evento A condizionata ad un evento B è la probabilità che si verifichi A dato il verificarsi dell'evento B. Tale probabilità, che si indica con P(A | B), esprime una sorta di "correzione" delle aspettative dettata dall'osservazione di B e dunque dalla modificazione dei dati in nostro possesso. Nella teoria della probabilità, la probabilità di un evento A condizionata ad un evento B è la probabilità che si verifichi A dato il verificarsi dell'evento B. Tale probabilità, che si indica con P(A | B), esprime una sorta di "correzione" delle aspettative dettata dall'osservazione di B e dunque dalla modificazione dei dati in nostro possesso.  Se in un'urna contenente 10 palline blu e 10 nere ne sono state tolte mediante estrazione casuale 7 nere (evento B) allora la probabilità che la prossima estratta sia blu (evento A), che prima era di 1/2, è 10/13, poiché nell'urna ora sono rimaste molte più palline blu in rapporto a quelle nere. In effetti, nella realtà quotidiana la nostra valutazione della probabilità di un evento è sempre condizionata all'informazione che abbiamo sulle cause che possono determinarlo, e più raccogliamo informazione, più precisa e affidabile diventa la nostra valutazione In effetti, nella realtà quotidiana la nostra valutazione della probabilità di un evento è sempre condizionata all'informazione che abbiamo sulle cause che possono determinarlo, e più raccogliamo informazione, più precisa e affidabile diventa la nostra valutazione

Analisi statistica dei dati genetici Silvano Presciuttini Un problemino di genetica Una coppia di genitori sani ha avuto due figli, dei quali uno è affetto da una patologia mendeliana recessiva (genotipo aa), mentre l'altro è sano; qual'è la probabilità che quest'ultimo sia eterozigote (Aa)? Una coppia di genitori sani ha avuto due figli, dei quali uno è affetto da una patologia mendeliana recessiva (genotipo aa), mentre l'altro è sano; qual'è la probabilità che quest'ultimo sia eterozigote (Aa)? La risposta intuitiva è che il figlio sano è Aa al 50%; questa risposta in effetti è sbagliata, perchè non tiene conto di un'informazione che è già presente nel problema. La risposta intuitiva è che il figlio sano è Aa al 50%; questa risposta in effetti è sbagliata, perchè non tiene conto di un'informazione che è già presente nel problema. È vero che prima che il secondo figlio nasca, la probabilità che esso sia Aa è del 50% (così come le probabilità che sia AA o aa sono ambedue del 25%), ma dopo che è nato noi sappiamo che è sano, cioè che non può essere aa. È vero che prima che il secondo figlio nasca, la probabilità che esso sia Aa è del 50% (così come le probabilità che sia AA o aa sono ambedue del 25%), ma dopo che è nato noi sappiamo che è sano, cioè che non può essere aa. Quindi la probabilità che il secondo figlio sia Aa è condizionata all'informazione che lui non è aa Quindi la probabilità che il secondo figlio sia Aa è condizionata all'informazione che lui non è aa

Analisi statistica dei dati genetici Silvano Presciuttini La risposta corretta Ovvero (il segno meno indica la negazione): Ovvero (il segno meno indica la negazione): Pr(Aa|-aa) = Pr(-aa|Aa) Pr(Aa) / Pr(-aa) = 1 x ½ / (½ + ¼ ) = 1 x ½ / (½ + ¼ ) = ½ / ¾ = 2/3 = ½ / ¾ = 2/3 Formalmente, applicando il teorema di Bayes: Formalmente, applicando il teorema di Bayes: Intuitivamente: se prima di nascere le probabilità del genotipo del secondo figlio erano 1(AA):2(Aa):1(aa), dopo la nascita rimangono solo le prime due, cioè lui è Aa con probabilità 2:1, cioè 2/3 Intuitivamente: se prima di nascere le probabilità del genotipo del secondo figlio erano 1(AA):2(Aa):1(aa), dopo la nascita rimangono solo le prime due, cioè lui è Aa con probabilità 2:1, cioè 2/3

Analisi statistica dei dati genetici Silvano Presciuttini PROBABILITÀ vs VEROSIMIGLIANZA In fin dei conti, noi siamo interessati alla probabilità di H1 (la bistecca è di frisona) alla luce dei dati raccolti (G, per dati genetici): P(H1|G) All' atto pratico, però, nel valutare i dati genetici, noi ci muoviamo in un altro schema: ci chiediamo qual'è la probabilità di osservare quei dati genetici G se è vera H1. Questa quantità prende il nome di verosimiglianza (L), ed è la verosimiglianza dei dati, condizionata alla verità dell'ipotesi H1 L(G|H1)‏

Analisi statistica dei dati genetici Silvano Presciuttini L'origine dell'idea di verosimiglianza “Se appare per tutti scontato il concetto per cui la probabilità di ottenere un particolare risultato in una prova è una misura razionale della nostra attesa, espressa prima della prova, che si verifichi effettivamente quel risultato, “Se appare per tutti scontato il concetto per cui la probabilità di ottenere un particolare risultato in una prova è una misura razionale della nostra attesa, espressa prima della prova, che si verifichi effettivamente quel risultato, “è chiaro che il concetto matematico di probabilità è inadeguato ad esprimere la nostra confidenza o diffidenza nel compiere inferenze [sulle ipotesi scientifiche], e che la quantità matematica adatta a misurare il nostro ordine di preferenza fra varie possibilità non obbedisce alle leggi della probabilità. Per distinguerla dalla probabilità, io ho usato per questa quantità il termine di Verosimiglianza” (R.A. Fisher, 1925) “è chiaro che il concetto matematico di probabilità è inadeguato ad esprimere la nostra confidenza o diffidenza nel compiere inferenze [sulle ipotesi scientifiche], e che la quantità matematica adatta a misurare il nostro ordine di preferenza fra varie possibilità non obbedisce alle leggi della probabilità. Per distinguerla dalla probabilità, io ho usato per questa quantità il termine di Verosimiglianza” (R.A. Fisher, 1925)

Analisi statistica dei dati genetici Silvano Presciuttini Proprietà della verosimiglianza Il valore della verosimiglianza non possiede, al contrario della probabilità, un significato intrinseco immediatamente comprensibile Il valore della verosimiglianza non possiede, al contrario della probabilità, un significato intrinseco immediatamente comprensibile E' solo il confronto delle verosimiglianze di due diverse ipotesi che ha senso compiuto E' solo il confronto delle verosimiglianze di due diverse ipotesi che ha senso compiuto Quello che conta è l'insieme dei nostri dati e il rapporto fra le verosimiglianze calcolate sulla base delle upotesi alternative Quello che conta è l'insieme dei nostri dati e il rapporto fra le verosimiglianze calcolate sulla base delle upotesi alternative Quando abbiamo stabilito che la verosimiglianza di una certa ipotesi è maggiore di un altra (sulle stesse osservazioni), saremo naturalmente portati a pensare che l'ipotesi con la verosimiglianza maggiore sia quella giusta Quando abbiamo stabilito che la verosimiglianza di una certa ipotesi è maggiore di un altra (sulle stesse osservazioni), saremo naturalmente portati a pensare che l'ipotesi con la verosimiglianza maggiore sia quella giusta

Analisi statistica dei dati genetici Silvano Presciuttini Verosimiglianze nel caso dei 15 topi

Analisi statistica dei dati genetici Silvano Presciuttini Il rapporto di verosimiglianza Il rapporto fra le verosimiglianze calcolate per un insieme di dati sperimentali (ad esempio i dati genetici G) e le due ipotesi H0 e H1 prende il nome di LR (dall'inglese Likelihood Ratio): Il rapporto fra le verosimiglianze calcolate per un insieme di dati sperimentali (ad esempio i dati genetici G) e le due ipotesi H0 e H1 prende il nome di LR (dall'inglese Likelihood Ratio): Si preferisce in genere porre al numeratore la probabilità dell'ipotesi alternativa, in modo che il rapporto di verosimiglianza sia maggiore di uno se l'evidenza va in favore di questa. Si preferisce in genere porre al numeratore la probabilità dell'ipotesi alternativa, in modo che il rapporto di verosimiglianza sia maggiore di uno se l'evidenza va in favore di questa.  Se le due ipotesi sono ugualmente verosimili il valore di LR è uno, mentre il suo valore tende a zero se è più verosimile H0, e tende all'infinito se è più verosimile H1

Analisi statistica dei dati genetici Silvano Presciuttini Dagli “odds” alla probabilità Il rapporto di verosimiglianza non pone problemi di interpretazione: se i calcoli basati sull'evidenza tecnica sono corretti, ne deriva un valore inoppugnabile del LR Il rapporto di verosimiglianza non pone problemi di interpretazione: se i calcoli basati sull'evidenza tecnica sono corretti, ne deriva un valore inoppugnabile del LR Però il LR ha la forma di una “scommessa” (odds), in quanto esprime la misura di quante volte sono più verosimili i dati (o meno verosimili) nell'ipotesi H1 rispetto ad H0 (è compreso fra zero e infinito) Però il LR ha la forma di una “scommessa” (odds), in quanto esprime la misura di quante volte sono più verosimili i dati (o meno verosimili) nell'ipotesi H1 rispetto ad H0 (è compreso fra zero e infinito) E tuttavia il nostro intuito è molto più soddisfatto se esprimiamo la scommessa in termini di probabilità, se cioè convertiamo il rapporto L(G|H1)/L(G|H0) in E tuttavia il nostro intuito è molto più soddisfatto se esprimiamo la scommessa in termini di probabilità, se cioè convertiamo il rapporto L(G|H1)/L(G|H0) inP(H1|G) ovvero nella probabilità P che sia vera H1 sulla base dell'evidenza raccolta (il che implica anche che la probabilità che sia vera H0 è = 1 – P) ovvero nella probabilità P che sia vera H1 sulla base dell'evidenza raccolta (il che implica anche che la probabilità che sia vera H0 è = 1 – P)

Analisi statistica dei dati genetici Silvano Presciuttini L'approccio bayesiano La conversione di un LR in una probabilità fa uso del toerema di Bayes, che può assumere la forma La conversione di un LR in una probabilità fa uso del toerema di Bayes, che può assumere la forma Posterior odds = Prior odds x LR Il termine “Prior odds” rappresenta il rapporto fra P(H1) e P(H0) prima che si valutino i dati sperimentali, e rappresenta una misura della credibilità di H1 basata su considerazioni indipendenti dai dati stessi Il termine “Prior odds” rappresenta il rapporto fra P(H1) e P(H0) prima che si valutino i dati sperimentali, e rappresenta una misura della credibilità di H1 basata su considerazioni indipendenti dai dati stessi Nell'inferenza bayesiana è cioè necessario specificare la probabilità a priori che sia vera l'ipotesi H1 Nell'inferenza bayesiana è cioè necessario specificare la probabilità a priori che sia vera l'ipotesi H1 Spesso, per semplicità, la probabilità a priori di H1 e H0 sono considerate uguali, in modo che il loro rapporto risulta uguale a uno Spesso, per semplicità, la probabilità a priori di H1 e H0 sono considerate uguali, in modo che il loro rapporto risulta uguale a uno In questo caso il valore del “posterior odds” coincide con LR, e si trova che In questo caso il valore del “posterior odds” coincide con LR, e si trova che

Analisi statistica dei dati genetici Silvano Presciuttini Un nomogramma bayesiano La conversione fra probabilità o odds a priori e probabilità o odds a posteriori sulla base del rapporto di verosimiglianza può essere graficata mediante un nomogramma La conversione fra probabilità o odds a priori e probabilità o odds a posteriori sulla base del rapporto di verosimiglianza può essere graficata mediante un nomogramma Linea neutra