STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche

Statistica Spesso si risponde alle incertezze proprie della pratica clinica e di laboratorio con il rifiuto dellapproccio probabilistico. La pratica quotidiana è però un continuo confronto con la probabilità. Gran parte degli aspetti clinici sono basati sulla statistica.

Statisticamente scorretto 11.6% (21 of 181) and 11.1% (7 of 63) of the statistical results published in Nature and BMJ respectively during 2001 were incongruent. At least one error appeared in 38% and 25% of the papers of Nature and BMJ, respectively. The conclusion would change from significant to non significant in about 4% of the errors (BMC Med Res Methodol. 2004; 4: 13)

Perchè la statistica? Misurando due volte la stessa cosa si ottengono di solito due risposte diverse. Eterogeneità: è un concetto universale nella scienza. I tue tipi principali di eterogeneità sono: l'eterogeneità spaziale e temporale. Abbiamo la necessità di conoscere un modo per discriminare tra variazioni scientificamente interessanti e variazioni che riflettono eterogeneità di background.

Significatività Se ci attendiamo che la variazione osservata non sia maggiore di quella che ci saremmo attesi per caso diremo che il risultato è non significativo. Non significativo non significa non differente.

Buone ipotesi e cattive ipotesi K. Popper è stato il primo ad osservare che una buona ipotesi è un'ipotesi falsificabile. Tra le seguenti quale scegliereste come ipotesi di lavoro: Le LAM M3 hanno t(15;17) Le LAM M3 non hanno t(8;21) Assenza di evidenza non significa evidenza d'assenza

p value Il p value è una misura della probabilità che la differenza osservata sia casuale condizionato al fatto che l'ipotesi zero (nessuna differenza) sia vera. Nel caso p sia inferiore ad una soglia arbitraria si reietta l'ipotesi zero. La reiezione dell'ipotesi zero non implica che l'ipotesi zero sia falsa

Modello statistico Il ricercatore cerca il modello statistico minimo (rasoio di Ockham) che descriva meglio i dati. Il modello migliore produce la deviazione residua minima. Il risultato di un'analisi può generare numerosi modelli distinti che descrivono correttamente i dati

Massima verosimiglianza Il parametro di un modello fitta bene i dati quando applicato esso rende verosimile il modello. Consideriamo un modello lineare tra le variabili x e y. Il coefficiente angolare del modello di sinistra non è verosimile, quello di destra si. xx yy

Modelli meccanicistici e modelli empirici L'equazione cinematica che lega tempo, velocità e spazio s=v*t(M1) definisce un modello basato su relazioni fisiche note tra le variabili s,v e t. Se misuriamo n volte lo spazio percorso da una macchina che viaggia velocità v otterremo n misure diverse. In questo caso il modello che descrive meglio i nostri dati è s=v*t+ε(M2) poichè i valori ottenuti si adattano a M1 a meno di un termine ε. Questo termine tiene conto di tutte le fonti di variabilità non contemplate in M1. M2 è un modello empirico.

PROBABILITA'

Probabilità Il concetto di probabilità è intuitivo poichè gran parte dell'esperienza è basata su di essa. p=n/N Per trattare problemi complessi sono necessari strumenti teorici che operino sulla probabilità in termini formali: definizione assiomatica della probabilità e algebra.

Spazio campione, eventi L'insieme di tutti i possibili esiti di un esperimento è lo spazio campione S. S={aa, ac, ag, at, ca,..., tg, tt} S={dinucleotidi xy presenti in DNA | x,y=a,c,g,t} Un evento è un sottoinsieme di S. A={aa,cc,gg,tt} A={dinucleotidi di tipo xx|x=a,c,g,t}

Assiomi, eventi indipendenti Dati gli eventi A e B dello spazio campione S: p(S) = 1 0 p(A) p(S) = 1 Se A e B sono indipendenti, p(A U B) = p(A) + p(B) Qual è la probabilità che un frammento casuale di DNA di 2 paia di basi contenga la doppietta {aa} o la doppietta {gg}? Poichè i due eventi sono indipendenti si applica il terzo assioma e quindi p(aa U gg)=p(aa)+p(gg)

Eventi dipendenti Posto A l'evento {il paziente ha epatomegalia} e B l'evento {il paziente ha una LAL}, la probabilità dell'evento composto A U B non è semplicemente p(A)+p(B) poichè i due eventi possono essere dipendenti. In questo caso quindi p(A U B) = p(A)+p(B)-p(AB) dove p(AB) è la probabilità che A e B avvengano contemporaneamente. Poniamo dalla letteratura che p(A)=0.005 e p(B)=0.00005

Eventi condizionati Per rispondere a quesiti tipo: probabilità che l'evento A si verifichi posto che si sia verificato B si usa il concetto di probabilità condizionata. p(B|A)=p(AB)/p(A) Quindi, tornando alla slide precedente, basta conoscere p(AB) (vedremo nelle prossime slides) e p(A).

Eventi indipendenti e dipendenti La TH potrebbe essere un test diagnostico/prognostico utile nel neuroblastoma. Abbiamo osservato che essa discrimina nel seguente modo tra Neuroblastomi IV stadio e gli altri: 137 I,II,III, sani 519 IV TH-TH+

Eventi indipendenti e dipendenti Detto A levento {la TH è positiva} e B levento {il paziente è un IV stadio} la probabilità che lassociazione corretta TH/stadio sia casuale (indipendenza) è: P(AB)=P(A)*P(B)+P(/A)*P(/B)=0.32+0.18 = 0.5 In realtà si ricava dalla tabella che P(AB)=0.43+0.30 = 0.73 Questa differenza è significativa (test chi-quadro). Gli eventi non sono indipendenti. 137I,II,III, sani (20/44) 519IV (24/44) TH- (18/44)TH+ (26/44)

Eventi indipendenti e dipendenti Ci possiamo allora domandare ad esempio qual è la probabilità che il paziente sia un IV stadio una volta saputo che la TH è positiva: P(B|A)=P(AB)/P(A) = 19/44 x 44/26 = 0.73 O che non lo sia se la TH risulta negativa: P(/B|/A)=P(/A/B)/P(/A) = 13/44*44/18 = 0.72 137I,II,III, sani (20/44) 519IV (24/44) TH- (18/44)TH+ (26/44)

Teorema di Bayes E' spesso difficile ricavare direttamente p(AB). Il teorema di Bayes esprime p(AB) come: p(AB)=p(A|B)p(B) Allora nella relazione della probabilità condizionata si ottiene p(B|A) = p(AB)/p(A) = p(A|B)p(B)/p(A)

Teorema di Bayes Ad esempio vogliamo conoscere il peso dei dolori ossei e di epatomegalia nella diagnosi di LAL nel bambino. CI chiediamo la probabilità che un bamino abbia una LAL posto che abbia esclusivamente uno dei due sintomi. Possiamo applicare Bayes nel seguente modo: p(A)=probabilità di avere dolori ossei = 0.01 p(B)=probabilità di avere epatomegalia = 0.005 p(C)=probabilità che un bambino abbia una LAL = 0.00005 p(A|C) e la probabilita' di avere dolori ossei sapendo che il paziente ha LAL = 0.25 p(B|C) e la probabilita' di avere dolori ossei sapendo che il paziente ha LAL = 0.4 p(C|A)=0.25*0.00005/0.01=0.00125 (1/800) p(C|B)=0.4*0.00005/0.005=0.004 (1/240)

Statistica Inferenziale

Aspetti di base L'attività di ricerca in un laboratorio prevede l'uso intensivo di tecniche statistiche per inferire e validare ipotesi di lavoro. Tra i test classici più usati ricordo T test – comparare due medie campionarie (differenza tra due trattamenti) ANOVA – comparare tre o più medie campionarie (differenza tra più di due trattamenti) Wilcoxon test – comparare due medie campionarie (selezione dei geni variati nell'analisi iniziale dei microarray) Chi-quadro – testare indipendenza in una matrice di contingenza (verifica della non indipendenza tra due metodi di analisi distinti) Kolmogorov-Smirnov test – compara due distribuzioni (in citofluorimetrica verifica che due popolazioni cellulari siano uguali/distinte)

Test Classici Tre pozzetti di cellule su sei sono trattati con VPA. Dopo 24h tutti i pozzetti sono contati. Il trattamento ha avuto effetto? In un DEB test sono contate le rotture cromosomiche nelle metafasi trattate e non di un individuo con sospetta Anemia di Fanconi. Il numero di rotture contate è significativamente diverso nei due campioni? Quali test sono i più indicati per rispondere alle domande?

Wilcoxon/t-test Per rispondere alla prima domanda possiamo usare il t-test o il Wilcoxon test. Il t-test si usa quando le medie sono indipendenti, le varianze sono uguali e gli errori sono distribuiti normalmente. Il Wilcoxon test si usa quando le medie sono indipendenti ma gli errori non sono normalmente ditribuiti.

Test binomiale E uno dei test piu semplici. Si applica per comparare due proporzioni. Ad esempio se nel campione trattato si osservano 4 rotture su 10 mentre nel controllo se ne osservano 5 su 40 il test fornisce per H0 il valore p=0.046. Se abbiamo scelto la soglia 0.05, allora accettiamo lipotesi H1.

Chi-quadro In un gruppo di famiglie portatrici di anomalie congenite agli arti viene effettuata la conta piastrinica per valutare la possibilità di associazione (dipendenza) tra piastrinopoiesi/anomalia. E' necessario costuire una matrice di contingenza

Chi-quadro Una matrice di contingenza mostra le volte che un evento contigente (associazione di più eventi semplici) avviene. 1610P.<7*10E5 720P.>7*10E5 NormaleMalform * * * * Chi-quadro p=0.019

Correlazione, Regressione ed Analisi di Sopravvivenza

Analisi di correlazione Spesso molte variabili diverse descrivono un fenomeno. Tra le prime cose che un ricercatore dovrebbe verificare è la correlazione tra le diverse variabili. Se le variabili sono solo due la correlazione è data dalla semplice formula ρ(X,Y)=C(X,Y)/σxσy ρ varia da -1 a 1 e per |ρ| vicini a uno il risultato è significativo. Ma per valori intermedi? E' necessario utilizzare un test (Pearson, Sperman) per validare l'ipotesi di correlazione. La correlazione tra due variabili è importante nel caso si volessero effettuare su esse dei test che implicano l'indipendenza tra i campioni.

Correlazione - Esempio Alla rete neurale che predice il funzionamento di oligonucleotidi antisenso vengono passati 8 parametri in ingresso. Al fine di ridurne il numero (per accellerarne l'apprendimento) si effettua un'analisi di correlazione. Matrice di correlazione

Correlazione - Esempio Vediamo se la correlazione tra E1 ed E2 e tra E1 ed E3 è significativa applicando un test di correlazione E1-E2 corr. p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 E1-E3 corr. p-value = 0.04338 alternative hypothesis: true correlation is not equal to 0

Regressione Oltre ad essere interessati all'esistenza di relazioni tra variabili si cerca spesso di stabilire il rapporto tra esse La regressione coinvolge quindi la stima di parametri che legano i dati Esistono molti modelli che permettono di descrivere (attraverso dei paramentri) i dati E' necessario scegliere il modello corretto Bisogna avere gli strumenti per poter criticare un modello

Regressione Il modello più semplice per descrivere la relazione tra variabili continue è il modello lineare: y=ax+b ogni analisi di regressione parte cercando di adattare tale modello al caso in esame. x y Le deviazioni dei punti sperimentali dalla curva modello (retta) sono i residui. Il loro comportamento permette di definire la bontà del modello residuo

Regressione In base al comportamento dei residui è possibile stabilire la correttezza del modello. Il modello migliore è quello che minimizza la somma dei residui. La regressione permette la stima di una variabile (y) nota l'altra (x) La correlazione invece ci informa sulla forza di questo legame.

Regressione multipla Quando le variabili coinvolte sono più di due si parla di regressione multipla. Anche qui il modello più semplice è quello lineare, ma mentre prima i punti si concentravano lungo la retta y=ax+b, ora di ditribuiscono sul piano z=ax+bz+c L'idea è comunque uguale al modello a due variabili; si cerca di ottenere un piano che minimizza i residui.

Regressione logistica Nel caso si volesse utilizzare la regressione nella predizione di mortalità sorge un problema: La variabile dipendente non è continua ma discreta: vivo/morto Come fare?

Regressione logistica Si immagini che su N pazienti n siano vivi e m morti dopo un certo periodo di osservazione. Si vuole stabilire se alcune variabili sono correlate al rischio di morte. Si cerca prima di tutto con un modello lineare mortalità=a var1+b var2+c... di determinare i coefficienti a, b, c,... che meglio predicano la mortalità. Si ottiene per il modello un valore di verosimiglianza che viene confrontato con il valore di verosimiglianza di un modello casuale

Regressione logistica L'equivalente del coefficiente di correlazione r è il valore del rapporto tra queste due verosimiglianze (Likelihood Ratio). Se è sufficientemente piccolo allora il modello perdice l'outcome in modo significativo Si dimostra che la mortalità (evento binario) è data da m=ln(p/q) dove p=m/N è la probabilità di morte e q di sopravvivenza. Il rapporto p/q è detto probabilità a favore (odds)

Regressione logistica Allora eguagliando i termini ottenuti dal modello al termine di mortalità si ottiene ln(p/(1-p))=a var1+b var2+c... e operando semplici riarrangiamenti si può estrarre p p=1/[1+exp-(a var1+b var2+c...)] Posso così calcolare la probabilità di morte per diversi valori delle variabili var1, var2,... Curva logistica

Analisi di sopravvivenza Lanalisi di sopravvivenza è una tappa importante nello studio e valutazione dei protocolli di cura. Si dimostra (ad esempio con semplici esperimenti Montecarlo) che il la differenza di sopravvivenza tra due gruppi di 20 pazienti con tempo di sopravvivenza uno il doppio dellaltro non viene rilevato come statisticamente significativo da normali test statistici. Questo spiega il perché sono necessari campioni di grossa dimensione Inoltre la distribuzione dei dati non è mai normale e quindi si usano spesso modelli di sopravvivenza non parametrici (Kaplan-Meier e Cox).

Esistono tre tipi di curve di sopravvivenza Analisi di Sopravvivenza I II III Tempo Sopravvivenza

Analisi di Sopravvivenza Tre oggetti sono importanti: Funzione di sopravvivenza – Mostra la frazione di individui ancora vivi al'istante t Funzione di densità – Mostra la propabilità di morte in un intorno di t Funzione di rischio – E' definita come il rapporto tra la funzione di densità e la funzione di sopravvivenza. E' il rischio di morte condizionato al fatto di essere sopravvisuuti fino al tempo t Sono funzioni che descrivono intimamente la curva di sopravvivenza

Analisi di Sopravvivenza Ad esempio per una curva di sopravvivenza di tipo II si hanno questi tre tipi di andamento per le funzioni viste 1 0 1/μ 0 Tempo

Analisi di Sopravvivenza Eseguendo un analisi di sopravvivenza si distinguono solitamente i seguenti casi: Rischio costante di morte Rischio variabile-specifico (solitamente età) Con censura Senza censura Un elemento (paziente) si dice censurato dall'analisi quando non è conosciuta la data della morte. Questi elementi contribuiscono in qualche modo alla funzione di sopravvivenza.

Analisi di Sopravvivenza Vediamo un esempio. Ho ottenuto il dati di sopravvivenza di 33 pazienti con leucemia acuta mieloide. Di essi conosco il tempo di sopravvivenza in settimane, il wbc alla diagnosi ed un'informazione (+/-) riguardo alla positività al test AG. Quello che ci chiediamo è se la positività AG e/o wbc>30000 distingua i due gruppi in termini di sopravvivenza

Analisi di Sopravvivenza Di tutti i pazienti conosciamo la data della morte e quindi l'analisi sarà senza dati censurati Per prima cosa disegno le due curve di sopravvivenza distinguendo tra i pazienti AG+/AG- e wbc+/wbc-

Analisi di Sopravvivenza Successivamente riassumo in un sommario informazioni quali: media, deviazione standard, intervallo di confidenza etc. n events rmean se(rmean) median 0.95LCL 0.95UCL ag=absent 16 16 17.9 4.91 7.5 4 43 ag=present 17 17 62.5 12.79 56.0 22 121 n events rmean se(rmean) median 0.95LCL 0.95UCL wbc > 30000=FALSE 23 23 49.7 10.63 22 7 100 wbc > 30000=TRUE 10 10 20.5 6.35 15 4 Inf

Analisi di Sopravvivenza N Observed Expected (O-E)^2/E (O-E)^2/V ag=absent 16 16 9.3 4.83 8.45 ag=present 17 17 23.7 1.90 8.45 p= 0.00365 N Observed Expected (O-E)^2/E (O-E)^2/V wbc > 30000=FALSE 23 23 26.6 0.489 2.92 wbc > 30000=TRUE 10 10 6.4 2.033 2.92 p= 0.0874 AG distingue due gruppi con sopravvivenza significativamente differente WBC <30000 non distingue due gruppi con sopravvivenza significativamente differente

Tecniche non classiche

(a) ROC analisi (b) Reti Neurali (c) PCA (Principal Component Analysis) (d) Tecniche di clustering (e) Markov Chain (f) Altre Tecniche non classiche

Markov Models I modelli di Markov sono modelli matematici di processi stocastici. Un processo stocastico è un processo che genera sequenze random di eventi seguendo una certa legge di probabilità. Le sequenze di DNA possono essere viste come processi stocastici. I modelli di Markov sono utilissimi nell'analizzare le sequenze di DNA.

Markov Models Immaginiamo di voler determinare motivi di 4 nucleotidi che possano discriminare tra N oligo con e senza effetto antisenso. Vogliamo effettuare cioè una predizione. Immaginiamo di avere in totale 300 oligo lunghi 20 basi divisi in due categorie: Funzionanti e non. Con semplici calcoli combinatori sappiamo che esistono 256 motivi diversi di 4 basi (aaaa,aaac,...,gggt,gggg) Se mi aspetto che le singole basi si presentino con uguale frequenza (¼ ogni base) e in modo indipendente nel DNA, ci aspettiamo di che ogni motivo sia presente in media 6000/256=23 volte

Markov Models Purtroppo questo modello non funzione poichè si dimostra che: P(a)P(g)P(t)P(c) Anche tenedo conto della frequenza reale con la quale le basi si presentano il calcolo non è corretto poichè in una sequenza di DNA {...xy...} P(y|x)P(y) I modelli di Markov riescono ad estrarre le proprietà statistiche essenziali per effettuare l'analisi proposta. Il modello di Markov più semplice (modello del primo ordine) costruisce una matrice 4x4 ed in ogni posizione inserisce la frequenza con la quale una base viene seguita da un'altra base (probabilità di transizione). In questo modo dopo aver costruito la statistica ci possiamo domandare quale sia la probabilità di ottenere una certa sequenza.

Markov Models CTCC2716,18 GAGG2416,82 CTGG2317,08 GCTG2115,28 TCCT2117,27 TTCT2113,94 CTTC1917,09 TCTT1912,43 GGAG1815,42 GGCT1713,21 CCTC1611,92 CCTG1615,28 TGAG1617,5 TGGG1613 MotivoOssPred Alcuni motivi testati Contati in tutti i 294 oligo Attesi applicando Markov Se la frequenza osservata e quella attesa dal modello di Markov è significativamente diversa il motivo è sospetto I modelli di markov si usano in moltissimi campi della bioinformatica. - annotazioni utr-esone-introne - distinzione gene-pseudogene - struttura proteine - ricerca di motivi

Predittore Un predittore è un sistema che, ad ogni dato in ingresso, associa un un ben preciso dato in uscita. Dominio dei cerchi Dominio dei quadrati Predittore

Il predittore Concetto di Sensibilità e Specificità Le componenti energetiche sono dei buoni classificatori La sensibilità la capacità del predittore di non dare falsi negativi La specificità è la capacità di non dare falsi positivi Si nota dai grafici (analisi ROC) che il parametro E1 ha massima efficienza con Sensib.=0.76 e spec. 0.7. La componente casuale ha invece Sensib.=0.32 e spec. 0.83

Reti Neurali Solitamente i sistemi di predizione sono sistemi automatici basati o sulla statistica classica o su paradigmi di AI. I secondi (correttamente implementati) hanno performance sensibilmente superiori ai primi.

Reti Neurali Una rete neurale è la formalizzazione matematica di una rete neuronale. Si dimostra che una rete a tre strati gerarchici (si immagini il circuito per il riflesso da stiramento: fuso-interneurone- motoneurone) è in grado di apprendere una qualsiasi associazione tra domini diversi (funzione di mapping).

Reti Neurali (NNs) E' possibile addestrare una rete a riconoscere associazioni tra insiemi di dati (training). Se la topologia della rete e i parametri e l'insieme di training sono scelti correttamete la rete avrà generalizzato la conoscenza è potrà prevedere correttamente associazioni di dati mai visti. Le NNs sono usate con successo in diversi ambiti tra cui: Identificazione di marker sierologici per la diagnosi di epatocarcinoma Predizione dell'outcome in pazienti con neuroblastoma Diagnosi di metastasi linfonodale nel cancro allo stomaco

STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Presentazioni simili

Presentazione sul tema: "STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Presentazioni simili

Presentazione sul tema: "STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back