La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

La regressione statistica IL CASO UNIVARIATO Consideriamo due variabili continue proponendoci di INDAGARE se esiste una relazione tra loro. Normalmente.

Presentazioni simili


Presentazione sul tema: "La regressione statistica IL CASO UNIVARIATO Consideriamo due variabili continue proponendoci di INDAGARE se esiste una relazione tra loro. Normalmente."— Transcript della presentazione:

1 La regressione statistica IL CASO UNIVARIATO Consideriamo due variabili continue proponendoci di INDAGARE se esiste una relazione tra loro. Normalmente si parte da uno ‘scatterplot’, che suggerisce una qualche relazione ‘osservazionale’, non legata ad ipotesi di natura fisica o biologica...

2 x y Date due variabili x ed y studiando la loro CORRELAZIONE si stima il grado di associazione (in assenza di una ipotesi biologica o logica alla base)

3 Il coefficiente di correlazione ‘r’ di Pearson, definito come: r 2 = ± DS / DT DS =  (y stim - y m ) 2 è la devianza spiegata ; DT =  (y - y m ) 2 è la devianza totale rappresenta un numero compreso tra -1 e 1. Il suo quadrato ‘r 2 ’fornisce la proporzione di variazione di y ‘spiegata’ da x

4 Si può quantificare il grado di ‘dipendenza’ di una variabile rispetto all’altra studiando la REGRESSIONE :si vede come varia y in funzione di x.

5 x y Cerchiamo una retta che ‘interpoli’ i dati, ossia che renda minima la somma dei quadrati degli ‘scarti’ tra punti sperimentali y i e punti ‘calcolati’: Y i = a + b x i a rappresenta l’intercetta ( ordinata per x=0 ), b rappresenta il coefficiente angolare o pendenza. Y = a + b x

6 Il coefficiente di regressione : b= cov(x,y)/ var(x) = dy/dx ipotizzando una variazione unitaria di x (dx=1), mi dice la corrispondente variazione di y (dy=b): si tratta di un COEFFICIENTE NETTO: è un incremento al netto del peso delle eventuali altre variabili considerate, dunque elimina i confondenti noti eventualmente introdotti in una analisi multivariata.

7 Naturalmente sia b sia a saranno gravati da un ‘errore di stima’,indicato dal loro Standard Error SE, grazie al quale si potrà eseguire un test statistico, formulando l’ipotesi nulla (no associazione) e calcolando il t di Student t= b/SE(b) con n-2 gradi di libertà.

8 Esempio: si studi l’associazione tra livello di emoglobina (Hb) ed età in un gruppo di 20 donne. Portando i dati su grafico: Age (yr) Hb (g/dl)

9 Ed eseguendo una regressione lineare si ottiene: b= 0.134 g/dl/yr SE(b) = 0.017 df= 18 INTERPRETAZIONE: per ogni anno di età ci si aspetta un aumento dell’ Hb di 0.134 g/dl la significatività del risultato viene testata: t= 0.134 / 0.017 = 7.84 che per df= 18 fornisce p< 0.001.

10 Il problema fondamentale in questo tipo di analisi statistica consiste nell’ assunzione che la relazione di associazione sia lineare. Come si può ‘testare’ questa assunzione? Vediamolo attraverso un esempio. Si è misurata la velocità di filtrazione glomerulare GFR vs la creatina plasmatica (Cr) in 31 uomini ottenendo uno scatter-plot rappresentato in figura:

11 Cr (mg per 100 ml) GFR (ml/min) 5.5 55

12 Supponiamo di cercare una retta di regressione a partire da questi dati. I programmi standard forniscono: y = 70.88 - 8.88 x (per ogni aumento unitario di Cr si ha una diminuzione di 8.88 ml/min in GFR. Leggiamo i risultati dell’analisi della varianza associata: DS (devianza spiagata dalla regress) 13460.2 residuo11869.5 DT25329.7 r2 = 53,1 % LA REGRESSIONE SPIEGA ‘POCO’

13 Normalmente i programmi forniscono anche i sd ‘residui’. Se li grafichiamo per il caso precedente troviamo: Cr Residui di GFR INVECE DI ESSERE DISTRIBUITI PRESSOCHE’ ALLO STESSO MODO SONO ‘ENORMI’ NELLA PARTE INIZIALE E FINALE! QUESTE SONO IN EFFETTI LE PARTI ‘NON LINEARI’.

14 Proviamo ora a riguardare i dati con attenzione. Cr (mg per 100 ml) GFR (ml/min) 5.5 55 L’andamento agli estremi sembra suggerire un ramo di iperbole, quindi una dipendenza lineare tra GFR e 1/Cr

15 Se si effettua l’analisi in questo caso si ottiene: y = -2.44 + 87.9 (1/x) e questa volta la DS è pari a 20014.1, quella residua a 5315.6, per modo che r2 = 79% ! Rivediamo l’analisi dei residui: 1/Cr Residui di GFR

16 Rimangono alcuni valori elevati: sono i cd OUTLIERS, che conviene eliminare dall’analisi come valori sospetti. Nel caso in questione eliminando il principale outlier si migliora r 2 fino all’ 86.5 %.

17 La regressione multipla Nella realtà, è talvolta difficile isolare due sole variabili tra loro associate, ovvero la relazione può essere ‘mascherata’ oppure esaltata dalla presenza di ‘variabili nascoste’ o confondenti. Potrebbe essere importante mettere anche loro in gioco e valutare quanto influiscono nello ‘spiegare’ la devianza dai sdati sperimentali. Il modello, detto multivariato, consiste nel generalizzare l’equazione della retta a più dimensioni: y = a + b 1 x 1 + b 2 x 2 + …...

18 In questo caso avremo più parametri, ciascuno dei quali avrà ancora il significato di aumento (o diminuzione) di y per variazione unitaria di x A PRESCINDERE DAGLI ALTRI PARAMETRI (ossia tenendo gli altri parametri costanti). Torniamo all’esempio dell Hb vs age delle 20 donne. Per esse era noto anche il valore di PCV (packed cell volume), che si può pensare essere correlato con Hb. Questa dipendenza potrebbe mascherare la relazione tra Hb e età? Si mette a punto un modello multiplo: Hb = a + b 1 età + b 2 PCV

19 La regressione multipla fornisce i seguenti risultati: varcoeff regrSEtp a5.241.214.340.0004 età0.1100.0166.740.0001 PCV0.0970.0332.980.0085 Come si legge questa tabella? Per un valore fissato di PCV, Hb cresce di 0.11 g/ml ogni anno (il valore è un po’ inferiore a quello trovato prima, ma è ancora statisticamente molto significativo), mentre per una età fissata, Hb cresce di 0.097 g/dl per ogni aumento unitario di PCV, e anche questo è statisticamente significativo.

20 Una considerazione analoga si può fare se si tiene conto dello stato pre o post menopausale delle donne considerate. In questo caso abbiamo una varaibile non continua, ma di tipo ‘0’ in premenopausa e ‘1’ in postmenopausa: dummy variable. Lo schema si può ancora applicare e il risultato diventa: varregress coeffSEtp a11.621.995.81<0.001 age0.0810.0332.410.03 menopause1.881.031.820.08 Il coefficiente legato all’età è ancora calato, perché una parte della dipendenza dall’età se l’è presa l’informazione sulla pre e post menopausa!

21 Infatti, a parità di età, le donne in post menopausa (valore ‘1’) hanno un livello di Hb che supera di 1.88 g/ml quello di una pari età in premenopausa. Tuttavia tale differenza non è statisticamente significativa, mentre la relazione tra Hb ed età continua ad esserlo, ed è stata ‘depurata’ dall’influenza dello stato ormonale!

22 Prima di iniziare una regressione multivariata, e dunque decidere QUALI variabili inserire, occorre verificare: 1) che esse non siano TROPPO CORRELATE: se le variabili sono continue si stima per ogni coppia la r DI PEARSON, se una è continua e l’altra categoriale si stima la r DI SPEARMAN, se entrambe sono categoriali si considera la tabella di contingenza:

23 MM* Eab E*cd è possibile stimare il CHIQUADRO oppure l’ ODDS RATIO = ad/bc (ODDS= ragione di scommessa, es: 3:1) N.B. OR indica la forza dell’associazione.

24 2) controllare i dati mancanti e i cosiddetti ‘OUTLIERS’, compiendo eventualmente una ANALISI DEI RESIDUI 3) porre attenzione a come viene divisa in classi la variabile continua. E’ bene misurare con il massimo del dettaglio e suddividere successivamente in classi, seguendo criteri basati su: a) motivi biologici e/o clinici b) numerosità (classi equinumerose o almeno non classi quasi vuote)


Scaricare ppt "La regressione statistica IL CASO UNIVARIATO Consideriamo due variabili continue proponendoci di INDAGARE se esiste una relazione tra loro. Normalmente."

Presentazioni simili


Annunci Google