Correlazione e regressione lineare Università degli Studi di Torino Corso di Laurea in Medicina e Chirurgia Correlazione e regressione lineare Milena Maule - AA 2011-12
Correlazione Misura di associazione tra 2 variabili quantitative Risponde alla domanda: esiste un’associazione lineare tra le variabili? Milena Maule - AA 2011-12
Esempio: campione casuale di 20 donne Gruppo di donne di una determinata area geografica invitate a sottoporsi a un prelievo di sangue per la determinazione del livello di emoglobina (Hb) e dell’ematocrito (PCV). Si registra anche l’età e stato di menopausa (sì/no). Percentuale di adesione: circa il 90%. Milena Maule - AA 2011-12
Esempio: campione casuale di 20 donne Milena Maule - AA 2011-12
riassumere la forza della relazione lineare fra le variabili Vogliamo analizzare la relazione fra Hb e PCV. Non ci chiediamo se Hb influenzi PCV o PCV influenzi Hb, o se un alto valore di PCV causi un alto valore di Hb, ma se le due variabili sono associate Il coefficiente di correlazione del campione (r: coefficiente di correlazione di Pearson) ci permette di: verificare l’ipotesi che vi sia associazione fra le variabili o se l’apparente associazione possa essere dovuta al caso riassumere la forza della relazione lineare fra le variabili Milena Maule - AA 2011-12
Hb e PCV: dall’analisi del grafico, come descriveresti l’associazione fra le due variabili? Milena Maule - AA 2011-12
Direzione dell’associazione Correlazione positiva Correlazione negativa Milena Maule - AA 2011-12
Forza dell’associazione Valore di r Interpretazione 1 correlazione lineare positiva perfetta nessuna correlazione lineare -1 correlazione lineare negativa perfetta Milena Maule - AA 2011-12
Forza dell’associazione correlazione lineare positiva perfetta nessuna correlazione lineare Milena Maule - AA 2011-12
Forza dell’associazione Valore di r Interpretazione 0.9 correlazione lineare forte 0.5 correlazione lineare moderata 0.25 correlazione lineare debole Milena Maule - AA 2011-12
Forza dell’associazione correlazione lineare positiva forte correlazione lineare negativa moderata Milena Maule - AA 2011-12
Forza dell’associazione Milena Maule - AA 2011-12
Dato un insieme di coppie di osservazioni (x1,y1), (x2,y2), …, (xn,yn) Calcolo di r Dato un insieme di coppie di osservazioni (x1,y1), (x2,y2), …, (xn,yn) Milena Maule - AA 2011-12
Esempio: Hb = x, PCV = y Milena Maule - AA 2011-12
Interpretazione di r Il coefficiente di correlazione r è una quantità a-dimensionale varia da -1 a 1 è positivo quando i valori delle variabili crescono insieme è negativo quando i valori di una variabile crescono al decrescere dei valori dell’altra non è influenzato dalle unità di misura Milena Maule - AA 2011-12
Coefficiente di determinazione proporzione di variazione di una variabile che è “spiegata” dalla variazione dell’altra variabile Nell’esempio: r = 0.67, r2 = 0.45 il 45% della variazione di Hb è spiegato dalla variazione di PCV; il restante 55% non è spiegato dalla variazione di PCV Milena Maule - AA 2011-12
la relazione fra le variabili è non-lineare Il coefficiente di correlazione non è una buona misura di associazione fra due variabili quando: la relazione fra le variabili è non-lineare in presenza di valori estremi Esempi: 1 2 Milena Maule - AA 2011-12
relazione quadratica. x e y sono fortemente associate, tuttavia r = 0 relazione quadratica. x e y sono fortemente associate, tuttavia r = 0. E.g.: relazione fra mortalità globale della popolazione e peso uno dei valori è molto distante dal gruppo principale degli altri valori e influenza fortemente il valore stimato di r: poiché è così estremo deriva probabilmente da una popolazione diversa 1 2 Milena Maule - AA 2011-12
Il coefficiente di correlazione va utilizzato con cautela quando le variabili sono misurate da più di un gruppo distinto, e.g. pazienti affetti da una malattia e controlli sani: possono generare due gruppi di punti, ciascuno dei quali con r = 0 ma r 0 una volta combinati (effetto simile al caso che contiene un valore estremo) una delle due variabili è fissata a priori, e.g. quando si misura la risposta a dosi diverse di un farmaco. In questo caso la scelta di un particolare dosaggio può influenzare il coefficiente di correlazione, anche se la relazione dose-risposta è fissa Milena Maule - AA 2011-12
IMPORTANTE: Un’elevata correlazione fra due variabili NON implica una relazione causa-effetto Milena Maule - AA 2011-12
I test di correlazione sono fra le procedure statistiche peggio utilizzate. Sono in grado di dimostrare se due variabili sono correlate, tuttavia NON sono in grado di dimostrare che due variabili NON sono correlate! Se una variabile dipende da un’altra, e se vi è una relazione causale, è sempre possibile trovare una qualche forma di correlazione fra le due. Ma se entrambe le variabili dipendono da una terza variabile, potremmo trovare correlazione fra le due variabili di partenza anche se fra di esse non vi fosse nessuna dipendenza causale Esempio: è stata trovata una correlazione fra il numero di ripetitori di telefoni cellulari e la diminuzione del numero dei passerotti. Domanda: sono i ripetitori a danneggiare i passerotti oppure entrambi gli effetti sono causati da qualcos’altro? Oppure sono osservazioni completamente indipendenti che per caso appaiono correlate? Non lo sappiamo, i test di correlazione non rispondono a questa domanda e sono necessari altri studi Milena Maule - AA 2011-12
Test di significatività Calcolato r, si deve decidere se la correlazione osservata possa essere frutto del caso (spuria) Cerchiamo la probabilità di ottenere un coefficiente di correlazione pari o più estremo del valore osservato r, posto che l’ipotesi nulla sia vera (H0: r = 0) Calcoliamo , dove l’errore standard stimato di r è dato da Se le coppie di valori (xi,yi) sono state scelte casualmente e le due variabili x e y sono distribuite normalmente, t è distribuita come una variabile t di Student con n-2 gradi di libertà Milena Maule - AA 2011-12
Test di significatività Nell’esempio: n = 20, r = 0.67 t = 3.83 Eseguiamo un test a due code dell’ipotesi nulla di assenza di associazione con un livello di significatività a = 0.05 Per una distribuzione t di Student con 18 gradi di libertà, t18,0.025 = 2.101. Il t empirico cade nella zona di rifiuto (3.83 > 2.101), quindi: rifiutiamo l’ipotesi nulla ad un livello di significatività pari a 0.05: in base a questo campione, c’è evidenza che la correlazione lineare nella popolazione sia diversa da 0 Milena Maule - AA 2011-12
Assunzione alla base del test di significatività: entrambe le variabili sono casuali e distribuite normalmente E.g.: nel caso in cui siano presenti valori estremi, la variabile non può essere distribuita normalmente e il test di significatività non è più valido Milena Maule - AA 2011-12
Regressione lineare Metodo statistico per trovare la retta con il migliore adattamento ai valori di una variabile quantitativa sulla base dei valori di una (o più) variabili quantitative Con la regressione lineare si studia la dipendenza di una variabile (variabile dipendente) da un’altra (variabile indipendente) Milena Maule - AA 2011-12
Regressione lineare Con la regressione lineare analizziamo la dipendenza di una variabile (dipendente, y) da un’altra (indipendente, x) Partiamo dalla premessa che un cambiamento di x porterà direttamente a un cambiamento di y Tuttavia, in generale, non siamo autorizzati a credere che x abbia causato y Spesso siamo interessati a predire il valore di y per un dato valore di x Milena Maule - AA 2011-12
Nell’esempio: E’ logico credere che l’avanzare dell’età influenzi i valori di Hb e non viceversa Milena Maule - AA 2011-12
intercetta: è il valore dell’equazione quando x=0 La relazione fra x e y è riassunta dall’equazione di una retta (retta di regressione): intercetta: è il valore dell’equazione quando x=0 coefficiente di regressione o pendenza della retta Quando x aumenta di una unità, il valore medio di y cambia di unità La retta di regressione della popolazione è un modello: i parametri e vengono stimati (a e b) usando un campione casuale di osservazioni (xi,yi) Milena Maule - AA 2011-12
La relazione fra le due variabili è LINEARE ASSUNZIONI: I valori della variabile indipendente x si assumono misurati senza errore La relazione fra le due variabili è LINEARE Per ogni valore di x, la varianza di y è costante (assunzione di omoschedasticità) I valori di y sono indipendenti Milena Maule - AA 2011-12
Modello: Stima di b e a : Milena Maule - AA 2011-12
Interpretazione della pendenza (b = 0 Interpretazione della pendenza (b = 0.13): per ogni anno di età in più, l’emoglobina aumenta di 0.13 g/dl Milena Maule - AA 2011-12
: valori predetti dall’equazione della retta per INFERENZA : valori predetti dall’equazione della retta per Milena Maule - AA 2011-12
Se H0: b = 0 equivalente a testare H0: r = 0, ovvero: Testiamo H0: b = b0 Se H0 è vera, t è una variabile t di Student con n-2 gradi di libertà. Troviamo p, confrontiamo con il livello significatività, rifiutiamo o non rifiutiamo H0 Se H0: b = 0 equivalente a testare H0: r = 0, ovvero: y non cambia al variare di x I.C. al (1-a)% per b : Milena Maule - AA 2011-12
Coefficiente di determinazione: r2 dove r = coefficiente di correlazione di Pearson r [-1,1] r2 [0,1] Se r2 = 1: tutti i valori osservati giacciono sulla retta di regressione Se r2 = 0: non c’è relazione lineare fra x e y r2 rappresenta la proporzione di variabilità tra i valori osservati di y spiegata dalla regressione lineare di y su x Nell’esempio: r=0.88, r2=0.77 il 77% della variazione di Hb è spiegato dalla variazione dell’età Milena Maule - AA 2011-12
2. Adeguatezza di una relazione lineare (vd correlazione) Attenzione a: 1. Estrapolare la retta di regressione al di fuori dell’intervallo dei valori della variabile indipendente x. E.g.: studio sulla circonferenza cranica per una popolazione dei neonati con basso peso alla nascita (< 1500 g) in relazione all’età gestazionale (Leviton et al. 1991). Retta di regressione: y=3.91+0.78x. Intercetta = 3.91: rappresenta il valore medio della circonferenza cranica corrispondente a un’età gestazionale di 0 settimane: in questo esempio non ha alcun significato. L’età gestazionale più bassa misurata è di 23 settimane 2. Adeguatezza di una relazione lineare (vd correlazione) relazione quadratica o di grado superiore pendenza = 0 non significa mancanza di relazione, solo mancanza di relazione lineare Milena Maule - AA 2011-12