Correlazione e regressione Dipendenza - Regressione Si presuppone che una variabile (Y) sia influenza-ta da un’altra (X). Ad es., Reddito (X) e Risparmio (Y). Interdipendenza - Correlazione Il caso contrario (non vi è alcuna ipotesi). Ad es., Reddito (X) Spesa beni necessari (Y)
Correlazione Interdipendenza (alcuni esempi) Valore medio della temperatura e n. di svaghi in un mese Età al matrimonio tra M e F. Reddito tra Mariti e Mogli
CLASSE SOCIALE ELEVATA Correlazione ? MENARCA PRECOCE ALTO QI CLASSE SOCIALE ELEVATA Possiamo dire che esiste una relazione causale tra MENARCA e QI? No! E’ una CORRELAZIONE SPURIA
Analisi con il diagramma a punti Al fine di avere informazioni sull’associazione (o interdipendenza) tra due variabili, è utile costruire un diagramma a punti. Paesi Indice fertilità totale % donne che usano contraccettivi UK 1,8 82 USA 2,1 71 Gambia 5,4 12 Indonesia 2,8 55 Messico 3,0 53 Brasile 2,3 66 Uganda 7,1 15 Slovacchia 74 Niger 7,3 4 Botswana 4,7 33
Diagramma a punti Correlazione positiva Correlazione negativa Correlazione nulla o indipendenza
Diagramma a punti
Diagramma a punti Quali informazioni ricaviamo? Sembra esistere una correlazione negativa (all’aumentare della % di donne che usa il contraccettivo diminuisce l’indice di fertilità). La correlazione negativa sembra moderata (scarsa inclinazione dei punti) Come possiamo misurare meglio la “forza” di questo legame statistico?
Coefficiente di correlazione Esiste il coefficiente di correlazione di Bravais-Pearson. Esso è dato da ove
Coefficiente di correlazione Quali sono i valori caratteristici del coeff. di correlazione? Correlazione negativa max -1 Indipendenza 0 Correlazione positiva max +1 Valori di riferimento r < - 0,50 correlazione negativa consistente 0,50 < r < + 0,50 correlazione meno importante r > + 0,50 correlazione positiva consistente
Y X 1,8 82 2,1 71 5,4 12 2,8 55 3,0 53 2,3 66 7,1 15 74 7,3 4 4,7 33 Y-MY X-MX -2.03 35.5 -1.73 24.5 1.57 -34.5 -1.03 8.5 -0.83 6.5 -1.53 19.5 3.27 -31.5 27.5 3.47 -42.5 0.87 -13.5 Y-MY^2 X-MX^2 4.12 1260.25 2.99 600.25 2.46 1190.25 1.06 72.25 0.69 42.25 2.34 380.25 10.69 992.25 756.25 12.04 1806.25 0.76 182.25 41.27 7282.50 (Y-MY)(X-MX) -72.07 -42.39 -54.17 -8.76 -5.40 -29.84 -103.01 -55.83 -147.48 -11.75 -530.70
X Y 20 21 18 22 19 24 26 29 30 27 X Y 20 28 18 19 26 24 29 30 27 21
Correlazione Quando il coefficiente di correlazione non va bene per misurare l’interdipendenza tra due variabili? Quando sussiste una relazione NON LINEARE tra X e Y.
Regressione Dipendenza (alcuni esempi) Valore medio della temperatura e n. di giorni di accensione del riscaldamento Età al primo parto e n. di figli. Reddito familiare e consumi
Regressione Tra la retta rossa e quella verde qual è la migliore? La scelta non potrà essere arbitraria, ma delegata ad un calcolo statistico
Regressione Poiché si è deciso di tracciare una retta, dobbiamo trovare il modo di determinarla. L’equazione sarà Del tutto equivalente a
Regressione a = intercetta della retta sull’asse Y b = coefficiente angolare della retta Un ottimo criterio per trovare la retta è minimizzare le distanze dei punti dalla stessa.
Regressione Applicando quel principio otteniamo Nel caso dell’esercizio su fertilità e contraccezione si ha
Regressione Quindi l’equazione della retta sarà Cosa significa b? Esso rappresenta l’incremento (decremento) nella variabile Y in corrispondenza ad un incremento UNITARIO nella variabile X. Per questo motivo X=variabile indipendente e Y=variabile dipendente
Regressione Cosa significa a? Rappresenta il punto in cui la retta interseca l’asse verticale (Y). 7,09
% donne che usa contraccettivo Regressione Si può usare la retta di regressione a fini previsionali % donne che usa contraccettivo Indice di fertilità 7,09 1 7,02 2 6,95 25 5,34 40 4,29 80 1,49 100 0,09
Regressione Come abbiamo ottenuto i precedenti valori? Allora b indica proprio di quanto diminuisce Y in corrispon-denza ad un incremento unitario in X
Regressione La retta di regressione può anche essere usata a fini previsionali.
Regressione Casi particolari b = 0 b =
Regressione Ma siamo certi che la retta si adatta bene ai nostri dati? Che sia il modo migliore di spiegare la relazione di dipendenza di Y da X? Studiamo l’adattamento della retta ai dati per mezzo del coefficiente di correlazione. Se i punti stanno tutti sulla retta allora r=1 oppure r=-1 Per eliminare il problema del segno calcoliamo r2
Regressione Per l’es. fertilità-contraccezione si ha Poiché r2 varia tra 0 e 1, allora la retta di regressione della contraccezione sulla fertilità si adatta molto bene ai dati. Inoltre il coefficiente r2 spiega quanta parte della variabilità totale è interpretata dalla retta.
Esempio
Esempio Media X = 60,6 Media Y = 60 Dev(X) = 5624 Dev (Y) =1727,6 Cod (XY) = 2524,8 r = 0,81 y = a + bx = 32,8 + 0,45 x