La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

ASSOCIAZIONE E CORRELAZIONE

Presentazioni simili


Presentazione sul tema: "ASSOCIAZIONE E CORRELAZIONE"— Transcript della presentazione:

1 ASSOCIAZIONE E CORRELAZIONE
Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili sono associate se esiste un legame funzionale tra le variabili: mi attendo che i valori medi delle variabili, espresse in un medesimo soggetto, varino in modo concorde.

2 per esempio … studio la relazione tra indice di affollamento delle città e la mortalità infantile. Studio la relazione peso e altezza di individui di una popolazione; Studio le variabili di un censimento di una popolazione. Il tasso di mortalità infantile (morti nel primo anno di vita) su nati vivi «decresce quando il numero di abitanti/stanza (indice di affollamento) decresce» In altri termini «la mortalità infantile cresce con l'indice di affollamento». Come concludo ? Esiste … relazione di causa effetto. associazione (generica). correlazione (mutua influenza).

3 Esempio: uno studio di popolazione
1980 Census data by state Variabile descrizione State medage Median age Region Census region [Ne Nc South West] death Number of deaths Pop Population marriage Number of marriages Poplt5 Pop, < 5 year divorce Number of divorces pop5_17 Pop, 5 to 17 years pcturban % urban population Pop18p Pop, 18 and older drate Death Rate Pop65p Pop, 65 and older medagesq Median age squared popurban Urban population

4 Regressione di log10(death) su log10(divorce)
. regress l_death l_divorce Source | SS df MS Number of obs = 50 F(1,48)= Model | Prob > F = Residual | R-squared = Adj R-squared=0.8491 Total | Root MSE = l_death | Coef. Std.Err. t P>|t| [95% Conf. Interval] l_divorce| _cons |

5 Regressione di log10(death) su log10(divorce)
LOG10(divorzi) LOG10(decessi) Log(death)= *log(divorce)

6 relazione causa-effetto | associazione
Tra due o più variabili quantitative rolevate nel medesimo soggetto possono esistere tre tipi di relazione: relazione tra causa ed effetto (criteri di Bradford Hill). associazione statistica (generica) correlazione (mutua influenza). (due variabili vengono dette associate quando la distribuzione dell'una influenza la distribuzione dell'altra).

7 I cinque criteri di causalità che derivano dalla proposta dello statistico inglese Sir Austin Bradford Hill (1965) ed elaborati in un ampio studio riguardante l'effetto del fumo nell'uomo

8 nota bene: l'associazione statistica non implica l'esistenza di una relazione di causa effetto.
È stato osservata una forte associazione tra il numero di divorzi e la quantità di tabacco importata in Inghilterra negli anni 50'. Da questa osservazione si potrebbe indurre che: “il tabacco è causa di discordia familiare” ovvero che “coloro che divorziano di consolano fumando”. Più semplicemente si deve concludere che tra tabacco e numero di divorzi esiste una relazione in quanto entrambe dipendono dallo sviluppo economico.

9 terminologia della regressione lineare
Data una coppia di variabili casuali quantitative {x} e {y}. Siano noti. il diagramma di dispersione {x,y}. La media, la deviazione standard di {x} ed {y} e la covarianza. Siano di interesse. La previsione del valore di {y} , noto il valore di {x}. La previsione del valore di {x} , noto il valore di {y}. L’errore di previsione del valore di {y}, noto il valore di {x}. L'errore di previsione del valore di {x}, noto il valore di {y}.

10 l'attesa condizionale relazione non lineare relazione lineare
I punti sperimentali che suggeriscono le due relazioni I punti osservati [coppie (xi,yi) per i=1,n] in esperimento di verifica della relazione teorica non giacciono usualmente sulla curva, ed oscillano in modo diverso per ogni fissato valore di xi. uguale variabilità dei valori yi nei disti valori di xi, omoscedasticità variabilità non uniforme dei valori yi nei distinti valori di xi , eteroscedasticità

11 Modello di regressione ad effetti fissi
Il primo contesto (gli effetti fissi) ipotizza che la variabile indipendente {x} sia osservata senza errore: ad esempio, il numero di ore lavorate, il tempo passato a studiare, i mesi trascorsi dopo una operazione. In questo caso si può affermare che {y|x} sia distribuita nello stesso modo di {y} e che il valore atteso di E{y|x} sia funzione di parametri da determinare con i metodi qui descritti. Esempi:

12 Per semplicità scegliamo una relazione lineare
La scelta di una relazione lineare semplifica enormemente i calcoli è molto rilevante scientificamente presuppone una relazione presuppone una varianza costante (omoscedaticità) Il modello matematico lineare vale molte volte come prima approssimazione di fenomeni con andamento "curvilineo"

13 Abbreviazioni usate nella lezione
Σxi Somma dei valori di {x} Σx Σyi Somma dei valori di {y} Σy Σxi2 Somma dei quadrati dei valori di x Σxx Σyi2 Somma dei quadrati dei valori di y Σyy Σxiyi Somma dei prodotti dei valori di x ed y Σxy [x,x] devianza della variabile {x}. Σxx- (Σx)(Σx)/n [y,y] devianza della variabile {y}. Σyy- (Σy)(Σy)/n [x,y] codevianza delle variabili {x} ed {y}. Σxy- (Σx)(Σy)/n [,] devianza residua intorno alla regressione. [y,y] – b·[x,x]

14 modello ad effetti fissi
Un campione estratto da una popolazione di coppie {y,x} di valori si può immaginare come un esperimento in cui si sono realizzate n coppie di osservazioni. {y1 ,x1 } { y2 ,x2 } {yN ,xN }. dove {x1,x2,xN} sono valori prefissati e quindi rilevati senza errore casuale e {y1,y2,. . .,yN} sono valori costituiti da una parte deterministica e da una parte casuale. yi = α + β xi + εi.

15 Varianza intorno alla regressione
La parte casuale sia distribuita in modo gaussiano N(0,σ2) indipenden-temente dalla variabile {x}, campionata senza errore. Allora possiamo affermare che {yi} = [yi|xi] è distribuita identicamente con la stessa Il modello ad effetti fissi richiede la stima della sola distribuzione di {y|x} e la stima del valore dei parametri di regressione {α,β}. Questa si ottiene dal metodo dei minimi quadrati

16 metodo dei minimi quadrati
Un problema classico della matematica propone di tracciare la retta interpolante i punti che sembrano allinearsi intorno ad una retta? Soluzione: traccia la retta per la quale la somma delle distanze dei punti osservati dalla retta è minima. Tale luogo è il minimo della funzione f(a, b) si ottiene cercando i valori più opportuni di a e di b. Calcoli semplici mostreranno che α e β possono essere stimati da

17 Codevianza e covarianza
La somma dei prodotti degli scarti prende il nome di codevianza Tale somma è positiva se le coppie di scarti concordi (+,+ o -,-) prevalgono su quelle di scarti discordi, negativa in caso contrario, e nulla se coppie concordi e discordi si equivalgono. =[x,y] In analogia con quanto visto per la varianza cam-pionaria, si definisce un indice detto covarianza dato dal rapporto tra codevianza e numerosità (n) del campione diminuita di un'unità

18 indici di covariazione:
Il rapporto tra la covarianza e il prodotto delle deviazioni standard (sx e sy) delle variabili x e y è detto coefficiente di correlazione lineare: Il coefficiente di correlazione lineare può assumere valori compresi tra -1 e +1.

19 metodo dei minimi quadrati
LEMMA: La media aritmetica è il valore che rende minimo la somma degli scarti quadratici di un insieme di punti da un singolo punto. Dimostrazione: La somma è minima per Per assurdo ipotizzo che esista uno z per cui cvd

20 metodo dei minimi quadrati
pensando si conoscere β ottengo che f(a, β) è minima riordinando i termini: ovvero a è la media della variabile La relazione è forma alternativa della retta di regressione che mette in evidenza come la retta di regressione passi per il baricentro della nuvola di punti

21 sommo e sottraggo la stessa quantità
trovata la stima di a, occorre stimare b, sfruttando il risultato precedente, la somma delle distanze quadratiche tra retta e punti sommo e sottraggo la stessa quantità = minima>zero da cui

22 simboli abbreviati = + - Σxi Somma dei valori di {x} Σx Σyi
Somma dei valori di {y} Σy Σxi2 Somma dei quadrati dei valori di x Σxx Σyi2 Somma dei quadrati dei valori di y Σyy Σxiyi Somma dei prodotti dei valori di x ed y Σxy [x,x] devianza della variabile {x}. Σxx- (Σx)(Σx)/n [y,y] devianza della variabile {y}. Σyy- (Σy)(Σy)/n [x,y] codevianza delle variabili {x} ed {y}. Σxy- (Σx)(Σy)/n [e, e] devianza residua intorno alla regressione. [y,y] – b·[x,x] = + - residua totale nulla spiegata

23 errore campionario di regressione
Sia σ2RES è la varianza residua calcolo osservo che quando parlo di effetti fissi, {xi} non hanno varianza. Dato che le yi sono omoscedastiche var(yi) = σ2RES e semplificando da cui

24 varianza campionaria di una regressione
la varianza di a si calcola tramite la sua stima ERRORE CAMPIONARIO DI UNA REGRESSIONE sostituisco a σ2 la sua stima con n-2 g.d.l. il test t-student per b sarà il test t-student pera sarà

25 Esempio LOG10(divorzi) LOG10(decessi)

26 LIMITI DI CONFIDENZA DELLA RETTA
dato un valore x0 , la stima migliore del valore medio di y0 dato x sarà: La cui stima i limiti di confidenza a livello (1-α) sono che generano due iperboli intorno alla retta con un punto di massimo avvicinamento alla retta in corrispondenza del baricentro della nuvola di punti originari.

27 predizione di un valore singolo [xi ,yi]
Dato yi = a + b xi , alle oscillazioni casuali della retta si deve aggiungere l'errore individuale alle iperboli di confidenza si aggiunge una quantità in più ed in meno, in modo tale da amplificare la regione di incertezza.

28 Esempio peso alla nascita ed aumento di peso (% del peso iniziale) di 32 neonati nei primi 70 giorni di vita.

29 item peso (oz) aumento 1 oncia= 28.349 grammi n = 32 Sxx= 409880
72 68 12 118 42 23 142 53 2 112 63 13 128 48 24 132 50 3 111 66 14 25 87 4 107 15 123 69 26 59 5 119 52 16 116 27 133 76 6 92 75 17 125 28 106 7 126 18 60 29 103 90 8 80 19 122 71 30 9 81 120 20 88 31 114 93 10 84 21 127 32 94 91 11 115 22 86 1 oncia= grammi n = 32 Sxx= Sx =3676 Syy= Sy =2281 Sxy= [x,x]= (3676)2 / 32 =10.262,00 [y,y]= (2281) 2 / 32 = ,47 [y,y]= (3676) (2 281) / 32= ,75

30 Regressione di y su x by|x = (-8 869,75) / (10 262,00) = -0,8643
y = 71,28 - 0,8643 ( x - 111,75) retta [d,d] = (17 168,47)- [(-8 869,75) 2]/(10262,00)= 9502,08 dev.res. s2RES = (9502,08)/(32-2) = 316, var.res. var(by|x) = (316,74) / (10 262,00) = 0,030865 es (by|x)= sqrt(0,030865)=0,1757 ty|x = (0,8643)/(0,1757) = -4,92 con 30 gdl (p<0,001)

31 Regressione di y su x bx|y = -8 869,75/17 168,47 = -0,5166
x = 111,75 - 0,5166 ( y - 71,28) retta di regressione r =( -0,8643 )( -0,5166 ) = 0,668 intervallo di confidenza nel punto x=90 y(90) = 71,28 - 0,8643 ( ,75) = 90,08  t(0,975;30) = 2.042  C.I.[y(90)] = [90,08+(2,042)(5,016); 90,08+(2,042)(5,016)] = [79,84;100,32 ]

32 regress gain_100 b_weight
Source | SS df MS Number of obs = F( 1, 30) = Model | Prob > F = Residual | R-squared = Adj R-squared = Total | Root MSE = gain_100 | Coef. Std. Err. t P>|t| [95% Conf.Interval] b_weight | _cons |

33 la correlazione quando esiste una associazione tra due variabili {x} ed {y} continue ed entrambe casuali , si suole definire un indice che misura il grado di interdipendenza : coefficiente di correlazione r = oscilla in { -1 e +1} r = +1 correlazione massima concorde r= 0 correlazione assente r = -1 correlazione massima discorde r > 0 correlazione presente : al crescere di x cresce y r < 0 correlazione presente : al crescere di x decresce y nota bene : quando {y} è costante => r = indefinito quando {x} è costante => r = indefinito

34 COME APPARE LA CORRELAZIONE: gli esempi qui riportati si riferiscono alla correlazione tra i valori di uricemia rilevati, in differenti condizioni, con due metodi di misura (X e Y) su un campione di 100 soggetti anziani.

35

36 regressione inversa in molti problemi, quando entrambe le variabili {x} ed {y} sono dotate di errore, si può prevedere sia y dalla conoscenza di x , sia x dalla conoscenza di y e le variabili {x} ed {y} sono correlate. E{y|x} = α + β x = μy + bx (x - μx) E[x|y] = α' + β' x = μ x + by' (y - μy) stimate da : E{y|x} = a + b x = ymedio + b (x - xmedio) E[x|y] = a’+ b’y = xmedio + b' (y - ymedio) b(x|y) è il coefficiente di regressione di x su y b(y|x) è il coefficiente di regressione di y su x  generalmente b(y|x)  b(y|x)

37 La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione è positivo se la retta giace nei quadranti I e III, negativo in caso contrario. Se i punti si allineano perfettamente su una retta parallela ad uno dei due assi, il coefficiente di correlazione è indeterminato.

38 La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta: vi possono essere associazioni anche forti, ma di tipo non lineare per le quali il coefficiente di correlazione è prossimo a 0.

39 osservazioni ricordando che la devianza spiegata dalla regressione e:
la devianza residua della regressione è : il coefficiente di regressione b(y|x) = [x,y]/ [x,x] definito s(x) = sqrt{ [x,x]/( n-1) } s(y) = sqrt{ [y,y] /(n-1) } si ha b(y|x) = r [ s(y) / s(x) ] Analogamente b(x|y) = r s(x)/s( y)


Scaricare ppt "ASSOCIAZIONE E CORRELAZIONE"

Presentazioni simili


Annunci Google