La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili.

Presentazioni simili


Presentazione sul tema: "ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili."— Transcript della presentazione:

1 ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili sono associate se esiste un legame funzionale tra le variabili: mi attendo che i valori medi delle variabili, espresse in un medesimo soggetto, varino in modo concorde.

2 studio la relazione tra indice di affollamento delle città e la mortalità infantile. Studio la relazione peso e altezza di individui di una popolazione; Studio le variabili di un censimento di una popolazione. per esempio … Il tasso di mortalità infantile (morti nel primo anno di vita) su nati vivi «decresce quando il numero di abitanti/stanza (indice di affollamento) decresce» In altri termini «la mortalità infantile cresce con l'indice di affollamento». Come concludo ? Esiste … a) relazione di causa effetto. b) associazione (generica). c) correlazione (mutua influenza).

3 Variabiledescrizione State medageMedian age RegionCensus region [Ne Nc South West] deathNumber of deaths PopPopulationmarriageNumber of marriages Poplt5Pop, < 5 yeardivorceNumber of divorces pop5_17Pop, 5 to 17 yearspcturban% urban population Pop18pPop, 18 and olderdrateDeath Rate Pop65pPop, 65 and oldermedagesqMedian age squared popurbanUrban population 1980 Census data by state Esempio: uno studio di popolazione

4 . regress l_death l_divorce Source | SS df MS Number of obs = F(1,48)= Model | Prob > F = Residual | R-squared = Adj R-squared= Total | Root MSE = l_death | Coef. Std.Err. t P>|t| [95% Conf. Interval] l_divorce| _cons | Regressione di log10(death) su log10(divorce)

5 Log(death)= *log(divorce) Regressione di log10(death) su log10(divorce) LOG 10 (divorzi) LOG 10 (decessi)

6 relazione causa-effetto | associazione Tra due o più variabili quantitative rolevate nel medesimo soggetto possono esistere tre tipi di relazione: 1. relazione tra causa ed effetto (criteri di Bradford Hill). 2. associazione statistica (generica) 3. correlazione (mutua influenza). (due variabili vengono dette associate quando la distribuzione dell'una influenza la distribuzione dell'altra).

7 I cinque criteri di causalità che derivano dalla proposta dello statistico inglese Sir Austin Bradford Hill (1965) ed elaborati in un ampio studio riguardante l'effetto del fumo nell'uomo

8 nota bene: l'associazione statistica non implica l'esistenza di una relazione di causa effetto. È stato osservata una forte associazione tra il numero di divorzi e la quantità di tabacco importata in Inghilterra negli anni 50'. Da questa osservazione si potrebbe indurre che: il tabacco è causa di discordia familiare ovvero checoloro che divorziano di consolano fumando. Più semplicemente si deve concludere che tra tabacco e numero di divorzi esiste una relazione in quanto entrambe dipendono dallo sviluppo economico.

9 terminologia della regressione lineare Data una coppia di variabili casuali quantitative {x} e {y}. Siano noti. il diagramma di dispersione {x,y}. La media, la deviazione standard di {x} ed {y} e la covarianza. Siano di interesse. La previsione del valore di {y}, noto il valore di {x}. La previsione del valore di {x}, noto il valore di {y}. Lerrore di previsione del valore di {y}, noto il valore di {x}. L'errore di previsione del valore di {x}, noto il valore di {y}.

10 l'attesa condizionale I punti sperimentali che suggeriscono le due relazioni I punti osservati [coppie (x i,y i ) per i=1,n] in esperimento di verifica della relazione teorica non giacciono usualmente sulla curva, ed oscillano in modo diverso per ogni fissato valore di x i. relazione lineare relazione non lineare a) uguale variabilità dei valori y i nei disti valori di x i, omoscedasticità b) variabilità non uniforme dei valori y i nei distinti valori di x i, eteroscedasticità

11 Modello di regressione ad effetti fissi Il primo contesto (gli effetti fissi) ipotizza che la variabile indipendente {x} sia osservata senza errore: ad esempio, il numero di ore lavorate, il tempo passato a studiare, i mesi trascorsi dopo una operazione. In questo caso si può affermare che {y|x} sia distribuita nello stesso modo di {y} e che il valore atteso di E{y|x} sia funzione di parametri da determinare con i metodi qui descritti. Esempi:

12 Per semplicità scegliamo una relazione lineare La scelta di una relazione lineare semplifica enormemente i calcoli è molto rilevante scientificamente presuppone una relazione presuppone una varianza costante (omoscedaticità) Il modello matematico lineare vale molte volte come prima approssimazione di fenomeni con andamento "curvilineo"

13 Abbreviazioni usate nella lezione Σx i Somma dei valori di {x}Σx Σy i Somma dei valori di {y}Σy Σx i 2 Somma dei quadrati dei valori di xΣxx Σy i 2 Somma dei quadrati dei valori di yΣyy Σx i y i Somma dei prodotti dei valori di x ed yΣxy [x,x]devianza della variabile {x}.Σxx- (Σx)(Σx)/n [y,y]devianza della variabile {y}.Σyy- (Σy)(Σy)/n [x,y]codevianza delle variabili {x} ed {y}.Σxy- (Σx)(Σy)/n [, ] devianza residua intorno alla regressione.[y,y] – b·[x,x]

14 modello ad effetti fissi Un campione estratto da una popolazione di coppie {y,x} di valori si può immaginare come un esperimento in cui si sono realizzate n coppie di osservazioni. {y 1,x 1 } { y 2,x 2 } {y N,x N }. dove {x 1,x 2,x N } sono valori prefissati e quindi rilevati senza errore casuale e {y 1,y 2,...,y N } sono valori costituiti da una parte deterministica e da una parte casuale. y i = α + β x i + ε i.

15 Varianza intorno alla regressione Il modello ad effetti fissi richiede la stima della sola distribuzione di {y|x} e la stima del valore dei parametri di regressione {α,β}. Questa si ottiene dal metodo dei minimi quadrati La parte casuale sia distribuita in modo gaussiano N(0,σ 2 ) indipenden- temente dalla variabile {x}, campionata senza errore. Allora possiamo affermare che {y i } = [y i |x i ] è distribuita identicamente con la stessa

16 metodo dei minimi quadrati Soluzione: traccia la retta per la quale la somma delle distanze dei punti osservati dalla retta è minima. Tale luogo è il minimo della funzione f(a, b) si ottiene cercando i valori più opportuni di a e di b. Calcoli semplici mostreranno che α e β possono essere stimati da Un problema classico della matematica propone di tracciare la retta interpolante i punti che sembrano allinearsi intorno ad una retta?

17 Codevianza e covarianza In analogia con quanto visto per la varianza cam- pionaria, si definisce un indice detto covarianza dato dal rapporto tra codevianza e numerosità (n) del campione diminuita di un'unità Tale somma è positiva se le coppie di scarti concordi (+,+ o -,-) prevalgono su quelle di scarti discordi, negativa in caso contrario, e nulla se coppie concordi e discordi si equivalgono. La somma dei prodotti degli scarti prende il nome di codevianza =[x,y]

18 indici di covariazione: Il rapporto tra la covarianza e il prodotto delle deviazioni standard (s x e s y ) delle variabili x e y è detto coefficiente di correlazione lineare: Il coefficiente di correlazione lineare può assumere valori compresi tra -1 e +1.

19 metodo dei minimi quadrati LEMMA: La media aritmetica è il valore che rende minimo la somma degli scarti quadratici di un insieme di punti da un singolo punto. è minima perLa somma Per assurdo ipotizzo che esista uno z per cui cvd Dimostrazione:

20 metodo dei minimi quadrati pensando si conoscere β ottengo che f(a, β) è minima riordinando i termini: ovvero a è la media della variabile è forma alternativa della retta di regressione che mette in evidenza come la retta di regressione passi per il baricentro della nuvola di punti La relazione

21 trovata la stima di, occorre stimare, sfruttando il risultato precedente, la somma delle distanze quadratiche tra retta e punti = minima>zero da cui sommo e sottraggo la stessa quantità

22 simboli abbreviati Σx i Somma dei valori di {x}Σx Σy i Somma dei valori di {y}Σy Σx i 2 Somma dei quadrati dei valori di xΣxx Σy i 2 Somma dei quadrati dei valori di yΣyy Σx i y i Somma dei prodotti dei valori di x ed yΣxy [x,x]devianza della variabile {x}.Σxx- (Σx)(Σx)/n [y,y]devianza della variabile {y}.Σyy- (Σy)(Σy)/n [x,y]codevianza delle variabili {x} ed {y}.Σxy- (Σx)(Σy)/n [, ] devianza residua intorno alla regressione.[y,y] – b·[x,x] =+- residuatotalenullaspiegata

23 errore campionario di regressione Sia σ 2 RES è la varianza residua osservo che quando parlo di effetti fissi, {x i } non hanno varianza. Dato che le y i sono omoscedastiche var(y i ) = σ 2 RES e semplificando da cui calcolo

24 varianza campionaria di una regressione la varianza di a si calcola tramite la sua stima ERRORE CAMPIONARIO DI UNA REGRESSIONE sostituisco a σ 2 la sua stima con n-2 g.d.l. il test t-student per b sarà il test t-student pera sarà

25 Esempio LOG 10 (divorzi) LOG 10 (decessi)

26 LIMITI DI CONFIDENZA DELLA RETTA dato un valore x 0, la stima migliore del valore medio di y 0 dato x sarà: La cui stima che generano due iperboli intorno alla retta con un punto di massimo avvicinamento alla retta in corrispondenza del baricentro della nuvola di punti originari. i limiti di confidenza a livello (1-α) sono

27 predizione di un valore singolo [x i,y i ] Dato y i = a + b x i, alle oscillazioni casuali della retta si deve aggiungere l'errore individuale alle iperboli di confidenza si aggiunge una quantità in più ed in meno, in modo tale da amplificare la regione di incertezza.

28 Esempio peso alla nascita ed aumento di peso (% del peso iniziale) di 32 neonati nei primi 70 giorni di vita.

29 item peso (oz)aumentoitempeso (oz)aumentoitem peso (oz)aumento n = 32Sxx= Sx =3676Syy= Sy =2281Sxy= [x,x]= (3676) 2 / 32 =10.262,00 [y,y]= (2281) 2 / 32 = ,47 [y,y]= (3676) (2 281) / 32= ,75 1 oncia= grammi

30 Regressione di y su x b y|x = (-8 869,75) / (10 262,00) = -0,8643 y = 71,28 - 0,8643 ( x - 111,75) retta [d,d] = (17 168,47)- [(-8 869,75) 2 ]/(10262,00)= 9502,08 dev.res. s 2 RES = (9502,08)/(32-2) = 316,74 var.res. var(b y|x )= (316,74) / (10 262,00) = 0, es (b y|x )= sqrt(0,030865)=0,1757 t y|x = (0,8643)/(0,1757) = -4,92 con 30 gdl (p<0,001)

31 Regressione di y su x b x|y = ,75/17 168,47 = -0,5166 x = 111,75 - 0,5166 ( y - 71,28) retta di regressione r =( -0,8643 )( -0,5166 ) = 0,668 intervallo di confidenza nel punto x=90 y(90) = 71,28 - 0,8643 ( ,75) = 90,08 t (0,975;30) = C.I.[y(90)] = [90,08+(2,042)(5,016); 90,08+(2,042)(5,016)] = [79,84;100,32 ]

32 regress gain_100 b_weight Source | SS df MS Number of obs = F( 1, 30) = Model | Prob > F = Residual | R-squared = Adj R-squared = Total | Root MSE = gain_100 | Coef. Std. Err. t P>|t| [95% Conf.Interval] b_weight | _cons |

33 la correlazione quando esiste una associazione tra due variabili {x} ed {y} continue ed entrambe casuali, si suole definire un indice che misura il grado di interdipendenza : coefficiente di correlazione r = oscilla in { -1 e +1} r = +1correlazione massima concorde r= 0 correlazione assente r = -1 correlazione massima discorde r > 0correlazione presente : al crescere di x cresce y r < 0correlazione presente : al crescere di x decresce y nota bene : quando {y} è costante => r = indefinito quando {x} è costante => r = indefinito

34 COME APPARE LA CORRELAZIONE: gli esempi qui riportati si riferiscono alla correlazione tra i valori di uricemia rilevati, in differenti condizioni, con due metodi di misura (X e Y) su un campione di 100 soggetti anziani.

35

36 regressione inversa in molti problemi, quando entrambe le variabili {x} ed {y} sono dotate di errore, si può prevedere sia y dalla conoscenza di x, sia x dalla conoscenza di y e le variabili {x} ed {y} sono correlate. E{y|x} = α + β x = μ y + b x (x - μ x ) E[x|y] = α' + β' x = μ x + b y ' (y - μ y ) stimate da : E{y|x} = a + b x = y medio + b (x - x medio ) E[x|y] = a+ by = x medio + b' (y - y medio ) b(x|y) è il coefficiente di regressione di x su y b(y|x) è il coefficiente di regressione di y su x generalmente b(y|x) b(y|x)

37 La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione è positivo se la retta giace nei quadranti I e III, negativo in caso contrario. Se i punti si allineano perfettamente su una retta parallela ad uno dei due assi, il coefficiente di correlazione è indeterminato.

38 La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta: vi possono essere associazioni anche forti, ma di tipo non lineare per le quali il coefficiente di correlazione è prossimo a 0.

39 osservazioni ricordando che la devianza spiegata dalla regressione e: la devianza residua della regressione è : il coefficiente di regressione b(y|x) = [x,y]/ [x,x] definito s(x) = sqrt{ [x,x]/( n-1) } s(y) = sqrt{ [y,y] /(n-1) } si ha b(y|x) = r [ s(y) / s(x) ] Analogamente b(x|y) = r s(x)/s( y)


Scaricare ppt "ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili."

Presentazioni simili


Annunci Google