ASSOCIAZIONE E CORRELAZIONE

Slides:

Advertisements

Presentazioni simili

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Advertisements

Le distribuzioni di probabilità continue

Come organizzare i dati per un'analisi statistica al computer?

LA VARIABILITA’ IV lezione di Statistica Medica.

Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.

Parametri dinteresse IUT Nice – Côte dAzur Département STID 6 Janvier 2006 Sondages Corso di campionamento.

Lez. 3 - Gli Indici di VARIABILITA’

Analisi dei dati per i disegni ad un fattore

La regressione lineare trivariata

Elementi di statistica Elementi di statistica M. Dreucci Masterclasses LNF Elementi di statistica M. Dreucci.

Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.

Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.

Progetto Pilota 2 Lettura e interpretazione dei risultati

Metodi Quantitativi per Economia, Finanza e Management Lezione n°5

Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°8

Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.

Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)

Inferenza statistica per un singolo campione

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)

DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)

DIFFERENZA TRA LE MEDIE

Analisi della varianza (a una via)

La logica della regressione

Processi Aleatori : Introduzione – Parte I

Appunti di inferenza per farmacisti

Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.

STATISTICA a.a PARAMETRO t DI STUDENT

STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE

Modello di regressione lineare semplice

Lezione 8 Numerosità del campione

Num / 36 Lezione 9 Numerosità del campione.

Lezione 4 Probabilità.

Linee guida per la Chimica Analitica Statistica chemiometrica

Verifica delle ipotesi su due campioni di osservazioni

Quale valore dobbiamo assumere come misura di una grandezza?

Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.

STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA

Le distribuzioni campionarie

La ricerca delle relazioni tra fenomeni

Introduzione alla Regressione Lineare e alla Correlazione.

Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.

Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,

COVARIANZA e CORRELAZIONE.

Regressione e correlazione

STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA

Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’

Lez. 3 - Gli Indici di VARIABILITA’

Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.

Regressione Lineare parte 2 Corso di Misure Meccaniche e Termiche David Vetturi.

Gli indici di dispersione

La verifica d’ipotesi Docente Dott. Nappo Daniela

Lezione B.10 Regressione e inferenza: il modello lineare

Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.

Strumenti statistici in Excell

La correlazione.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.

REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.

La distribuzione campionaria della media

STATISTICHE DESCRITTIVE

TRATTAMENTO STATISTICO DEI DATI ANALITICI

Correlazione e regressione lineare

L’analisi di regressione e correlazione Prof. Luigi Piemontese.

Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.

Analisi delle osservazioni

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Gli Indici di VARIABILITA’

Transcript della presentazione:

ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili sono associate se esiste un legame funzionale tra le variabili: mi attendo che i valori medi delle variabili, espresse in un medesimo soggetto, varino in modo concorde.

per esempio … studio la relazione tra indice di affollamento delle città e la mortalità infantile. Studio la relazione peso e altezza di individui di una popolazione; Studio le variabili di un censimento di una popolazione. Il tasso di mortalità infantile (morti nel primo anno di vita) su 10.000 nati vivi «decresce quando il numero di abitanti/stanza (indice di affollamento) decresce» In altri termini «la mortalità infantile cresce con l'indice di affollamento». Come concludo ? Esiste … relazione di causa effetto. associazione (generica). correlazione (mutua influenza).

Esempio: uno studio di popolazione 1980 Census data by state Variabile descrizione State medage Median age Region Census region [Ne Nc South West] death Number of deaths Pop Population marriage Number of marriages Poplt5 Pop, < 5 year divorce Number of divorces pop5_17 Pop, 5 to 17 years pcturban % urban population Pop18p Pop, 18 and older drate Death Rate Pop65p Pop, 65 and older medagesq Median age squared popurban Urban population

Regressione di log10(death) su log10(divorce) . regress l_death l_divorce Source | SS df MS Number of obs = 50 -------------+----------------------------- F(1,48)= 276.77 Model | 9.53072756 1 9.53072756 Prob > F = 0.0000 Residual | 1.65291656 48 .034435762 R-squared = 0.8522 -------------+------------------------ Adj R-squared=0.8491 Total | 11.1836441 49 .228237635 Root MSE = .18557 ----------------------------------------------------------------- l_death | Coef. Std.Err. t P>|t| [95% Conf. Interval] ---------+------------------------------------------------------- l_divorce| 1.019959 .06131 16.64 0.000 .8966892 1.143229 _cons | .1082678 .25746 0.42 0.676 -.4093902 .6259257 -------------------------------------------------------------------------

Regressione di log10(death) su log10(divorce) LOG10(divorzi) LOG10(decessi) Log(death)= 0.25 + 1.02*log(divorce)

relazione causa-effetto | associazione Tra due o più variabili quantitative rolevate nel medesimo soggetto possono esistere tre tipi di relazione: relazione tra causa ed effetto (criteri di Bradford Hill). associazione statistica (generica) correlazione (mutua influenza). (due variabili vengono dette associate quando la distribuzione dell'una influenza la distribuzione dell'altra).

I cinque criteri di causalità che derivano dalla proposta dello statistico inglese Sir Austin Bradford Hill (1965) ed elaborati in un ampio studio riguardante l'effetto del fumo nell'uomo

nota bene: l'associazione statistica non implica l'esistenza di una relazione di causa effetto. È stato osservata una forte associazione tra il numero di divorzi e la quantità di tabacco importata in Inghilterra negli anni 50'. Da questa osservazione si potrebbe indurre che: “il tabacco è causa di discordia familiare” ovvero che “coloro che divorziano di consolano fumando”. Più semplicemente si deve concludere che tra tabacco e numero di divorzi esiste una relazione in quanto entrambe dipendono dallo sviluppo economico.

terminologia della regressione lineare Data una coppia di variabili casuali quantitative {x} e {y}. Siano noti. il diagramma di dispersione {x,y}. La media, la deviazione standard di {x} ed {y} e la covarianza. Siano di interesse. La previsione del valore di {y} , noto il valore di {x}. La previsione del valore di {x} , noto il valore di {y}. L’errore di previsione del valore di {y}, noto il valore di {x}. L'errore di previsione del valore di {x}, noto il valore di {y}.

l'attesa condizionale relazione non lineare relazione lineare I punti sperimentali che suggeriscono le due relazioni I punti osservati [coppie (xi,yi) per i=1,n] in esperimento di verifica della relazione teorica non giacciono usualmente sulla curva, ed oscillano in modo diverso per ogni fissato valore di xi. uguale variabilità dei valori yi nei disti valori di xi, omoscedasticità variabilità non uniforme dei valori yi nei distinti valori di xi , eteroscedasticità

Modello di regressione ad effetti fissi Il primo contesto (gli effetti fissi) ipotizza che la variabile indipendente {x} sia osservata senza errore: ad esempio, il numero di ore lavorate, il tempo passato a studiare, i mesi trascorsi dopo una operazione. In questo caso si può affermare che {y|x} sia distribuita nello stesso modo di {y} e che il valore atteso di E{y|x} sia funzione di parametri da determinare con i metodi qui descritti. Esempi:

Per semplicità scegliamo una relazione lineare La scelta di una relazione lineare semplifica enormemente i calcoli è molto rilevante scientificamente presuppone una relazione presuppone una varianza costante (omoscedaticità) Il modello matematico lineare vale molte volte come prima approssimazione di fenomeni con andamento "curvilineo"

Abbreviazioni usate nella lezione Σxi Somma dei valori di {x} Σx Σyi Somma dei valori di {y} Σy Σxi2 Somma dei quadrati dei valori di x Σxx Σyi2 Somma dei quadrati dei valori di y Σyy Σxiyi Somma dei prodotti dei valori di x ed y Σxy [x,x] devianza della variabile {x}. Σxx- (Σx)(Σx)/n [y,y] devianza della variabile {y}. Σyy- (Σy)(Σy)/n [x,y] codevianza delle variabili {x} ed {y}. Σxy- (Σx)(Σy)/n [,] devianza residua intorno alla regressione. [y,y] – b·[x,x]

modello ad effetti fissi Un campione estratto da una popolazione di coppie {y,x} di valori si può immaginare come un esperimento in cui si sono realizzate n coppie di osservazioni. {y1 ,x1 } { y2 ,x2 } {yN ,xN }. dove {x1,x2,xN} sono valori prefissati e quindi rilevati senza errore casuale e {y1,y2,. . .,yN} sono valori costituiti da una parte deterministica e da una parte casuale. yi = α + β xi + εi.

Varianza intorno alla regressione La parte casuale sia distribuita in modo gaussiano N(0,σ2) indipenden-temente dalla variabile {x}, campionata senza errore. Allora possiamo affermare che {yi} = [yi|xi] è distribuita identicamente con la stessa Il modello ad effetti fissi richiede la stima della sola distribuzione di {y|x} e la stima del valore dei parametri di regressione {α,β}. Questa si ottiene dal metodo dei minimi quadrati

metodo dei minimi quadrati Un problema classico della matematica propone di tracciare la retta interpolante i punti che sembrano allinearsi intorno ad una retta? Soluzione: traccia la retta per la quale la somma delle distanze dei punti osservati dalla retta è minima. Tale luogo è il minimo della funzione f(a, b) si ottiene cercando i valori più opportuni di a e di b. Calcoli semplici mostreranno che α e β possono essere stimati da

Codevianza e covarianza La somma dei prodotti degli scarti prende il nome di codevianza Tale somma è positiva se le coppie di scarti concordi (+,+ o -,-) prevalgono su quelle di scarti discordi, negativa in caso contrario, e nulla se coppie concordi e discordi si equivalgono. =[x,y] In analogia con quanto visto per la varianza cam-pionaria, si definisce un indice detto covarianza dato dal rapporto tra codevianza e numerosità (n) del campione diminuita di un'unità

indici di covariazione: Il rapporto tra la covarianza e il prodotto delle deviazioni standard (sx e sy) delle variabili x e y è detto coefficiente di correlazione lineare: Il coefficiente di correlazione lineare può assumere valori compresi tra -1 e +1.

metodo dei minimi quadrati LEMMA: La media aritmetica è il valore che rende minimo la somma degli scarti quadratici di un insieme di punti da un singolo punto. Dimostrazione: La somma è minima per Per assurdo ipotizzo che esista uno z per cui cvd

metodo dei minimi quadrati pensando si conoscere β ottengo che f(a, β) è minima riordinando i termini: ovvero a è la media della variabile La relazione è forma alternativa della retta di regressione che mette in evidenza come la retta di regressione passi per il baricentro della nuvola di punti

sommo e sottraggo la stessa quantità trovata la stima di a, occorre stimare b, sfruttando il risultato precedente, la somma delle distanze quadratiche tra retta e punti sommo e sottraggo la stessa quantità = minima>zero da cui

simboli abbreviati = + - Σxi Somma dei valori di {x} Σx Σyi Somma dei valori di {y} Σy Σxi2 Somma dei quadrati dei valori di x Σxx Σyi2 Somma dei quadrati dei valori di y Σyy Σxiyi Somma dei prodotti dei valori di x ed y Σxy [x,x] devianza della variabile {x}. Σxx- (Σx)(Σx)/n [y,y] devianza della variabile {y}. Σyy- (Σy)(Σy)/n [x,y] codevianza delle variabili {x} ed {y}. Σxy- (Σx)(Σy)/n [e, e] devianza residua intorno alla regressione. [y,y] – b·[x,x] = + - residua totale nulla spiegata

errore campionario di regressione Sia σ2RES è la varianza residua calcolo osservo che quando parlo di effetti fissi, {xi} non hanno varianza. Dato che le yi sono omoscedastiche var(yi) = σ2RES e semplificando da cui

varianza campionaria di una regressione la varianza di a si calcola tramite la sua stima ERRORE CAMPIONARIO DI UNA REGRESSIONE sostituisco a σ2 la sua stima con n-2 g.d.l. il test t-student per b sarà il test t-student pera sarà

Esempio LOG10(divorzi) LOG10(decessi)

LIMITI DI CONFIDENZA DELLA RETTA dato un valore x0 , la stima migliore del valore medio di y0 dato x sarà: La cui stima i limiti di confidenza a livello (1-α) sono che generano due iperboli intorno alla retta con un punto di massimo avvicinamento alla retta in corrispondenza del baricentro della nuvola di punti originari.

predizione di un valore singolo [xi ,yi] Dato yi = a + b xi , alle oscillazioni casuali della retta si deve aggiungere l'errore individuale alle iperboli di confidenza si aggiunge una quantità in più ed in meno, in modo tale da amplificare la regione di incertezza.

Esempio peso alla nascita ed aumento di peso (% del peso iniziale) di 32 neonati nei primi 70 giorni di vita.

item peso (oz) aumento 1 oncia= 28.349 grammi n = 32 Sxx= 409880 72 68 12 118 42 23 142 53 2 112 63 13 128 48 24 132 50 3 111 66 14 25 87 4 107 15 123 69 26 59 5 119 52 16 116 27 133 76 6 92 75 17 125 28 106 7 126 18 60 29 103 90 8 80 19 122 71 30 9 81 120 20 88 31 114 93 10 84 21 127 32 94 91 11 115 22 86 1 oncia= 28.349 grammi n = 32 Sxx= 409880 Sx =3676 Syy= 179761 Sy =2281 Sxy= 264032 [x,x]=409880 - (3676)2 / 32 =10.262,00 [y,y]= 179761 - (2281) 2 / 32 = 17 168,47 [y,y]=264032 - (3676) (2 281) / 32= -8 869,75

Regressione di y su x by|x = (-8 869,75) / (10 262,00) = -0,8643 y = 71,28 - 0,8643 ( x - 111,75) retta [d,d] = (17 168,47)- [(-8 869,75) 2]/(10262,00)= 9502,08 dev.res. s2RES = (9502,08)/(32-2) = 316,74 var.res. var(by|x) = (316,74) / (10 262,00) = 0,030865 es (by|x)= sqrt(0,030865)=0,1757 ty|x = (0,8643)/(0,1757) = -4,92 con 30 gdl (p<0,001)

Regressione di y su x bx|y = -8 869,75/17 168,47 = -0,5166 x = 111,75 - 0,5166 ( y - 71,28) retta di regressione r =( -0,8643 )( -0,5166 ) = 0,668 intervallo di confidenza nel punto x=90 y(90) = 71,28 - 0,8643 (90 - 111,75) = 90,08 t(0,975;30) = 2.042 C.I.[y(90)] = [90,08+(2,042)(5,016); 90,08+(2,042)(5,016)] = [79,84;100,32 ]

regress gain_100 b_weight Source | SS df MS Number of obs = 32 ---------+------------------------------ F( 1, 30) = 24.20 Model | 7666.38716 1 7666.38716 Prob > F = 0.0000 Residual | 9502.08159 30 316.736053 R-squared = 0.4465 ---------+------------------------------ Adj R-squared = 0.4281 Total | 17168.4688 31 553.821573 Root MSE = 17.797 ---------------------------------------------------------------------- gain_100 | Coef. Std. Err. t P>|t| [95% Conf.Interval] ---------+----------------------------------------------------------- b_weight | -.8643296 .1756842 -4.920 0.000 -1.223125 -.5055345 _cons | 167.8701 19.88319 8.443 0.000 127.2632 208.477

la correlazione quando esiste una associazione tra due variabili {x} ed {y} continue ed entrambe casuali , si suole definire un indice che misura il grado di interdipendenza : coefficiente di correlazione r = oscilla in { -1 e +1} r = +1 correlazione massima concorde r= 0 correlazione assente r = -1 correlazione massima discorde r > 0 correlazione presente : al crescere di x cresce y r < 0 correlazione presente : al crescere di x decresce y nota bene : quando {y} è costante => r = indefinito quando {x} è costante => r = indefinito

COME APPARE LA CORRELAZIONE: gli esempi qui riportati si riferiscono alla correlazione tra i valori di uricemia rilevati, in differenti condizioni, con due metodi di misura (X e Y) su un campione di 100 soggetti anziani.

.2465352 .3422529

regressione inversa in molti problemi, quando entrambe le variabili {x} ed {y} sono dotate di errore, si può prevedere sia y dalla conoscenza di x , sia x dalla conoscenza di y e le variabili {x} ed {y} sono correlate. E{y|x} = α + β x = μy + bx (x - μx) E[x|y] = α' + β' x = μ x + by' (y - μy) stimate da : E{y|x} = a + b x = ymedio + b (x - xmedio) E[x|y] = a’+ b’y = xmedio + b' (y - ymedio) b(x|y) è il coefficiente di regressione di x su y b(y|x) è il coefficiente di regressione di y su x generalmente b(y|x)  b(y|x)

La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione è positivo se la retta giace nei quadranti I e III, negativo in caso contrario. Se i punti si allineano perfettamente su una retta parallela ad uno dei due assi, il coefficiente di correlazione è indeterminato.

La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta: vi possono essere associazioni anche forti, ma di tipo non lineare per le quali il coefficiente di correlazione è prossimo a 0.

osservazioni ricordando che la devianza spiegata dalla regressione e: la devianza residua della regressione è : il coefficiente di regressione b(y|x) = [x,y]/ [x,x] definito s(x) = sqrt{ [x,x]/( n-1) } s(y) = sqrt{ [y,y] /(n-1) } si ha b(y|x) = r [ s(y) / s(x) ] Analogamente b(x|y) = r s(x)/s( y)