Lezione B.10 Regressione e inferenza: il modello lineare

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
8) GLI INTERVALLI DI CONFIDENZA
Stime per intervalli Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono.
Dipartimento di Economia
Intervalli di confidenza
Proprietà degli stimatori
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Confronto tra 2 campioni Nella pratica è utilissimo confrontare se 2 campioni provengono da popolazioni con la stessa media: Confronti tra produzioni di.
Fondamenti della Misurazione
TESTI UTILI PER PAPER/TESI 1
Analisi dei dati per i disegni ad un fattore
La regressione lineare trivariata
Regressione lineare Esercitazione 24/01/04.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
Valutazione delle ipotesi
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
CONFRONTO TRA DUE MEDIE:
DIFFERENZA TRA LE MEDIE
Analisi della varianza (a una via)
1 Introduzione alla statistica per la ricerca Lezione III Dr. Stefano Guidi Siena, 18 Ottobre 2012.
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a PARAMETRO t DI STUDENT
di cosa si occupa la statistica inferenziale?
Lezione 8 Numerosità del campione
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Analisi della varianza
Il test di ipotesi Cuore della statistica inferenziale!
Verifica delle ipotesi su due campioni di osservazioni
Le distribuzioni campionarie
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
PROPAGAZIONE DEGLI ERRORI:
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Corso di Analisi Statistica per le Imprese
Strumenti statistici in Excell
IL CAMPIONE.
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Test basati su due campioni Test Chi - quadro
Def : uno stimatore è una statistica T n le cui determinazioni servono a fornire delle stime del parametro ignoto  della v.c. X in cui sono state effettuate.
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
Intervalli di confidenza
Dalmine, 26 Maggio 2004 Esercitazioni di Statistica con Matlab Dott. Orietta Nicolis fttp:\ingegneria.unibg.it.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Accademia europea dei pazienti sull'innovazione terapeutica Lo scopo e i fondamenti della statistica negli studi clinici.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Introduzione all’inferenza
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
Transcript della presentazione:

Lezione B.10 Regressione e inferenza: il modello lineare TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.10 Regressione e inferenza: il modello lineare

In questa lezione.. In questa lezione riprenderemo il modello di regressione lineare in una prospettiva inferenziale. Dopo un brevissimo cenno alla configurazione e alle ipotesi del modello lineare, ci eserciteremo a leggere nei tabulati di esercizi di regressione lineare semplice e multipla le informazioni sul segno e la significatività delle relazioni stimate.

Il modello lineare e sue ipotesi Facendo scendere in campo X possiamo arricchire il modello nel seguente modo: La componente sistematica coglie la dipendenza di Y da X, mentre la componente casuale rappresenta la variabilità di Y che rimane “non spiegata” da X. Yi = µi + εi µi = f(Xi) componente sistematica εi ~ N(0, σ2) errore casuale Più sinteticamente il modello può anche essere scritto nel seguente, più familiare, modo: Yi =  + βXi + εi ove si è posto f(Xi) =  + β Xi, ovvero si è assunto che la dipendenza di Y da X sia di tipo lineare. Riassumiamo le ipotesi alla base del modello: E(εi) = 0 (gli errori casuali oscillano attorno allo 0) Var(εi) = σ2 per ogni i (ipotesi di omoscedasticità) Cov(εi, εj) = 0 (gli errori sono incorrelati tra di loro) εi hanno distribuzione normale Inoltre i valori xi sono considerati fissi e misurati con precisione.

Stima dei parametri I parametri  e β si riferiscono alla popolazione. Con i dati campionari, ricorrendo al criterio dei minimi quadrati (fatte salve le precedenti ipotesi da 1 a 3), possiamo ottenere i seguenti stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e di minima varianza nella classe degli stimatori lineari non distorti): Queste formule coincidono nella sostanza con quelle già viste nella regressione descrittiva (lezione 6). La differenza è che qui quello che otteniamo non sono i parametri veri della popolazione ma loro stime. Stimati i parametri, i valori previsti dal modello saranno: Scostamenti (residui) tra osservazioni e modello: Inoltre, stimatore di σ2 :

Un esempio già esplorato Riprendiamo l’esempio visto nella lezione in cui è stata introdotta la regressione in ambito descrittivo. I dati si riferivano a 10 atleti e l’interesse era quello di valutare la relazione tra età e performance nel salto in alto. Supponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse, ma ne costituiscano solamente un suo campione casuale semplice. X (Età) Salto (Y) 18 212 218 215 19 220 20 224 21 226 22 229 Con le formule appena viste otteniamo: b=3,04 ; a=160,35 ; s2 = 7,95 I valori sono gli stessi già calcolati nella lezione 6. Ora però tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β. Dal punto di vista tecnico finora, dunque, nulla di nuovo. Dobbiamo però ancora trattare la parte relativa all’inferenza sui parametri…

Incertezza sui parametri Concentriamo la nostra attenzione su β (misura dell’effetto di X su Y). Lo stimatore b, essendo non distorto ha valore atteso proprio pari a β. La sua varianza risulta inoltre la seguente: Tale varianza è ignota, dato che è ignoto σ2. Un suo stimatore corretto si dimostra essere: Stimatore dell’errore standard di conseguenza sarà: Nel nostro esempio: es(b) = √(7,95/18,4) = 0,657 Se oltre alle condizioni 1-3 alla base del modello, si aggiunge anche la quarta (normalità della distribuzione degli errori), si dimostra che gli stimatori a e b hanno anch’essi distribuzione normale. E’ possibile quindi agevolmente ottenere intervalli di confidenza.

Intervalli di confidenza In particolare la seguente quantità si distribuisce come una t di student con n-2 gradi di libertà. Pertanto un intervallo di confidenza al 95% per β sarà dato da: b tn-2;0,05 es(b) IDC(β) = b ± tn-2;0,05 es(b) Nel nostro esempio: IDC(β) = b±t8; 0,05es(b) = 3,04±2,306·0,657 Si ottiene pertanto: Con probabilità 0,95 l’intervallo contiene l’ignoto parametro β. IDC(β) = 3,04 ± 1,51 3,04 1,51 1,53 4,55 L’intervallo [1,53 ; 4,55] non contiene lo 0: l’effetto di X su Y può quindi essere considerato significativo (al livello del 5%).

Significatività dei parametri Per saggiare l’ipotesi nulla  = 0 (che corrisponde all’ipotesi che X non abbia alcun effetto su Y) contro l’ipotesi alternativa  ≠ 0, si può usare la seguente statistica test: t = b / es(b) che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertà (g.l.). Nel nostro esempio: t = 3,04 / 0,675 =4.63 A cui corrisponde (tavole della t di student con 8 g.l.) un p-value = 0,0017 (<0.05) Effetto significativo (a conferma di quanto già ottenuto con IDC). Come criterio generale, se il p-value (Pr > |t|) è molto basso (ad es. inferiore a 0,05) allora possiamo affermare che l’effetto di X su Y è significativamente diverso da 0. Se vale invece l’ipotesi nulla, ovvero  = 0, la migliore previsione torna ad essere la media di Y? Esatto! Per  = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta: Yi = α + εi ; con α = µ

Prova di ipotesi su modelli lineari Che significa, per una regressione lineare semplice, saggiare l’ipotesi nulla =0? Essa corrisponde all’ipotesi che X non abbia alcun effetto su Y. Se =0 la statistica t=b/es(b) sotto l’ipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertà. Se la statistica così ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significatività prefissato (per es. 5 o 1 permille) possiamo rifiutare l’ipotesi nulla: cioè la variabile explanans X influisce significativamente su Y. Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra età e performance. Possiamo calcolare. Non ci interessano i calcoli intermedi (medie, varianze etc). I tabulati di un modello di regressione mi dicono che a=160,35, b=3,04 e es(b)=0,657. L’IDC al livello di significatività del 95% è: X (Età) Salto (Y) 18 212 218 215 19 220 20 224 21 226 22 229 IDC(β) = 3,04 ± 1,51. L’IDC al livello di significatività del 95% non contiene quindi lo 0, dunque l’ipotesi nulla è da rigettare. In termini di test di ipotesi: t=3,04/0,675=4.63 cui corrisponde (tavole di t di Student con 8 g.l.) un p-value=0,0017<0,005: l’effetto dell’età X sulla performance Y è quindi significativo al 5 permille.

Es. 1: la disuguaglianza cresce dove è bassa l’occupazione femminile? regione X Y Italia 0,42 0,82 Portogallo 0,59 0,76 Gran Bret. 0,65 0,74 Grecia 0,44 0,68 Spagna 0,32 0,67 Irlanda 0,39 Olanda 0,60 0,61 Austria 0,56 0,51 Belgio 0,50 Germania 0,53 Finlandia 0,72 0,45 Danimarca 0,78 Statistica totale N 12 R2XY 0,33 A +0,92 B -0,555 Es(B) 0,249 t student -2,231 Sign. .050 Idc 95% inf -1,110 Idc 95% sup -0.001 X=% donne lavoro Y=disuguaglianza Mah!

Es. 2: contesti di disoccupazione spingono al suicidio? Statistica Italia Nord Sud N 19 9 10 R2XY 0,58 0,01 0,26 A -0,51 0,87 -0,00 B +1,72 0,157 0,911 Es(B) 0,354 1,978 0,540 t student 4,862 0,079 1,687 Sign. .000 .939 .130 Idc 95% inf ,973 -4,52 -,334 Idc 95% sup 2,465 +4,83 +2,16 regione X Y Piemonte 0,88 1,14 Lombardia 0,75 Trentino 0,91 1,00 Veneto 0,89 0,85 Friuli 1,23 Liguria 0,80 0,96 Emilia 1,29 Toscana 0,84 0,86 Umbria 0,83 1,01 regione X Y Marche 0,84 0,82 Lazio 0,70 0,60 Abruzzi 0,76 0,61 Molise 0,71 0,58 Campania 0,38 Puglie 0,48 Basilicata 0,64 0,67 Calabria 0,55 0,46 Sicilia 0,63 Sardegna 0,65 0,86 Solo nord-sud X= tasso occupazione 25-34 anni; Y=suicidi / milione ab (‘92).

Es. 3: la diffusione di divorzi precorre il diffondersi delle convivenze? Statistica Italia NC Sud Nord CS N 18 11 7 8 10 R2XY ,77 ,61 ,33 ,52 ,59 A 7,47 22,7 5,83 34,8 -,95 B 0,51 0,33 ,398 ,205 ,689 Es(B) 0,07 ,089 ,254 ,081 ,201 t student 7,45 3,73 1,56 2,53 3,42 Sign. .000 .005 .178 ,044 .009 Idc 95% inf ,367 .131 -,25 ,007 .225 Idc 95% sup ,600 .535 1,05 ,403 1,15 regione X Y Piemonte 90 56 Lombardia 86 50 Trentino 71 Veneto 37 38 Friuli 53 54 Liguria 118 55 Emilia 97 60 Toscana 65 42 regione X Y Umbria 48 26 Marche 36 27 Lazio 44 40 AbruzziMol 17 16 Campania 31 Puglie Basilicata 25 9 Calabria 21 14 Sicilia 20 Sardegna 33 24 X=Divorzi al 1988; Y=convivenze al 2001 Ancora nord-sud..

Es. 4: la diffusione dei compu-ter spiega quella dei cellulari? Country X Y Austria 25 18 Belgio 12 Francia 23 Germania 13 Olanda 29 Svizzera 30 17 Grecia 7 9 Italia 16 24 Portogallo 10 Spagna 14 Danimarca 35 31 Finlandia 46 Svezia 41 UK Norvegia 36 Statistica Europa Nord Sud Centro N 15 5 4 6 R2XY ,423 ,789 ,787 ,167 A 1,28 -92 -,53 4,85 B ,826 3,75 1,49 0,361 Es(B) ,267 1,12 ,548 0,402 t student 3,09 3,35 2,72 0,897 Sign. .009 .044 .113 .421 Idc 95% inf ,248 ,192 -,87 -,76 Idc 95% sup 1,40 7,31 3.85 1,48 X= computer; Y=cellulari Tre europe differenti!

Dalla regressione semplice a quella multipla Facciamo allora un passo avanti, e domandiamoci: qual è il valore aggiunto della regressione multipla? Ripartiamo dall’esempio sulla performance nel salto in alto. Finora abbiamo visto due distinte regressioni semplici: col primo abbiamo studiato la dipendenza di Y dall’età dell’atleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z). Ma quale differenza passa tra condurre: Rispetto alle ipotesi alla base del modello di regressione semplice, nella regressione multipla si aggiunge l’assunzione di non collinearità tra le variabili esplicative (vedi lezione 7). Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta. Grossi problemi di stabilità della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearità). due distinte regressioni semplici di Y su X e di Y su Z, µi(X) =  + YX Xi µi(Z) =  + YZ Zi o invece una regressione multipla di Y su X e Z? µi(X,Z)=  + YX Xi + YZ Zi

Coefficienti parziali Supponiamo di essere interessati alla dipendenza di Y da X. Con la regressione semplice misuriamo l’effetto “totale”di X su Y. Se inseriamo nel modello anche la variabile Z, l’effetto di X su Y viene ora calcolato “al netto dell’azione di Z” (ovvero: “a parità di Z”, “controllando rispetto a Z”). E’ formalmente più corretto scrivere il modello di regressione multipla nel seguente modo: µi(X,Z) =  + YX.z Xi + YZ.x Zi dove YX.z è il “coefficiente parziale” di X (ovvero l’effetto di X su Y al netto di Z); mentre YZ.x è il “coefficiente parziale” di Z (ovvero l’effetto di Z su Y al netto di X). In generale l’effetto di X su Y calcolato nella regressione semplice (YX) non coin-cide con l’effetto di X su Y calcolato nella regressione multipla (YX.z). Inoltre nella regressione multipla l’effetto di X su Y dipende dalle altre variabili inserite nel modello (YX.z è in generale diverso da YX.w ed entrambi sono diversi da YX.zw).

Leggere tabulati, interpretare dati 1: da che dipende esser ricchi? Vv Xi (esplicative) B Es(B) t student Signific. Idc 95%inf Idc 95%sup Età (classi 10 anni) +.008 .004 +1.928 .054 .000 .015 Dim. Famiglia -.149 .064 -2.319 .021* -.274 -.023 N. Figli in famiglia -.088 .073 -1,205 .228 -.232 +-055 Dim. Urbana +.039 .045 +0,869 .385 -.049 +.126 Tit. Studio madre +.313 .061 +5.089 .000*** +.192 +.433 Tit. Studio interv. +.508 .059 +8.671 +.393 +.623 N = 966 R2 =.211 F = 42,87 Sign: .000 Explanandum: reddito equivalente familiare mensile General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.

Leggere tabulati, interpretare dati 2: da che dipende essere istruiti? Vv Xi (esplicative) B Es(B) t student Signific. Idc 95%inf Idc 95%sup Età (classi 10 anni) -.026 .002 -14.379 .000*** -.030 -.023 N. Figli in famiglia +.013 .024 +0.538 .591 -.034 +.060 Dim. Urbana +.101 .023 +4.322 +.055 +.146 Tit. Studio madre +.378 .031 +12.324 +.318 +.438 Reddito eq. Famigl. +.142 .016 +8.608 +.109 +.174 N = 966 R2 =.477 F =175.53 Sign: .000 Explanandum: livello di scolarità dell’intervistata General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.

Leggere tabulati, interpretare dati 3: cosa causa disagio relazionale? Vv Xi (esplicative) B Es(B) t student Signific. Idc 95%inf Idc 95%sup Età (classi 10 anni) -.016 .009 -1.769 .077 Reddito eq. Famigl. -.251 .075 -3.360 .001** Dim. Famiglia -.390 .149 -2.627 .009** Ormai avete capito come funzionano gli Idc! N. Figli in famiglia +.241 .167 +1.440 .150 Tit. Studio interv. -.279 .143 -1.955 .051 N. Legami forti -.188 -2.448 .015* Peso neighb in rete -.007 .003 -2.162 .031* Dim. Urbana -.018 .101 -0.178 .859 Grado postfamilism -.086 .042 -2.055 .040* Tit. Studio madre -.113 .144 -0.787 .431 N = 811 R2 =.068 F =4.145 Sign: .000 Explanandum: Scala 0-10 di disagio relazionale (fiducia, rapporti, futuro..) General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.

Leggere tabulati, interpretare dati 4: quando usiamo psicofarmaci? Vv Xi (esplicative) B Es(B) t student Signific. Idc 95%inf Idc 95%sup Età (classi 10 anni) .010 .002 +5.023 .000*** Reddito eq. Famigl. -.008 .016 -0.468 .640 Dim. Famiglia -.038 .032 -1.185 .236 Ormai avete capito come funzionano gli Idc! N. Figli in famiglia -.010 .037 -0.273 .785 Tit. Studio interv. .000 .031 -0.012 .990 N. Legami forti .044 +2.669 .008** Dim. Urbana .045 .022 +2.003 .045* Densità della rete .013 .023 +0.570 .569 Tit. Studio madre -.033 -1.060 .289 Disagio relazionale .008 +1.625 .105 N = 902 R2 =.075 F =6.578 Sign: .000 Explanandum: scala 0-3 uso di psicofarmaci General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.

Leggere tabulati, interpretare dati 5: cosa spinge a chiacchierare? Vv Xi (esplicative) B Es(B) t student Signific. Idc 95%inf Idc 95%sup Età (classi 10 anni) .109 .039 +2.786 .005** Ormai avete capito come funzionano gli Idc! N. Figli in famiglia .557 .464 +1.201 .230 Dim. Urbana 1.894 .451 +4.198 .000*** Reddito eq. Famigl -.008 .332 -0.025 .980 Tit. Studio interv. .324 .590 +0.550 .583 N = 1060 R2 = .028 F =5.985 Sign: .000 Explanandum: durata dell’intervista General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.