Lezione B.11 Non linearità e quant’altro TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli.

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Advertisements

FUNZIONI REALI DI DUE VARIABILI REALI
INTERPOLAZIONE MOD.10 CAP.1
Dipartimento di Economia
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Fisica: lezioni e problemi
La regressione lineare trivariata
Tecniche quantitative per l’analisi nella ricerca sociale
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Elementi di Matematica
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Analisi della varianza (a una via)
La logica della regressione
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 5: propagazione degli errori
G.M. - Informatica B-Automazione 2002/03 Funzione Indica una relazione o corrispondenza tra due o più insiemi che soddisfa ad alcune proprietà. Il dominio.
Corso di biomatematica lezione 7-2: Test di significatività
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Studente Claudia Puzzo
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Analisi dei gruppi – Cluster Analisys
G. Barbaro interpolazione1 INTERPOLAZIONE. G. Barbaro interpolazione1 In Statistica e in genere nelle scienze sperimentali, si studiano o si osservano.
INTERPOLAZIONE Si parla di processo di interpolazione quando, conoscendo una serie di dati, sperimentali o statistici, riguardo ad un evento, si vuole.
1 Y Modello di regressione semplice Supponiamo che una variabile Y sia funzione lineare di unaltra variabile X, con parametri incogniti 1 e 2 che vogliamo.
STATISTICA PER LE DECISIONI DI MARKETING
La ricerca delle relazioni tra fenomeni
Introduzione alla Regressione Lineare e alla Correlazione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
COVARIANZA e CORRELAZIONE.
Interpolazione e regressione
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
Regressione e correlazione
Cap. 13 Regressione 1. Modello statistico Un modello statistico è una formula che interpreta e sintetizza matematicamente il comportamento congiunto di.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Fisica: lezioni e problemi
DATA MINING PER IL MARKETING
La verifica d’ipotesi Docente Dott. Nappo Daniela
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Il residuo nella predizione
Riassumendo: ipotesi per OLS 1.Modello lineare 2.X e Y sono frutto di osservazioni indipendenti 3.X è di rango pieno 4.I residui hanno media = 0 5.I residui.
La correlazione.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Flusso di Costo Minimo Applicazione di algoritmi: Cammini Minimi Successivi (SSP) Esercizio 1 Sia data la seguente rete di flusso, in cui i valori riportati.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
STATISTICHE DESCRITTIVE
Forma normale delle equazioni di 2° grado Definizione. Un'equazione di secondo grado è in forma normale se si presenta nella forma Dove sono numeri.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
Analisi matematica Introduzione ai limiti
I GRAFICI – INPUT 1.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
Luoghi di punti In geometria il termine
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Classi di addettiF >2504 La seguente tabella riporta la distribuzione di 100 aziende per classi di addetti. a.Si calcoli:
Classe II a.s. 2010/2011 Prof.ssa Rita Schettino
Transcript della presentazione:

Lezione B.11 Non linearità e quant’altro TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli

In questa lezione.. In questa lezione ripartiremo dall’interpolazione di una nuvola di punti mediante una funzione rettilinea, per passare a strategie di interpola- zione un pochino più complesse ma più capaci di adattamento. Esamineremo preliminarmente la funzione residuo e la sua utilità per cogliere graficamente eventuali modelli differenti dalla retta. Dopodiché accenneremo a tre strategie possibili:  L’intervento diretto (manuale) del ricercatore sui casi anomali.  L’interpolazione con una funzione polinomiale di ordine superiore alla retta.  L’interpolazione con una funzione non lineare che sia però ricon- ducibile al modello della retta  Concluderemo con un rapido accenno al problema della Ecological Fallacy

Ripartiamo da un esempio Partiamo da un problema apparentemente risolto al primo colpo. Siano dati per N=9 individui l’età (X) e il reddito mensile in migliaia di euro (Y). Il diagramma di dispersione mostra come una relazione rettilinea sia davvero ottima.. XiXi YiYi Xi2Xi2 Yi2Yi2 X i Y i 201,04001,0020,0 221,24841,4426,4 251,46251,9635,0 282,07844,0056,0 303,09009,0090,0 333, ,25115,5 354, ,25157,5 375, ,16199,8 406, ,24272, , ,3972,2 30,03,2941,7813,92108,02 V X =41,78; V Y =3,682 Cov XY =+12,022; r XY =+0,9693 b YX =+0,28777; a YX =-5,43298 R 2 YX =0,94!!! Ogni anno in più in media 288mila lire di incremento lineare di reddito. Ma si inizia a guadagnare solo dopo i 19 anni...

Una interpolante soddisfacente Y =-5, ,28776 X Caspita, il 94% della variabilità di Y è spiegato dalla relazione lineare con l’età: Y =-5, ,28776 X. Interpoliamo la retta MQ, calcolando il valore teorico di Y per X=18 (Y=-0,25) e per X=42 (Y=6,65). Possiamo verificare che la somma dei valori teorici è = alla somma dei valori osservati, che la somma degli scarti semplici è zero, e che il rapporto tra la varianza residua V WR (Y)=0,223 e la varianza totale V T (Y) è =0,06, cioè XiXi YiYi Y* i (Y i -Y* i )(Y i -Y* i ) 2 201,00,322+0,6780, ,20,898+0,3020, ,41,761-0,3610, ,02,624-0,6240, ,03,200-0,2010, ,54,063-0,5630, ,54,639-0,1390, ,45,214+0,1860, ,86,078+0,7220, ,8 02, ,03,20,223 V WR (Y)/ V T (Y) = 1- R 2 YX

Una cartina di tornasole: l’analisi dei residui Un metodo per esplorare i limiti della regressione lineare consiste nell’esaminarne i residui. Se chiamiamo Y la variabile osservata e  la funzione teorica interpolante (per esempio Y= i =a+bx i ), definiamo funzione residuo la differenza =Y-. E’ intuitivo che (Y i - i )=0. Ma se la funzione teorica è stata stimata col criterio dei MQ (solo in quel caso), allora la funzione residuo gode di altre proprietà notevoli: (Y i - i ) 2 =   2 = minimo Cioè, per costruzione, il ‘danno’ complessivo è il minore possibile. Inoltre (Y i - i )( i -m Y )=Cov( ,)=0 e dato che  i =a+bx i è linearmente dipendente da x i, vale anche: Cov( ,X)=0 Cioè i residui ottenuti col MMQ sono incorrelati con la funzione teorica e con la variabile esplicativa.

Plottare i residui sulla variabile esplicativa XiXi ii 20+0, , , , , , , , ,722 ‘Plottiamo’ i residui sui valori teorici  i o sulle X i, di esse. Cioè costruiamo un grafico coi residui in ordinata, e in ascissa i corrispondenti valori teorici di Y ( i ) o direttamente i valori X i (dato che essi sono linearmente connessi con i  i ). Se i residui sono incorrelati con  i e con X i, il grafico non mostrerà particolari relazioni. Trasporre in grafico i residui consente di evidenziare l’eventuale inefficacia del modello lineare semplice. Se esso è efficace, dovremmo trovare incorrelazione degli errori e una varianza vincolata grossomodo costante per tutto il grafico. Guardiamo invece il grafico dei residui della regressione reddito-età, plottata rispetto alle età. Esso evidenzia una chiara relazione curvilinea. Certo Cov( i,X i )=0 per costruzione. Ma il grafico fa intravvedere altre relazioni o fa sospettare su qualche dato inserito nel grafico.

Prima strategia: intervenire sugli outliers Che possiamo fare per migliore l’adattamento della legge interpolante? La prima strada che si può percorrere è quella di rimuovere dati che si presumono spiccatamente anomali. Sta alla sensibilità e alla responsabilità di chi elabora i dati di percepire che uno o più di essi è anomalo. Nell’esempio si può ritenere che la prima e la nona osservazione mostrino redditi sistematicamente più alti delle altre. XiXi YiYi Xi2Xi2 Yi2Yi2 X i Y i 221,24841,4426,4 251,46251,9635,0 282,07844,0056,0 303,09009,0090,0 333, ,25115,5 354, ,25157,5 375, ,16199, ,06680,2 30,03925,1411,1597,17 La retta stimata è: Y=-5,56+0,285X Il coefficiente di determinazione è: R 2 =0,951. R 2 è ancora mi- gliorato! Ma l’arbi- trarietà della ma- nipolazione è dav- vero forte..

Seconda strategia: interpolare una funzione polinomiale Chiamiamo funzione polinomiale di grado N in x una generalizzazione della funzione rettilinea in cui la variabile dipendente compare in tutte le poten- ze di ordine k=1,..,N: y= N (x)=a 0 +a 1 x+a 2 x a N x N = a+bx+cx kx N. Sappiamo tutti che tra due punti (due coppie di osservazioni) passa esattamente una sola retta, tra tre punti una sola parabola e così via. Ma non conviene pro- cedere oltre la polinomiale di grado 3 per interpolare i dati: il costo (di calcolo, di interpretabilità) supererebbe i vantaggi! Tanto più nelle distribuzioni statistiche con- giunte, dove per ogni X non v’è un solo valore di Y, ma una distribuzione statistica. Tra questi tre punti passa una parabola che si adatta perfettamen- te ai dati… Ma se due dei 3 punti corrispon- dono a una sola X non c’è funzio-ne (retta,curvili- nea)che si adatti Ma la cosa interessante di una interpolazione polinomiale è che anche per essa si possono determinare stime MMQ, che godono delle proprietà della retta MQ. In particolare: Cov( , )=0 (l’interpolante polinomiale è incorrelata coi residui) e Var WP(k) +Var BP(k) =Var T (Y) (se la polinomiale non ha intercetta vincolata la varianza di Y è scomponibile tra una varianza ‘spiegata’ e una ‘residua’)

Stima di una funzione quadratica Il calcolo di una polinomiale di ordine >1 è comunque una procedura onerosa per la massa di calcoli necessari. Nessuno vi chiederà mai di calcolarvela a mano (con la macchinetta da un dollaro), semmai vi si chiederà di saperne utilizzare le stime in modo accorto. Ma – per capire come la stima si ottenga proprio con la stessa procedura adottata per la retta MQ – accenniamo alla stima di una funzione quadratica, o parabola. Ricordate la stima della retta? Si cercavano i parametri a YX (intercetta all’origine) e b YX (pendenza) della retta che minimizzano la funzione di danno quadratico: D = (y j -  i ) 2 f ij = (y j – a YX – b YX.x i ) 2 f ij = minimo. per stimare la polinomiale Y=a YX +b YX.X+c YX.X 2 che meglio si adatta alla nuvola dei punti osservati, è sufficiente stimare i parametri a YX (intercetta all’origine) b YX e c YX della curva che minimizzano la funzione di danno quadratico: Alla stessa stregua, per stimare la polinomiale Y=a YX +b YX.X+c YX.X 2 che meglio si adatta alla nuvola dei punti osservati, è sufficiente stimare i parametri a YX (intercetta all’origine) b YX e c YX della curva che minimizzano la funzione di danno quadratico: D = (y j -  i ) 2 f ij = (y j – a YX –b YX.x i -c YX. x i 2 ) 2.f ij = minimo

Calcoli intermedi per la stima della parabola Sappiamo che l’intercetta MQ della retta è pari a a YX =m Y –b YX m X e il coefficiente angolare b YX è: Nel calcolo della retta MQ entravano quindi in gioco, come calcoli intermedi, le me- die delle variabili X, Y, X 2, Y 2, XY (le solite cinque colonne..) I coefficienti della parabola MQ hanno allora le seguenti formule: E ovviamente a YX =m Y –b YX m X -c YX m 2X Le formule dei due coefficienti di regressione sono speculari tra loro, con poche inversioni di variabili

Un esempio di calcolo della parabola XiXi YiYi Y* i (Y i -Y* i ) 201,00,989+0, ,21,132+0, ,41,531-0, ,02,151-0, ,02,687+0, ,53,675-0, ,54,457+0, ,45,337+0, ,86,842-0,042 28,80 Abbiamo tutti i parametri intermedi per stimare la parabola MQ. Chi vuole può verificare calcolo per calcolo che: Y = a + bx + cx 2 = 4,964 – 0,445x + 0,0123x 2 I valori teorici stimati sono ora davvero vicini ai valori osservati. Infatti: Come nella regressione lineare semplice, dal principio di scomposizione della varianza discende l’utilità di una misura di adattamento della interpolante poli- nomiale di ordine k, simile al coefficiente di deter- minazione. Per k=2 si ha:

Terza strategia: interpolare una funzione nonlineare Le funzioni polinomiali non sono le uniche che merita interpolare nei dati. Altre funzioni possono ‘fittare’ anche meglio i dati, e prestarsi a migliori interpretazioni. E’ vero però che i modelli polinomiali (tra cui la retta) sono modelli lineari ( Ml ) (in quanto vi intervengono linearmente i parametri della relazione) additivi (in quanto intervengono solo in forma additiva) e come tali godono delle proprietà di scomposizione della varianza che stanno alla base del metodo di stima ai MQ. Tuttavia tra i modelli nonlineari dobbiamo distinguere due tipi diversi:  Modelli nonlineari intrinsecamente lineari ( Mil ) sono quelli ricondu- cibili, mediante trasformazioni opportune delle variabili coinvolte, a funzioni lineari dei parametri di regressione.  Modelli intrinsecamente nonlineari ( Mnl ) sono quelli in cui non esiste trasformazione che consenta la linearizzazione. Il vantaggio dei Mil sta proprio nel fatto che essi possono essere linearizzati e su tale trasformata può essere applicata la procedura MQ di calcolo della funzione lineare semplice.

Una procedura in tre passi di interpolazione L’interpolazione MQ su funzioni non lineari Mil si svolge quindi in tre step: 1.Si trasformano le variabili Y e/o X in modo che la trasformata del modello prescelto sia lineare. 2.Si stimano i parametri MQ a partire dai dati linearizzati. L’interpolante così stimata gode delle proprietà MQ se applicata ai dati trasformati. 3.Si calcola la funzione interpolante nonlineare sui dati originari, me- diante la regola di trasformazione inversa. Ma attenzione!! I parametri stimati per le relazioni originali (passo 3) non godono delle proprietà MQ (che valgono solo per le relazioni linea- rizzate del passo 2). Pertanto per valutare il grado di adattamento del modello occorrerà passare attraverso la varianza residua intorno all’interpolante teorica. Esempi di funzioni Mil : Esponenziale: y=ae bx Logaritmica: y=a+blogx Iperbolica: y=x/(ax+b) Logistica: y=e a+bx /(1+e a+bx )

Modelli non lineari linearizzabili NomeModelloTrasformazione linearizzante Forma lineare corrispondente Trasformazione inversa Esponen ziale Logarit mica Iperbo lica Logisti ca Ecco quattro modelli non lineari linearizzabili. In giallo il modello. In grigio la trasformazione linearizzante (passo 1). In rosa la forma lineare corrispondente, su cui si stima la retta MQ (passo 2). In azzurro le trasformazioni inverse con le quali si risale alla funzione interpolante.

Un esempio di interpolazione esponenziale Sui soliti dati reddito-età interpoliamo una funzione esponenziale y=ae bx. PASSO 1: Per prima cosa operiamo la trasformazione: y*=logy. PASSO 2: Sulle coppie di coordinate (x i,y* i ) stimiamo la relazione lineare y *° = A+bx = -2,047+0,100334x (R 2 =0,996) PASSO 3: con la trasformata inversa y ° =e y*° risaliamo all’esponenziale: y ° = e -2,047+0,100334x = e -2,047.e 0,100334x = = 0,0817.e 0,100574x xixi yiyi y* i =logyy*° i y° i =exp(y*° i )y i - y° i 201,00-0,0400,961+0, ,20,1820,1611,174+0, ,40,3360,4621,587-0, ,00,6930,7632,144-0, ,01,0990,9632,621+0, ,51,2531,2643,541-0, ,51,5041,4654,328+0, ,41,6861,6665,290+0, ,81,9171,9677,147-0,347 La somma ponderata dei quadrati dei residui misura la varianza residua: (y i -y° i ) 2 /N=V W =0,0407 Si noti che V WR /V Y = 0,0407/3,682 = = 0,011  1- R 2 = 0,009

Il problema della ecological fallacy correlazioneecologica Un ultimo, intrigante, problema. A lungo le scienze sociali si sono cullate nell’illusione che per stimare una relazione tra due varia- bili individuali, per es. tra reddito e consu- mo, fosse sufficiente calcolare analogo coef- ficiente di correlazione detta ecologica cioè tra indicatori aggregati (reddito e con- sumo di differenti paesi, o regioni, o altra aggregazione in un’analisi cross section). la relazione aggregata va ritenuta “contesto-dipendente” La risposta che si da l’econometrica (Klein, 1946) è che la consistenza tra relazioni (blu) micro e relazioni (verdi) macro si realizza solo in casi improbabili (tutte le funzioni di aggregazione (rosse) lineari additive), così che la relazione aggregata va ritenuta “contesto-dipendente”. Explanans individuali Explananda individuali Explananda aggregati Explanans aggregati ? ? ? rela- zione analitica Tra i coefficienti di correlazione eco- logica e individuale esiste una rela- zione analitica precisa. Detta Z la terza variabile (territori, gruppi) che classifica l’appartenenza dei singoli, Blalock (1964) mostra che: Correlazione individuale e ecolo- gica coincidono solo se c’è totale omogeneità entro i gruppi.

Una simulazione X YZ 13A 22A 31A 35B 44B 53B 57C 66C 75C Facciamo un esempio ridotto all’osso. Non serve da- re un significato a X, Y e Z: basta pensare Z come indicatore di contesto. L’ellissoide blu mette in evi- denza una buona correlazione positiva tra X e Y su tutta la popolazione disaggregata:  YXT =0,60. Analizziamo ora non i dati ‘micro’ ma le loro aggregazioni secondo le mo- dalità di Z. La correlazione ecologica è ora perfetta:  YXB =1,00. Z XY A22 B44 C66 Ma se studiamo la relazione tra X e Y en- tro ogni singolo contesto le tre ellissi ver- di mostrano perfette correlazioni negati- ve:  YX (A) = YX (B) = YX (C) =-1! I rapporti di dipendenza di Pearson ( 2 YZ =0,8=  2 XZ ) evidenziano la stretta dipendenza di X e Y dal contesto. Se stimiamo la correlazione ‘entro’ ( YXW ) come media ponderata del- le correlazioni trovate nei singoli contesti, l‘identità di Blalock trova piena conferma:

Diffidare di regressioni cross-section Il termine ecological fallacy (Robinson, 1950) sottolinea il rischio di sviluppare convincimenti (e politiche) a partire da presunte relazioni tra attributi ascritti agli individui e loro comportamenti, calcolate con correlazioni ecologiche. Per esempio (mostrava Robinson) la correlazione tra tassi di analfabetismo e di popolazione di colore calcolata sulle 9 grandi ripartizioni degli USA era 0,95, calcolata sui 48 States scendeva a 0,77, mentre la correlazione individuale era stimata a 0,20.. Noi sappiamo che il coefficiente di correlazione risente della dimensione della popo- lazione studiata. Ma l’effetto dimensione non può spiegare la inversione del segno della correlazione passando dal livello ecologico a quello aggregato. E questo è quel che può avvenire, non solo in esempi costruiti a tavolino. Esempio. Per spiegare il paradosso di una fecondità più bassa nei paesi mediterranei a famiglia tradizionale, e più alta nei paesi nordeuropei con modelli familiari più indeboliti, McDonald (2000) rileva l’esistenza di una correlazione positiva tra tassi di fecondità nazionali e grado di equilibrio di potere nei rapporti di genere. Ma indagini Survey entro i singoli paesi mostrano in genere come siano proprio le coppie più “sbilanciate” in senso tradizionale ad avere più figli. Dunque a una correlazione ecologica positiva fanno da contraltare correlazioni individuali negative. Morale: diffidiamo sempre di facili interpretazioni tratte da analisi ‘ecologiche’ o cross-section!!