STATISTICA a.a. 2002-2003 METODO DEI MINIMI QUADRATI REGRESSIONE CORRELAZIONE
RELAZIONE FRA VARIABILI Spesso si vuole trovare la relazione che lega due o più variabili (es. la pressione di un gas dipende da temperatura e volume) Vogliamo esprimere questa relazione in forma matematica
INTERPOLAZIONE Dobbiamo raccogliere dati che mostrino valori corrispondenti delle variabili Riportiamo i punti (Xi,Yi) delle due variabili su un sistema di coordinate Vogliamo individuare una curva (relazione non lineare) o una retta interpolante
INTERPOLAZIONE Il tipo più semplice è la retta Y = a0 + a1 X Dati due punti qualsiasi (X1 Y1) e (X2 Y2) , vogliamo determinare a0 e a1 .
INTERPOLAZIONE
INTERPOLAZIONE coefficiente angolare e’ Y per X=0 (ordinata all’origine).
METODO DEI MINIMI QUADRATI
METODO DEI MINIMI QUADRATI Chiamiamo Dn la deviazione (o errore) fra il valore Yn e il corrispondente valore della curva (positiva o negativa) Una misura della “bontà dell’interpolazione” è la somma D12 + D22 …..+ Dn2
METODO DEI MINIMI QUADRATI La curva avente la proprietà che D12 + D22 …..+ Dn2 è minima è detta migliore interpolante o retta/curva dei minimi quadrati.
METODO DEI MINIMI QUADRATI La retta dei minimi quadrati può essere espressa nella forma Y = a0 + a1 X dove a0 e a1 si trovano risolvendo il sistema SY = a0 N+ a1 SX SXY = a0 S X+ a1 SX2 equazioni normali della retta dei minimi quadrati.
METODO DEI MINIMI QUADRATI Si ottiene
METODO DEI MINIMI QUADRATI La prima delle due equazioni si ottiene dalla sommatoria di entrambi i membri di Y = a0 + a1 X , la seconda moltiplicando i membri per X e poi facendo la sommatoria. Per derivare le equazioni si minimizzano le derivate della retta
METODO DEI MINIMI QUADRATI Y1 = a0 + a1 X1 Y2= a0 + a1 X2 …. S=(a0 + a1 X2 -Y1)2 +(a0 + a1 X2 – Y2)2 +…. + (a0 + a1 Xn - Yn)2
LA REGRESSIONE Vogliamo stimare il valore di una variabile Y corrispondente a un dato valore di una variabile X. Si può ottenere questo stimando il valore di Y per mezzo di una curva dei minimi quadrati che interpoli i dati campionari. Questa è detta CURVA DI REGRESSIONE di X su Y. Se X è il tempo (variabile indipendente) i dati indicano i valori di Y in diversi tempi e vengono detti SERIE TEMPORALE. La retta/curva di regressione è detta retta/curva del trend e viene usata per scopi di previsione.
CORRELAZIONE E REGRESSIONE La correlazione indica il grado di relazione fra le variabili. Cercheremo di determinare quanto bene un’equazione spiega tale relazione Se tutti i valori delle variabili soddisfano esattamente un’equazione diciamo che le variabili sono perfettamente correlate (esempio: raggio e circonferenza; altezza e peso saranno in parte correlate).
CORRELAZIONE E REGRESSIONE Date due variabili X e Y costruiamo un diagramma di dispersione con i loro valori. Se tutti i punti giacciono più o meno su una retta, la correlazione è detta lineare e la relazione fra le variabili sarà retta da un’equazione lineare.
CORRELAZIONE E REGRESSIONE Se Y cresce al crescere di X la correlazione è positiva o diretta:
CORRELAZIONE E REGRESSIONE Se Y decresce al crescere di X, la correlazione è detta negativa o inversa: Se i punti stanno su una curva, la correlazione è non lineare.
CORRELAZIONE E REGRESSIONE Se non c’è relazione fra le variabili diciamo che sono incorrelate:
CORRELAZIONE E REGRESSIONE (1) Y = a0 + a1 X Può essere riscritta come dove
CORRELAZIONE E REGRESSIONE Chiamiamo Ystim i valori di Y per dati valori di X secondo una stima compiuta per mezzo della (1). Una misura della dispersione intorno alla retta di regressione di Y su X è oppure errore standard della stima
CORRELAZIONE E REGRESSIONE Il denominatore può anche essere posto a N-2 . L’errore standard della stima ha proprietà analoghe a quelle dello scarto quadratico medio.
COEFFICIENTE DI CORRELAZIONE Chiamiamo devianza totale di Y la somma dei quadrati degli scarti dei valori di Y dalla media Y¯. Si può anche scrivere devianza totale devianza residua devianza spiegata
COEFFICIENTE DI DETERMINAZIONE Se la devianza spiegata è zero (ossia la devianza totale equivale alla residua), r2=0 Se la devianza residua è uguale a zero, cioè devianza totale = devianza spiegata , r2=1 Dunque r2 è sempre positiva e varia fra 0 e 1.
COEFFICIENTE DI CORRELAZIONE Allora definiamo r coefficiente di correlazione
COEFFICIENTE DI CORRELAZIONE r varia fra +1 e –1 (+ o – a seconda di correlazione positiva o negativa). Poiché allora
COEFFICIENTE DI CORRELAZIONE Si dimostra che dove
COEFFICIENTE DI CORRELAZIONE che dà automaticamente il segno di r. Si può riscriverla come