Cap. 13 Regressione 1
Modello statistico Un modello statistico è una formula che interpreta e sintetizza matematicamente il comportamento congiunto di X e Y. In particolare è una FUNZIONE matematica semplice, liscia e regolare in grado di ben approssimare la realtà osservata cioè di cogliere l’andamento di fondo (in inglese trend) del comportamento congiunto di X e Y, smussando le irregolarità e le spigolosità tipiche dell’osservazione empirica Costruire un modello statistico significa utilizzare i dati (quelli della tabella osservata) per individuare questa formula che esprime Y in funzione di X. 2 1) Valutare la realtà empirica e le informazioni a priori Modelli teorici 2) Scegliere il modello a)Ragioni teoriche b)Osservazione empirica 3) Stimare (o adattare) il modello Quello che “passa” più vicino alle osservazioni empiriche X : reddito Y: consumo 4) Misurare la bontà dell’adattamento
Modello statistico Funzione o modello di regressione Variabile dipendente (risposta) Variabile indipendente (esplicativa) Se si è sicuri che X sia causa di Y il modello rappresenta la “forma” matematica della relazione (legge) di causa- effetto Parametri del modello Da scegliere in modo che l’adattamento sia “ottimale” Stima dei parametri
Osservazione: medie condizionate e modello di regressione Spezzata di regressione Perdita che si subisce quando si sostituisce al posto delle y un valore costante per ogni gruppo i Costante che rende minima la perdita di informazione all’interno del gruppo Costante che si avvicina il più possibile alla perdita minima, ma al tempo stesso rende la “spezzata” più liscia, regolare e interpretabile dal punto di vista matematico
Il modello di regressione è un modello matematico che cerca di approssimare il più possibile le medie condizionate (la loro spezzata di regressione), che rende minima la perdita di informazione per ogni gruppo, derivante dalla sostituzione e sintesi dei dati con un sol numero costante per ogni gruppo. Al tempo stesso consente di lisciare, e regolarizzare la forma della spezzata di regressione rendendola meglio interpretabile dal punto di vista matematico e consentendo ad esempio operazioni come la derivazione e il calcolo di valori teorici al di fuori del campo di osservazione della X Valore teorico “interpolato” Modello di regressione come approssimazione della spezzata Valore teorico “estrapolato” Valore teorico “estrapolato”
Il modello di regressione LINEARE Quali sono i valori di a e b che fanno passare la funzione il più vicina possibile ai punti osservati? Si scelgono in modo tale che la distanza tra valori teorici ed osservati sia minima Distanza totale (devianza residua) Condizione dei minimi quadrati
Modello lineare: condizione dei minimi quadrati Nel caso di una successione doppia il concetto non cambia Soluzione
Esempio: sia data una successione doppia (X=PESO, Y=STATURA) di una popolazione di N=10 unità statistiche. Si richiede a) scatterplot b) retta di regressione e commento sulla derivata rispetto al peso c) valori teorici di Y dato X. d) medie della statura condizionate al peso (senza passare per la distribuzione doppia) e) si tracci sia la spezzata di regressione che la retta. XY X^2Y^ X*Y
XY^ xmY(x) Y^ All’aumentare del peso di un Kg la statura aumenta di 1.297cm per qualsiasi livello del peso
Dal modello lineare ai modelli lineari nei parametri Modello lineare nei parametri
X = variazione nel numero di ore di sonno notturno Y = livelli di stress Calcolare il rapporto di correlazione Y|X Stimare la retta di regressione Stimare la funzione logaritmica di regressione che diventa lineare tramite la trasformazione
Calcolare valori teorici per x = -0.5 e
Misura di bontà di adattamento Funzione delle Perdita complessiva che si subisce sostituendo i valori teorici a quelli osservati Devianza residua
Misura di bontà di adattamento Si può dimostrare che (sotto certe condizioni (1)) date le quantità Tanto più vicino a zero e tanto migliore l’adattamento Tuttavia andrebbe “normalizzato” Devianza totale Devianza spiegata Adattamento perfetto Tutti i punti si collocano sulla funzione di regressione La funzione di regressione si riduce a La X non spiega nessuna parte di variabilità La variabilità di Y è tutta spiegata dalla X attraverso la funzione di regressione
Misura di bontà di adattamento Adattamento perfetto Tutti i punti si collocano sulla funzione di regressione La funzione di regressione si riduce a La X non spiega nessuna parte di variabilità La variabilità di Y è tutta spiegata dalla X attraverso la funzione di regressione Indice di determinazione Adattamento perfetto, tutti i punti stanno sulla funzione f(x) prescelta La X non spiega nessuna parte di variabilità attraverso il modello f(x) prescelto
Modello di regressione lineare Per un modello lineare, l’indice di determinazione coincide con il quadrato del coefficiente di correlazione
Ancora sua devianze e indici di bontà di adattamento
Regressione: condizioni affinché valga Funzione lineare nei parametri non dipendono da parametri