Modello di regressione lineare semplice

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Come organizzare i dati per un'analisi statistica al computer?
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Residuo = yi – (bxi + a) La linea costruita con il metodo dei minimi quadrati è tale da minimizzare la somma dei quadrati dei residui corrispondenti a.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
ANALISI DELLA COVARIANZA
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
La regressione logistica binomiale
Analisi della varianza (a una via)
La logica della regressione
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Analisi delle corrispondenze
Determinazione Orbitale di Satelliti Artificiali Lezione 5
Metodi numerici per equazioni differenziali ordinarie Laboratorio di Metodi Numerici a.a. 2008/2009.
STATISTICA PER LE DECISIONI DI MARKETING
Regressione Logistica
La programmazione lineare
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
STATISTICA PER LE DECISIONI DI MARKETING
La ricerca delle relazioni tra fenomeni
COVARIANZA e CORRELAZIONE.
Interpolazione e regressione
Regressione e correlazione
La regressione come strumento di sintesi delle relazioni tra variabili
DATA MINING PER IL MARKETING
Cap. 13 Regressione 1. Modello statistico Un modello statistico è una formula che interpreta e sintetizza matematicamente il comportamento congiunto di.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13 Regressione Logistica: La stima e l’interpretazione del del modello.
Domande riepilogative per l’esame
Il residuo nella predizione
Corso di Laurea in Scienze e Tecniche psicologiche
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Analisi Multivariata dei Dati
1 “Metodi per la Ricerca Sociale e Organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università degli Studi di Milano-Bicocca.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
La regressione statistica IL CASO UNIVARIATO Consideriamo due variabili continue proponendoci di INDAGARE se esiste una relazione tra loro. Normalmente.
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza.
Transcript della presentazione:

Modello di regressione lineare semplice Analizzando la dipendenza tra due variabili possiamo cercare la relazione che esiste Usando una funzione matematica Studieremo la relazione tra una variabile dipendente da una variabile indipendente o esplicativa Qual è la funzione matematica più adatta a descrivere la relazione tra le due variabili? Se si assume che il legame è lineare la funzione più adatta è l’equazione di una retta Y = f(x) = a + β x a = intercetta Β = coefficiente angolare

Retta di regressione lineare semplice Una retta di regressione lineare descrive come cambia una variabile dipendente y quando cambia la variabile esplicativa x Obiettivo è individuare la retta che interpreta meglio i punti empirici ossia che interpola meglio i punti sul piano Operativamente utilizziamo il metodo dei minimi quadrati: la retta migliore sarà quella che minimizza la somma degli scarti (residui) tra i valori osservati (yi) e i valori teorici trovati sulla retta (yi*) ∑ (yi - yi*)2 = min ∑ (yi – a – βxi)2 = min

Retta di regressione lineare semplice Attraverso il calcolo dei minimi quadrati ottengo le seguenti soluzioni a = μy – βμx Β = σ(x,y) / σ2(x) Codevianza (x,y) = σ(x,y) = ∑ (xi – μx)*(yi – μy) devianza (x) = σ2(x) = ∑ (xi – μx)2 devianza (y) = σ2 (y) = ∑ (yi – μy)2

Retta di regressione lineare semplice Y = a + βx + ε I punti non sono quasi mai allineati perfettamente sulla retta per cui l’equazione che ci da il vero valore di y è Y = a + βx + ε (dove ε sono i residui o errori) Significati dei coefficienti: β - Il coefficiente angolare β misura la pendenza della retta ed è positivo quando la retta cresce ed è negativo quando la retta decresce β - Misura inoltre di quanto varia in media y al variare di una unità di x a - a misura il valore di y quando x = 0

Retta di regressione lineare semplice devianza (y) = σ(y) = ∑ (yi – μy)2 Si dimostra che la devianza di y può essere scomposta in due parti σ(y) = ∑ (yi* – μy)2 + ∑ (yi – yi*)2 Dove ∑ (yi* – μy)2 rappresenta la parte di devianza totale spiegata dalla regressione e si chiama devianza di regressione Dev(R) e ∑ (yi – yi*)2 rappresenta la parte di devianza non spiegata dalla regressione denominata devianza dei residui Dev(E) ed è la quantità da minimizzare con il metodo dei minimi quadrati Dev(y) = Dev(R) + Dev(E)

Retta di regressione lineare semplice Posso calcolare l’indice di determinazione che è R2 = Dev(R) / Dev(y) È un indice normalizzato che varia tra 0 e 1 Quando la Dev(R) è nulla R2 è nullo e la variabilità di y non è spiegata dalla retta di regressione Quando Dev(R) = Dev(y), R2 è uguale a 1 e la variabilità è spiegata intermente dalla retta di regressione

Regressione logistica La regressione logistica binomiale è un caso particolare di modello lineare generalizzato. Si tratta di un modello di regressione applicato nei casi in cui la variabile dipendente y sia di tipo dicotomico riconducibile ai valori 0. Il modello di regressione logistica modella la relazione tra l’esito dicotomico da esaminare (la propensione alla vacanza, il rischio di contrarre una malattia, ecc.) e un set di variabili che possono essere sia dicotomiche (ad. esempio presenza di figli con 10 anni o meno: si/no, essere sottoposto a cura antibiotica: si/no) che categoriche (ad esempio: ripartizione geografica: Nord-Ovest; Nord-Est, Centro, Sud, Isole).

Regressione logistica L’equazione logistica produce la stima dei valori medi della variabile dicotomica dipendente (y) in corrispondenza dei valori assunti dalle variabili indipendenti (xi) Essendo la y una variabile dicotomica la sua media è uguale alla proporzione di casi che assumono il valore 1. Si parla generalmente della probabilità di (propensione di) y ad assumere il valore 1 in combinazione dei valori delle variabili indipendenti xi Quando trattiamo dei valori che esprimono probabilità (di un evento) non possiamo concepire delle relazioni lineari con le altre variabili

Regressione logistica Facciamo un trasformazione matematica sulle variabili linearizzando una equazione non lineare. La probabilità da stimare si trasforma in una funzione detta logit (o logistica) Logit (P)= ln (P/1-P) = a + b1x1 + b2x2 + bixi + bnxn dove P = probabilità dell’evento Ln = logaritmo naturale Solitamente anche le variabili indipendenti sono dicotomiche o categoriale con una modalità che viene presa come modalità di riferimento. I coefficienti vanno interpretati come il cambiamento nella probabilità della variabile dipendente esercitato dal passaggio dalla modalità di riferimento ad una altra modalità per la variabile indipendente in esame, quando le altre variabili rimangono costanti

Regressione logistica I coefficienti vanno interpretati come il cambiamento nella probabilità della variabile dipendente esercitato dal passaggio dalla modalità di riferimento ad una altra modalità per la variabile indipendente in esame, quando le altre variabili rimangono costanti Questo perché rappresentano il logaritmo degli odds-ratio, ossia dei rapporti Solitamente i software traducono i logaritmi negli odd-ratio per cui è più semplice poi interpretarli

Odds e odds-ratio Gli odds sono dei rapporti di probabilità che assumono valore 1 quando le due categorie a confronto hanno la stessa frequenza e variano tra 0 e infinito Vengono calcolati sulla tabella di contingenza Gli odds-ratio è il confronti tra due odds condizionati ed è a tutti gli effetti una misura di associazione Varia tra 0 e infinito Assume 1 quando c’è la massima indipendenza Valori > 1 indicano una concordanza (associazione diretta) Valori < 1 indicano una associazione di discordanza