La logica della regressione

Slides:



Advertisements
Presentazioni simili
LA RETTA Forma generale dell’equazione della retta: ax+by+c=0 Dove :
Advertisements

Corso di esperimentazione di fisica 1 Il metodo dei minimi quadrati
INTERPOLAZIONE MOD.10 CAP.1
Come organizzare i dati per un'analisi statistica al computer?
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Fisica: lezioni e problemi
La regressione lineare trivariata
Residuo = yi – (bxi + a) La linea costruita con il metodo dei minimi quadrati è tale da minimizzare la somma dei quadrati dei residui corrispondenti a.
ANALISI DELLA COVARIANZA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
STATISTICA 6.0: REGRESSIONE LINEARE
Elementi di Matematica
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Analisi trivariata Lavorando con due variabili è possibile descrivere la relazione che fra queste esiste e formulare una congettura circa il tipo di legame.
Analisi della varianza (a una via)
L’analisi Monovariata
L’analisi della varianza:
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 5: propagazione degli errori
Corso di biomatematica lezione 6: la funzione c2
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Modello di regressione lineare semplice
G. Barbaro interpolazione1 INTERPOLAZIONE. G. Barbaro interpolazione1 In Statistica e in genere nelle scienze sperimentali, si studiano o si osservano.
1 Y Modello di regressione semplice Supponiamo che una variabile Y sia funzione lineare di unaltra variabile X, con parametri incogniti 1 e 2 che vogliamo.
Quale valore dobbiamo assumere come misura di una grandezza?
Regressione Logistica
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
La ricerca delle relazioni tra fenomeni
Introduzione alla Regressione Lineare e alla Correlazione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Interpolazione e regressione
Regressione e correlazione
La regressione come strumento di sintesi delle relazioni tra variabili
Cap. 13 Regressione 1. Modello statistico Un modello statistico è una formula che interpreta e sintetizza matematicamente il comportamento congiunto di.
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Fisica: lezioni e problemi
Regressione Lineare parte 2 Corso di Misure Meccaniche e Termiche David Vetturi.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Il residuo nella predizione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Analisi Multivariata dei Dati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
ECONOMIA POLITICA E-I ESERCITAZIONI. 2 Richiami di matematica – Funzioni Funzioni FUNZIONE: ogni regola matematica che permette di calcolare il valore.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
LA RETTA NEL PIANO CARTESIANO
I GRAFICI – INPUT 1.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
MACROECONOMIA LO SCHEMA IS - LM Lo schema IS – LM affronta nuovamente il tema della determinazione del reddito e dell’occupazione ma a differenza dello.
IL PIANO CARTESIANO E LA RETTA
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
FUNZIONI MATEMATICHE DANIELA MAIOLINO.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Transcript della presentazione:

La logica della regressione Nello studio delle relazioni tra due (o più) variabili, oltre a misurare l’entità (o forza) del legame esistente, spesso si è anche interessati ad accertare come varia una di esse al variare dell’altra (o delle altre), cioè ad individuare un’opportuna funzione che metta in relazione due o più variabili (di cui una dipendente e le altre indipendenti o esplicative). Nel caso di una sola variabile indipendente si parla di regressione semplice; In presenza di due o più variabili indipendenti siamo nel campo della regressione multipla In ambedue i casi possiamo ipotizzare modelli di regressione lineare o non lineare Obiettivi Descrizione: rappresentare tramite funzione l’andamento in media dei valori di una variabile al variare dell’altra Interpretazione: mettere in evidenza relazioni tra variabili per consentire una spiegazione alla luce di precise teorizzazioni Previsione: valutare il valore che assumerà la variabile dipendente in corrispondenza d’in valore noto della variabile indipendente (esplicativa) Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Operazioni preliminari Questo è uno dei pochi casi in cui è necessario effettuare preliminarmente una delle operazioni che, per le analisi viste in precedenza, venivano condotte nella fase conclusiva: il grafico. Poiché la regressione lineare semplice è applicabile ESCLUSIVAMENTE a variabili cardinali, la rappresentazione grafica più adatta è la rappresentazione cartesiana. Facendo corrispondere ad una delle due variabili (quella indipendente) l’asse delle X, all’altra l’asse delle Y, collochiamo sul piano i casi studiati. Ogni individuo sarà rappresentato da un punto le cui coordinate saranno i valori ottenuti sulla variabile indipendente (X) e dipendente (Y). La distinzione tra variabile indipendente e dipendente è particolarmente importante in quanto i valori del coefficiente di regressione differiscono a seconda della scelta. La rappresentazione grafica produrrà una nuvola di punti detta diagramma di dispersione (scattergram o scatterplot) Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

L’importanza dello scatterplot Corbetta, 1999 Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Y= f (X) Regressione lineare semplice Il tipo di legame più semplice fra due variabili è sicuramente quello lineare. Vogliamo cioè studiare il comportamento di una variabile (Y) come funzione di un’altra variabile (X). Y= f (X) Data una nuvola di punti in cui si ravvisa un andamento lineiforme, ipotizziamo di tracciare una retta, che chiamiamo retta interpolante, la quale meglio di tutte le altre si avvicina ai tutti i punti e che, dunque, sintetizzi la nuvola Y Sarebbe irrealistico pensare infatti che vi sia relazione perfetta fra due variabili, ovvero che per tutti i punti siano collegabili fra di loro con una retta. X Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Regressione lineare Più realistico invece è pensare ad una situazione in cui i punti (casi) si dispongano secondo un andamento lineiforme e, per tale motivo, sia possibile immaginare una retta che sintetizzi, meglio di altre rette possibili, l’informazione data dai punti. Y X Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Y = a + bX Equazione della retta Cosa sono questi parametri? Data una nuvola di punti, il problema è dunque quello di determinare i parametri a e b della retta che, meglio di tutte le altre è in grado di sintetizzarla Cosa sono questi parametri? a è l’intercetta, ovvero in punto in cui la retta intercetta l’asse delle y, o se preferite l’ordinata della retta quando l’ascissa è 0 b è il coefficiente angolare, ovvero la pendenza della retta Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Coefficienti La matematica ci permette di determinare a e b a partire dai valori delle due variabili X e Y sui casi. Come? Utilizzando il “metodo dei minimi quadrati” Tale metodo riduce al minimo la somma dei quadrati degli scarti fra i valori teorici di Y (sulla retta) ed i valori di Y osservati (nei dati) Coefficiente di regressione Intercetta Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Coefficiente di regressione b Soffermiamoci sulla formula del coefficiente di regressione: Cosa abbiamo al numeratore? Cosa abbiamo al denominatore? Dividendo il numeratore per la numerosità campionaria (N) abbiamo la covarianza. Dividendo il numeratore per la numerosità campionaria (N) abbiamo la varianza. covarianza fra X e Y varianza di X b = Dunque Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Y= a + bX + e Regressione lineare Come abbiamo detto in precedenza, la retta di regressione non da una rappresentazione perfetta della nuvola di punti, ma solo una sua sintesi, poiché i punti non sono mai allineati perfettamente sulla retta stessa. Pertanto bisogna introdurre un ulteriore coefficiente (e) detto errore o residuo. Y= a + bX + e L’equazione diventa la seguente: Il valore di e è dato dallo scarto fra il valore predetto dall’equazione di regressione e il valore effettivamente osservato nei dati. A differenza dei coefficienti a e b che, come abbiamo visto sono valori reali, il coefficiente e è una componente stocastica dell’equazione e dunque non osservabile. ...e è dunque il residuo non spiegato, relativo a ciascuna osservazione Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Regressione lineare Il residuo è definito come la differenza tra i valori osservati (yi)ed i corrispondenti valori teorici ( ), che si collocano sulla retta di regressione Y Y= a + bX + e Q5 P3 Q4 P1 Q3 e5 P4 Q2 Q1 β1 P2 P5 X1 X2 X3 X4 X5 X Ciascun residuo è dunque il valore numerico, riferito a ciascuna unità, rispetto al corrispondente valore osservato, che non è spiegato dalla relazione lineare con la variabile indipendente. Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Scomposizione della devianza Goodness of fit Il metodo dei minimi quadrati garantisce l’individuazione che sintetizza in maniera ottimale la nuvola dei punti. La fase conclusiva della validità o della bontà dell’adattamento della regressione è volta a controllare che la retta di regressione sia realmente in grado di spiegare l’andamento delle osservazioni. Scomposizione della devianza Devianza totale dei valori della variabile dipendente; misura la variazione dei valori di y intorno alla loro media Devianza dei valori stimati (o dev di regressione); variazione spiegata attribuibile alla relazione fra X e Y Devianza dei residui (o residua); variazione attribuibile a fattori estranei alla relazione fra X e Y Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

SST = SSR + SSE Scomposizione della devianza Dunque la devianza totale è composta da: SST = SSR + SSE Somma totale dei quadrati = Somma dei quadrati della regressione + Somma dei quadrati degli errori La devianza è una misura di variabilità: pertanto la devianza delle osservazioni è il risultato del contributo di due componenti. La variabilità dei valori stimati; espressa dalla devianza di regressione. Tale parte è la parte “spiegata” dalla relazione lineare La variabilità dei punti attorno alla retta; espressa dalla devianza residua. Tale valore ((DEV) E) anche se una sua prossimità a 0 indica che la rappresentazione (sintesi) fornita dalla retta di regressione è soddisfacente, non è direttamente utilizzabile per misurare la bontà dell’adattamento perché il suo valore numerico è influenzato dall’ordine di grandezza delle variabili utilizzate Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Indice di determinazione lineare Per tale motivo si utilizza l’indice di determinazione lineare Rsquared. Tale indice viene costruito facendo il rapporto tra devianza di regressione (SSE) e devianza totale (SST) Poiché è un rapporto al tutto, tale indice ha un campo di variazione compreso tra 0 e 1 Dove 0 indica un pessimo adattamento della retta ai dati E 1 indica un adattamento perfetto. Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Regressione e SPSS … abbiamo già detto che occorre partire dal grafico (scatterplot) al fine di controllare (anche se approssimativamente, ad occhio) che fra le variabili vi sia un associazione di tipo lineare (e non curviforme). Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Regressione e SPSS Asse delle ordinate, per la variabile dipendente Asse delle ascisse, per la variabile indipendente Labeling dei casi Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Solo regressione multipla È possibile impostare un filtro Peso per le variabili del modello Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Modello di analisi Scatterplot Numero di imprese locali Bilancio della regione Bilancio della regione = a + b Numero di imprese locali Scatterplot

Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Output di SPSS È il coefficiente di correlazione di Bravis-Pearson Serve solo in caso di regressione multipla Ricordiamo varia tra 0 e 1 dove 1 è un accostamento perfetto della retta ai dati Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

È il nostro b (coefficiente angolare) È la nostra a (intercetta) Per tanto l’equazione della retta è: Y = -591,367 + 0,009 X Bilancio della regione = - 591,367 + 0,009 Numero di imprese locali Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Devianza spiegata e non spiegata: Regressione=devianza spiegata dalla retta Residuo= devianza non spiegata dalla retta Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Residui Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione

Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione