IL MODELLO DI REGRESSIONE LINEARE

Slides:



Advertisements
Presentazioni simili
Lezione B.10 Regressione e inferenza: il modello lineare
Advertisements

LA MISURA IN PSICOLOGIA. Scopo del corso Il corso si propone di offrire allo studente:  un’introduzione alle tematiche connesse alla misura in psicologia.
Corso di Analisi Statistica per le imprese
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Precorso di Statistica per le Lauree Magistrali
Effetto scuola o Valore aggiunto
Precorso di Statistica
Distribuzioni limite La distribuzione normale
Dip. Economia Politica e Statistica
STATISTICA (FRA)GOLOSA
Precorso di Statistica per le Lauree Magistrali
Variabili casuali a più dimensioni
RICHIAMI DI INFERENZA:
GLI STRUMENTI AUSILIARI
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Misure Meccaniche e Termiche - Università di Cassino
Metodi Quantitativi per Economia, Finanza e Management Lezione n°12 Regressione Logistica: Le ipotesi del modello, la stima del modello.
Confronto fra 2 popolazioni
DISTRIBUZIONI TEORICHE DI PROBABILITA’
Il calcolo della probabilità
PIANIFICAZIONE DEI TRASPORTI Regressione lineare
Analisi delle Traiettorie: Modelli di Crescita Latente (LGM)
Precorso di Statistica per le Lauree Magistrali
Dip. Economia Politica e Statistica
Equazioni differenziali
Elementi di teoria delle probabilità
Corso di Laurea in Scienze e tecniche psicologiche
APPUNTI DI STATISTICA INFERENZIALE
Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.
Precorso di Statistica
Precorso di Statistica per le Lauree Magistrali
Relazione sulla statistica
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Statistica descrittiva bivariata
Statistica Scienza che studia i fenomeni collettivi.
La distribuzione campionaria: principi generali
Intervalli di confidenza
PROCEDURA per la misura e la relativa stima
Statistica descrittiva bivariata
Statistica descrittiva bivariata
Nome progetto scientifico
Corsi di Laurea in Biotecnologie
CONTABILITA’ ANALITICA (CONTABILITA’ DEI COSTI o COST ACCOUNTING):
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
ANALISI DI REGRESSIONE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
Variazione percentuale di una grandezza
Test per campioni appaiati
Esercizio La popolazione di adulti presenta una media di ansia pari a 4. Ad un campione di 35 soggetti con disturbo ossessivo compulsivo è stato somministrato.
Dip. Economia Politica e Statistica
Precorso di Statistica per le Lauree Magistrali
Corso di Analisi Statistica per le imprese
Precorso di Statistica
RICHIAMI DI INFERENZA:
Esercizio 1 Si vuole studiare la mobilità di voto degli elettori di una certa circoscrizione. Da un sondaggio telefonico risulta che: Si calcolino le distribuzioni.
RICHIAMI DI INFERENZA:
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9
Associazione tra due variabili
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Corso di Analisi Statistica per le Imprese
Precorso di Statistica per le Lauree Magistrali
Test per campioni indipendenti
Ch Chimica Attività di recupero durante le vacanze di Natale
Associazione tra variabili qualitative
Corso di Analisi Statistica per le Imprese
Dip. Economia Politica e Statistica
Interazioni tra v.i.: analisi di moderazione
Statistica descrittiva bivariata
Correlazione e regressione
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
Transcript della presentazione:

IL MODELLO DI REGRESSIONE LINEARE CAPITOLO 13 IL MODELLO DI REGRESSIONE LINEARE 1

Esempio reddito consumo 80 100 120 140 160 180 200 220 240 260 55 65   reddito consumo 80 100 120 140 160 180 200 220 240 260 55 65 79 102 110 135 137 150 60 70 84 93 107 115 136 145 152 74 90 95 155 175 4 103 116 130 184 165 178 75 85 98 108 118 157 88 113 125 189 185 162 191 325 462 355 707 678 750 685 1043 966 1211

x y x*y x2 y2 80 70 5600 6400 4900 100 65 6500 10000 4225 120 90 10800 14400 8100 140 95 13300 19600 9025 160 110 17600 25600 12100 180 115 20700 32400 13225 200 24000 40000 220 30800 48400 240 155 37200 57600 24025 260 150 39000 67600 22500 1700 1110 205500 322000 132100

MODELLO DI REGRESIONE LINEARE SEMPLICE STATO PEZZI PREZZI   A 410 550 B 380 600 C 350 650 D 400 E 440 500 F G 450 H 420 SCOPI: 1) Riassumere l’andamento dei dati con una formula compatta che esprima il legame tra le due variabili 2) Effettuare e/o valutare le previsioni 3) Verificare una legge scientifica descrittiva in termini di funzione.

ELEMENTI ALEATORI Consideriamo che: 1)- LE VARIABILI IN GIOCO HANNO: a)- natura diversa b)- un ruolo diverso I prezzi sono controllati dall'azienda. Le vendite non possono essere previste con certezza partendo dai prezzi La variabilità delle vendite dipende, oltre che dai prezzi, anche da altri fattori.

Consideriamo che: Negli Stati E ed H il bene è stato posto in vendita allo stesso prezzo ma le vendite non sono uguali (440 e 420 unità). Perché Se vogliamo prevedere le vendite per il prezzo di $ 500 avremo:      Come va interpretata la dispersione dei punti osservati intorno al valore previsto ?

1° OSSERVAZIONE Le vendite dipendono , oltre che dal prezzo, da altri fattori economici se i redditi pro capite dei diversi Stati fossero molto diversi tra loro, questo giustificherebbe una variabilità delle vendite non dovuta ai prezzi. Sarebbe opportuno allora introdurre una ulteriore variabile esplicativa (reddito pro capite) Tale approccio viene definito Regressione multipla

Supponiamo che gli otto Stati abbiano redditi pro capite del tutto simili e che la struttura socio economica sia simile per tutti gli otto Stati     Come spieghiamo la variazione delle vendite per uno stesso prezzo? Supponiamo inoltre che la compagnia ripeta l'esperimento della vendita negli stessi Stati e con gli stessi prezzi. Otterremo gli stessi risultati?   Quasi sicuramente no. Esse saranno presumibilmente molto vicine ma non uguali e, quindi, non prevedibili a priori.

Conclusione IL LIVELLO DELLE VENDITE E' DOVUTO IN PARTE AI PREZZI ED IN PARTE A FATTORIDI NATURA ALEATORIA E PERTANTO SONO ANCH'ESSE VARIABILI ALEATORIE Ogni qualvolta la compagnia rileva l'ammontare delle vendite in uno stato effettua un esperimento aleatorio.         Riconosciuta la natura aleatoria della variabile dipendente ( Y ) risulterà che ad ogni valore della variabile indipendente ( Xi) non sarà associato un solo valore Yi ma una pluralità di valori ciascuno dei quali assumibile con una certa probabilità 

IL MODELLO DI REGRESSIONE LINEARE Ipotizziamo di volere studiare la relazione che intercorre tra l'ammontare di gasolio che occorre per riscaldare un immobile e la temperatura esterna. Un ricercatore rileva per cinque giorni invernali le temperature X e le quantità Y di gasolio consumate in un ora di riscaldamento. GIORNI TEMP. CONSUMO   1 -3 150 2 -1 140 3 130 4 -5 170 5 -7 210

associati alle variabili aleatorie Il ricercatore aspetta che la temperatura esterna sia quella voluta, quindi dopo un ore rileva il consumo di gasolio. Ripete l'esperimento per le cinque temperature indicate. La temperatura è controllata dal ricercatore.     Il ricercatore non è in grado di prevedere il consumo Pertanto i valori y1 , y2 , y3 , y4 , y5 non sono valori fissi ma determinazioni di 5 variabili aleatorie indipendenti essendo gli esperimenti indipendenti.     Sintetizzando avremo una seri di valori fissi (e/o controllati)     x1 x2 x3 x4 x5   Y1 Y2 Y3 Y4 Y5 associati alle variabili aleatorie

Il punto cruciale di tutta l'impostazione consiste nel descrivere appropriatamente le variabili aleatorie      Consideriamo i loro valori attesi Dall'esempio è facile desumere che noi ci aspetteremmo consumi medi diversi in presenza di temperature diverse.       In generale, potremo scrivere per ogni i = 1,2,3,…….,n Chiaramente le medie sono incognite Per quanto attiene le varianze delle distribuzioni di probabilità in esame (Yn) è spesso appropriato assumere che esse siano tutte uguali tra di loro. L'assunzione che deve essere, naturalmente verificata, equivale ad ammettere che tutte le osservazioni yi siano caratterizzate dallo stesso grado d'incertezza. Chiaramente il valore della varianza è incognito

Poiché il nostro scopo è quello di studiare la relazione di dipendenza tra X ed Y dobbiamo assumere l'esistenza di un legame tra le distribuzioni delle V.A. Yi xi           Dall'esame del grafico appare che i consumi tendono a variale linearmente al variare della temperatura.        la stessa assunzione può esser fatta per le medie     Ciò significa ammettere che     Attenzione tale assunto implica che i valori medi (valori attesi) delle variabili aleatorie Yi giacciano tutti su una stessa retta di parametri a e b.      

RIASSUNTO DELLE IPOTESI 1) per ogni valore xi di una opportuna variabile esplicativa X esiste una popolazione descritta da una V.A. Yi con una funzione di probabilità non nota da cui proviene ciascuna osservazione yi      2) la distribuzione di ogni V.A. Yi corrispondente ad un certo x, 3) le distribuzioni hanno tutta la stessa varianza incognita e costante al variare di xi 4) le distribuzioni sono tutte indipendenti tra di loro 5) (ipotesi aggiuntiva forte) le distribuzioni delle V.A. sono normali

Assumendo per valida anche la quinta ipotesi si potrà sostenere che: yi è una realizzazione di Yi V.A. ; Le V.A, Yi sono indipendenti tra loro Valendo le prime quattro ipotesi avremo:       il modello di regressione lineare semplice Valendo la quinta ipotesi e le specificazioni fatte avremo:      il modello normale di regressione lineare semplice

    per entrambi la formulazione completa è la seguente: in cui ei rappresenta la componente aleatoria che comprende tutte quelle cause non inserite nella relazione lineare che rendono aleatorie le determinazioni yi  

STIMA DEI PARAMETRI Come stimatori dei parametri della retta che e esprime la relazione lineare tra x ed y si adoperano i parametri della retta che esprime la relazione tra i campioni estratti da x ed y cioè a e b che per esperimenti ripetuti più volte (tenendo i valori xi costanti) rappresentano due distribuzioni campionarie (una per a e l'altra per b) Pertanto a e b possono essere visti come stimatori e non come stime Yi = 131,5 - 9,5xi errore standard della stima sxy indica la misura della variabilità intorno alla retta di regressione

Formule alternative Per evitare il calcolo di tutti valori teorici il numeratore di sxy può essere calcolato, ricorrendo all’identità:

INFERENZA SUI PARAMETRI DELLA REGRESIONE Si tratta di valutare se il valore del coefficiente di regressione campionario b può essere assunto per affermare che la relazione lineare verificata a livello campionario può essere sostenuta per tutta la popolazione.   In altre parole se la retta di regressione campionaria (retta CAM) può esser ritenuta una buona espressione della vera relazione lineare esistente nella popolazione (retta POP) le ipotesi che sui assumono sono: Il rifiuto di H0 comporta l'ammettere che nella popolazione vi é dipendenza lineare con α = 0,05 La relativa statistica test é t3,0,05 = 3,18 si rifiuta l'ipotesi nulla

Test su ρ Il test empirico per verificare le ipotesi formulate viene determinato ricorrendo alla seguente formula Il test critico è una T di Student con (n-2) g.l.

Esercizi Nel seguito vi sono dei collegamenti ipertestuali ad esercizi già svolti relativi agli argomenti affrontati in questa lezione. Si noti che tali esercizi sono stati svolti in un foglio di lavoro Excell con formule predefinite: per visualizzarle, lo studente dovrà semplicemente clickare sulla cella di suo interesse e digitare il tasto F2. Si consiglia, inoltre, dopo aver adeguatamente studiato la parte teorica e svolto gli esercizi, di verificare i risultati individualmente ottenuti inserendo i propri dati nei fogli di lavoro Excell (a cui i links sottostanti rimandano), in modo da poterne agevolmente verificare la correttezza. Esercizi 22