Dipartimento di Economia

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
8) GLI INTERVALLI DI CONFIDENZA
Stime per intervalli Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica
Dipartimento di Economia
Intervalli di confidenza
Proprietà degli stimatori
Stime per intervalli Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono.
Confronto tra 2 campioni Nella pratica è utilissimo confrontare se 2 campioni provengono da popolazioni con la stessa media: Confronti tra produzioni di.
Fondamenti della Misurazione
TESTI UTILI PER PAPER/TESI 1
Analisi dei dati per i disegni ad un fattore
Intervalli di Confidenza
Dipartimento di Economia
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
STATISTICA A – K (60 ore) Marco Riani
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
Valutazione delle ipotesi
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
DALL'INTERVALLO DI PROBABILITÀ
DIFFERENZA TRA LE MEDIE
Analisi della varianza (a una via)
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 4: La funzione di Gauss
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a PARAMETRO t DI STUDENT
di cosa si occupa la statistica inferenziale?
Lezione 8 Numerosità del campione
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 7 i Test statistici
Il test di ipotesi Cuore della statistica inferenziale!
Verifica delle ipotesi su due campioni di osservazioni
Esercitazioni sul calcolo dei valori critici
Le distribuzioni campionarie
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Intervalli di Confidenza Corso di Teoria dell’Inferenza Statistica 2 a.a. 2003/2004 Quarto Periodo Prof. Filippo DOMMA Corso di Laurea in Statistica –
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Corso di Analisi Statistica per le Imprese
Strumenti statistici in Excell
IL CAMPIONE.
“Teoria e metodi della ricerca sociale e organizzativa”
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Le distribuzioni campionarie
Test basati su due campioni Test Chi - quadro
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
“Teoria e metodi della ricerca sociale e organizzativa”
Intervalli di confidenza
La distribuzione campionaria della media
Correlazione e regressione lineare
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Introduzione all’inferenza
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
Transcript della presentazione:

Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA Prof. Paolo Mattana Lez. 3 – Il processo di inferenza statistica

NOZIONI DI BASE Differenza fondamentale tra popolazione e campione Popolazione (o spazio campionario): In termini tecnici è costituita da tutte le possibili realizzazioni di una variabile casuale Nel caso di dati economici è costituita da tutte le osservazioni possibili su una variabile (passate, presenti e future). Raramente si arriva a conoscere la popolazione (con variabili di natura economica) Ciò che si fà, è estrarre un campione da una popolazione (che resta sconosciuta).

NOZIONI DI BASE Campione: Un campione può essere definito come un’estrazione di n “oggetti” da una popolazione E’ detto casuale, o stocastico, se ogni possibile combinazione di n oggetti ha la stessa probabilità di essere selezionata. Poiché le popolazioni sono spesso inaccessibili (o perché materialmente impossibili da raggiungere o per via dei costi elevati implicati), i campioni restano l’unica fonte di informazione a disposizione dell’econometrico

PRINCIPALI MOMENTI CAMPIONARI NB: La media campionaria può essere ben diversa in campione ripetuti (Variabilità campionaria).  media campionaria Quesito cruciale: Che relazione esiste tra media campionaria e media della popolazione? Si ricordi che

PRINCIPALI MOMENTI CAMPIONARI La media campionaria La varianza campionaria

PRINCIPALI MOMENTI CAMPIONARI In contesti bivariati La covarianza campionaria La correlazione campionaria

L’INFERENZA STATISTICA Problema dell’inferenza: cosa sappiamo dire sulla popolazione partendo dal campione? NB: Se il campione riproducesse esattamente i singoli momenti della popolazione di appartenenza la soluzione al problema dell’inferenza sarebbe facile da risolvere. Poiché, invece, ciò non accade sono necessari accorgimenti "tecnici" per capire e utilizzare le informazioni derivabili dai campioni. In particolare, sappiamo “molto” su come si comportano i momenti principali dei campioni rispetto ai corrispondenti valori delle popolazioni

L’INFERENZA STATISTICA Il nostro problema sarà quello di “fare inferenza” sui parametri della popolazione (a noi sconosciuti) sulla base delle osservazioni campionarie. Come possiamo operare? Abbiamo tre diverse livelli di intervento. Possiamo richiedere: una stima puntuale dei parametri della popolazione (point estimation); una prob. che tali parametri si collochino entro due valori limite (interval estimation); un’indicazione prob. sul fatto che un particolare parametro della popolazione esibisca determinate caratteristiche (hypothesys testing).

L’INFERENZA STATISTICA Point estimation Costruiamo una funzione delle osservazioni chiamata stimatore. Stimatore: variabile casuale che rappresenta il nostro ”miglior” tentativo di catturare il valore vero appartenente alla popolazione. Come costruiamo stime puntuali? Esempi di inferenza univariata: come faccio a inferire il valore della media o della varianza di una popolazione generica?

L’INFERENZA STATISTICA Esempi di stime puntuali Abbiamo già visto che Possiamo quindi immaginare di utilizzare la media campionaria come (stimatore non distorto della media (vera) della popolazione). Stiamo, cioè, costruendo una funzione delle osservazioni (stimatore) per “catturare” il valore vero . La funzione dei parametri (stimatore), in questo caso, è

L’INFERENZA STATISTICA E’ molto interessante studiare le proprietà della media campionaria. Già sappiamo che: Se infiniti campioni casuali di dimensione n sono tratti da una popolazione generica , allora:

L’INFERENZA STATISTICA Dimostrazione: (Che fine fanno le covarianze?) NB: è indicato come standard error della media

L’INFERENZA STATISTICA Popolazione Medie campionarie Standard deviation Standard error

L’INFERENZA STATISTICA Possiamo ora produrre ulteriori indicazioni sulla media campionaria Si supponga che la popolazione parentale sia Allora, Dimostrazione: Essendo la media campionaria una sommatoria di variabili casuali per assunzione Allora, essa conserverà le proprietà statistico/distributive della popolazione originaria

L’INFERENZA STATISTICA Cosa succede se non abbiamo informazioni sulla distribuzione della popolazione originaria? Teorema del limite centrale In grandi campioni, la media campionaria si distribuisce secondo una normale centrata sulla media vera e con varianza pari a indipendentemente dalla forma della distribuzione della popolazione originaria Sito divertente: http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html

L’INFERENZA STATISTICA Campione Popolazione X X X X

L’INFERENZA STATISTICA Inferenza sulla varianza della popolazione Posso usare: Per la dimostrazione useremo il sito: http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html

L’INFERENZA STATISTICA Né accurato, né preciso Preciso e accurato

L’INFERENZA STATISTICA Preciso, non accurato Accurato, non preciso

L’INFERENZA STATISTICA Preciso e accurato Accurato, non preciso

L’INFERENZA STATISTICA Bias Né accurato, né preciso Preciso, non accurato

L’INFERENZA STATISTICA Interval estimation Possiamo, alternativamente, immaginare di essere interessati a Conoscere la probabilità che la media della popolazione si trovi fra due intervalli. Costruiamo ora due funzioni delle osservazioni: e diciamo che il valore vero θ giace fra i due estremi θ1 e θ2 con una certa probabilità. Gli intervalli di confidenza al 95% e 99% sono quelli più usati

L’INFERENZA STATISTICA Intervalli di confidenza nel caso della media campionaria Sappiamo che: La media campionaria si distribuisce secondo una normale (teorema del limite centrale); Per ogni distribuzione normale: il 95% delle osservazioni è compreso all’interno dell’intervallo: dove Quindi, il 95% delle medie sarà compreso nell’intervallo:

L’INFERENZA STATISTICA Interval estimation Ovviamente, gli intervalli di confidenza possono essere costruiti per ogni parametro stimato, non solo per μ. Media (σ noto) Media (σ stimato) Differenza tra medie (σ noto) Differenza tra medie (σ stimato) Differenza tra correlazioni

L’INFERENZA STATISTICA Se  fosse conosciuto potremmo "fare inferenza" sulla popolazione utilizzando le proprietà della distribuzione normale. Tuttavia, anche quando  è sconosciuto possiamo sostituirlo con la DS del campione s, a patto che si abbia a che fare con un campione "grande” . Cosa possiamo fare per campioni piccoli?

L’INFERENZA STATISTICA Problema quando il campione è piccolo e non si conosce  Non possiamo utilizzare la distribuzione normale per formare IC Possiamo stimare il valore di  dal campione Dobbiamo però usare la distribuzione t

L’INFERENZA STATISTICA La t è una FDP che presenta una forma schiacciata rispetto alla Z E’ stata calcolata dal matematico inglese Gosset (1908), che la pubblicò sotto lo pseudonimo di Student La sua forma esatta dipende dai gradi di libertà: GdL = n – parametri da stimare dove n è la dimensione del campione I valori della t sono tabulati (oppure si può usare la rete…)

DISTRIBUZIONE t Per campioni molto grandi, il valore di s oscilla poco intorno al suo valore medio . Quindi per valori molto grandi la distribuzione t si avvicina molto a quella di Z ed arriva a coincidere per infiniti gradi di libertà. Per piccoli campioni le differenze sono notevoli, data l’oscillazione casuale di s intorno a  NB: In generale, la distribuzione t è rilevante ogniqualvolta si abbia: .

DISTRIBUZIONE t Parte della distribuzione che cade all’esterno dei valori tabulati  0.5 0.1 0.05 0.01 1 1.0 6.3 12.7 63.7 2 .81 2.9 4.3 9.9 Gradi di libertà … … … … … 13 .69 1.8 2.2 3.0 14 .69 1.7 2.15 3.0 15 etc Valore critico di t per df=14 (con valore critico al 5%)

DISTRIBUZIONE t Usiamo 2.15 al posto di 1.96. NB: i valori tabulati della distribuzione t sono più grandi di quelli della distribuzione normale Quindi, per n = 15, l’intervallo di confidenza del 95% sarà pari a:

L’INFERENZA STATISTICA Esercizio 3.6 Affitto medio Intervallo al 99% Campione grande Tavole normale standardizzata 2)

L’INFERENZA STATISTICA Trovare ora la dimensione del campione che comporta un Intervallo di confidenza di 2$

L’INFERENZA STATISTICA Esercizio 3.5 Gli onorari orari in un campione di 40 studi risultano in media pari a 25$ con s = 3,7. Si ottenga un intervallo di confidenza al 95% per tutti i professionisti. i) Suppongo che il campione sia "grande" posso trovare una Z ~N(0,1) tale che:

L’INFERENZA STATISTICA ii) Controllo le tavole (già sappiamo che 1 = - 1,96 ; 2 = 1,96) iii) Se il campione è piccolo, cosa succede?

RIEPILOGANDO…. Cosa sappiamo sulla distribuzione della popolazione? Normale Non normale Conosciamo σ? Dimensione del campione Grande? Piccola? No Si Dimensione del campione Stop Piccola Grande

DISTRIBUZIONE CHI-QUADRATO Se Z1, Z2,…., Zn sono N(0, 1), allora: Es: sotto H0 si distribuisce secondo un Infatti: Useremo spesso per fare RSSR - RSSUUR URL utile: http://www.statlets.com/free/pdist.htm-

DISTRIBUZIONE CHI-QUADRATO (v = 1 o 2) (v = 3 o 5) NB: la distribuzione approssima una normale man mano che v sale

DISTRIBUZIONE “ F “ di Fischer Se u e v sono due variabili casuali distribuite indipendentemente secondo un , allora: si distribuisce secondo una F con u GL al numeratore e v GL al denominatore Es: sotto H0 URL utile: http://www.statlets.com/free/pdist.htm-

DISTRIBUZIONE “ F “ di Fischer 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 d.f.N = 8 d.f.D = 20 1 2 3 4 5

L’INFERENZA STATISTICA Hypothesis testing In questo caso si suggeriscono alcune ipotesi su θ e si accetta o si rifiuta questa ipotesi sulla base dei dati Teoria Deduzione Ipotesi La teoria è collegata all’ipotesi attraverso la deduzione logica. Deduciamo le ipotesi a partire dalla teoria Se la teoria è vera, l’ipotesi sarà vera

TEST DELLE IPOTESI Nei modelli statistici distinguiamo due tipi di ipotesi Quelle riguardanti la struttura del modello: Forma della distribuzione; Modelli di campionamento. Quelle riguardanti i valori assunti dai parametri del modello data la sua struttura.

TEST DELLE IPOTESI I test sull’adeguatezza della struttura del modello sono detti Test diagnostici O Test di cattiva specificazione I test sui parametri sono detti Test di specificazione

TEST DELLE IPOTESI Definizioni Ipotesi nulla: (H0) ipotesi (tentativo) intorno a un parametro della popolazione Ipotesi alternativa: (H1) solitamente il complemento rispetto all’universo Statistica: Una statistica è una quantità numerica calcolata in un campione. Livello di significatività: il livello di significatività è il criterio usato per rigettare l’ipotesi nulla

TEST DELLE IPOTESI Approccio di Neyman – Pearson (1933) Specificare un ipotesi nulla (H0) e un ipotesi alternativa (H1) Scegliere un livello di significatività α Calcolare una statistica Calcolare il p value della distribuzione appropriata sotto H0 Confrontare il p value con α se p value ≤ α rifiutiamo l’ipotesi nulla; se p value > α non rifiutiamo l’ipotesi nulla.

TEST DELLE IPOTESI I test di significatività statistica si conducono per stabilire se una ipotesi nulla può essere accettata Se H0 è rifiutata significatività statistica Se H0 è non rifiutata assenza di significatività statistica La scelta di α determina la probabilità di errore di Iª specie NB: La significatività statistica di un coefficiente non implica la sua significatività pratica.

TEST DELLE IPOTESI Errore di Iª specie (α): Probabilità di rigettare l’ipotesi nulla quando è vera Errore di IIª specie (β) Probabilità di non rigettare l’ipotesi nulla quando è falsa