La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana.

Presentazioni simili


Presentazione sul tema: "Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana."— Transcript della presentazione:

1 Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana Lez. 3 – Il processo di inferenza statistica

2 Differenza fondamentale tra popolazione e campione Popolazione (o spazio campionario): In termini tecnici è costituita da tutte le possibili realizzazioni di una variabile casuale Nel caso di dati economici è costituita da tutte le osservazioni possibili su una variabile (passate, presenti e future). Raramente si arriva a conoscere la popolazione (con variabili di natura economica) Ciò che si fà, è estrarre un campione da una popolazione (che resta sconosciuta). NOZIONI DI BASE

3 Campione: Un campione può essere definito come unestrazione di n oggetti da una popolazione E detto casuale, o stocastico, se ogni possibile combinazione di n oggetti ha la stessa probabilità di essere selezionata. Poiché le popolazioni sono spesso inaccessibili (o perché materialmente impossibili da raggiungere o per via dei costi elevati implicati), i campioni restano lunica fonte di informazione a disposizione delleconometrico NOZIONI DI BASE

4 media campionaria Quesito cruciale: Che relazione esiste tra media campionaria e media della popolazione? Si ricordi che PRINCIPALI MOMENTI CAMPIONARI NB: La media campionaria può essere ben diversa in campione ripetuti (Variabilità campionaria).

5 PRINCIPALI MOMENTI CAMPIONARI La media campionaria La varianza campionaria

6 PRINCIPALI MOMENTI CAMPIONARI La covarianza campionaria La correlazione campionaria In contesti bivariati

7 Problema dellinferenza: cosa sappiamo dire sulla popolazione partendo dal campione? NB: Se il campione riproducesse esattamente i singoli momenti della popolazione di appartenenza la soluzione al problema dellinferenza sarebbe facile da risolvere. Poiché, invece, ciò non accade sono necessari accorgimenti "tecnici" per capire e utilizzare le informazioni derivabili dai campioni. In particolare, sappiamo molto su come si comportano i momenti principali dei campioni rispetto ai corrispondenti valori delle popolazioni LINFERENZA STATISTICA

8 Il nostro problema sarà quello di fare inferenza sui parametri della popolazione (a noi sconosciuti) sulla base delle osservazioni campionarie. Come possiamo operare? Abbiamo tre diverse livelli di intervento. Possiamo richiedere: una stima puntuale dei parametri della popolazione (point estimation); una prob. che tali parametri si collochino entro due valori limite (interval estimation); unindicazione prob. sul fatto che un particolare parametro della popolazione esibisca determinate caratteristiche (hypothesys testing). LINFERENZA STATISTICA

9 Costruiamo una funzione delle osservazioni chiamata stimatore. Stimatore: variabile casuale che rappresenta il nostro miglior tentativo di catturare il valore vero appartenente alla popolazione. Come costruiamo stime puntuali? Esempi di inferenza univariata: come faccio a inferire il valore della media o della varianza di una popolazione generica? LINFERENZA STATISTICA Point estimation

10 Abbiamo già visto che Possiamo quindi immaginare di utilizzare la media campionaria come (stimatore non distorto della media (vera) della popolazione). Stiamo, cioè, costruendo una funzione delle osservazioni (stimatore) per catturare il valore vero. La funzione dei parametri (stimatore), in questo caso, è LINFERENZA STATISTICA Esempi di stime puntuali

11 E molto interessante studiare le proprietà della media campionaria. Già sappiamo che: LINFERENZA STATISTICA Se infiniti campioni casuali di dimensione n sono tratti da una popolazione generica, allora:

12 Dimostrazione: LINFERENZA STATISTICA NB: è indicato come standard error della media (Che fine fanno le covarianze?)

13 Standard deviation Standard error PopolazioneMedie campionarie LINFERENZA STATISTICA

14 Possiamo ora produrre ulteriori indicazioni sulla media campionaria Si supponga che la popolazione parentale sia Allora, Dimostrazione: Essendo la media campionaria una sommatoria di variabili casuali per assunzione Allora, essa conserverà le proprietà statistico/distributive della popolazione originaria

15 Cosa succede se non abbiamo informazioni sulla distribuzione della popolazione originaria? Teorema del limite centrale In grandi campioni, la media campionaria si distribuisce secondo una normale centrata sulla media vera e con varianza pari a indipendentemente dalla forma della distribuzione della popolazione originaria Sito divertente: LINFERENZA STATISTICA

16 Popolazione Campione X X X X LINFERENZA STATISTICA

17 Inferenza sulla varianza della popolazione Posso usare: LINFERENZA STATISTICA Per la dimostrazione useremo il sito:

18 Né accurato, né preciso Preciso e accurato LINFERENZA STATISTICA

19 Preciso, non accurato Accurato, non preciso LINFERENZA STATISTICA

20 Preciso e accurato Accurato, non preciso LINFERENZA STATISTICA

21 Bias Né accurato, né preciso Preciso, non accurato LINFERENZA STATISTICA

22 e diciamo che il valore vero θ giace fra i due estremi θ 1 e θ 2 con una certa probabilità. Gli intervalli di confidenza al 95% e 99% sono quelli più usati Possiamo, alternativamente, immaginare di essere interessati a Conoscere la probabilità che la media della popolazione si trovi fra due intervalli. Costruiamo ora due funzioni delle osservazioni: Interval estimation LINFERENZA STATISTICA

23 Intervalli di confidenza nel caso della media campionaria Sappiamo che: La media campionaria si distribuisce secondo una normale (teorema del limite centrale); Per ogni distribuzione normale: il 95% delle osservazioni è compreso allinterno dellintervallo: dove Quindi, il 95% delle medie sarà compreso nellintervallo: LINFERENZA STATISTICA

24 Ovviamente, gli intervalli di confidenza possono essere costruiti per ogni parametro stimato, non solo per μ. Media (σ noto) Media (σ stimato) Differenza tra medie (σ noto) Differenza tra medie (σ stimato) Differenza tra correlazioni Interval estimation LINFERENZA STATISTICA

25 Se fosse conosciuto potremmo "fare inferenza" sulla popolazione utilizzando le proprietà della distribuzione normale. Tuttavia, anche quando è sconosciuto possiamo sostituirlo con la DS del campione s, a patto che si abbia a che fare con un campione "grande. Cosa possiamo fare per campioni piccoli? LINFERENZA STATISTICA

26 Problema quando il campione è piccolo e non si conosce Non possiamo utilizzare la distribuzione normale per formare IC Possiamo stimare il valore di dal campione Dobbiamo però usare la distribuzione t LINFERENZA STATISTICA

27 La t è una FDP che presenta una forma schiacciata rispetto alla Z E stata calcolata dal matematico inglese Gosset (1908), che la pubblicò sotto lo pseudonimo di Student La sua forma esatta dipende dai gradi di libertà: GdL = n – parametri da stimare dove n è la dimensione del campione I valori della t sono tabulati (oppure si può usare la rete…) LINFERENZA STATISTICA

28 . Per campioni molto grandi, il valore di s oscilla poco intorno al suo valore medio. Quindi per valori molto grandi la distribuzione t si avvicina molto a quella di Z ed arriva a coincidere per infiniti gradi di libertà. Per piccoli campioni le differenze sono notevoli, data loscillazione casuale di s intorno a NB: In generale, la distribuzione t è rilevante ogniqualvolta si abbia: DISTRIBUZIONE t

29 etc …………… Parte della distribuzione che cade allesterno dei valori tabulati Valore critico di t per df=14 (con valore critico al 5%) Gradi di libertà DISTRIBUZIONE t

30 Usiamo 2.15 al posto di NB: i valori tabulati della distribuzione t sono più grandi di quelli della distribuzione normale Quindi, per n = 15, lintervallo di confidenza del 95% sarà pari a: DISTRIBUZIONE t

31 Esercizio 3.6 Intervallo al 99% 1)Campione grande 2) Tavole normale standardizzata Affitto medio LINFERENZA STATISTICA

32 Trovare ora la dimensione del campione che comporta un Intervallo di confidenza di 2$ LINFERENZA STATISTICA

33 Esercizio 3.5 Gli onorari orari in un campione di 40 studi risultano in media pari a 25$ con s = 3,7. Si ottenga un intervallo di confidenza al 95% per tutti i professionisti. i) Suppongo che il campione sia "grande" posso trovare una Z ~N(0,1) tale che: LINFERENZA STATISTICA

34 ii) Controllo le tavole (già sappiamo che 1 = - 1,96 ; 2 = 1,96) iii) Se il campione è piccolo, cosa succede? LINFERENZA STATISTICA

35 Cosa sappiamo sulla distribuzione della popolazione? NormaleNon normale Conosciamo σ? Dimensione del campione Grande? Piccola? NoSi Dimensione del campione Stop Piccola Grande RIEPILOGANDO….

36 DISTRIBUZIONE CHI-QUADRATO URL utile: Se Z 1, Z 2,…., Z n sono N(0, 1), allora: Es: sotto H 0 si distribuisce secondo un Infatti: Useremo spesso per fare RSS R - RSSU UR

37 DISTRIBUZIONE CHI-QUADRATO (v = 1 o 2) 0 0 (v = 3 o 5) NB: la distribuzione approssima una normale man mano che v sale

38 DISTRIBUZIONE F di Fischer URL utile: Se u e v sono due variabili casuali distribuite indipendentemente secondo un, allora: Es: sotto H 0 si distribuisce secondo una F con u GL al numeratore e v GL al denominatore

39 DISTRIBUZIONE F di Fischer d.f. N = 8 d.f. D = 20

40 In questo caso si suggeriscono alcune ipotesi su θ e si accetta o si rifiuta questa ipotesi sulla base dei dati Teoria Ipotesi Deduzione La teoria è collegata allipotesi attraverso la deduzione logica. Deduciamo le ipotesi a partire dalla teoria Se la teoria è vera, lipotesi sarà vera LINFERENZA STATISTICA Hypothesis testing

41 Nei modelli statistici distinguiamo due tipi di ipotesi Quelle riguardanti la struttura del modello: Forma della distribuzione; Modelli di campionamento. Quelle riguardanti i valori assunti dai parametri del modello data la sua struttura. TEST DELLE IPOTESI

42 I test sulladeguatezza della struttura del modello sono detti Test diagnostici O Test di cattiva specificazione I test sui parametri sono detti Test di specificazione TEST DELLE IPOTESI

43 Definizioni Ipotesi nulla: (H 0 ) ipotesi (tentativo) intorno a un parametro della popolazione Ipotesi alternativa: (H 1 ) solitamente il complemento rispetto alluniverso Statistica : Una statistica è una quantità numerica calcolata in un campione. Livello di significatività : il livello di significatività è il criterio usato per rigettare lipotesi nulla TEST DELLE IPOTESI

44 Approccio di Neyman – Pearson (1933) Specificare un ipotesi nulla (H 0 ) e un ipotesi alternativa (H 1 ) Scegliere un livello di significatività α Calcolare una statistica Calcolare il p value della distribuzione appropriata sotto H 0 Confrontare il p value con α se p value α rifiutiamo lipotesi nulla; se p value > α non rifiutiamo lipotesi nulla. TEST DELLE IPOTESI

45 I test di significatività statistica si conducono per stabilire se una ipotesi nulla può essere accettata Se H 0 è rifiutata significatività statistica Se H 0 è non rifiutataassenza di significatività statistica La scelta di α determina la probabilità di errore di Iª specie NB: La significatività statistica di un coefficiente non implica la sua significatività pratica. TEST DELLE IPOTESI

46 Errore di Iª specie (α): Probabilità di rigettare lipotesi nulla quando è vera Errore di IIª specie (β) Probabilità di non rigettare lipotesi nulla quando è falsa TEST DELLE IPOTESI


Scaricare ppt "Dipartimento di Economia Università degli Studi di Cagliari ___________________________ CORSO DI ECONOMETRIA ___________________________ Prof. Paolo Mattana."

Presentazioni simili


Annunci Google