Capitolo 7 La qualità degli indicatori: stima della varianza

Slides:



Advertisements
Presentazioni simili
Metodo di Calcolo Numerico per Equazioni differenziali Ordinarie
Advertisements

Equazioni e calcoli chimici
8) GLI INTERVALLI DI CONFIDENZA
Le distribuzioni di probabilità continue
Laboratorio Processi Stocastici
Il Disegno Campionario
2. Introduzione alla probabilità
Intervalli di confidenza
Proprietà degli stimatori
Presupposti alla lezione
Parametri dinteresse IUT Nice – Côte dAzur Département STID 6 Janvier 2006 Sondages Corso di campionamento.
ODE PROBLEMA DI CAUCHY IN 1-D Sia f : I x RR, I  R.
Elettrostatica 3 23 maggio 2011
Fondamenti della Misurazione
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
ANALISI DELLA COVARIANZA
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
La piattaforma di BI si basa essenzialmente su un sistema di metadati centralizzato che garantisce la consistenza delle informazioni e consente la navigazione.
Inferenza statistica per un singolo campione
Valutazione delle ipotesi
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Capitolo 9 I numeri indici
CAMPIONAMENTO Estratto dal Cap. 5 di:
INTERVALLO DI CONFIDENZA PER UNA PROPORZIONE (1)
Capitolo 9 Il problema della gestione di insiemi disgiunti (Union-find) Algoritmi e Strutture Dati.
Processi Aleatori : Introduzione – Parte I
Appunti di inferenza per farmacisti
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
Cenni di teoria degli errori
Lezione 8 Numerosità del campione
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Lezione 5 Strumenti statistici: campioni e stimatori
Metodi numerici per equazioni differenziali ordinarie Laboratorio di Metodi Numerici a.a. 2008/2009.
La struttura organizzativa e informativa del controllo
Propagazione degli errori
Indagine multiscopo F A S I 1 a FASE: PROGETTAZIONEobiettivi, unità, costi, tempi 2 a FASE: RILEVAZIONEraccolta informazioni tramite questionario 3 a.
Il Campionamento nel 2013.
Quale valore dobbiamo assumere come misura di una grandezza?
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
TECNICHE DI CAMPIONAMENTO DI POPOLAZIONI RARE O IN MANCANZA DI LISTE
Le distribuzioni campionarie
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
TRATTAMENTO DEI DATI ANALITICI
CAMPIONAMENTO DI REVISIONE CONTABILE
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
Metodi matematici per economia e finanza. Prof. F. Gozzi
Grandezze e Misure
Intervalli di Confidenza Corso di Teoria dell’Inferenza Statistica 2 a.a. 2003/2004 Quarto Periodo Prof. Filippo DOMMA Corso di Laurea in Statistica –
Lezione B.10 Regressione e inferenza: il modello lineare
Corso di Analisi Statistica per le Imprese
IL CAMPIONE.
Analisi e Gestione del Rischio Lezione 7 Prodotti con pay-off non lineare.
Def : uno stimatore è una statistica T n le cui determinazioni servono a fornire delle stime del parametro ignoto  della v.c. X in cui sono state effettuate.
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
Intervalli di confidenza
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Università degli studi di Napoli Federico II - Facoltà di Economia Corso di laurea in Statistica per le Decisioni e l’Analisi dei Sistemi Complessi D.M.S.
Campionamento procedimento attraverso il quale si estrae, da un insieme di unità (popolazione) costituenti l’oggetto delle studio, un numero ridotto di.
Trattamento dei dati sperimentali
Transcript della presentazione:

Capitolo 7 La qualità degli indicatori: stima della varianza Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza

Contenuto della lezione: - Introduzione - Metodi di stima della varianza in indagini complesse - Linearizzazione di Taylor - Metodi di ricampionamento: - Jack-knife Repeated replication (JRR) - Balanced Repeated Replication (BRR) - Bootstrap

Introduzione - 1 Qualsiasi dato statistico, indipendentemente dal modo in cui è collezionato e dal fenomeno al quale è relativo, è soggetto ad errori di vario tipo. Il fatto stesso di effettuare una indagine campionaria introduce fattori di incertezza che devono essere sempre tenuti presente per una corretta interpretazione dei risultati ottenuti. Per un corretto uso di un qualunque insieme di dati derivanti da un’indagine è necessario perciò fornire misure il più possibile accurate degli errori e, di conseguenza, della qualità dei risultati stessi.

Introduzione - 2 In letteratura, principalmente quella anglosassone, gli errori si possono suddividere in: - errori nella fase di misura - errori nella fase di stima Nella letteratura italiana, viene più comunemente utilizzata la distinzione tra: - errori non campionari - errori campionari In questo capitolo ci limiteremo a studiare gli errori campionari.

A description of errors in survey data (a) Errors in measurement These arise from the fact that what is measured on the units included in the survey can depart from the actual (true) values for those units. Errors in measurement centre on substantive content of the survey: definition of the survey objectives and questions; ability and willingness of the respondent to provide the information sought; the quality of data collection, recording and processing. (b) Errors in estimation These are errors in the process of extrapolation from the particular units enumerated in the survey to the entire study population for which estimates or inferences are required. These centre on the process of sample design and implementation, and include errors of coverage, sample selection, sample implementation and non-response, as well as sampling errors and estimation bias.

Errors in measurement 1 Conceptual errors errors in basic concepts, definitions, and classifications errors in putting them into practice (questionnaire design, survey manuals, training and supervision of interviewers and other survey workers) 2 Response (or ‘data collection’) errors response bias simple response variance correlated response variance 3 Processing errors recording, data entry and coding errors editing errors errors in constructing target variables other programming errors

Mixed category 4 Item non-response errors because only approximate or partial information is sought in the survey respondents unable to provide the information sought (“don’t knows”) respondents not willing to provide the information (“refusals”) information suppressed (for confidentiality or whatever reason)

Errors in estimation 5 Coverage and related errors under-coverage over-coverage sample selection errors 6 Unit non-response unit not found or inaccessible not-at-home unable to respond refusal (potentially ‘convertible’) ‘hard core’ refusal 7 Sampling error sampling variance (scopo del presente capitolo) estimation bias

Introduzione - 3 Parte dell’informazione circa i vari tipi di errori è costituita dalla variabilità delle stime prodotte nelle elaborazioni ed è ottenibile tramite il computo degli standard error degli stimatori utilizzati insieme con quello dell’eventuale loro distorsione: queste due misure, considerate simultaneamente, costituiscono il cosiddetto mean-squared-error e, nonostante questo non rappresenti sempre la componente più importante dell’errore statistico, è certamente l’informazione di base e più facilmente reperibile riguardante l’errore totale.

Introduzione - 4 La stima della varianza totale degli stimatori risulta infatti di importanza cruciale per tutta l’inferenza statistica e permette la costruzione di intervalli di confidenza per i parametri della popolazione indagata: sebbene valutazioni più utili dell’errore campionario siano ottenibili tramite la scomposizione della varianza stessa nelle varie componenti relative ai differenti aspetti e fasi delle procedure di indagine, tale operazione risulta spesso molto complessa.

Introduzione - 5 L’informazione sull’errore risulta essenziale anche per la valutazione e la costruzione stessa del disegno e dell’indagine in generale. Per un qualunque problema di stima, infatti, l’entità dell’errore campionario dipende, tra gli altri fattori, dalla numerosità e dal disegno campionari adottati, i quali, a loro volta, incidono sui costi e sui tempi di indagine.

Metodi di stima della varianza in indagini complesse - 1 Una parte fondamentale della teoria delle indagini campionarie tratta la derivazione di stimatori per la stima della varianza di statistiche utilizzati in indagini complesse. L'importanza del problema è cruciale in quanto la varianza di uno stimatore, insieme alla sua distorsione, è misura dell'incertezza e dell'accuratezza delle stime ed è quindi necessaria per una corretta interpretazione dei risultati di una qualunque ricerca oltre che essere indicativa dell'efficienza del disegno campionario utilizzato.

Metodi di stima della varianza in indagini complesse - 2 Il proposito di questo capitolo è quello di presentare alcuni metodi di stima della varianza nell'ambito di indagini complesse per le quali il classico approccio per la stima degli standard error risulta poco efficace, poco preciso o alle volte addirittura inapplicabile.

Metodi di stima della varianza in indagini complesse - 3 Generalmente con disegni complessi si intendono tutti quei campionamenti che, combinando varie tecniche di selezione delle unità quali campionamento senza ripetizione o con probabilità di selezione non uniforme, stratificazione e campionamenti multistadio, introducono una struttura non IID dei dati.

Metodi di stima della varianza in indagini complesse - 4 Inoltre, sebbene la parola complesso sia solitamente riferita allo schema campionario -ovvero alle regole secondo le quali le varie unità entrano a far parte del campione- questo non è in realtà l'unico elemento di complessità al quale il termine va riferito.

Metodi di stima della varianza in indagini complesse - 5 Spesso infatti, i parametri stessi indagati nella popolazione e gli stimatori a ciò designati sono complicati nella forma e nella derivazione, come anche le variabili coinvolte nell'ambito di una stessa ricerca possono essere di varia natura e da riferirsi a diverse e numerose sub-popolazioni, delle quali si intende studiare la consistenza,le differenze e le relazioni reciproche.

Stima per misure lineari - 1 Nella teoria classica di stima della varianza applicata ai problemi di stima riguardanti statistiche lineari in disegni complessi, è possibile eludere parte della scomposizione della varianza degli stimatori nelle sue varie componenti e considerare semplicemente le osservazioni aggregate a livello di estrazione cluster o PSU. Semplicemente assumendo che: La selezione campionaria dei cluster sia indipendente tra gli strati, Due o più estrazioni siano effettuate in ciascuno strato e consistano in estrazioni casuali di individui, indipendenti e con ripetizione, La quantità di interesse è lineare.

Stima per misure lineari - 2 La varianza delle singole stime di primary selection è stimata allora da: e quella del loro totale da: dove rappresenta il fattore di correzione per popolazioni finite. Essendo poi il campionamento indipendente tra gli strati si ha che:

Linearizzazione di Taylor - 1 Il metodo qui presentato prevede l'utilizzo della serie di Taylor per ottenere un'approssimazione lineare di funzioni non-lineari e una successiva stima della varianza su tale approssimazione in serie. Questa idea di stima della varianza è ricordata con molti nomi in letteratura, incluso metodo di linearizzazione, delta method (Kalton,1983) e propagation of variance (Kish, 1965).

Linearizzazione di Taylor - 2 Supponendo che la quantità della quale si vuole stimare la varianza sia una funzione non-lineare stimata sul campione tramite una statistica z definita nella forma: Applicando l’espansione di Taylor alla nostra statistica di interesse, almeno fino al primo termine, si ha che, in un intorno di Z:

Linearizzazione di Taylor - 3 Un inconveniente del metodo di linearizzazione è infatti che la valutazione delle derivate parziali potrebbe essere molto difficoltosa per determinati parametri, quali coefficienti di correlazione parziale o multipla; con l'aggiuntiva assunzione che tali costanti ignote siano sostituibili con una loro stima ds sul campione è possibile però ottenere una stima della varianza tramite un'approssimazione di z non-lineare con una funzione lineare delle ys.

Linearizzazione di Taylor - 4 Con alcuni passaggi riportati in dispensa è possibile giungere alla formulazione seguente: Si è giunti così ad una espressione della varianza di una statistica Z non-lineare analoga a quella ottenuta per le statistiche lineari e applicabile a qualsiasi caso non appena è possibile specificare la quantità al livello delle PSU.

Linearizzazione di Taylor - 5 E' importante però sottolineare come tale procedimento necessiti di un'assunzione aggiuntiva sul campionamento rispetto a quelle necessarie per la stima della varianza di statistiche lineari: affinché i restanti termini dell'espansione di Taylor possano essere trascurati è necessario, infatti, che si lavori su campioni di dimensione sufficientemente ampia da consentire l'approssimazione lineare coinvolta in tale espressione della varianza.

Linearizzazione di Taylor - 6 Un problema che rimane inoltre irrisolto con l'utilizzo di questo metodo è quello di dover comunque approntare, per ogni differente statistica, una formula di derivazione dello standard error almeno al livello delle ; questo lo rende quindi non applicabile per gli stimatori dei quali non è possibile derivare un'espressione analitica della varianza, quali ad esempio statistiche non-funzionali come i quantili e la mediana.

Metodi di Ricampionamento - 1 Ai procedimenti appena presentati si affianca una seconda classe di metodi utilizzati in indagini complesse nella stima della varianza di stimatori, basati sul confronto tra misure ripetute di variabilità ottenute su repliche del campione, ovvero su aggregati di osservazioni ognuno dei quali riflette la struttura dell'intero campione padre, incluse eventuali stratificazioni e clusterizzazioni presenti nei vari stadi del campionamento: utilizzano procedure per la formazione di sub-campioni tali che una replica differisce dal campione originario solo nella dimensione ovvero per la numerosità di unità considerate.

Metodi di Ricampionamento - 2 Vari metodi di ricampionamento sono stati proposti negli anni più recenti, tra i quali il Jackknife,il Balanced Repeated Replication e il Bootstrap hanno ricevuto maggiore attenzione, e sono in generale tenuti in alta considerazione in quanto prescindono dalle teoriche e solitamente ignote distribuzioni degli stimatori coinvolti, ed anzi sono spesso utilizzati proprio nella stima di tali distribuzioni.

Metodi di Ricampionamento - 3 Tali metodi si basano tutti sull'utilizzazione ripetuta delle informazioni provenienti da un unico campione estratto, al fine di migliorare la precisione delle stime grazie all'aggiunta di variabilità artificiale ai dati presenti nell'unico campione osservato; differiscono tra loro unicamente per la procedura di estrazione dei sub-campioni replicati dall'unico campione padre originario.

Jackknife Repeated Replication (JRR) - 1 Il metodo Jackknife è stato introdotto inizialmente da Quenouille (1949), come procedimento non parametrico capace di ottenere una stima della distorsione di statistiche generiche, e successivamente Tukey (1958) suggerì come la stessa procedura potesse essere utilizzata nella stima della varianza[1]. [1] Il termine jackknife indica in inglese il coltello serramanico e, per estensione, il coltello degli esploratori che contiene varie lame e numerosi altri strumenti. Secondo Garhwaite et al. (1995), questo 'coltellino svizzero' è funzionale in situazioni di emergenza mentre risulta inutile quando si dispone degli strumenti specifici, più solidi e funzionali. Il termine è stato scelto opportunamente poiché il metodo ha un'applicazione appropriata quando non è possibile utilizzare i metodi classici.

Jackknife Repeated Replication (JRR) - 2 L'idea generale sottesa dal Jackknife repeated replication, per la quale tale procedura è conosciuta anche come tecnica leave-one-out, è quella di formare diversi sub-campioni di un generico campione estratto eliminando di volta in volta una singola osservazione o -nel caso di disegni complessi e che prevedono un'elevata numerosità- una piccola parte del campione originario, quale ad esempio una singola PSU di uno strato di un campione multi-stadio. Ciascun sub-campione misurerà così il contributo alla variabilità totale fornita da tale piccola parte eliminata dalla stima: la procedura JRR calcola infatti le stime dei parametri di interesse su ciascuna replica ed utilizza la variabilità tra tali valori per ottenere una stima della variabilità campionaria totale.

Jackknife Repeated Replication (JRR) - 3 E' evidente come il vantaggio del ricampionamento sia quello di evitare la difficile e spesso impossibile derivazione di una formula analitica esplicita della varianza delle statistiche considerate: pur fornendo solitamente risultati molto simili a quelli ottenibili con l'approccio tradizionale, gli stimatori Jackknife sostituiscono tale derivazione teorica con un maggiore sforzo computazionale e, sebbene non sia teoricamente applicabile a statiche funzioni di statistiche ordinali -quali ad esempio i quantili - studi empirici dimostrano come esso rimanga metodo efficace, in caso di campionamenti complessi in cui si considerano PSU formate da gruppi consistenti di osservazioni, anche per stimatori di questo tipo.

Balanced Repeated Replication (BRR) - 1 Il BRR è stato proposto per la prima volta da McCarthy nel 1969 come tecnica di ricampionamento da applicare a campioni stratificati che prevedessero esattamente ak=2 cluster per strato estratti con ripetizione e solo successivamente è stato adattato al caso di un generico numero ak di cluster presenti in ciascuno strato.

Balanced Repeated Replication (BRR) - 2 Poiché infatti il metodo prevede l'utilizzazione di esattamente metà campione nella formazione di ciascuna replica mediante l'esclusione di uno dei due gruppi presenti in ciascun strato, se alcuni strati sono formati da più di due cluster è necessario o raggruppare quest'ultimi in due super-PSU o dividere gli strati stessi in più piccoli strati artificiali così da riportare la situazione a quella originariamente proposta.