La dimensione del campione

Slides:



Advertisements
Presentazioni simili
III - 1 Prof. Giorgio Tassinari Corso di Laurea Magistrale in Economia e Professione Statistica per l’analisi dei dati Prima parte: il campionamento nella.
Advertisements

Il DEFF Il DEFF (Design EFFect) è l’Effetto del Piano di
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
Introduzione all’uso degli indicatori di valutazione ed ai metodi di valutazione Dott.ssa Gabriella Giuliano Direttore Sanitario CREAS-IFC-CNR giugno.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
Rappresentazioni grafiche di una distribuzione di frequenze 1)Istogramma e poligono delle frequenze ● Dati raggruppati in classi ● Costituito da un insieme.
Indici di Posizione Giulio Vidotto Raffaele Cioffi.
Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.
Genetica delle Popolazioni a.a prof S. Presciuttini DIMENSIONE EFFETTIVA DELLA POPOLAZIONE Questo documento è pubblicato sotto licenza Creative.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Precorso di Statistica per le Lauree Magistrali
DALLA TABELLA DELLE OSSERVAZIONI ALLA TABELLA DELLE FREQUENZE
Distribuzioni limite La distribuzione normale
Dip. Economia Politica e Statistica
Precorso di Statistica per le Lauree Magistrali
Valutazione dell’incertezza associata alla mappa acustica dinamica di Milano Giovanni Zambon; Roberto Benocci; Maura Smiraglia; H. Eduardo Roman.
Variabili casuali a più dimensioni
Qualità dei dati Fabio Murena.
RICHIAMI DI INFERENZA:
GLI STRUMENTI AUSILIARI
La circonferenza nel piano cartesiano
Corso di Laurea Magistrale in Economia e Professione
STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
L’Ispettorato Generale per i Rapporti Finanziari con l’Unione Europea
Misure Meccaniche e Termiche - Università di Cassino
Metodi Quantitativi per Economia, Finanza e Management Lezione n°12 Regressione Logistica: Le ipotesi del modello, la stima del modello.
Confronto fra 2 popolazioni
La dimensione del campione
DISTRIBUZIONI TEORICHE DI PROBABILITA’
La circonferenza nel piano cartesiano
PIANIFICAZIONE DEI TRASPORTI Regressione lineare
Precorso di Statistica per le Lauree Magistrali
Equazioni differenziali
APPUNTI DI STATISTICA INFERENZIALE
Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.
Confronto tra diversi soggetti:
Precorso di Statistica per le Lauree Magistrali
La Statistica Istituto Comprensivo “ M. G. Cutuli”
Alcuni richiami e definizioni (1)
I 7 strumenti della qualità
ANALISI DELLE DISTRIBUZIONI STATISTICHE
Indici di variabilità La variabilità è la ragione dell’esistenza della psicologia. Le persone hanno dei comportamenti diversi che non possono essere predetti.
Elaborazione statistica di dati
Un esempio Una casa farmaceutica dichiara che un nuovo antidolorifico che sta per immettere sul mercato fa effetto mediamente in un tempo pari a 12,75.
L’indagine statistica
Statistica Scienza che studia i fenomeni collettivi.
Confronto tra diversi soggetti:
La distribuzione campionaria: principi generali
Intervalli di confidenza
PROCEDURA per la misura e la relativa stima
APPROFONDIMENTI CON ESEMPI DI CAMPIONAMENTO E SUCCESSIVA RICOSTRUZIONE PER INTERPOLAZIONE LINEARE Nelle pagine che seguono sono riportati i risultati del.
Corso di Laurea Magistrale in Economia e Professioni
Interpretare la grandezza di σ
ANALISI DI REGRESSIONE
Riduzione dei Dati.
Statistica inferenziale
Esercizio La popolazione di adulti presenta una media di ansia pari a 4. Ad un campione di 35 soggetti con disturbo ossessivo compulsivo è stato somministrato.
Dip. Economia Politica e Statistica
Precorso di Statistica per le Lauree Magistrali
RICHIAMI DI INFERENZA:
RICHIAMI DI INFERENZA:
Associazione tra due variabili
Corso di Analisi Statistica per le Imprese
Precorso di Statistica per le Lauree Magistrali
Test per campioni indipendenti
La dimensione del campione
Corso di Analisi Statistica per le Imprese
Dip. Economia Politica e Statistica
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
Transcript della presentazione:

La dimensione del campione Quanto deve essere grande il campione per fornire risultati attendibili? Risparmio di risorse Determinare l’ampiezza più piccola che soddisfa i requisiti di precisione delle stime stabiliti a priori fissare il margine di errore che si è disposti a tollerare la probabilità che la stima si collochi all’interno di tale margine d’errore

N, α, ε, C  n N, n, α , C  ε α : la probabilità di errore In generale, indicati con: N : la numerosità della popolazione α : la probabilità di errore ε : l’errore che si è disposti a commettere n : la dimensione del campione C : il piano di campionamento Definiti la dimensione della popolazione, il piano di campionamento, l’errore e grado di fiducia che l’accompagna, sarà possibile determinare la dimensione del campione N, α, ε, C  n Può però accadere che, sulla base di vincoli di costo, siano dati, oltre alla dimensione della popolazione, il piano di campionamento e la numerosità del campione: in questo caso si potranno calcolare gli errori massimi corrispondenti a diversi gradi di fiducia N, n, α , C  ε

Se il parametro oggetto di inferenza è la media campionaria, per determinare la dimensione del campione, dovremo fare riferimento alla sua distribuzione: Sulla base di questa distribuzione è stato possibile definire gli intervalli di confidenza L’errore che si commette nella stima e che si vuole non superi una certa soglia è quindi dato da:

Date le relazioni: risolvendo rispetto ad n avremo:

Per determinare σ2 si può utilizzare: Noto il valore di N e fissati ε e zα/22 per risolvere le equazioni è necessario precisare un valore per la varianza σ2, di solito a sua volta non conosciuta Per determinare σ2 si può utilizzare: una sua stima ottenuta attraverso altre indagini svolte in passato o su popolazioni simili una stima della varianza ottenuta nella fase di pre-test del questionario una stima desunta sfruttando una relazione nota tra lo scarto quadratico medio σ e il campo di variazione CV (range), in base alla quale: da cui si deriva che:

Ipotizziamo di avere una popolazione di 5000 fatture di acquisto i cui importi variano da un minimo di 10€ ad un massimo di 10000€. Determinare la dimensione del campione da analizzare per stimare, con un livello di confidenza del 95%, l’importo medio delle fatture con un errore massimo di 500€ N=5000 CV=10000-10=9990 σ2≈99902/4=24950025 zα/2=1.96 ε=500 Se ε=250, a parità delle altre condizioni, avremo n=1174

Se l’oggetto di indagine è la proporzione campionaria, in maniera del tutto analoga a quanto visto per la media campionaria, si dovrà tenere in considerazione la sua distribuzione ed in particolare la media e la varianza: se P è lo stimatore corretto per π, proporzione incognita nella popolazione, abbiamo: Possiamo quindi definire , distribuita approssimativamente come una Normale standardizzata. Fissati quindi l’errore ε ed il grado di fiducia 1-α avremo: da cui si ricava, nel caso del campionamento senza ripetizione:

Come si può notare, l’ampiezza campionaria dipende dal parametro π da stimare. Anche in questo caso è possibile utilizzare i risultati di indagini preliminari o altre conoscenze a priori, tuttavia una soluzione consiste nell’ipotizzare la situazione di massima variabilità. È il caso in cui π = 0.5, per cui π (1- π )=0.25. L’equazione precedente diventa quindi:

Nella tabella che segue sono riportate le numerosità campionarie in corrispondenza di diversi valori del margine d’errore (1,2,3,5,10), della proporzione p (0.5 e 0.15) e livelli di confidenza (95% e 99%). Se ad esempio abbiamo una popolazione di 10000 documenti e vogliamo un margine di errore del 3%, con livello di confidenza del 95% e fissiamo p=0.5, dovremo estrarre un campione di 964 documenti. È da notare che se poniamo p=0.15, l’ampiezza del campione diventa n=517.

Ipotizziamo di avere una popolazione composta da 10000 fatture di acquisto. Se vogliamo avere una stima con un margine di errore del 2%, con livello di confidenza del 95%, ed ipotizziamo che nella popolazione la percentuale di errore sia del 5%, quale dovrà essere l’ampiezza del campione? Se, per motivi di costo, si dovessero ispezionare solamente 250 documenti, quale sarebbe la precisione che dobbiamo attenderci, sempre con livello di confidenza del 95%? L’errore potrà essere del 2.7%

Campionamento stratificato La “Stratificazione” è il processo attraverso il quale una popolazione viene suddivisa in sotto popolazioni, ciascuna delle quali rappresenta un gruppo di unità di campionamento con caratteristiche analoghe.

Alcune delle condizioni che rendono vantaggiosa la stratificazione sono: la popolazione oggetto di studio può essere ripartita in gruppi, in modo che ciascun gruppo sia relativamente omogeneo al suo interno e diverso dagli altri gruppi; i campioni vengono estratti in modo indipendente da ciascuno strato; in tal modo si possono applicare i risultati teorici del campionamento da una popolazione di unità elementari di dimensione N al campionamento da ogni strato di dimensione Nk; se ci sono dei raggruppamenti “naturali“, si desidera rappresentarli convenientemente nel campione; la popolazione oggetto d’interesse è ripartita in sottopopolazioni e non è disponibile una lista unica delle unità elementari, ma esistono liste separate per ogni sotto-polazione.

Con la stratificazione si possono perseguire due obiettivi alternativi tra loro: ridurre la variabilità delle voci all’interno di ciascuno strato e quindi di consentire che la dimensione del campione sia ridotta senza un incremento proporzionale del rischio di campionamento; il miglioramento della precisione degli stimatori dei parametri della popolazione rispetto al campionamento dall’intera popolazione di unità elementari, sfruttando la possibilità di campionare separatamente all’interno di diverse sottopopolazioni, e quindi meglio rappresentando la popolazione stessa.

Data quindi una popolazione di N unità, questa viene suddivisa in H sotto-popolazioni (gli strati), dove l’ì-esima sotto-popolazione è composta da Ni unità (con i=1,…,H). Queste sotto-popolazioni non debbono “sovrapporsi”, in modo tale che: N1+N2+…+NH=N Verrà quindi estratto un campione di dimensione ni (sempre con i=1,…,H) da ogni strato, per cui avremo: n1+n2+…+nH=n La stima del parametro, o dei parametri, può quindi essere effettuata all’interno di ciascuno strato; si potrà poi ottenere una stima relativa all’intera popolazione “mettendo insieme” le varie stime ottenute, per esempio facendone la somma (stima del totale) o la media ponderata (stima di medie o frequenze).

Data la popolazione stratificata: ed il corrispondente campione stratificato:

Da ciascuno strato della popolazione viene estratto, solitamente, un CCS senza ripetizione. Il numero di campioni che compongono l’universo corrispondente è: La probabilità di inclusione di una generica unità uhj (h=strato, j=unità) è pari alla frazione di campionamento del corrispondente strato: πhj=nh/Nh La probabilità di inclusione di secondo ordine differisce a seconda che le due unità appartengano o meno al medesimo strato. Se lo strato è comune si ha phj, hl = nh (nh –1) / Nh (Nh.- 1) Se invece si considerano due individui di strati diversi, le due estrazioni vanno considerate indipendenti, dunque si moltiplicano tra loro le singole prob. di inclusione phj, kl = nh nk / Nh Nk

N-1Σh Σjyhj/fh Stima della media della popolazione Se siamo interessati alla stima della media del carattere nella popolazione, Lo stimatore dove Wh=Nh/N rappresenta la quota di popolazione appartenente allo strato h, costituisce uno stimatore corretto della media della popolazione. Questo risultato consegue dal fatto che le medie campionarie di strato sono stimatori corretti delle medie di strato. è diverso dalla media campionaria coincidono solamente quando si ha una allocazione proporzionale delle unità del campione nh/n=Nh/N Se indichiamo con fh=nh/Nh la frazione di campionamento nello strato h, lo stimatore potrà essere scritto come: N-1Σh Σjyhj/fh dove ciascuna osservazione del campione è ponderata mediante il reciproco della probabilità di inclusione (del primo ordine).

La varianza dello stimatore sarà: Nel caso di allocazione proporzionale (f = fh) l'espressione della varianza si semplifica: L'espressione della varianza dello stimatore dipende dalle varianze di strato, che sono generalmente incognite. Possiamo, tuttavia, applicare i risultati del CCS, per cui: è uno stimatore corretto di σ2. Sostituendo nell’espressione precedente si ottiene una stima della varianza dello stimatore che può essere utilizzata per costruire intervalli di confidenza per la media della popolazione.

Stima di una proporzione della popolazione Come già sottolineato, la stima di una proporzione può essere trattata in maniera del tutto analoga alla stima della media, per cui avremo che: con varianza: che nel caso di allocazione proporziona e assumendo che Nh/(Nh-1) = 1 diventa:

allocazione di tipo proporzionale; allocazione di tipo ottimale tipi di stratificazione - allocazione del campione tra gli strati Una caratteristica fondamentale della stratificazione è che il campione può essere organizzato in maniera del tutto indipendente da uno strato all’altro. In linea di principio si può quindi pensare di utilizzare strategie diverse negli strati (pensati come popolazioni a se stanti), più efficienti in rapporto alla struttura della parte di popolazione contenuta negli stessi. Questo può consentire di avere strati di numerosità diversa, in particolare è possibile distinguere tre principali metodologie di allocazione delle unità negli strati: allocazione di tipo proporzionale; allocazione di tipo ottimale - allocazione non proporzionale

Nh=nWh dove Wh=Nh/N L’allocazione proporzionale: riproduce la stessa composizione della popolazione in termini di dimensione degli strati ogni unità ha probabilità di inclusione nel campione uguale infatti fh=nh/Nh=n/N per ogni strato la numerosità del campione negli strati si calcola considerando Nh=nWh dove Wh=Nh/N il campione derivante dall’allocazione di tipo proporzionale è autoponderante. Questa caratteristica fa si che le procedure di stima dei parametri possano prescindere dalla procedura di selezione del campione utilizzata.

L’allocazione ottimale: privilegia gli strati che presentano una maggior variabilità per il fenomeno di interesse sono necessarie per la determinazione dell’allocazione ottimale le informazioni relative alla variabilità delle osservazioni negli strati della popolazione la frazione di campionamento è in questo caso variabile e dipende direttamente dalla variabilità dove Wh=Nh/N e Sh è la deviazione standard del fenomeno nello strato non essendo il campione autoponderante la stima dei parametri di interesse deve essere basata su uno schema di ponderazione i cui pesi possono essere ottenuti partendo dalle probabilità di inclusione.

Wh=Nh/N Nh Wh Sh WhSh n*Wh*Sh nh Strati Nh Wh Sh WhSh n*Wh*Sh nh fino a 500 € 36140 0.4044 8.3 3.36 6713.56 241 501-2000 € 25860 0.2894 9.6 2.78 5556.31 199 2001-5000 € 20400 0.2283 10.1 2.31 4611.46 165 5001-25000 € 6600 0.0739 218 16.10 32202.33 1154 25000-100mila € 300 0.0034 703.2 2.36 4721.58 169 Oltre 100mila € 60 0.0007 1506.9 1.01 2023.59 72 89360 1.0000 27.91 55828.83 2000 allocazione ottima di Neyman-Tschuprow Wh=Nh/N

L’allocazione non proporzionale: Si usa quando si decide di sovrarappresentare alcuni strati (e quindi di sottorappresentarne altri). Tipicamente, gli strati sovrarappresentati sono quelli meno numerosi. Il campione, quindi, non riproduce la composizione della popolazione, e, nelle analisi andrà dunque effettuata una operazione di riponderazione. In generale il campionamento stratificato con allocazione proporzionale è più efficiente del campionamento semplice e il campionamento stratificato con allocazione ottima è più efficiente di quello con allocazione proporzionale. Se le varianze di strato sono uguali il campionamento stratificato con allocazione ottima è del tutto simile al campionamento stratificato con allocazione proporzionale Se le medie di strato sono tutte uguali il campionamento stratificato con allocazione proporzionale è del tutto simile al campionamento semplice

numerosità campionaria complessiva nel campionamento stratificato Anche nel caso della stratificazione si può determinare la numerosità campionaria complessiva che garantisca errori prestabiliti, in modo analogo a quanto visto per il campionamento casuale semplice. La determinazione della numerosità campionaria complessiva viene effettuata nell'ipotesi di campionamento stratificato proporzionale. L'allocazione negli strati avviene successivamente, secondo il criterio scelto dal ricercatore. Nel caso della stima di una media, essendo: avremo:

Dovendo verificare l’importo medio di 3300 fatture di acquisto, sono state stratificate per classi di importo, determinare la numerosità campionaria complessiva, fissando per la stima un errore di 25€ con livello di confidenza al 95% Gruppo classi di importo Nh sh 1 0-900 550 222.6632 550*222.662= 27268396 2 901-2000 1870 253.4102 120085279 3 2001-4000 650 315.0387 64512115 4 >4000 230 1189.098 325209496 3300 537075286

Un campione casuale semplice, ipotizzando un valore di s complessivo pari a 1200€, con medesimo errore e livello di confidenza, avrebbe una numerosità: s=1200 ε=25 1-α=.95

Gruppo classi di importo Nh (Nh/N)*n=ni my Nh*my 1 0-900 550 128.0 128 385.52 212036 2 901-2000 1870 435.2 435 523.44 978833 3 2001-4000 650 151.3 151 1086.33 706115 4 >4000 230 53.5 54 3541.76 814605 3300 768 2711588 Definita la numerosità campionaria complessiva, è possibile allocare le unità per strato, ad esempio con il metodo dell’allocazione proporzionale. Ipotizzando di avere osservato le medie my all’interno di ogni strato, la media complessiva sarà:

Stima di una proporzione della popolazione Come già sottolineato, la stima di una proporzione può essere trattata in maniera del tutto analoga alla stima della media, per cui avremo che: con varianza