La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

La dimensione del campione

Presentazioni simili


Presentazione sul tema: "La dimensione del campione"— Transcript della presentazione:

1 La dimensione del campione
Quanto deve essere grande il campione per fornire risultati attendibili? Risparmio di risorse Determinare l’ampiezza più piccola che soddisfa i requisiti di precisione delle stime stabiliti a priori fissare il margine di errore che si è disposti a tollerare la probabilità che la stima si collochi all’interno di tale margine d’errore

2 N, α, ε, C  n N, n, α , C  ε α : la probabilità di errore
In generale, indicati con: N : la numerosità della popolazione α : la probabilità di errore ε : l’errore che si è disposti a commettere n : la dimensione del campione C : il piano di campionamento Definiti la dimensione della popolazione, il piano di campionamento, l’errore e grado di fiducia che l’accompagna, sarà possibile determinare la dimensione del campione N, α, ε, C  n Può però accadere che, sulla base di vincoli di costo, siano dati, oltre alla dimensione della popolazione, il piano di campionamento e la numerosità del campione: in questo caso si potranno calcolare gli errori massimi corrispondenti a diversi gradi di fiducia N, n, α , C  ε

3 Se il parametro oggetto di inferenza è la media campionaria, per determinare la dimensione del campione, dovremo fare riferimento alla sua distribuzione: Sulla base di questa distribuzione è stato possibile definire gli intervalli di confidenza L’errore che si commette nella stima e che si vuole non superi una certa soglia è quindi dato da:

4 Date le relazioni: risolvendo rispetto ad n avremo:

5 Per determinare σ2 si può utilizzare:
Noto il valore di N e fissati ε e zα/22 per risolvere le equazioni è necessario precisare un valore per la varianza σ2, di solito a sua volta non conosciuta Per determinare σ2 si può utilizzare: una sua stima ottenuta attraverso altre indagini svolte in passato o su popolazioni simili una stima della varianza ottenuta nella fase di pre-test del questionario una stima desunta sfruttando una relazione nota tra lo scarto quadratico medio σ e il campo di variazione CV (range), in base alla quale: da cui si deriva che:

6 Ipotizziamo di avere una popolazione di 5000 fatture di acquisto i cui importi variano da un minimo di 10€ ad un massimo di 10000€. Determinare la dimensione del campione da analizzare per stimare, con un livello di confidenza del 95%, l’importo medio delle fatture con un errore massimo di 500€ N=5000 CV= =9990 σ2≈99902/4= zα/2=1.96 ε=500 Se ε=250, a parità delle altre condizioni, avremo n=1174

7 Se l’oggetto di indagine è la proporzione campionaria, in maniera del tutto analoga a quanto visto per la media campionaria, si dovrà tenere in considerazione la sua distribuzione ed in particolare la media e la varianza: se P è lo stimatore corretto per π, proporzione incognita nella popolazione, abbiamo: Possiamo quindi definire , distribuita approssimativamente come una Normale standardizzata. Fissati quindi l’errore ε ed il grado di fiducia 1-α avremo: da cui si ricava, nel caso del campionamento senza ripetizione:

8 Come si può notare, l’ampiezza campionaria dipende dal parametro π da stimare.
Anche in questo caso è possibile utilizzare i risultati di indagini preliminari o altre conoscenze a priori, tuttavia una soluzione consiste nell’ipotizzare la situazione di massima variabilità. È il caso in cui π = 0.5, per cui π (1- π )=0.25. L’equazione precedente diventa quindi:

9 Nella tabella che segue sono riportate le numerosità campionarie in corrispondenza di diversi valori del margine d’errore (1,2,3,5,10), della proporzione p (0.5 e 0.15) e livelli di confidenza (95% e 99%). Se ad esempio abbiamo una popolazione di documenti e vogliamo un margine di errore del 3%, con livello di confidenza del 95% e fissiamo p=0.5, dovremo estrarre un campione di 964 documenti. È da notare che se poniamo p=0.15, l’ampiezza del campione diventa n=517.

10 Ipotizziamo di avere una popolazione composta da 10000 fatture di acquisto.
Se vogliamo avere una stima con un margine di errore del 2%, con livello di confidenza del 95%, ed ipotizziamo che nella popolazione la percentuale di errore sia del 5%, quale dovrà essere l’ampiezza del campione? Se, per motivi di costo, si dovessero ispezionare solamente 250 documenti, quale sarebbe la precisione che dobbiamo attenderci, sempre con livello di confidenza del 95%? L’errore potrà essere del 2.7%

11 Campionamento stratificato
La “Stratificazione” è il processo attraverso il quale una popolazione viene suddivisa in sotto popolazioni, ciascuna delle quali rappresenta un gruppo di unità di campionamento con caratteristiche analoghe.

12 Alcune delle condizioni che rendono vantaggiosa la stratificazione sono:
la popolazione oggetto di studio può essere ripartita in gruppi, in modo che ciascun gruppo sia relativamente omogeneo al suo interno e diverso dagli altri gruppi; i campioni vengono estratti in modo indipendente da ciascuno strato; in tal modo si possono applicare i risultati teorici del campionamento da una popolazione di unità elementari di dimensione N al campionamento da ogni strato di dimensione Nk; se ci sono dei raggruppamenti “naturali“, si desidera rappresentarli convenientemente nel campione; la popolazione oggetto d’interesse è ripartita in sottopopolazioni e non è disponibile una lista unica delle unità elementari, ma esistono liste separate per ogni sotto-polazione.

13 Con la stratificazione si possono perseguire due obiettivi alternativi tra loro:
ridurre la variabilità delle voci all’interno di ciascuno strato e quindi di consentire che la dimensione del campione sia ridotta senza un incremento proporzionale del rischio di campionamento; il miglioramento della precisione degli stimatori dei parametri della popolazione rispetto al campionamento dall’intera popolazione di unità elementari, sfruttando la possibilità di campionare separatamente all’interno di diverse sottopopolazioni, e quindi meglio rappresentando la popolazione stessa.

14 Data quindi una popolazione di N unità, questa viene suddivisa in H sotto-popolazioni (gli strati), dove l’ì-esima sotto-popolazione è composta da Ni unità (con i=1,…,H). Queste sotto-popolazioni non debbono “sovrapporsi”, in modo tale che: N1+N2+…+NH=N Verrà quindi estratto un campione di dimensione ni (sempre con i=1,…,H) da ogni strato, per cui avremo: n1+n2+…+nH=n La stima del parametro, o dei parametri, può quindi essere effettuata all’interno di ciascuno strato; si potrà poi ottenere una stima relativa all’intera popolazione “mettendo insieme” le varie stime ottenute, per esempio facendone la somma (stima del totale) o la media ponderata (stima di medie o frequenze).

15 Data la popolazione stratificata:
ed il corrispondente campione stratificato:

16 Da ciascuno strato della popolazione viene estratto, solitamente, un CCS senza ripetizione. Il numero di campioni che compongono l’universo corrispondente è: La probabilità di inclusione di una generica unità uhj (h=strato, j=unità) è pari alla frazione di campionamento del corrispondente strato: πhj=nh/Nh La probabilità di inclusione di secondo ordine differisce a seconda che le due unità appartengano o meno al medesimo strato. Se lo strato è comune si ha phj, hl = nh (nh –1) / Nh (Nh.- 1) Se invece si considerano due individui di strati diversi, le due estrazioni vanno considerate indipendenti, dunque si moltiplicano tra loro le singole prob. di inclusione phj, kl = nh nk / Nh Nk

17 N-1Σh Σjyhj/fh Stima della media della popolazione
Se siamo interessati alla stima della media del carattere nella popolazione, Lo stimatore dove Wh=Nh/N rappresenta la quota di popolazione appartenente allo strato h, costituisce uno stimatore corretto della media della popolazione. Questo risultato consegue dal fatto che le medie campionarie di strato sono stimatori corretti delle medie di strato. è diverso dalla media campionaria coincidono solamente quando si ha una allocazione proporzionale delle unità del campione nh/n=Nh/N Se indichiamo con fh=nh/Nh la frazione di campionamento nello strato h, lo stimatore potrà essere scritto come: N-1Σh Σjyhj/fh dove ciascuna osservazione del campione è ponderata mediante il reciproco della probabilità di inclusione (del primo ordine).

18 La varianza dello stimatore sarà:
Nel caso di allocazione proporzionale (f = fh) l'espressione della varianza si semplifica: L'espressione della varianza dello stimatore dipende dalle varianze di strato, che sono generalmente incognite. Possiamo, tuttavia, applicare i risultati del CCS, per cui: è uno stimatore corretto di σ2. Sostituendo nell’espressione precedente si ottiene una stima della varianza dello stimatore che può essere utilizzata per costruire intervalli di confidenza per la media della popolazione.

19 Stima di una proporzione della popolazione
Come già sottolineato, la stima di una proporzione può essere trattata in maniera del tutto analoga alla stima della media, per cui avremo che: con varianza: che nel caso di allocazione proporziona e assumendo che Nh/(Nh-1) = 1 diventa:

20 allocazione di tipo proporzionale; allocazione di tipo ottimale
tipi di stratificazione - allocazione del campione tra gli strati Una caratteristica fondamentale della stratificazione è che il campione può essere organizzato in maniera del tutto indipendente da uno strato all’altro. In linea di principio si può quindi pensare di utilizzare strategie diverse negli strati (pensati come popolazioni a se stanti), più efficienti in rapporto alla struttura della parte di popolazione contenuta negli stessi. Questo può consentire di avere strati di numerosità diversa, in particolare è possibile distinguere tre principali metodologie di allocazione delle unità negli strati: allocazione di tipo proporzionale; allocazione di tipo ottimale - allocazione non proporzionale

21 Nh=nWh dove Wh=Nh/N L’allocazione proporzionale:
riproduce la stessa composizione della popolazione in termini di dimensione degli strati ogni unità ha probabilità di inclusione nel campione uguale infatti fh=nh/Nh=n/N per ogni strato la numerosità del campione negli strati si calcola considerando Nh=nWh dove Wh=Nh/N il campione derivante dall’allocazione di tipo proporzionale è autoponderante. Questa caratteristica fa si che le procedure di stima dei parametri possano prescindere dalla procedura di selezione del campione utilizzata.

22 L’allocazione ottimale:
privilegia gli strati che presentano una maggior variabilità per il fenomeno di interesse sono necessarie per la determinazione dell’allocazione ottimale le informazioni relative alla variabilità delle osservazioni negli strati della popolazione la frazione di campionamento è in questo caso variabile e dipende direttamente dalla variabilità dove Wh=Nh/N e Sh è la deviazione standard del fenomeno nello strato non essendo il campione autoponderante la stima dei parametri di interesse deve essere basata su uno schema di ponderazione i cui pesi possono essere ottenuti partendo dalle probabilità di inclusione.

23 Wh=Nh/N Nh Wh Sh WhSh n*Wh*Sh nh
Strati Nh Wh Sh WhSh n*Wh*Sh nh fino a 500 € 36140 0.4044 8.3 3.36 241 25860 0.2894 9.6 2.78 199 20400 0.2283 10.1 2.31 165 6600 0.0739 218 16.10 1154 mila € 300 0.0034 703.2 2.36 169 Oltre 100mila € 60 0.0007 1506.9 1.01 72 89360 1.0000 27.91 2000 allocazione ottima di Neyman-Tschuprow Wh=Nh/N

24 L’allocazione non proporzionale:
Si usa quando si decide di sovrarappresentare alcuni strati (e quindi di sottorappresentarne altri). Tipicamente, gli strati sovrarappresentati sono quelli meno numerosi. Il campione, quindi, non riproduce la composizione della popolazione, e, nelle analisi andrà dunque effettuata una operazione di riponderazione. In generale il campionamento stratificato con allocazione proporzionale è più efficiente del campionamento semplice e il campionamento stratificato con allocazione ottima è più efficiente di quello con allocazione proporzionale. Se le varianze di strato sono uguali il campionamento stratificato con allocazione ottima è del tutto simile al campionamento stratificato con allocazione proporzionale Se le medie di strato sono tutte uguali il campionamento stratificato con allocazione proporzionale è del tutto simile al campionamento semplice

25 numerosità campionaria complessiva nel campionamento stratificato
Anche nel caso della stratificazione si può determinare la numerosità campionaria complessiva che garantisca errori prestabiliti, in modo analogo a quanto visto per il campionamento casuale semplice. La determinazione della numerosità campionaria complessiva viene effettuata nell'ipotesi di campionamento stratificato proporzionale. L'allocazione negli strati avviene successivamente, secondo il criterio scelto dal ricercatore. Nel caso della stima di una media, essendo: avremo:

26 Dovendo verificare l’importo medio di 3300 fatture di acquisto, sono state stratificate per classi di importo, determinare la numerosità campionaria complessiva, fissando per la stima un errore di 25€ con livello di confidenza al 95% Gruppo classi di importo Nh sh 1 0-900 550 550* = 2 1870 3 650 4 >4000 230 3300

27 Un campione casuale semplice, ipotizzando un valore di s complessivo pari a 1200€, con medesimo errore e livello di confidenza, avrebbe una numerosità: s=1200 ε=25 1-α=.95

28 Gruppo classi di importo Nh (Nh/N)*n=ni my Nh*my 1 0-900 550 128.0 128 385.52 212036 2 1870 435.2 435 523.44 978833 3 650 151.3 151 706115 4 >4000 230 53.5 54 814605 3300 768 Definita la numerosità campionaria complessiva, è possibile allocare le unità per strato, ad esempio con il metodo dell’allocazione proporzionale. Ipotizzando di avere osservato le medie my all’interno di ogni strato, la media complessiva sarà:

29 Stima di una proporzione della popolazione
Come già sottolineato, la stima di una proporzione può essere trattata in maniera del tutto analoga alla stima della media, per cui avremo che: con varianza


Scaricare ppt "La dimensione del campione"

Presentazioni simili


Annunci Google