La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

III - 1 Prof. Giorgio Tassinari Corso di Laurea Magistrale in Economia e Professione Statistica per l’analisi dei dati Prima parte: il campionamento nella.

Presentazioni simili


Presentazione sul tema: "III - 1 Prof. Giorgio Tassinari Corso di Laurea Magistrale in Economia e Professione Statistica per l’analisi dei dati Prima parte: il campionamento nella."— Transcript della presentazione:

1 III - 1 Prof. Giorgio Tassinari Corso di Laurea Magistrale in Economia e Professione Statistica per l’analisi dei dati Prima parte: il campionamento nella revisione contabile Dispensa 3 Argomenti: numerosità campionaria, stima del totale, campionamento stratificato a.a. 2011-12

2 III - 2 Ad esempio, supponiamo che il valore totale dei debiti sia di un milione di euro e che il revisore voglia essere ragionevolmente sicuro che il valore registrato in contabilità non sia errato per più di € 20.000. In una situazione di questo tipo, il classico approccio statistico è di fissare un test di ipotesi per discriminare tra due ipotesi alternative. Il revisore dovrà decidere se accettare: H 0 : ipotesi nulla: il valore contabile è corretto, H 1 : ipotesi alternativa: il valore contabile è errato per un certo ammontare. In molte situazioni in cui l’obiettivo del revisore è di formulare un’opinione sul valore monetario della popolazione, il valore contabile registrato dalla popolazione dovrà essere noto. L’obiettivo del revisore è spesso quello di verificare se il valore contabile registrato non sia materialmente errato. Durante le fasi della verifica, si può incorrere in errori nell’accettare o rifiutare le ipotesi formulate a causa di errati campionamenti, salvo che vengano esaminati tutti i valori contabili, ipotesi spesso improponibile.

3 III - 3 Il rischio principale è quello di accettare come corretto un bilancio, che in realtà contiene degli errori materiali; questo tipo di errore si traduce nell’errore del secondo tipo o errore β C’è anche la possibilità di rigettare l’ipotesi nulla come falsa, quando questa è vera, in questo caso per il revisore si presenta il rischio di rigettare un bilancio corretto. Questo è definito come errore α. Conclusioni del revisore Valori contabili Corretto H 0 vera Errori per importi materiali H 0 falsa Il valore contabile è corretto (accetto H 0 ) decisione corretta prob=1- α errore II tipo prob= β Il valore contabile è materialmente errato (respingo H 0 ) errore I tipo prob= α decisione corretta prob=1- β

4 III - 4 Il rischio β è di particolare rilevanza perché quando la revisione viene completata, il revisore richiede, con un livello di garanzie molto alto, che i conti siano materialmente corretti prima che il rapporto conclusivo venga firmato. Se l’unica fonte di questa certezza proviene dai test statistici e, nessun altro test di revisione e stato compiuto, allora viene richiesto un rischio β molto basso e conseguentemente campioni molto grandi. Tuttavia nella pratica vengono normalmente messe in essere numerose procedure di revisione da utilizzare in aggiunta ai test statistici, ed ognuna di queste ha l’obiettivo di verificare che non ci siano errori materiali nei conti. In particolare ci sono due aspetti che possono influenzare la scelta del livello di β : 1.il controllo interno: quando c’è un buon sistema di controllo interno, il rischio che si verifichi un errore materiale è ridotto, pertanto è ragionevole fissare β ad un livello più alto. Il revisore deve esaminare il sistema di controllo interno e verificarne l’efficacia, perché esiste comunque la possibilità che il suo funzionamento sia influenzato dalle scelte del management, ed il revisore deve tenerne conto. 2.altre procedure di revisione: il revisore utilizzerà trend e rapporti e forse anche altre tipologie di test di revisione nella stessa area in cui sono stati impiegati i test statistici proposti.

5 III - 5 O E = il verificarsi di errori materiali, F IC = l’incapacità del controllo interno nel prevenire l’errore materiale, F 0 = l’insuccesso delle altre procedure di revisione nello scoprire l’errore materiale, F ss = l’insuccesso delle procedure di revisione statistiche nello scoprire l’errore materiale. Per trovare valori ragionevoli di β, si possono quindi considerare i seguenti fattori: Sulla base di questi aspetti la probabilità di incorrere nel rischio complessivo di revisione è data dalle seguente relazione: P(x)=P[O E ∩ (F IC ∩ F 0 ∩ F ss ] Pertanto β (definito come il rischio dell’insuccesso nello scoprire un errore materiale nei conti) può essere definito dalla seguente notazione: β = P[F ss | O E ∩ F IC ∩ F 0 ].

6 III - 6 O E la probabilità che si verifichi un errore materiale è, prudenzialmente, uguale ad 1. F IC la probabilità che il controllo interno non riesca a scoprire un errore materiale varia da 1 (quando non esistente alcun controllo interno) ad un valore molto piccolo, come 0.1 (per un controllo interno eccellente). Prudenzialmente, si assume che il controllo interno lavori al meglio solo al 90% della sua efficacia. F 0 la probabilità di insuccesso delle altre procedure di revisione nello scoprire un errore materiale varia da 1 (se non ci sono altre procedure) ad un valore piccolo, come 0.1 (per un’alta efficacia della procedura). Prudenzialmente, si assume una efficacia massima del 90% È quindi possibile giungere ad una scelta di β facendo alcune assunzioni e formulando valutazioni sui controlli interni e le altre procedure di revisione.

7 III - 7 Rilevanza assegnata al controllo interno. Se esiste un significativo rischio che il management possa influenzare i controlli, con conseguenze sull’area da esaminare, si registra 0. Altrimenti, si valuta il controllo interno con conseguenze sull’area da esaminare. x Rilevanza assegnata alle altre procedure di revisione. Valutare le altre procedure che potrebbero scoprire errori materiali dello stesso tipo di quelli rilevabili nei test statistici. Per ogni test addizionale con significativa efficacia, assegnare 2 punti e per ogni test addizionale con moderata efficacia, assegnare 1 punto. Si registra il totale, che non deve eccedere i 4 punti. y Negli ultimi due casi il revisore potrebbe decidere di omettere i test statistici x+y Se i controlli sono:Si assegna il punteggio: Eccellenti Buoni Equi Scarsi Inesistenti 4321043210 Se il totale è diUtilizzare come β 0 1 2 3 4 6-8 0.05 0.10 0.15 0.30 0.50 Per quanto riguarda la valutazione del controllo interno e per l’efficacia delle altre procedure di revisione si possono assumere arbitrariamente 5 livelli di valutazione. È pertanto possibile stimare valori per β sotto varie condizioni.

8 III - 8 La dimensione del campione Quanto deve essere grande il campione per fornire risultati attendibili? Determinare l’ampiezza più piccola che soddisfa i requisiti di precisione delle stime stabiliti a priori Risparmio di risorse  fissare il margine di errore che si è disposti a tollerare  la probabilità che la stima si collochi all’interno di tale margine d’errore

9 III - 9 In generale, indicati con:N: la numerosità della popolazione α : la probabilità di errore ε : l’errore che si è disposti a commettere n : la dimensione del campione C C : il piano di campionamento C N, α, ε, C  n Definiti la dimensione della popolazione, il piano di campionamento, l’errore e grado di fiducia che l’accompagna, sarà possibile determinare la dimensione del campione Può però accadere che, sulla base di vincoli di costo, siano dati, oltre alla dimensione della popolazione, il piano di campionamento e la numerosità del campione: in questo caso si potranno calcolare gli errori massimi corrispondenti a diversi gradi di fiducia C N, n, α, C  ε

10 III - 10 Se il parametro oggetto di inferenza è la media campionaria, per determinare la dimensione del campione, dovremo fare riferimento alla sua distribuzione: Sulla base di questa distribuzione è stato possibile definire gli intervalli di confidenza L’errore che si commette nella stima e che si vuole non superi una certa soglia è quindi dato da:

11 III - 11 risolvendo rispetto ad n avremo: Date le relazioni:

12 III - 12 Noto il valore di N e fissati ε e z α/2 2 per risolvere le equazioni è necessario precisare un valore per la varianza σ 2, di solito a sua volta non conosciuta Per determinare σ 2 si può utilizzare: »una sua stima ottenuta attraverso altre indagini svolte in passato o su popolazioni simili »una stima della varianza ottenuta nella fase di pre-test del questionario »una stima desunta sfruttando una relazione nota tra lo scarto quadratico medio σ e il campo di variazione CV (range), in base alla quale: da cui si deriva che:

13 III - 13 Ipotizziamo di avere una popolazione di 5000 fatture di acquisto i cui importi variano da un minimo di 10€ ad un massimo di 10000€. Determinare la dimensione del campione da analizzare per stimare, con un livello di confidenza del 95%, l’importo medio delle fatture con un errore massimo di 500€ N=5000 CV=10000-10=9990 σ 2 ≈9990 2 /4=24950025 z α/2 =1.96 ε =500 Se ε =250, a parità delle altre condizioni, avremo n=1174

14 III - 14 Se l’oggetto di indagine è la proporzione campionaria, in maniera del tutto analoga a quanto visto per la media campionaria, si dovrà tenere in considerazione la sua distribuzione ed in particolare la media e la varianza: se P è lo stimatore corretto per π, proporzione incognita nella popolazione, abbiamo: Possiamo quindi definire, distribuita approssimativamente come una Normale standardizzata. Fissati quindi l’errore ε ed il grado di fiducia 1- α avremo: da cui si ricava, nel caso del campionamento senza ripetizione:

15 III - 15 Come si può notare, l’ampiezza campionaria dipende dal parametro π da stimare. Anche in questo caso è possibile utilizzare i risultati di indagini preliminari o altre conoscenze a priori, tuttavia una soluzione consiste nell’ipotizzare la situazione di massima variabilità. È il caso in cui π = 0.5, per cui π (1- π )=0.25. L’equazione precedente diventa quindi:

16 III - 16 Nella tabella che segue sono riportate le numerosità campionarie in corrispondenza di diversi valori del margine d’errore (1,2,3,5,10), della proporzione p (0.5 e 0.15) e livelli di confidenza (95% e 99%). È da notare che se poniamo p=0.15, l’ampiezza del campione diventa n=517. Se ad esempio abbiamo una popolazione di 10000 documenti e vogliamo un margine di errore del 3%, con livello di confidenza del 95% e fissiamo p=0.5, dovremo estrarre un campione di 964 documenti.

17 III - 17 Ipotizziamo di avere una popolazione composta da 10000 fatture di acquisto. Se vogliamo avere una stima con un margine di errore del 2%, con livello di confidenza del 95%, ed ipotizziamo che nella popolazione la percentuale di errore sia del 5%, quale dovrà essere l’ampiezza del campione? Se, per motivi di costo, si dovessero ispezionare solamente 250 documenti, quale sarebbe la precisione che dobbiamo attenderci, sempre con livello di confidenza del 95%? L’errore potrà essere del 2.7%

18 III - 18 Determinazione della numerosità campionaria nel test di ipotesi Quando viene fissata una ipotesi, ed assieme ad essa i valori di probabilità associati agli errori di I e II specie, si deve determinare la numerosità minima del campione sufficiente a garantire i livelli di probabilità desiderati. Nel caso di test unilaterali, se indichiamo con K il valore discriminante che divide la regione di accettazione da quella di rifiuto, K può essere espresso in termini di z sia per l'ipotesi nulla che per quella alternativa, secondo le espressioni: la soluzione del sistema composto da queste due equazioni consente di determinare la numerosità campionaria n: Nel caso di test bilaterali avremo che la numerosità del campione sarà data da:

19 III - 19 Si consideri il caso in cui, in riferimento a una distribuzione normale, si voglia sottoporre a test l'ipotesi nulla H 0 : μ = μ 0 contro l'ipotesi alternativa H 1 : μ = μ 1 > μ 0 al livello di significatività α = 0,05 e in modo tale che la potenza del test non sia inferiore a 0,90. Si ricorda che la potenza di un test (1- β ) rappresenta la probabilità di non commettere un errore di II tipo. Si rifiuta l'ipotesi nulla quando per la media campionaria vale la disuguaglianza il vincolo sulla potenza impone il rispetto della relazione Essendo il valore di z che ha alla sua destra il 90% dei casi è -1.282, dovrà essere soddisfatta l’uguaglianza: Per μ 0 = 100, μ 1 = 110 e σ 2 =400 si avrà

20 III - 20 sia fissata l'ipotesi: con s =16 ed inoltre siano dati α =0.05 e β =0.20, determinare la numerosità n del campione. Avremo quindi: Se invece s =60 avremo:

21 III - 21 stima del totale Sia T X l’ammontare totale di un carattere X nella popolazione di riferimento. Esso può essere considerato alla stregua di un parametro da stimare, al pari della media (valore atteso), della varianza, della frequenza ecc. Qualunque sia il piano di campionamento prescelto, casuale semplice, probabilizzato o complesso, esistono formule generali che forniscono stimatori corretti del totale. In particolare, esistono due famiglie di stimatori corretti, la prima riferita a un campionamento con reintroduzione, la seconda a un campionamento senza reintroduzione (in blocco).

22 III - 22 Se il campionamento è effettuato con reintroduzione, la stessa unità statistica può venire inclusa più volte nel campione, e le osservazioni sono indipendenti e la loro probabilità di estrazione rimane costante. Se indichiamo con p i la probabilità di estrazione dell’i- esima unità del campione, definiamo lo stimatore corretto del totale di Hansen Hurwitz: Se invece il campionamento è effettuato senza reintroduzione, la stessa unità statistica può venire inclusa una volta sola nel campione, e le osservazioni sono allora correlate. Se indichiamo con π i la probabilità di inclusione dell’i-esima unità del campione, definiamo lo stimatore corretto del totale di Horvitz Thompson: La probabilità di estrazione è la probabilità che l'unità λ-esima della popolazione venga estratta come unità i-esima del campione e viene indicata con p λ(i). La probabilità di inclusione è la probabilità che singoli elementi, o gruppi di elementi, entrino a far parte del campione. Si definisce probabilità di inclusione di primo ordine di una unità λ, e si indica con π λ, la probabilità che il campione estratto contenga tale unità: π λ = P(λ  s). π λλ’ = P({λ,λ’}  s) è invece la probabilità di inclusione del secondo ordine, ovvero che il campione estratto contenga λ e λ’

23 III - 23 Quando il piano di campionamento è casuale semplice (con ripetizione o senza ripetizione), i due stimatori individuati vengono a coincidere e lo stimatore ottenuto, detto stimatore per espansione, è direttamente proporzionale alla media aritmetica campionaria. Se consideriamo il campionamento con reintroduzione la probabilità di estrazione è la stessa per tutte le unità della popolazione, ed è pari a 1/N. Ponendo dunque p i = 1/N nella formula dello stimatore di Hansen Hurwitz si ottiene: Se invece consideriamo un CCS in blocco, la probabilità di inclusione di una qualunque unità statistica è pari alla frazione di campionamento n/N, pertanto, ponendo π i = n/N, lo stimatore di Horvitz Thompson diviene:

24 III - 24 In generale, se indichiamo con X i l’ammontare della i-esima voce nella popolazione e con X il totale delle poste sottoposte a revisione, abbiamo in cui, N e il numero degli insiemi di voci della popolazione. Se si seleziona un campione casuale semplice e si stabilisce l’ammontare da sottoporre a revisione in relazione alla somma complessiva delle singole voci che costituiscono il campione, si ottiene uno stimatore corretto di X “espandendo” il campione da sottoporre a revisione per il reciproco della frazione di campionamento. in cui x i indica l’ammontare di revisione dell’i-esima voce campionata e,la media campionaria delle voci sottoposte a revisione (questo stimatore viene anche detto mean-per-unit)

25 III - 25 Varianza e scarto dello stimatore per espansione Sulla base dei risultati già noti per la media aritmetica campionaria, e tenendo presente che il totale della popolazione è pari a N volte la media della popolazione stessa, si possono ottenere la varianza e lo scarto dello stimatore per espansione, nonché le loro stime. Se il campionamento è con reintroduzione si avrà quindi: Ovviamente, il valore di σ non è quasi mai noto, per cui va stimato tramite s. Si ottiene così la stima della varianza dello stimatore per espansione: direttamente ottenibile dai valori campionari

26 III - 26 Se invece si fa riferimento al campionamento in blocco entra in gioco anche il fattore di riduzione della varianza, e si avrà pertanto dove f=n/N è il tasso di sondaggio, mentre la quantità 1 - f va sotto il nome di fattore correttivo per popolazione finita Anche in questo caso, essendo σ 2 generalmente ignota, si potrà fare ricorso allo stimatore corretto della varianza s 2, per cui avremo: Sulla base della varianza dello stimatore potremo costruire gli intervalli di confidenza per la stima:

27 III - 27 Supponiamo di avere osservato un campione di 20 crediti verso clienti della società ALFA, estratto da una popolazione di 1000 documenti ClienteCrediti €ClienteCrediti € Cliente 185.27Cliente 11263.62 Cliente 2303.42Cliente 12680.00 Cliente 3290.00Cliente 1341.79 Cliente 4491.15Cliente 14442.15 Cliente 5237.92Cliente 15590.00 Cliente 6234.15Cliente 16605.00 Cliente 7269.30Cliente 17244.32 Cliente 876.89Cliente 18650.00 Cliente 9258.61Cliente 19450.00 Cliente 10333.24Cliente 20499.42 Abbiamo quindi: N=1000 e n=20 Sulla base dei dati campionari si ottiene: Ponendo ad esempio 1- α =95% avremo: da cui possiamo calcolare gli estremi dell’intervallo di confidenza: Se il totale del conto crediti verso clienti iscritto a bilancio fosse, ad esempio, 382101.40 potremo ritenere accettabile tale valore.

28 III - 28 Anche nel caso della stima di un totale, l’ampiezza dell’intervallo di confidenza, e quindi la precisione della stima dipende da: C N, n, α, C  ε numerosità della popolazione numerosità campionaria livello di confidenza piano di campionamento Nell’esempio precedente si ottiene un intervallo di confidenza molto ampio, per avere una stima più precisa si potrà quindi agire sul livello di confidenza oppure sulla dimensione campionaria La domanda è quindi: quanti documenti debbo revisionare per avere una determinata precisione con un certo livello di confidenza? Ancora una volta si tratta di risolvere la disequazione precedente rispetto ad n C N, ε, α, C  n Avremo: Nell’esempio precedente, se avessimo ricercato una precisione, e quindi un errore, non superiore ai 10000€:

29 III - 29 x revisione y registratix-y Cliente 185.27 Cliente 2303.42 Cliente 3290.00 Cliente 4491.15 Cliente 5237.92 Cliente 6234.15 Cliente 7269.30 Cliente 876.89 Cliente 9258.61 Cliente 10333.24 Cliente 11263.62 Cliente 12680.00 Cliente 1341.79 Cliente 14442.15244.15198.00 Cliente 15590.00 Cliente 16605.0060.50544.50 Cliente 17244.32 Cliente 18650.00 Cliente 19450.00 Cliente 20499.42 MEDIA352.31315.19 Totale complessivo Y382101.40 Se durante la fase di revisione confrontiamo il valore revisionato e quello effettivamente registrato nelle scritture contabili e che conduce al dato riportato in bilancio, possiamo utilizzare questa informazione per ottenere uno stimatore che tenga conto della differenza tra queste due quantità. Più in generale è possibile fare ricorso a stimatori che tengano conto del dato riportato a bilancio come variabile ausiliaria. Questi stimatori sono:  stimatore per differenza  stimatore rapporto

30 III - 30 Campionamento stratificato Il bilancio da sottoporre alle procedure di revisione è generalmente un aggregato di conti individuali di dimensioni piuttosto diverse. Spesso l’insieme delle voci da sottoporre a verifica è vasto e complesso e le distruzioni dei dati contabili risultano fortemente asimmetriche. In queste situazioni può risultare utile il ricorso a procedure di stratificazione campionaria. La “Stratificazione” è il processo attraverso il quale una popolazione viene suddivisa in sotto popolazioni, ciascuna delle quali rappresenta un gruppo di unità di campionamento con caratteristiche analoghe (spesso valori monetari). Documento n°530

31 III - 31 L’efficacia del lavoro di revisione può essere migliorata se il revisore stratifica la popolazione suddividendola in sotto popolazioni aventi specifiche caratteristiche.  la popolazione oggetto di studio può essere ripartita in gruppi, in modo che ciascun gruppo sia relativamente omogeneo al suo interno e diverso dagli altri gruppi;  i campioni vengono estratti in modo indipendente da ciascuno strato; in tal modo si possono applicare i risultati teorici del campionamento da una popolazione di unità elementari di dimensione N al campionamento da ogni strato di dimensione N k ;  se ci sono dei raggruppamenti “naturali“, si desidera rappresentarli convenientemente nel campione;  la popolazione oggetto d’interesse è ripartita in sottopopolazioni e non è disponibile una lista unica delle unità elementari, ma esistono liste separate per ogni sotto-polazione. Alcune delle condizioni che rendono vantaggiosa la stratificazione sono:

32 III - 32  ridurre la variabilità delle voci all’interno di ciascuno strato e quindi di consentire che la dimensione del campione sia ridotta senza un incremento proporzionale del rischio di campionamento;  il miglioramento della precisione degli stimatori dei parametri della popolazione rispetto al campionamento dall’intera popolazione di unità elementari, sfruttando la possibilità di campionare separatamente all’interno di diverse sottopopolazioni, e quindi meglio rappresentando la popolazione stessa. Con la stratificazione si possono perseguire due obiettivi alternativi tra loro:

33 III - 33 La stima del parametro, o dei parametri, può quindi essere effettuata all’interno di ciascuno strato; si potrà poi ottenere una stima relativa all’intera popolazione “mettendo insieme” le varie stime ottenute, per esempio facendone la somma (stima del totale) o la media ponderata (stima di medie o frequenze). Data quindi una popolazione di N unità, questa viene suddivisa in H sotto-popolazioni (gli strati), dove l’ì-esima sotto-popolazione è composta da N i unità (con i=1,…,H). Queste sotto-popolazioni non debbono “sovrapporsi”, in modo tale che: N 1 +N 2 +…+N H =N Verrà quindi estratto un campione di dimensione n i (sempre con i=1,…,H) da ogni strato, per cui avremo: n 1 +n 2 +…+n H =n

34 III - 34 Data la popolazione stratificata: ed il corrispondente campione stratificato:

35 III - 35 Da ciascuno strato della popolazione viene estratto, solitamente, un CCS senza ripetizione. Il numero di campioni che compongono l’universo corrispondente è: La probabilità di inclusione di una generica unità u hj (h=strato, j=unità) è pari alla frazione di campionamento del corrispondente strato: π hj =n h /N h La probabilità di inclusione di secondo ordine differisce a seconda che le due unità appartengano o meno al medesimo strato. Se lo strato è comune si ha  hj, hl = n h (n h –1) / N h (N h.- 1) Se invece si considerano due individui di strati diversi, le due estrazioni vanno considerate indipendenti, dunque si moltiplicano tra loro le singole prob. di inclusione  hj, kl = n h n k / N h N k

36 III - 36 Stima della media della popolazione Se siamo interessati alla stima della media del carattere nella popolazione, Lo stimatore dove W h =N h /N rappresenta la quota di popolazione appartenente allo strato h, costituisce uno stimatore corretto della media della popolazione. Questo risultato consegue dal fatto che le medie campionarie di strato sono stimatori corretti delle medie di strato. è diverso dalla media campionariacoincidono solamente quando si ha una allocazione proporzionale delle unità del campione n h /n=N h /N Se indichiamo con f h =n h /N h la frazione di campionamento nello strato h, lo stimatore potrà essere scritto come: N -1 Σ h Σ j y hj /f h dove ciascuna osservazione del campione è ponderata mediante il reciproco della probabilità di inclusione (del primo ordine).

37 III - 37 La varianza dello stimatore sarà: Nel caso di allocazione proporzionale ( f = f h ) l'espressione della varianza si semplifica: L'espressione della varianza dello stimatore dipende dalle varianze di strato, che sono generalmente incognite. Possiamo, tuttavia, applicare i risultati del CCS, per cui: è uno stimatore corretto di σ 2. Sostituendo nell’espressione precedente si ottiene una stima della varianza dello stimatore che può essere utilizzata per costruire intervalli di confidenza per la media della popolazione.

38 III - 38 Stima del totale della popolazione La stima Ŷ del totale Y si ottiene sommando tra loro le stime dei totali di strato. Poiché all’interno dello strato si applica un CCS senza ripetizione, si può usare lo stimatore per espansione. Infatti dall’espressione dello stimatore di Horvitz-Thompson, e ricordando che la probabilità di inclusione del primo ordine è π hj =n h /N h avremo: Anche in questo caso potremo utilizzare la varianza campionaria corretta s h 2 per il calcolo degli intervalli di confidenza con varianza: che nel caso di allocazione proporziona diventa:

39 III - 39 Stima di una proporzione della popolazione Come già sottolineato, la stima di una proporzione può essere trattata in maniera del tutto analoga alla stima della media, per cui avremo che: con varianza: che nel caso di allocazione proporziona e assumendo che N h /(N h -1) = 1 diventa:

40 III - 40 tipi di stratificazione - allocazione del campione tra gli strati Una caratteristica fondamentale della stratificazione è che il campione può essere organizzato in maniera del tutto indipendente da uno strato all’altro. In linea di principio si può quindi pensare di utilizzare strategie diverse negli strati (pensati come popolazioni a se stanti), più efficienti in rapporto alla struttura della parte di popolazione contenuta negli stessi. Questo può consentire di avere strati di numerosità diversa, in particolare è possibile distinguere tre principali metodologie di allocazione delle unità negli strati: - allocazione di tipo proporzionale; - allocazione di tipo ottimale - allocazione non proporzionale

41 III - 41 L’allocazione proporzionale: riproduce la stessa composizione della popolazione in termini di dimensione degli strati ogni unità ha probabilità di inclusione nel campione uguale infatti f h =n h /N h =n/N per ogni strato la numerosità del campione negli strati si calcola considerando N h =nW h dove W h =N h /N il campione derivante dall’allocazione di tipo proporzionale è autoponderante. Questa caratteristica fa si che le procedure di stima dei parametri possano prescindere dalla procedura di selezione del campione utilizzata.

42 III - 42 L’allocazione ottimale: privilegia gli strati che presentano una maggior variabilità per il fenomeno di interesse sono necessarie per la determinazione dell’allocazione ottimale le informazioni relative alla variabilità delle osservazioni negli strati della popolazione la frazione di campionamento è in questo caso variabile e dipende direttamente dalla variabilità dove W h =N h /N e S h è la deviazione standard del fenomeno nello strato non essendo il campione autoponderante la stima dei parametri di interesse deve essere basata su uno schema di ponderazione i cui pesi possono essere ottenuti partendo dalle probabilità di inclusione.

43 III - 43 Strati NhNh WhWh ShSh WhShWhSh n*Wh*Shn*Wh*Sh nhnh fino a 500 €361400.40448.33.366713.56241 501-2000 €258600.28949.62.785556.31199 2001-5000 €204000.228310.12.314611.46165 5001-25000 €66000.073921816.1032202.331154 25000-100mila €3000.0034703.22.364721.58169 Oltre 100mila €600.00071506.91.012023.5972 893601.000027.9155828.832000 allocazione ottima di Neyman-Tschuprow W h =N h /N

44 III - 44 L’allocazione non proporzionale: Si usa quando si decide di sovrarappresentare alcuni strati (e quindi di sottorappresentarne altri). Tipicamente, gli strati sovrarappresentati sono quelli meno numerosi. Il campione, quindi, non riproduce la composizione della popolazione, e, nelle analisi andrà dunque effettuata una operazione di riponderazione.  In generale il campionamento stratificato con allocazione proporzionale è più efficiente del campionamento semplice e il campionamento stratificato con allocazione ottima è più efficiente di quello con allocazione proporzionale.  Se le varianze di strato sono uguali il campionamento stratificato con allocazione ottima è del tutto simile al campionamento stratificato con allocazione proporzionale  Se le medie di strato sono tutte uguali il campionamento stratificato con allocazione proporzionale è del tutto simile al campionamento semplice

45 III - 45 Definizione del criterio di stratificazione La scelta della variabile di stratificazione rappresenta una aspetto di particolare importanza, infatti quando l’obiettivo della stratificazione è quello dell'efficienza degli stimatori, gli strati dovranno essere formati in modo da risultare più omogenei possibile al loro interno rispetto alla variabile di studio. Nel caso specifico dell’auditing, in cui si ha spesso a che fare con variabili fortemente asimmetriche, occorre che il processo di stratificazione consenta di avere un campione che tenga conto di questa caratteristica e che dia il giusto peso sia alle voci di scarsa entità che a quelle più rilevanti

46 III - 46 1.ordinare la variabile di stratificazione X in ordine crescente 2.raggruppare x in un certo numero j di “strati di prova” di uguale ampiezza, ad esempio si considerino (max-min)/50 per creare una ripartizione iniziale con 50 gruppi 3.si calcoli la frequenza relativa per ogni gruppo f i (i=1,…,j) 4.si calcoli la radice quadrata della frequenza per ogni gruppo 5.si costruisca la cumulata delle radici delle frequenze 6.determinare la quantità Q dividendo la somma delle radici degli scarti per il numero L di strati da creare 7.prendere il limite superiore di ogni gruppo in cui ricadono i valori Q, 2Q,…, LQ Metodo della Cumulative Root Frequency

47 III - 47 Metodo geometrico 1.ordinare la variabile di stratificazione X in ordine crescente 2.prendere il valore minimo come primo termine, e il valore massimo come ultimo termine di una serie geometrica con L+1 termini, dove L rappresenta il numero di strati da definire 3.calcolare il common ratio: r = (max/min) 1/L 4.prendere come limite di ogni strato il valore di X corrispondente ai termini della progressione geometrica Minimum k 0 = a, ar, ar 2 ….. ar L = maximum k L

48 III - 48 Cumulative Root Frequency Σ(f i ) ½ =770.1, L=6 limite Q=770.1/6=128.4146.5 2Q=128.4*2=256.8 240.6 3Q=128.4*3=385.2401.0 4Q=128.4*4=513.6516.3 5Q=128.4*5=642.0638.9 6Q=128.4*6=770.4770.1 In questo esempio si è deciso di non sottoporre a revisione i documenti di importo inferiore ai 100$, mentre vengono analizzati tutti quelli di importo superiore ai 10000$. r = (max/min) 1/L r = (10000/100) 1/6 =2.154 Llimiti 0k 0 =100*2.154 0 100.0 1k 1 =100*2.154 1 215.4 2k 2 =100*2.154 2 464.2 3k 3 =100*2.154 3 1000.0 4k 4 =100*2.154 4 2154.4 5k 5 =100*2.154 5 4641.6 6k 6 =100*2.154 6 10000.0 Metodo geometrico

49 III - 49 numerosità campionaria complessiva nel campionamento stratificato Anche nel caso della stratificazione si può determinare la numerosità campionaria complessiva che garantisca errori prestabiliti, in modo analogo a quanto visto per il campionamento casuale semplice. La determinazione della numerosità campionaria complessiva viene effettuata nell'ipotesi di campionamento stratificato proporzionale. L'allocazione negli strati avviene successivamente, secondo il criterio scelto dal ricercatore. Nel caso della stima di una media, essendo: avremo:

50 III - 50 Per la stima di un totale, tenendo conto della varianza dello stimatore stratificato, si avrà:

51 III - 51 Gruppoclassi di importo NhNh shsh 10-900550222.6632 550*222.66 2 = 27268396 2901-20001870253.4102120085279 32001-4000650315.038764512115 4>40002301189.098325209496 3300537075286 Dovendo verificare l’importo medio di 3300 fatture di acquisto, sono state stratificate per classi di importo, determinare la numerosità campionaria complessiva, fissando per la stima un errore di 25€ con livello di confidenza al 95%

52 III - 52 Un campione casuale semplice, ipotizzando un valore di s complessivo pari a 1200€, con medesimo errore e livello di confidenza, avrebbe una numerosità: s =1200 ε =25 1- α =.95

53 III - 53 Gruppoclassi di importo NhNh (N h /N)*n=n i mymy N h *m y 10-900550128.0128385.52212036 2901-20001870435.2435523.44978833 32001-4000650151.31511086.33706115 4>400023053.5543541.76814605 33007682711588 Definita la numerosità campionaria complessiva, è possibile allocare le unità per strato, ad esempio con il metodo dell’allocazione proporzionale. Ipotizzando di avere osservato le medie m y all’interno di ogni strato, la media complessiva sarà:

54 III - 54 Se invece l’obiettivo fosse la stima del totale, per determinare la numerosità campionaria utilizzeremo: con: ε =75000 1- α =.95 Gruppoclassi di importo NhNh (N h /N)*n=n h 10-900550147.67148 2901-20001870502.07502 32001-4000650174.52174 4>400023061.7562 3300886 che potremo poi allocare proporzionalmente negli strati

55 III - 55 Gruppoclassi di importo NhNh nhnh mymy N h *m y shsh Whsh2Whsh2 10-900550148385.52212036222.66328263.15 2901-20001870502523.44978832.8253.410236389.48 32001-40006501741086.33706114.5315.038719549.13 4>4000230623541.76814604.81189.09898548.33 33008862711588162750.09 Ipotizzando di avere osservato i seguenti valori in ciascuno strato, potremo determinare l’intervallo di confidenza per la stima del totale:


Scaricare ppt "III - 1 Prof. Giorgio Tassinari Corso di Laurea Magistrale in Economia e Professione Statistica per l’analisi dei dati Prima parte: il campionamento nella."

Presentazioni simili


Annunci Google