Corso di Laurea Magistrale in Economia e Professione

Slides:

Advertisements

Presentazioni simili

V - 1 Prof. Giorgio Tassinari Corso di Laurea Magistrale in Economia e Professioni Statistica per l’analisi dei dati Prima parte: il campionamento nella.

Advertisements

III - 1 Prof. Giorgio Tassinari Corso di Laurea Magistrale in Economia e Professione Statistica per l’analisi dei dati Prima parte: il campionamento nella.

Disequazioni in una variabile. LaRegola dei segni La disequazione A(x) · B(x) > 0 è soddisfatta dai valori di per i quali i due fattori A(x) e B(x) hanno.

Rappresentazioni grafiche di una distribuzione di frequenze 1)Istogramma e poligono delle frequenze ● Dati raggruppati in classi ● Costituito da un insieme.

Indici di Posizione Giulio Vidotto Raffaele Cioffi.

Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.

Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a

Precorso di Statistica per le Lauree Magistrali

Introduzione Oggetto della statistica: studio dei fenomeni collettivi

Precorso di Statistica

DALLA TABELLA DELLE OSSERVAZIONI ALLA TABELLA DELLE FREQUENZE

Distribuzioni limite La distribuzione normale

Precorso di Statistica per le Lauree Magistrali

Variabili casuali a più dimensioni

RICHIAMI DI INFERENZA:

Introduzione Oggetto della statistica: studio dei fenomeni collettivi

Definizione di logaritmo

GLI STRUMENTI AUSILIARI

La circonferenza nel piano cartesiano

STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.

Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a

L’Ispettorato Generale per i Rapporti Finanziari con l’Unione Europea

Misure Meccaniche e Termiche - Università di Cassino

Metodi Quantitativi per Economia, Finanza e Management Lezione n°12 Regressione Logistica: Le ipotesi del modello, la stima del modello.

La dimensione del campione

IL SISTEMA DI VALUTAZIONE DELLA PERFORMANCE della PROVINCIA DI PAVIA

DISTRIBUZIONI TEORICHE DI PROBABILITA’

La circonferenza nel piano cartesiano

PIANIFICAZIONE DEI TRASPORTI Regressione lineare

x : variabile indipendente

Precorso di Statistica per le Lauree Magistrali

Equazioni differenziali

APPUNTI DI STATISTICA INFERENZIALE

Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.

Precorso di Statistica

Precorso di Statistica per le Lauree Magistrali

La Statistica Istituto Comprensivo “ M. G. Cutuli”

Alcuni richiami e definizioni (1)

La dimensione del campione

I 7 strumenti della qualità

ANALISI DELLE DISTRIBUZIONI STATISTICHE

Indici di variabilità La variabilità è la ragione dell’esistenza della psicologia. Le persone hanno dei comportamenti diversi che non possono essere predetti.

Elaborazione statistica di dati

Un esempio Una casa farmaceutica dichiara che un nuovo antidolorifico che sta per immettere sul mercato fa effetto mediamente in un tempo pari a 12,75.

L’indagine statistica

I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.

La distribuzione campionaria: principi generali

Intervalli di confidenza

PROCEDURA per la misura e la relativa stima

Corso di Laurea Magistrale in Economia e Professioni

Interpretare la grandezza di σ

Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.

ANALISI DI REGRESSIONE

Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.

Statistica inferenziale

Esercizio La popolazione di adulti presenta una media di ansia pari a 4. Ad un campione di 35 soggetti con disturbo ossessivo compulsivo è stato somministrato.

Precorso di Statistica per le Lauree Magistrali

Introduzione Oggetto della statistica: studio dei fenomeni collettivi

Precorso di Statistica

RICHIAMI DI INFERENZA:

RICHIAMI DI INFERENZA:

Associazione tra due variabili

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Corso di Analisi Statistica per le Imprese

Precorso di Statistica per le Lauree Magistrali

Test per campioni indipendenti

La dimensione del campione

Numeri indice di prezzi e quantità

Corso di Analisi Statistica per le Imprese

L’Analisi della Varianza ANOVA (ANalysis Of VAriance)

Transcript della presentazione:

Corso di Laurea Magistrale in Economia e Professione Statistica per l’analisi dei dati Prima parte: il campionamento nella revisione contabile Dispensa 3 Argomenti: numerosità campionaria, stima del totale, campionamento stratificato Prof. Giorgio Tassinari a.a. 2013-14

In molte situazioni in cui l’obiettivo del revisore è di formulare un’opinione sul valore monetario della popolazione, il valore contabile registrato dalla popolazione dovrà essere noto. L’obiettivo del revisore è spesso quello di verificare se il valore contabile registrato non sia materialmente errato. Ad esempio, supponiamo che il valore totale dei debiti sia di un milione di euro e che il revisore voglia essere ragionevolmente sicuro che il valore registrato in contabilità non sia errato per più di € 20.000. In una situazione di questo tipo, il classico approccio statistico è di fissare un test di ipotesi per discriminare tra due ipotesi alternative. Il revisore dovrà decidere se accettare: H0: ipotesi nulla: il valore contabile è corretto, H1: ipotesi alternativa: il valore contabile è errato per un certo ammontare. Durante le fasi della verifica, si può incorrere in errori nell’accettare o rifiutare le ipotesi formulate a causa di errati campionamenti, salvo che vengano esaminati tutti i valori contabili, ipotesi spesso improponibile.

Il rischio principale è quello di accettare come corretto un bilancio, che in realtà contiene degli errori materiali; questo tipo di errore si traduce nell’errore del secondo tipo o errore β C’è anche la possibilità di rigettare l’ipotesi nulla come falsa, quando questa è vera, in questo caso per il revisore si presenta il rischio di rigettare un bilancio corretto. Questo è definito come errore α. Conclusioni del revisore Valori contabili Corretto H0 vera Errori per importi materiali H0 falsa Il valore contabile è corretto (accetto H0) decisione corretta prob=1-α errore II tipo prob=β Il valore contabile è materialmente errato (respingo H0) errore I tipo prob=α decisione corretta prob=1-β

Il rischio β è di particolare rilevanza perché quando la revisione viene completata, il revisore richiede, con un livello di garanzie molto alto, che i conti siano materialmente corretti prima che il rapporto conclusivo venga firmato. Se l’unica fonte di questa certezza proviene dai test statistici e, nessun altro test di revisione e stato compiuto, allora viene richiesto un rischio β molto basso e conseguentemente campioni molto grandi. Tuttavia nella pratica vengono normalmente messe in essere numerose procedure di revisione da utilizzare in aggiunta ai test statistici, ed ognuna di queste ha l’obiettivo di verificare che non ci siano errori materiali nei conti. In particolare ci sono due aspetti che possono influenzare la scelta del livello di β: il controllo interno: quando c’è un buon sistema di controllo interno, il rischio che si verifichi un errore materiale è ridotto, pertanto è ragionevole fissare β ad un livello più alto. Il revisore deve esaminare il sistema di controllo interno e verificarne l’efficacia, perché esiste comunque la possibilità che il suo funzionamento sia influenzato dalle scelte del management, ed il revisore deve tenerne conto. altre procedure di revisione: il revisore utilizzerà trend e rapporti e forse anche altre tipologie di test di revisione nella stessa area in cui sono stati impiegati i test statistici proposti.

P(x)=P[OE ∩ (FIC ∩ F0 ∩ Fss] Per trovare valori ragionevoli di β, si possono quindi considerare i seguenti fattori: OE = il verificarsi di errori materiali, FIC = l’incapacità del controllo interno nel prevenire l’errore materiale, F0 = l’insuccesso delle altre procedure di revisione nello scoprire l’errore materiale, Fss = l’insuccesso delle procedure di revisione statistiche nello scoprire l’errore materiale. Sulla base di questi aspetti la probabilità di incorrere nel rischio complessivo di revisione è data dalle seguente relazione: P(x)=P[OE ∩ (FIC ∩ F0 ∩ Fss] Pertanto β (definito come il rischio dell’insuccesso nello scoprire un errore materiale nei conti) può essere definito dalla seguente notazione: β = P[Fss | OE ∩ FIC ∩ F0].

È quindi possibile giungere ad una scelta di β facendo alcune assunzioni e formulando valutazioni sui controlli interni e le altre procedure di revisione. OE la probabilità che si verifichi un errore materiale è, prudenzialmente, uguale ad 1. FIC la probabilità che il controllo interno non riesca a scoprire un errore materiale varia da 1 (quando non esistente alcun controllo interno) ad un valore molto piccolo, come 0.1 (per un controllo interno eccellente). Prudenzialmente, si assume che il controllo interno lavori al meglio solo al 90% della sua efficacia. F0 la probabilità di insuccesso delle altre procedure di revisione nello scoprire un errore materiale varia da 1 (se non ci sono altre procedure) ad un valore piccolo, come 0.1 (per un’alta efficacia della procedura). Prudenzialmente, si assume una efficacia massima del 90%

Si assegna il punteggio: Per quanto riguarda la valutazione del controllo interno e per l’efficacia delle altre procedure di revisione si possono assumere arbitrariamente 5 livelli di valutazione. È pertanto possibile stimare valori per β sotto varie condizioni. Rilevanza assegnata al controllo interno. Se esiste un significativo rischio che il management possa influenzare i controlli, con conseguenze sull’area da esaminare, si registra 0. Altrimenti, si valuta il controllo interno con conseguenze sull’area da esaminare. x Rilevanza assegnata alle altre procedure di revisione. Valutare le altre procedure che potrebbero scoprire errori materiali dello stesso tipo di quelli rilevabili nei test statistici. Per ogni test addizionale con significativa efficacia, assegnare 2 punti e per ogni test addizionale con moderata efficacia, assegnare 1 punto. Si registra il totale, che non deve eccedere i 4 punti. y Negli ultimi due casi il revisore potrebbe decidere di omettere i test statistici x+y Se i controlli sono: Si assegna il punteggio: Eccellenti Buoni Equi Scarsi Inesistenti 4 3 2 1 Se il totale è di Utilizzare come β 1 2 3 4 6-8 0.05 0.10 0.15 0.30 0.50

La dimensione del campione Quanto deve essere grande il campione per fornire risultati attendibili? Risparmio di risorse Determinare l’ampiezza più piccola che soddisfa i requisiti di precisione delle stime stabiliti a priori fissare il margine di errore che si è disposti a tollerare la probabilità che la stima si collochi all’interno di tale margine d’errore

N, α, ε, C  n N, n, α , C  ε α : la probabilità di errore In generale, indicati con: N : la numerosità della popolazione α : la probabilità di errore ε : l’errore che si è disposti a commettere n : la dimensione del campione C : il piano di campionamento Definiti la dimensione della popolazione, il piano di campionamento, l’errore e grado di fiducia che l’accompagna, sarà possibile determinare la dimensione del campione N, α, ε, C  n Può però accadere che, sulla base di vincoli di costo, siano dati, oltre alla dimensione della popolazione, il piano di campionamento e la numerosità del campione: in questo caso si potranno calcolare gli errori massimi corrispondenti a diversi gradi di fiducia N, n, α , C  ε

Se il parametro oggetto di inferenza è la media campionaria, per determinare la dimensione del campione, dovremo fare riferimento alla sua distribuzione: Sulla base di questa distribuzione è stato possibile definire gli intervalli di confidenza L’errore che si commette nella stima e che si vuole non superi una certa soglia è quindi dato da:

Date le relazioni: risolvendo rispetto ad n avremo:

Per determinare σ2 si può utilizzare: Noto il valore di N e fissati ε e zα/22 per risolvere le equazioni è necessario precisare un valore per la varianza σ2, di solito a sua volta non conosciuta Per determinare σ2 si può utilizzare: una sua stima ottenuta attraverso altre indagini svolte in passato o su popolazioni simili una stima della varianza ottenuta nella fase di pre-test del questionario una stima desunta sfruttando una relazione nota tra lo scarto quadratico medio σ e il campo di variazione CV (range), in base alla quale: da cui si deriva che:

Ipotizziamo di avere una popolazione di 5000 fatture di acquisto i cui importi variano da un minimo di 10€ ad un massimo di 10000€. Determinare la dimensione del campione da analizzare per stimare, con un livello di confidenza del 95%, l’importo medio delle fatture con un errore massimo di 500€ N=5000 CV=10000-10=9990 σ2≈99902/4=24950025 zα/2=1.96 ε=500 Se ε=250, a parità delle altre condizioni, avremo n=1174

Se l’oggetto di indagine è la proporzione campionaria, in maniera del tutto analoga a quanto visto per la media campionaria, si dovrà tenere in considerazione la sua distribuzione ed in particolare la media e la varianza: se P è lo stimatore corretto per π, proporzione incognita nella popolazione, abbiamo: Possiamo quindi definire , distribuita approssimativamente come una Normale standardizzata. Fissati quindi l’errore ε ed il grado di fiducia 1-α avremo: da cui si ricava, nel caso del campionamento senza ripetizione:

Come si può notare, l’ampiezza campionaria dipende dal parametro π da stimare. Anche in questo caso è possibile utilizzare i risultati di indagini preliminari o altre conoscenze a priori, tuttavia una soluzione consiste nell’ipotizzare la situazione di massima variabilità. È il caso in cui π = 0.5, per cui π (1- π )=0.25. L’equazione precedente diventa quindi:

Nella tabella che segue sono riportate le numerosità campionarie in corrispondenza di diversi valori del margine d’errore (1,2,3,5,10), della proporzione p (0.5 e 0.15) e livelli di confidenza (95% e 99%). Se ad esempio abbiamo una popolazione di 10000 documenti e vogliamo un margine di errore del 3%, con livello di confidenza del 95% e fissiamo p=0.5, dovremo estrarre un campione di 964 documenti. È da notare che se poniamo p=0.15, l’ampiezza del campione diventa n=517.

Ipotizziamo di avere una popolazione composta da 10000 fatture di acquisto. Se vogliamo avere una stima con un margine di errore del 2%, con livello di confidenza del 95%, ed ipotizziamo che nella popolazione la percentuale di errore sia del 5%, quale dovrà essere l’ampiezza del campione? Se, per motivi di costo, si dovessero ispezionare solamente 250 documenti, quale sarebbe la precisione che dobbiamo attenderci, sempre con livello di confidenza del 95%? L’errore potrà essere del 2.7%

Determinazione della numerosità campionaria nel test di ipotesi Quando viene fissata una ipotesi, ed assieme ad essa i valori di probabilità associati agli errori di I e II specie, si deve determinare la numerosità minima del campione sufficiente a garantire i livelli di probabilità desiderati. Nel caso di test unilaterali, se indichiamo con K il valore discriminante che divide la regione di accettazione da quella di rifiuto, K può essere espresso in termini di z sia per l'ipotesi nulla che per quella alternativa, secondo le espressioni: la soluzione del sistema composto da queste due equazioni consente di determinare la numerosità campionaria n: Nel caso di test bilaterali avremo che la numerosità del campione sarà data da:

H0 : μ = μ0 contro l'ipotesi alternativa H1 : μ = μ1 > μ0 Si consideri il caso in cui, in riferimento a una distribuzione normale, si voglia sottoporre a test l'ipotesi nulla H0 : μ = μ0 contro l'ipotesi alternativa H1 : μ = μ1 > μ0 al livello di significatività α = 0,05 e in modo tale che la potenza del test non sia inferiore a 0,90. Si ricorda che la potenza di un test (1-β) rappresenta la probabilità di non commettere un errore di II tipo. Si rifiuta l'ipotesi nulla quando per la media campionaria vale la disuguaglianza il vincolo sulla potenza impone il rispetto della relazione Essendo il valore di z che ha alla sua destra il 90% dei casi è -1.282, dovrà essere soddisfatta l’uguaglianza: Per μ0= 100 , μ1= 110 e σ2=400 si avrà

sia fissata l'ipotesi: con s=16 ed inoltre siano dati α=0.05 e β=0.20, determinare la numerosità n del campione. Avremo quindi: Se invece s=60 avremo:

stima del totale Sia TX l’ammontare totale di un carattere X nella popolazione di riferimento. Esso può essere considerato alla stregua di un parametro da stimare, al pari della media (valore atteso), della varianza, della frequenza ecc. Qualunque sia il piano di campionamento prescelto, casuale semplice, probabilizzato o complesso, esistono formule generali che forniscono stimatori corretti del totale. In particolare, esistono due famiglie di stimatori corretti, la prima riferita a un campionamento con reintroduzione, la seconda a un campionamento senza reintroduzione (in blocco).

Se il campionamento è effettuato con reintroduzione, la stessa unità statistica può venire inclusa più volte nel campione, e le osservazioni sono indipendenti e la loro probabilità di estrazione rimane costante. Se indichiamo con pi la probabilità di estrazione dell’i-esima unità del campione, definiamo lo stimatore corretto del totale di Hansen Hurwitz: La probabilità di estrazione è la probabilità che l'unità λ-esima della popolazione venga estratta come unità i-esima del campione e viene indicata con pλ(i). Se invece il campionamento è effettuato senza reintroduzione, la stessa unità statistica può venire inclusa una volta sola nel campione, e le osservazioni sono allora correlate. Se indichiamo con πi la probabilità di inclusione dell’i-esima unità del campione, definiamo lo stimatore corretto del totale di Horvitz Thompson: La probabilità di inclusione è la probabilità che singoli elementi, o gruppi di elementi, entrino a far parte del campione. Si definisce probabilità di inclusione di primo ordine di una unità λ, e si indica con πλ, la probabilità che il campione estratto contenga tale unità: πλ = P(λ  s). πλλ’ = P({λ,λ’}  s) è invece la probabilità di inclusione del secondo ordine, ovvero che il campione estratto contenga λ e λ’

Quando il piano di campionamento è casuale semplice (con ripetizione o senza ripetizione), i due stimatori individuati vengono a coincidere e lo stimatore ottenuto, detto stimatore per espansione, è direttamente proporzionale alla media aritmetica campionaria. Se consideriamo il campionamento con reintroduzione la probabilità di estrazione è la stessa per tutte le unità della popolazione, ed è pari a 1/N. Ponendo dunque pi = 1/N nella formula dello stimatore di Hansen Hurwitz si ottiene: Se invece consideriamo un CCS in blocco, la probabilità di inclusione di una qualunque unità statistica è pari alla frazione di campionamento n/N, pertanto, ponendo πi = n/N, lo stimatore di Horvitz Thompson diviene:

in cui, N e il numero degli insiemi di voci della popolazione. In generale, se indichiamo con Xi l’ammontare della i-esima voce nella popolazione e con X il totale delle poste sottoposte a revisione, abbiamo in cui, N e il numero degli insiemi di voci della popolazione. Se si seleziona un campione casuale semplice e si stabilisce l’ammontare da sottoporre a revisione in relazione alla somma complessiva delle singole voci che costituiscono il campione, si ottiene uno stimatore corretto di X “espandendo” il campione da sottoporre a revisione per il reciproco della frazione di campionamento. in cui xi indica l’ammontare di revisione dell’i-esima voce campionata e ,la media campionaria delle voci sottoposte a revisione (questo stimatore viene anche detto mean-per-unit)

Varianza e scarto dello stimatore per espansione Sulla base dei risultati già noti per la media aritmetica campionaria, e tenendo presente che il totale della popolazione è pari a N volte la media della popolazione stessa, si possono ottenere la varianza e lo scarto dello stimatore per espansione, nonché le loro stime. Se il campionamento è con reintroduzione si avrà quindi: Ovviamente, il valore di σ non è quasi mai noto, per cui va stimato tramite s. Si ottiene così la stima della varianza dello stimatore per espansione: direttamente ottenibile dai valori campionari

Se invece si fa riferimento al campionamento in blocco entra in gioco anche il fattore di riduzione della varianza, e si avrà pertanto dove f=n/N è il tasso di sondaggio, mentre la quantità 1 - f va sotto il nome di fattore correttivo per popolazione finita Anche in questo caso, essendo σ2 generalmente ignota, si potrà fare ricorso allo stimatore corretto della varianza s2, per cui avremo: Sulla base della varianza dello stimatore potremo costruire gli intervalli di confidenza per la stima:

Sulla base dei dati campionari si ottiene: Supponiamo di avere osservato un campione di 20 crediti verso clienti della società ALFA, estratto da una popolazione di 1000 documenti Cliente Crediti € Cliente 1 85.27 Cliente 11 263.62 Cliente 2 303.42 Cliente 12 680.00 Cliente 3 290.00 Cliente 13 41.79 Cliente 4 491.15 Cliente 14 442.15 Cliente 5 237.92 Cliente 15 590.00 Cliente 6 234.15 Cliente 16 605.00 Cliente 7 269.30 Cliente 17 244.32 Cliente 8 76.89 Cliente 18 650.00 Cliente 9 258.61 Cliente 19 450.00 Cliente 10 333.24 Cliente 20 499.42 Abbiamo quindi: N=1000 e n=20 Sulla base dei dati campionari si ottiene: da cui possiamo calcolare gli estremi dell’intervallo di confidenza: Ponendo ad esempio 1-α=95% avremo: Se il totale del conto crediti verso clienti iscritto a bilancio fosse, ad esempio, 382101.40 potremo ritenere accettabile tale valore.

Anche nel caso della stima di un totale, l’ampiezza dell’intervallo di confidenza, e quindi la precisione della stima dipende da: numerosità della popolazione numerosità campionaria livello di confidenza piano di campionamento N, n, α, C  ε Nell’esempio precedente si ottiene un intervallo di confidenza molto ampio, per avere una stima più precisa si potrà quindi agire sul livello di confidenza oppure sulla dimensione campionaria La domanda è quindi: quanti documenti debbo revisionare per avere una determinata precisione con un certo livello di confidenza? Ancora una volta si tratta di risolvere la disequazione precedente rispetto ad n N, ε, α, C  n Avremo: Nell’esempio precedente, se avessimo ricercato una precisione, e quindi un errore, non superiore ai 10000€:

Questi stimatori sono: stimatore per differenza stimatore rapporto x revisione y registrati x-y Cliente 1 85.27 Cliente 2 303.42 Cliente 3 290.00 Cliente 4 491.15 Cliente 5 237.92 Cliente 6 234.15 Cliente 7 269.30 Cliente 8 76.89 Cliente 9 258.61 Cliente 10 333.24 Cliente 11 263.62 Cliente 12 680.00 Cliente 13 41.79 Cliente 14 442.15 244.15 198.00 Cliente 15 590.00 Cliente 16 605.00 60.50 544.50 Cliente 17 244.32 Cliente 18 650.00 Cliente 19 450.00 Cliente 20 499.42 MEDIA 352.31 315.19 Totale complessivo Y 382101.40 Se durante la fase di revisione confrontiamo il valore revisionato e quello effettivamente registrato nelle scritture contabili e che conduce al dato riportato in bilancio, possiamo utilizzare questa informazione per ottenere uno stimatore che tenga conto della differenza tra queste due quantità. Più in generale è possibile fare ricorso a stimatori che tengano conto del dato riportato a bilancio come variabile ausiliaria. Questi stimatori sono: stimatore per differenza stimatore rapporto

Campionamento stratificato Il bilancio da sottoporre alle procedure di revisione è generalmente un aggregato di conti individuali di dimensioni piuttosto diverse. Spesso l’insieme delle voci da sottoporre a verifica è vasto e complesso e le distruzioni dei dati contabili risultano fortemente asimmetriche. In queste situazioni può risultare utile il ricorso a procedure di stratificazione campionaria. La “Stratificazione” è il processo attraverso il quale una popolazione viene suddivisa in sotto popolazioni, ciascuna delle quali rappresenta un gruppo di unità di campionamento con caratteristiche analoghe (spesso valori monetari). Documento n°530

L’efficacia del lavoro di revisione può essere migliorata se il revisore stratifica la popolazione suddividendola in sotto popolazioni aventi specifiche caratteristiche . Alcune delle condizioni che rendono vantaggiosa la stratificazione sono: la popolazione oggetto di studio può essere ripartita in gruppi, in modo che ciascun gruppo sia relativamente omogeneo al suo interno e diverso dagli altri gruppi; i campioni vengono estratti in modo indipendente da ciascuno strato; in tal modo si possono applicare i risultati teorici del campionamento da una popolazione di unità elementari di dimensione N al campionamento da ogni strato di dimensione Nk; se ci sono dei raggruppamenti “naturali“, si desidera rappresentarli convenientemente nel campione; la popolazione oggetto d’interesse è ripartita in sottopopolazioni e non è disponibile una lista unica delle unità elementari, ma esistono liste separate per ogni sotto-polazione.

Con la stratificazione si possono perseguire due obiettivi alternativi tra loro: ridurre la variabilità delle voci all’interno di ciascuno strato e quindi di consentire che la dimensione del campione sia ridotta senza un incremento proporzionale del rischio di campionamento; il miglioramento della precisione degli stimatori dei parametri della popolazione rispetto al campionamento dall’intera popolazione di unità elementari, sfruttando la possibilità di campionare separatamente all’interno di diverse sottopopolazioni, e quindi meglio rappresentando la popolazione stessa.

Data quindi una popolazione di N unità, questa viene suddivisa in H sotto-popolazioni (gli strati), dove l’ì-esima sotto-popolazione è composta da Ni unità (con i=1,…,H). Queste sotto-popolazioni non debbono “sovrapporsi”, in modo tale che: N1+N2+…+NH=N Verrà quindi estratto un campione di dimensione ni (sempre con i=1,…,H) da ogni strato, per cui avremo: n1+n2+…+nH=n La stima del parametro, o dei parametri, può quindi essere effettuata all’interno di ciascuno strato; si potrà poi ottenere una stima relativa all’intera popolazione “mettendo insieme” le varie stime ottenute, per esempio facendone la somma (stima del totale) o la media ponderata (stima di medie o frequenze).

Data la popolazione stratificata: ed il corrispondente campione stratificato:

Da ciascuno strato della popolazione viene estratto, solitamente, un CCS senza ripetizione. Il numero di campioni che compongono l’universo corrispondente è: La probabilità di inclusione di una generica unità uhj (h=strato, j=unità) è pari alla frazione di campionamento del corrispondente strato: πhj=nh/Nh La probabilità di inclusione di secondo ordine differisce a seconda che le due unità appartengano o meno al medesimo strato. Se lo strato è comune si ha phj, hl = nh (nh –1) / Nh (Nh.- 1) Se invece si considerano due individui di strati diversi, le due estrazioni vanno considerate indipendenti, dunque si moltiplicano tra loro le singole prob. di inclusione phj, kl = nh nk / Nh Nk

N-1Σh Σjyhj/fh Stima della media della popolazione Se siamo interessati alla stima della media del carattere nella popolazione, Lo stimatore dove Wh=Nh/N rappresenta la quota di popolazione appartenente allo strato h, costituisce uno stimatore corretto della media della popolazione. Questo risultato consegue dal fatto che le medie campionarie di strato sono stimatori corretti delle medie di strato. è diverso dalla media campionaria coincidono solamente quando si ha una allocazione proporzionale delle unità del campione nh/n=Nh/N Se indichiamo con fh=nh/Nh la frazione di campionamento nello strato h, lo stimatore potrà essere scritto come: N-1Σh Σjyhj/fh dove ciascuna osservazione del campione è ponderata mediante il reciproco della probabilità di inclusione (del primo ordine).

La varianza dello stimatore sarà: Nel caso di allocazione proporzionale (f = fh) l'espressione della varianza si semplifica: L'espressione della varianza dello stimatore dipende dalle varianze di strato, che sono generalmente incognite. Possiamo, tuttavia, applicare i risultati del CCS, per cui: è uno stimatore corretto di σ2. Sostituendo nell’espressione precedente si ottiene una stima della varianza dello stimatore che può essere utilizzata per costruire intervalli di confidenza per la media della popolazione.

Stima del totale della popolazione La stima Ŷ del totale Y si ottiene sommando tra loro le stime dei totali di strato. Poiché all’interno dello strato si applica un CCS senza ripetizione, si può usare lo stimatore per espansione. Infatti dall’espressione dello stimatore di Horvitz-Thompson, e ricordando che la probabilità di inclusione del primo ordine è πhj=nh/Nh avremo: con varianza: che nel caso di allocazione proporziona diventa: Anche in questo caso potremo utilizzare la varianza campionaria corretta sh2 per il calcolo degli intervalli di confidenza

Stima di una proporzione della popolazione Come già sottolineato, la stima di una proporzione può essere trattata in maniera del tutto analoga alla stima della media, per cui avremo che: con varianza: che nel caso di allocazione proporziona e assumendo che Nh/(Nh-1) = 1 diventa:

allocazione di tipo proporzionale; allocazione di tipo ottimale tipi di stratificazione - allocazione del campione tra gli strati Una caratteristica fondamentale della stratificazione è che il campione può essere organizzato in maniera del tutto indipendente da uno strato all’altro. In linea di principio si può quindi pensare di utilizzare strategie diverse negli strati (pensati come popolazioni a se stanti), più efficienti in rapporto alla struttura della parte di popolazione contenuta negli stessi. Questo può consentire di avere strati di numerosità diversa, in particolare è possibile distinguere tre principali metodologie di allocazione delle unità negli strati: allocazione di tipo proporzionale; allocazione di tipo ottimale - allocazione non proporzionale

Nh=nWh dove Wh=Nh/N L’allocazione proporzionale: riproduce la stessa composizione della popolazione in termini di dimensione degli strati ogni unità ha probabilità di inclusione nel campione uguale infatti fh=nh/Nh=n/N per ogni strato la numerosità del campione negli strati si calcola considerando Nh=nWh dove Wh=Nh/N il campione derivante dall’allocazione di tipo proporzionale è autoponderante. Questa caratteristica fa si che le procedure di stima dei parametri possano prescindere dalla procedura di selezione del campione utilizzata.

L’allocazione ottimale: privilegia gli strati che presentano una maggior variabilità per il fenomeno di interesse sono necessarie per la determinazione dell’allocazione ottimale le informazioni relative alla variabilità delle osservazioni negli strati della popolazione la frazione di campionamento è in questo caso variabile e dipende direttamente dalla variabilità dove Wh=Nh/N e Sh è la deviazione standard del fenomeno nello strato non essendo il campione autoponderante la stima dei parametri di interesse deve essere basata su uno schema di ponderazione i cui pesi possono essere ottenuti partendo dalle probabilità di inclusione.

Wh=Nh/N Nh Wh Sh WhSh n*Wh*Sh nh Strati Nh Wh Sh WhSh n*Wh*Sh nh fino a 500 € 36140 0.4044 8.3 3.36 6713.56 241 501-2000 € 25860 0.2894 9.6 2.78 5556.31 199 2001-5000 € 20400 0.2283 10.1 2.31 4611.46 165 5001-25000 € 6600 0.0739 218 16.10 32202.33 1154 25000-100mila € 300 0.0034 703.2 2.36 4721.58 169 Oltre 100mila € 60 0.0007 1506.9 1.01 2023.59 72 89360 1.0000 27.91 55828.83 2000 allocazione ottima di Neyman-Tschuprow Wh=Nh/N

L’allocazione non proporzionale: Si usa quando si decide di sovrarappresentare alcuni strati (e quindi di sottorappresentarne altri). Tipicamente, gli strati sovrarappresentati sono quelli meno numerosi. Il campione, quindi, non riproduce la composizione della popolazione, e, nelle analisi andrà dunque effettuata una operazione di riponderazione. In generale il campionamento stratificato con allocazione proporzionale è più efficiente del campionamento semplice e il campionamento stratificato con allocazione ottima è più efficiente di quello con allocazione proporzionale. Se le varianze di strato sono uguali il campionamento stratificato con allocazione ottima è del tutto simile al campionamento stratificato con allocazione proporzionale Se le medie di strato sono tutte uguali il campionamento stratificato con allocazione proporzionale è del tutto simile al campionamento semplice

Definizione del criterio di stratificazione La scelta della variabile di stratificazione rappresenta una aspetto di particolare importanza, infatti quando l’obiettivo della stratificazione è quello dell'efficienza degli stimatori, gli strati dovranno essere formati in modo da risultare più omogenei possibile al loro interno rispetto alla variabile di studio. Nel caso specifico dell’auditing, in cui si ha spesso a che fare con variabili fortemente asimmetriche, occorre che il processo di stratificazione consenta di avere un campione che tenga conto di questa caratteristica e che dia il giusto peso sia alle voci di scarsa entità che a quelle più rilevanti

Metodo della Cumulative Root Frequency ordinare la variabile di stratificazione X in ordine crescente raggruppare x in un certo numero j di “strati di prova” di uguale ampiezza, ad esempio si considerino (max-min)/50 per creare una ripartizione iniziale con 50 gruppi si calcoli la frequenza relativa per ogni gruppo fi (i=1,…,j) si calcoli la radice quadrata della frequenza per ogni gruppo si costruisca la cumulata delle radici delle frequenze determinare la quantità Q dividendo la somma delle radici degli scarti per il numero L di strati da creare prendere il limite superiore di ogni gruppo in cui ricadono i valori Q,2Q,…,LQ

Metodo geometrico ordinare la variabile di stratificazione X in ordine crescente prendere il valore minimo come primo termine, e il valore massimo come ultimo termine di una serie geometrica con L+1 termini, dove L rappresenta il numero di strati da definire calcolare il common ratio: r = (max/min)1/L prendere come limite di ogni strato il valore di X corrispondente ai termini della progressione geometrica Minimum k0= a, ar, ar2 ….. arL = maximum kL

Cumulative Root Frequency Σ(fi)½=770.1, L=6 limite Q=770.1/6=128.4 146.5 2Q=128.4*2=256.8 240.6 3Q=128.4*3=385.2 401.0 4Q=128.4*4=513.6 516.3 5Q=128.4*5=642.0 638.9 6Q=128.4*6=770.4 770.1 Metodo geometrico r = (max/min)1/L r = (10000/100)1/6=2.154 L limiti k0=100*2.1540 100.0 1 k1=100*2.1541 215.4 2 k2=100*2.1542 464.2 3 k3=100*2.1543 1000.0 4 k4=100*2.1544 2154.4 5 k5=100*2.1545 4641.6 6 k6=100*2.1546 10000.0 In questo esempio si è deciso di non sottoporre a revisione i documenti di importo inferiore ai 100$, mentre vengono analizzati tutti quelli di importo superiore ai 10000$.

numerosità campionaria complessiva nel campionamento stratificato Anche nel caso della stratificazione si può determinare la numerosità campionaria complessiva che garantisca errori prestabiliti, in modo analogo a quanto visto per il campionamento casuale semplice. La determinazione della numerosità campionaria complessiva viene effettuata nell'ipotesi di campionamento stratificato proporzionale. L'allocazione negli strati avviene successivamente, secondo il criterio scelto dal ricercatore. Nel caso della stima di una media, essendo: avremo:

Per la stima di un totale, tenendo conto della varianza dello stimatore stratificato, si avrà:

Dovendo verificare l’importo medio di 3300 fatture di acquisto, sono state stratificate per classi di importo, determinare la numerosità campionaria complessiva, fissando per la stima un errore di 25€ con livello di confidenza al 95% Gruppo classi di importo Nh sh 1 0-900 550 222.6632 550*222.662= 27268396 2 901-2000 1870 253.4102 120085279 3 2001-4000 650 315.0387 64512115 4 >4000 230 1189.098 325209496 3300 537075286

Un campione casuale semplice, ipotizzando un valore di s complessivo pari a 1200€, con medesimo errore e livello di confidenza, avrebbe una numerosità: s=1200 ε=25 1-α=.95

Gruppo classi di importo Nh (Nh/N)*n=ni my Nh*my 1 0-900 550 128.0 128 385.52 212036 2 901-2000 1870 435.2 435 523.44 978833 3 2001-4000 650 151.3 151 1086.33 706115 4 >4000 230 53.5 54 3541.76 814605 3300 768 2711588 Definita la numerosità campionaria complessiva, è possibile allocare le unità per strato, ad esempio con il metodo dell’allocazione proporzionale. Ipotizzando di avere osservato le medie my all’interno di ogni strato, la media complessiva sarà:

Se invece l’obiettivo fosse la stima del totale, per determinare la numerosità campionaria utilizzeremo: con: ε=75000 1-α=.95 che potremo poi allocare proporzionalmente negli strati Gruppo classi di importo Nh (Nh/N)*n=nh 1 0-900 550 147.67 148 2 901-2000 1870 502.07 502 3 2001-4000 650 174.52 174 4 >4000 230 61.75 62 3300 886

Ipotizzando di avere osservato i seguenti valori in ciascuno strato, potremo determinare l’intervallo di confidenza per la stima del totale: Gruppo classi di importo Nh nh my Nh*my sh Whsh2 1 0-900 550 148 385.52 212036 222.6632 8263.15 2 901-2000 1870 502 523.44 978832.8 253.4102 36389.48 3 2001-4000 650 174 1086.33 706114.5 315.0387 19549.13 4 >4000 230 62 3541.76 814604.8 1189.098 98548.33 3300 886 2711588 162750.09