La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le indagini campionarie  Le fasi di un’indagine campionaria  Il campionamento:

Presentazioni simili


Presentazione sul tema: "1/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le indagini campionarie  Le fasi di un’indagine campionaria  Il campionamento:"— Transcript della presentazione:

1 1/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le indagini campionarie  Le fasi di un’indagine campionaria  Il campionamento: schemi e stima dei parametri  Gli errori campionari e non campionari  Tipologie di quesiti, scale di valutazione, classificazione dei caratteri statistici

2 2/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Indagini censuarie e campionarie Un’indagine conoscitiva può essere condotta secondo due approcci distinti: indagine totale o censuaria indagine parziale o campionaria Il collettivo di unità su cui deve essere effettuata l’indagine è esaminato in maniera completa È esaminata solo una parte del collettivo - un campione - anziché la sua totalità

3 3/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Confronto tra indagine censuaria e indagine campionaria Indagine censuaria Indagine campionaria Risorse economichemolto elevatecontenute Durata delle operazionimolto lungabreve Errore campionarioassentepresente Altri tipi di errorepresenti

4 4/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il campionamento - prime definizioni Popolazione o universo: insieme di unità che soddisfano in maniera esaustiva uno o più criteri (Es: insieme imprese manifatturiere italiane attive al 31/12/2014) Indagine campionaria: metodologia per conoscere le caratteristiche della popolazione tramite un campione Inferenza statistica Inferenza statistica: processo mediante il quale si desumono le caratteristiche di una popolazione attraverso lo studio di una parte di essa detta campione campionamento Il campionamento può essere: - probabilistico: scelta delle unità affidata al caso - non probabilistico: scelta delle unità dipendente dalla soggettività di chi raccoglie le informazioni

5 5/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Confronto tra campionamento probabilistico e non probabilistico Campionamento probabilistico Campionamento non probabilistico Risorse economiche relativamente elevatecontenute Durata delle operazioni relativamente lungabreve Errore campionariovalutabilenon valutabile Rappresentatività della popolazionebuonanon valutabile

6 6/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le fasi di un’indagine campionaria 1. Formulazione degli obiettivi dell’indagine 1. Formulazione degli obiettivi dell’indagine - Si decide quali informazioni rilevare prioritarie - informazioni prioritarie (relative agli obiettivi principali dell’indagine) complementari - informazioni complementari (relative agli obiettivi secondari)

7 7/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le fasi di un’indagine campionaria 2. Individuazione della popolazione obiettivo 2. Individuazione della popolazione obiettivo - insieme delle unità sulle quali si intende ottenere le informazioni obiettivo dell’indagine - definito in base ad alcuni criteri (in particolare criteri spazio-temporali) - Lista di campionamento: elenco esaustivo delle unità appartenenti alla popolazione obiettivo

8 8/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le fasi di un’indagine campionaria 3. Individuazione tecnica di campionamento 3. Individuazione tecnica di campionamento - Metodo di selezione del campione - prima distinzione: metodi probabilistici e non probabilistici - Scelta dipendente da: - livello di attendibilità desiderato - vincoli sui costi dell’indagine Diversi schemi di campionamento probabilistico e non probabilistico

9 9/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le fasi di un’indagine campionaria 4. Individuazione modalità di raccolta dati 4. Individuazione modalità di raccolta dati - tramite questionario, diverse modalità: - postale (autocompilazione) - intervista telefonica (compilazione assistita) - intervista diretta (compilazione assistita) - via internet o (autocompilazione) Par. 2.4 per i dettagli sulle tecniche di rilevazione dei dati (vantaggi e svantaggi delle diverse tecniche) Scelta modalità: compromesso tra diversi obiettivi spesso contrastanti: partecipazione; qualità dei dati; costi Rilevazione assistita da computer: CATI CAPI CAWI

10 10/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le fasi di un’indagine campionaria 5. Progettazione del questionario 5. Progettazione del questionario - Strumento per la rilevazione dei dati - Caratteristiche (lunghezza, complessità dei quesiti, istruzioni) dipendenti dalla modalità di rilevazione: - con autocompilazione (breve e semplice; istruzioni per l’intervistato) - intervista telefonica (meglio breve e semplice; istruzioni per l’intervistatore) - intervista diretta (anche più complesso) - Test (indagini pilota) e revisioni

11 11/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le fasi di un’indagine campionaria 6. Rilevazione dei dati 6. Rilevazione dei dati - Determinazione del periodo più appropriato per la raccolta dei dati - Concentrazione in un breve periodo 7. Codifica e archiviazione dei dati 7. Codifica e archiviazione dei dati - Codifica numerica delle variabili qualitative (in particolare, in caso di domande a risposte aperte) - Inserimento delle informazioni in un supporto informatico - Verifiche di coerenza, dati mancanti e relative imputazioni

12 12/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le fasi di un’indagine campionaria 8. Analisi dei dati 8. Analisi dei dati - Produzione delle stime campionarie dei valori ignoti relativi alla popolazione 9. Redazione di un rapporto di ricerca 9. Redazione di un rapporto di ricerca - Descrizione delle caratteristiche dell’indagine - Descrizione dei principali risultati ottenuti

13 13/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Caso di studio: le fasi dell’indagine EFIGE 1. Obiettivi dell’indagine 1. Obiettivi dell’indagine Modalità di internazionalizzazione e analisi delle relazioni con altre caratteristiche delle imprese - informazioni prioritarie (circa 40 variabili per le quali è richiesta una % di risposte di almeno il 90%) - informazioni complementari (circa 110 variabili) 2. Popolazione obiettivo Imprese manifatturiere con almeno 10 dipendenti (Eurostat: Structural Business Statistics, 2008) 3. Individuazione tecnica di campionamento Campionamento probabilistico (stratificato)

14 14/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il caso di studio: le fasi dell’indagine EFIGE 4. Individuazione modalità di raccolta dati - telefonica (CATI) - via web (CAWI) 5. Progettazione del questionario Complesso (nonostante CATI, CAWI); domande prioritarie, altre Indagine pilota: su 100 imprese per i paesi più grandi; per convalidare modalità di contatto e adeguatezza del questionario (chiarezza, facilità di risposta, filtri) 6. Rilevazione dei dati Da gennaio a maggio 2010 Dati di bilancio relativi al 2008

15 15/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il caso di studio: le fasi dell’indagine EFIGE 7. Codifica e archiviazione dei dati File Excel: un foglio per ogni sezione del questionario 8. Analisi dei dati - Stima delle variabili e analisi descrittive - Stima dei parametri di modelli e analisi delle determinanti della internazionalizzazione 9. Rapporto di ricerca “The triggers of competitiveness: The EFIGE cross-country report”

16 16/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il processo di stima – concetti di base Processo di stima: procedimento per ricavare, tramite una funzione delle osservazioni campionarie, il valore incognito di una caratteristica della popolazione parametro da stimare  Il parametro da stimare: la caratteristica della popolazione che costituisce l’obiettivo dell’indagine stimatore  Lo stimatore: una formula analitica atta a stimare il valore incognito della caratteristica della popolazione sulla base dei dati campionari stima  Il valore della stima o stima: il risultato dell’applicazione dello stimatore ai dati campionari

17 17/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il processo di stima parametro da stimare Esempio. Il parametro da stimare è la media aritmetica del fatturato delle aziende di un paese, le quali costituiscono la popolazione di riferimento (composta da N unità): campione Dalla popolazione si estrae un campione casuale di n unità sulle quali si rileva il fatturato. stimatore La stima del parametro della popolazione si ottiene applicando ai dati campionari lo stimatore media aritmetica:

18 18/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il processo di stima parametri da stimare Altri parametri da stimare (oltre la media): - Il totale: - La varianza: Stima del totale: Stima della varianza:

19 19/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Stimatore corretto stimatore Lo stimatore di un parametro θ della popolazione: una funzione dei dati campionari per assegnare un valore a θ sulla base del campione Stimatore corretto Stimatore corretto (o non distorto): se nell’insieme dei campioni casuali estraibili il valore medio delle stime è pari al valore del parametro nella popolazione: Altrimenti, stimatore non corretto Distorsione Distorsione :

20 20/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Stimatore corretto - Esempio Campionamento casuale semplice senza ripetizione Popolazione di N = 4 unità; campioni di n = 2 unità Popolazione n. Y Possibili campioni Valori di y (1; 2) (1; 3) (1; 4) (2; 3) (2; 4) (3; 4) 110; ; ; ; ; 90 80;

21 21/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Lo stimatore fondamentale nel campionamento probabilistico Probabilità di inclusione Probabilità di inclusione: probabilità che una unità della popolazione appartenga al campione. Non necessariamente uguale per ogni unità (Es. caso di studio: sovra-campionamento grandi imprese) probabilità di inclusione nel campione è nota Nel campionamento probabilistico la probabilità di inclusione nel campione è nota e diversa da zero per ogni unità della popolazione Esempio: Campionamento casuale semplice senza ripetizione Popolazione di N = 4 unità: 1; 2; 3; 4 Insieme dei possibili campioni di n = 2 unità (1,2); (1,3); (1,4); (2,3); (2,4); (3,4) Probabilità di inclusione dell’unità 1: 3/6= ½ (= n/N ) (idem per 2, 3, 4)

22 22/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Lo stimatore fondamentale Stimatore corretto della media per il campionamento probabilistico senza ripetizione - Notazioni: Probabilità di inclusione: Coefficienti di espansione: media Stimatore fondamentale (di Horvitz-Thompson) della media: totale e del totale:

23 23/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Stimatore fondamentale - Esempio Popolazione di N = 4 unità: Y 1 = 110; Y 2 = 120; Y 3 = 80; Y 4 = 90; Campione estratto di n = 2 unità: (1,3)

24 24/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le tecniche di campionamento probabilistico Principali tecniche di campionamento probabilistico: casuale semplice (CCS) e sistematico (CSI) stratificato (CST) a grappoli (CGRA) a più stadi (CSTA)

25 25/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il campionamento casuale semplice più elementare  Tecnica di campionamento più elementare tra i metodi probabilistici punto di partenza  Rappresenta il naturale punto di partenza per lo studio di tutti gli altri metodi di campionamento probabilità di inclusione  La probabilità di inclusione nel campione è la stessa per ogni unità della popolazione - pari alla frazione di campionamento - data da:

26 26/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill La tecnica di estrazione del CCS - illustrazione Dato N=50, l e unità della popolazione sono numerate da 1 a 50 Per estrarre un CCS di 10 unità ( f = 1/5) si genera una sequenza di numeri casuali {3, 6, 11, 12, 25, 28, 31, 37, 44, 46} Le unità corrispondenti a tali numeri d’ordine costituiscono il campione

27 27/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il campionamento sistematico   Tecnica alternativa assimilabile a quella per l’estrazione di un CCS  Consiste nella selezione di una unità ogni k presenti nella lista  k è il passo di campionamento: la parte intera del reciproco della frazione di campionamento  k = N/n

28 28/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill La tecnica di estrazione del CSI - illustrazione Dato N = 50 e fissata la dimensione campionaria n = 10, si determina il passo di campionamento, dato da k = N/n = 50/10 = 5 Si estrae un numero casuale compreso tra 1 e k (5) per esempio 2 e si seleziona l’unità corrispondente Si procede selezionando le unità corrispondenti ai seguenti n. d’ordine: 2+ k = 7, 2+2 k = 12, 2+3 k = 17, … fino ad esaurimento della lista

29 29/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Pro e contro del CCS semplicità punto di forza  La semplicità concettuale è il suo principale punto di forza svantaggi: Il CCS presenta tuttavia anche alcuni possibili svantaggi: sparso  Il campione potrebbe presentarsi sparso sul territorio costi elevati con conseguenti costi elevati di organizzazione  Poiché tutti i possibili campioni hanno uguale probabilità ‘‘cattivo’’ di essere estratti, è possibile estrarre un ‘‘cattivo’’ campione poco rappresentativo campione (poco rappresentativo della popolazione)

30 30/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le stime con il CCS Media: Lo stimatore corretto della media della popolazione è la media campionariaTotale: Varianza Varianza (stima varianza di Y nella popolaz. ):

31 31/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Stima di una frequenza Popolazione: Y i = 1 se l’attributo è presente; Y i = 0 se assente frequenza: Stimatore fondamentale della frequenza: Stimatore del totale:

32 32/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Varianza degli stimatori Necessario conoscerla per poter costruire gli intervalli di confidenza per le stime tratte dal campione Varianza teorica: nell’insieme di tutti i possibili campioni Esempio: varianza della media campionaria Popolazione n. Y Possibili campioniValori di y (1; 2) (1; 3) (1; 4) (2; 3) (2; 4) (3; 4) 110; ; ; ; ; 90 80;

33 33/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Varianza della media campionaria Varianza teorica della media campionaria: Esempio Popolazione: Y

34 34/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Varianza della media campionaria varianza teorica Dalla varianza teorica della media campionaria: stima della varianza Alla stima della varianza della media campionaria:

35 35/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Varianza della media campionaria - Esempio Popolazione n. Y Possibili campioni (1; 2) (1; 3) (1; 4) (2; 3) (2; 4) (3; 4) Varianza teorica:Stima – campione (1; 2):

36 36/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Intervalli di confidenza per le stime Per n sufficientemente elevato la distribuzione campionaria della media può essere approssimata con una normale Intervallo di confidenza per la media:

37 37/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Intervalli di confidenza per le stime Intervallo di confidenza per il totale: Varianza della stima del totale:

38 38/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il campionamento stratificato più efficiente L’obiettivo è estrarre un campione più efficiente rispetto al CCS : stime più precise con la stessa numerosità campionaria Esempio: Popolazione di N = 12 imprese Media ROI popolazione: 3.75 Campioni CS: (4; 6; 9; 10)  media ROI: ( )/4 = 2.5 (2; 3; 7; 12)  media ROI: ( )/4 = 5 Risultato: stime poco precise e a forte variabilità N. imp ROI

39 39/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il campionamento stratificato Disponibilità informazione aggiuntiva: settore di attività Riorganizzazione informazioni: Popolazione: Campione: N. imp ROI SettoreACMATTCMATCM N. imp.ROI A33; 3; 3 T32; 2; 2 M36; 6; 6 C34; 4; 4 N=12Media 3.75 Settoren. imp.ROI A13 T12 M16 C14 n=4Media 3.75

40 40/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il campionamento stratificato strati a.La popolazione obiettivo è classificata in sottopopolazioni - esaustive e mutuamente esclusive - dette strati b.Gli strati devono essere possibilmente omogenei al loro interno ed eterogenei tra di loro c.Da ogni strato si estrae un campione casuale semplice d.Infine l’aggregazione di tali campioni produce il campione stratificato Variabili di stratificazione: - disponibili per ogni unità della popolazione - correlate con le principali variabili di interesse (affinché sia realizzata la condizione di cui al punto b, da cui dipende l’obiettivo del CST)

41 41/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill La tecnica di estrazione del CST Schema di campionamento stratificato: In blu le unità campionate in ciascuno dei tre strati

42 42/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Campionamento stratificato Schema di popolazione di dimensione N ripartita in H strati Strato UnitàDimens.MediaVarianza 1. h. H Y 11 … Y 1i … Y 1N 1 Y h1 … Y hi … Y hN h Y H1 … Y Hi … Y HN H N 1 N h N H S 1 2 S h 2 S H 2 Parametri di strato:

43 43/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Campionamento stratificato Schema di campione di dimensione n estratto dagli H strati Strato UnitàDimens.MediaVarianza 1. h. H y 11 … y 1j … y 1n 1 y h1 … y hj … y hn h y H1 … y Hj … y Hn H n 1 n h n H s 1 2 s h 2 s H 2 Media e varianza campionaria di strato:

44 44/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Stime con CST In caso di CCS negli strati, la probabilità di inclusione per l’unità i dello strato h è: media Lo stimatore della media: : peso strato h nella popolazione totale Lo stimatore del totale:

45 45/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Esempio stima con CST Popolazione: Campione: SettoreN. imp.ROI A23; 3 T32; 2; 2 M26; 6 C34; 4; 4 N = 10Media 3.6 Settoren. impPr.incl.ROI A11/23 T11/32 M11/26 C11/34 n = 4Media 3.6

46 46/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le stime con il CST Varianza della media campionaria: Varianza del totale:

47 47/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le stime con il CST Intervalli di confidenza media:totale:

48 48/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill L’allocazione della numerosità campionaria tra gli strati Allocazioneproporzionale: Allocazione proporzionale: La numerosità campionaria n viene ripartita tra gli strati in proporzione al peso di ogni strato nella popolazione: Pesi di strato nel campione = pesi di strato nella popolazione: Frazione di campionamento uguale in ogni strato (pari alla frazione di campionamento globale f )

49 49/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Campionamento stratificato - Schema con allocazione proporzionale D ato N =50 e fissata la dimensione campionaria n =10, si determina la frazione di campionamento f = 1/5 Nella popolazione sono stati individuati 3 strati: N 1 =10; N 2 =25; N 3 =15 Applicando f = 1/5 ad ogni strato si ottengono le numerosità campionarie di strato: h =1 h =2 h =3

50 50/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Stima CST con allocazione proporzionale Media campionaria: (campione autoponderante) Varianza della media campionaria:

51 51/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill L’allocazione non proporzionale  Applicazione di frazioni di campionamento differenti nei diversi strati. Preferibile in caso di maggiore variabilità del fenomeno oggetto di studio in alcuni strati rispetto ad altri Esempio: StratiN. impr. ROI ; 5.7; 6; 6.3; ; 3; 4; 5; 6 Al fine di produrre stime più efficienti, negli strati a maggiore variabilità si applica intenzionalmente una frazione di campionamento maggiore

52 52/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill L’allocazione non proporzionale Allocazioneottimale di Neyman: Allocazione ottimale di Neyman: la numerosità campionaria di strato è direttamente proporzionale, oltre che al peso di strato W h, alla variabilità di strato espressa da S h : Esempio: Popolazione N = 10; Campione n = 5 StratiN. impr. ROI S h W h S h n h ottimale ; 5.7; 6; 6.3; ; 3; 4; 5;

53 53/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Pro e contro del CST Pro Pro:  Guadagno in efficienza rispetto al CCS  Possibilità di stimare i parametri in sottopopolazioni di particolare interesse per gli scopi della ricerca  Riduzione della probabilità di estrazione di campioni poco rappresentativi della popolazione obiettivo Contro Contro:  Se le variabili ausiliarie non sono di buona qualità (sufficientemente correlate con il fenomeno oggetto di studio) ne può derivare una perdita di efficienza

54 54/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il Deff misura del guadagno in efficienza Sulla base della variabilità delle stime è possibile calcolare una misura del guadagno in efficienza derivante da un disegno di campionamento alternativo al CCS effetto di disegno Deff La misura è denominata effetto di disegno o Deff In generale, il Deff è definito come segue (dove ALT sta per disegno di campionamento alternativo al CCS): < 1 guadagno in efficienza > 1 perdita in efficienza

55 55/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il Deff Nel caso di campionamento stratificato in genere si ha: Più specificamente, in genere si verifica:

56 56/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il campionamento a grappoli grappoli Una popolazione oggetto di indagine può essere talvolta considerata come costituita da sottoinsiemi “naturali” di unità elementari denominati grappoli Esempi: - la popolazione delle persone residenti in una città è costituita dalle persone appartenenti alle famiglie residenti; - gli studenti di una scuola sono costituiti dagli appartenenti alle sue diverse classi - gli operai dell’industria sono costituiti dagli operai dipendenti dalle diverse imprese

57 57/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il campionamento a grappoli Lo schema di campionamento a grappoli prevede: a. l’estrazione casuale di alcuni grappoli (es: famiglie) b. l’analisi completa di tutte le unità in essi contenute Obiettivo Obiettivo diverso da quello della stratificazione: convenienza in termini di costi e di tempo, facilitare il processo di raccolta delle informazioni Prezzo da pagare: minore efficienza i grappoli tendono ad essere omogenei al loro interno --> duplicazione inutile di informazioni

58 58/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill La tecnica di estrazione del CGRA - illustrazione La popolazione di 50 unità è suddivisa in 7 grappoli Vengono estratti casualmente 3 grappoli Per ognuno di essi vengono esaminate tutte le unità Il campione risultante si compone di 20 unità

59 59/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill La stima della media con il CGRA GrappoliN. unità per grappolo UnitàTotale di grappolo 1αA1αA B1BαBAB1BαBA Y 11 … Y 1β …Y 1B 1 Y α1 … Y αβ …Y αBα Y A1 … Y Aβ …Y AB A tY1tYαtYAtY1tYαtYA Campione di a grappoli; probabilità di inclusione: a/A Stimatore fondamentale della media: Num. campionaria:

60 60/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill La stima della media con il CGRA N/A = n/a : Media delle osservazioni campionarie Dimensione media dei grappoli nella popolazione = Dimensione media dei grappoli nel campione

61 61/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill La stima della varianza con il CGRA Varianza della media: Dove: f = a/A : frazione di campionamento NB: (stima varianza del totale) corrisponde alla stima della varianza di Y nel CCS: NB: var( ) corrisponde alla stima della varianza di nel CCS:  Stimatore della media: (f = n/N)

62 62/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Pro e contro del CGRA Pro Pro:  Effettuare la rilevazione solo su alcuni grappoli è molto meno dispendioso rispetto al CCS. Soprattutto se: a) si rende necessario un contatto diretto; b) le unità sono caratterizzate da dispersione sul territorio  Particolarmente vantaggioso quando per le unità appartenenti ai grappoli non si dispone di una lista Contro Contro:  E’ in genere meno efficiente: i raggruppamenti naturali di unità tendono ad essere omogenei al loro interno ed eterogenei tra loro (ma la perdita di efficienza si può eventualmente compensare aumentando la dimensione del campione)

63 63/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Campionamento a due stadi Nella popolazione vengono individuati: - raggruppamenti di unità (grappoli) denominati unità di primo stadio unità di primo stadio (es: comuni) - unità elementari appartenenti alle unità di primo stadio unità di secondo stadio denominate unità di secondo stadio (es: famiglie, persone ) Lo schema di campionamento a due stadi consiste: - nel selezionare casualmente un campione di unità di primo stadio - nel selezionare casualmente un campione di unità di secondo stadio da quelle di primo stadio Può essere visto come un campionamento a grappoli in cui si osserva solo una parte delle unità appartenenti ai grappoli campione (campionamento a grappoli a due stadi)

64 64/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Campionamento a due stadi Esempio: Indagine Istat sui consumi delle famiglie italiane. Invece di estrarre direttamente un CCS di famiglie dal complesso delle famiglie italiane (come nello schema di campionamento a grappoli), si procede in due fasi: 1)si estrae un certo numero di comuni campione (476) dall’insieme dei comuni italiani (dopo stratificazione degli stessi: 230 strati) 2) da ognuno dei comuni campione si estraggono alcune famiglie (in complesso ) Vantaggio organizzativo e di costi analogo a quello che si ottiene con il campionamento a grappoli: concentrazione della rilevazione in alcuni comuni, invece che dispersa in tutto il territorio

65 65/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill La tecnica di estrazione del CSTA - illustrazione 1° stadio sono estratte casualmente 3 UPS 2° stadio da ogni UPS selezionata sono estratte casualmente delle USS ( f = 1/2 )

66 66/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Pro e contro del CSTA Pro Pro:  nelle indagini con rilevazione diretta tramite intervistatori consente di ridurre tempi e costi, poiché riduce notevolmente la dispersione territoriale della rilevazione Contro Contro:  d i norma si verifica che le UPS sono omogenee al loro interno ed eterogenee tra loro. Di conseguenza il CSTA risulta meno efficiente del CCS Stessi pro e contro del campionamento a grappoli

67 67/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Tecniche di campionamento non probabilistico Non si applicano criteri di casualità nella selezione delle unità campionarie La selezione delle unità è lasciata all’arbitrio di chi deve raccogliere i dati Trovano impiego nelle ricerche di mercato e nei sondaggi di opinione (in particolare nei casi in cui non si dispone di una lista) Esempio: Indagine per rilevare le opinioni dei clienti di un supermercato riguardo le promozioni effettuate su alcuni prodotti tramite interviste fatte all’uscita a clienti scelti liberamente dai rilevatori

68 68/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Tecniche di campionamento non probabilistico Vantaggi Vantaggi:  la semplicità organizzativa  i bassi costi di realizzazione  la velocità di esecuzione Limiti: - l’arbitrio di chi raccoglie i dati può comportare una distorsione da selezione del campione - non è possibile effettuare una stima della precisione dei risultati

69 69/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il campionamento per quote Il metodo si basa sulla riproduzione nella composizione del campione di alcune caratteristiche distributive note della popolazione, nonostante che: non si dispone di una lista di campionamento non si applicano criteri di casualità nella selezione delle unità campionarie Esempio: Indagine per rilevare le opinioni dei clienti di un supermercato riguardo le promozioni effettuate su alcuni prodotti tramite interviste fatte all’uscita a clienti scelti dai rilevatori, ma in modo che il campione rispecchi la composizione dell’insieme dei clienti secondo il genere e l’età

70 70/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Il campionamento per quote Fasi del metodo: 1.Si individuano le caratteristiche rilevanti della popolazione da riprodurre nel campione (esempio: genere e/o età degli individui) 2.Attraverso idonee fonti statistiche si calcola il peso percentuale dei corrispondenti gruppi sul totale della popolazione 3.Stabilita la numerosità campionaria, essa è ripartita tra i gruppi individuati in modo che il campione rispecchi la composizione della popolazione 4.Ai rilevatori sono assegnate le quote, ovvero il numero di interviste da effettuare liberamente in ognuno dei gruppi

71 71/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Profilo dell’errore Errore statistico: Errore statistico: differenza tra il valore vero - relativo ad una certa caratteristica della popolazione - ed il valore osservato sui dati campionari Scomposizione dell’errore statistico in: 1. errore campionario: 1. errore campionario: derivante dal fatto che si esamina solo un campione della popolazione, anziché la sua totalità 2. errore non campionario: 2. errore non campionario: derivante da imprecisioni presenti nelle diverse fasi dell’indagine Classificabile in diversi tipi di errore a seconda delle fonti

72 72/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill L’errore campionario intervallodi confidenza. Nel c La stima dell’errore campionario definisce l’intervallo di confidenza. Nel campionamento casuale semplice: Errorecampionario Errore campionario: Errore standard Errore standard:

73 73/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill L’errore campionario l’ errore campionario è tanto più grande Sulla base della sua espressione si deduce che l’ errore campionario è tanto più grande: maggiore è il livello di fiducia  quanto maggiore è il livello di fiducia che si vuole avere nella stima  i valori dei coefficienti z α/2 crescono al crescere del livello di fiducia più elevata è la variabilità della caratteristica  quanto più elevata è la variabilità della caratteristica studiata nella popolazione  tale variabilità si riflette in quella osservata sul campione (e quindi sulla varianza e sull’errore standard della media campionaria) minore è la dimensione del campione  quanto minore è la dimensione del campione  legata alla varianza della media campionaria secondo una proporzione inversa

74 74/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill L’errore campionario - Esempio - Popolazione di imprese ( N = 10000); - Estratte 400 unità ( n = 400) mediante CCS - Stima della media del fatturato: 495 (migliaia di euro); - Stima della varianza: 2500 (migliaia di euro). La stima dell’errore campionario, in corrispondenza di un livello di fiducia del 95%: Conclusione: nella stima della media del fatturato delle aziende - per un livello di fiducia del 95% - si può commettere un errore pari a 4,8 migliaia di euro, per difetto o per eccesso Ovvero, al 95% di probabilità, il valore vero incognito si trova nell’intervallo di confidenza [ ,8; ,8]

75 75/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill L’errore campionario - Esempio Per una diversa numerosità campionaria: n = 300 (e a parità di livello di fiducia e stima della varianza nella popolazione) Errore campionario: Intervallo di confidenza: [495 – 5,6; ,6]

76 76/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Calcolo numerosità campionaria in base all’errore campionario massimo Stabilita prima di estrarre il campione in base all’errore campionario massimo ( e ) che si è disposti ad accettare Come si fissa l’errore massimo e ? varianza teorica della media campionaria A partire dalla varianza teorica della media campionaria nel CCS:

77 77/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Calcolo numerosità campionaria Da cui deriva il valore teorico dell’errore standard: e il valore teorico dell’errore campionario: da cui si ottiene n in funzione di e (e di altri parametri):

78 78/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Calcolo numerosità campionaria Poiché la varianza della caratteristica nella popolazione S 2 Y è ignota, in genere si ricorre a:  una misura della variabilità derivante da eventuali indagini precedenti  una stima proveniente da un’indagine pilota

79 79/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Calcolo numerosità campionaria stima di una frequenza Caso di stima di una frequenza Variabile dicotomica: Y = 1 (presenza attributo); Y = 0 (assenza) La numerosità campionaria può essere determinata assumendo il valore massimo della varianza, che si ha per P =0.5, e sostituendolo nella formula generale, ottenendo: La varianza di Y nella popolazione: S 2 Y = (1 – P) 2 P + (0 – P) 2 (1 – P) = P (1 - P)

80 80/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Calcolo numerosità campionaria - Esempio Popolazione di N = imprese Calcolo della numerosità campionaria per la stima della proporzione di imprese che hanno fatto investimenti nel triennio precedente, con - un errore massimo del 3% in più o in meno (e = 0.03) - un livello di fiducia del 95% (α = 0.05; z α/2 = 1.96) Per N = ? Per N = ? n = 1066 n = 1056

81 81/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Calcolo numerosità campionaria - Esempio Per P = 0.2 ? (e N = 10000) Bastava un campione più piccolo: Oppure (per n = 964 ) avremo un errore campionario minore: e quindi un intervallo di confidenza meno ampio

82 82/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Errore non campionario Casuale Sistematico è attribuibile unicamente al caso e i suoi effetti tendono ad annullarsi all’aumentare della numerosità campionaria 1.di copertura 2.di non risposta 3.di misura 4.di codifica e archiviazione dei dati a.totale b.parziale imputabile a insufficienze metodologiche o organizzative che possono originare in ogni fase di una indagine

83 83/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Errore di copertura Legato al grado di corrispondenza tra le unità elencate nella lista di campionamento e quelle effettive della popolazione Due tipi di errore: Sovracopertura 1. Sovracopertura - la lista include unità non appartenenti alla popolazione (es: imprese non più attive presenti nell’archivio delle imprese) Sottocopertura 2. Sottocopertura - la lista esclude unità appartenenti alla popolazione (es. elenchi telefonici) si diagnostica con un quesito iniziale per verificare l’appartenenza si risolve eliminando le unità e con un campione di riserva per la loro sostituzione si diagnostica analizzando le caratteristiche della lista si risolve con riponderazione o post-stratificazione (più avanti)

84 84/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Errore di non risposta Deriva dalla mancata osservazione sulla unità di rilevazione di alcune o di tutte le caratteristiche oggetto di studio Si distingue in: a. non risposta totale a. non risposta totale - se riguarda tutte le caratteristiche b. non risposta parziale b. non risposta parziale - se riguarda un numero contenuto di caratteristiche oggetto di indagine si previene con: motivazione unità selezionate; semplicità del questionario; solleciti; incentivi si risolve con: sostituzione unità; sovracampionamento; riponderazione, post-stratificazione si previene con: chiarezza domande; attenzione alla riservatezza si risolve con: imputazione dati mancanti (Cap. 3)

85 85/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Errori di non risposta o di copertura Esempio Esempio (mancate risposte): M F TOT Popolazione: (40%) (60%) (100%) Campione: (40%) (60%) (100%) Rispondenti (30%) (70%) (100%) N. R Tassi di risposta: 56.2% 87.5% 75% Effetto sul campione delle non risposte totali o della sotto-copertura: alcune componenti della popolazione sottorappresentate altre sovrarappresentate composizione del campione diversa da quella della popolazione 

86 86/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Errori di non risposta o di copertura Esempio Esempio (sottocopertura): M F TOT Popolazione: (40%) (60%) (100%) Campione selezionato: (30%) (70%) (100%) Rispondenti: (30%) (70%) (100%) Tassi di risposta: 75% 75% 75%

87 87/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Riponderazione riponderazione Nota la composizione della popolazione secondo una o più caratteristiche, la riponderazione consiste: - nell’aumentare il peso delle unità campionarie sotto- rappresentate - e nel diminuire il peso di quelle sovra-rappresentate (fino a riportare i pesi a quelli noti nella popolazione) Informazioni necessarie: Composizione della popolazione (oltre che del campione) secondo le k modalità della caratteristica (o delle caratteristiche) utilizzata/e per la riponderazione Esempio: % di M e di F nella popolazione e nel campione Caso di studio: % di imprese di ogni settore e classe dimensionale nella popolazione e nel campione

88 88/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Riponderazione Composizione della popolazione e del campione secondo le k modalità della caratteristica: Popolazione: Campione: Pesi di riponderazione: (per ogni unità j appartenente al sottocampione i ): unità sottorappresentate: peso aumentato unità sovrarappresentate: peso diminuito Somma dei pesi:

89 89/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Riponderazione Stima della media Stima della media: Esempio Esempio (mancate risposte): M F TOT Popolazione: (40%) (60%) (100%) Campione: (40%) (60%) (100%) Rispondenti (30%) (70%) (100%) Pesi riponderazione:

90 90/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Riponderazione - Caso di studio Popolazione Campione Numero imprese settore k, dim. s Pfirms ks Sfirms ks Numero imprese totali Pfirms Sfirms Pesi relativi (per ogni impresa j appartenente al sottocampione dello strato ks ): Composizioni della popolazione e del campione in base alla loro articolazione in strati: Pesi assoluti:

91 91/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Post-stratificazione Primo passo: classificazione del campione secondo le k modalità di una caratteristica  classificazione a posteriori del campione in k strati (post-stratificazione) Secondo passo: calcolo delle medie nei k strati costruiti a posteriori e applicazione della formula del campionamento stratificato per la stima della media nella popolazione

92 92/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Post-stratificazione - Esempio Esempio Esempio (mancate risposte): M F TOT Popolazione (40%) (60%) (100%) Rispondenti (30%) (70%) (100%) N. R Post-stratificazione: Pesi ( N i / N ) Medie Senza tenere conto della diversa incidenza delle mancate risposte ?

93 93/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Post-stratificazione Post-stratificazione = Riponderazione

94 94/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le tipologie di quesiti modalità di risposta Classificati in base alle modalità di risposta domande a risposta aperta - domande a risposta aperta (o domande aperte): - non sono fornite le categorie di risposta; - l’intervistato deve fornire un valore numerico esatto oppure rispondere con parole proprie domande a risposta chiusa domande a risposta chiusa (o domande chiuse): - sono elencate le possibili categorie di risposta tra cui il rispondente deve indicarne una o più di una

95 95/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Domande aperte vs domande chiuse Pro aperte:  consentono l’espressione libera del rispondente  consentono l’acquisizione di dati numerici esatti  nelle fasi di test del questionario consentono di individuare le categorie di risposta per le domande chiuse della versione finale Contro aperte:  interpretazione soggettiva della domanda  carico di lavoro più elevato con maggiori probabilità di errore e/o abbandono

96 96/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le scale di valutazione Utilizzate nella rilevazione di opinioni o atteggiamenti Esempio: accordo/disaccordo  molto, abbastanza, … Oppure: soddisfazione/insoddisfazione Trovano impiego nei sondaggi di opinione e nelle ricerche di mercato

97 97/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le scale di valutazione Scala continua: opzioni di risposta un insieme continuo di valori Scala ancorata: possibilità di selezionare valori interi all’interno di un certo intervallo Totalmente Abbastanza Né d’accordo Abbastanza Totalmente in disaccordo in disaccordo né in disaccordo d’accordo d’accordo

98 98/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Classificazione dei caratteri statistici Principale distinzione Caratteri quantitativi:  Caratteri quantitativi: che derivano da misurazioni o operazioni di conteggio (es: reddito, n. di addetti) Caratteri qualitativi:  Caratteri qualitativi: in cui è assente il concetto di quantità (es: condizione occupazionale) scala di misurazione Classificazione più fine, fondata sulla scala di misurazione: da essa dipendono le operazioni che si possono compiere e i confronti ammissibili tra unità statistiche

99 99/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill La scala di misurazione Caratteri qualitativi Scala nominale: Scala nominale: le modalità non possono essere messe in ordine secondo una sequenza logica (es: nazionalità; forma giuridica) Confronto ammissibile tra due unità statistiche: se sono uguali o diverse rispetto a quel carattere Scala ordinale: Scala ordinale: le modalità possono essere messe in ordine secondo una sequenza logica (es: titolo di studio, aspettative produzione) Confronto ammissibile tra due unità statistiche: se l’una ha modalità maggiore o minore dell’altra secondo quel carattere

100 100/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill La scala di misurazione Caratteri quantitativi Scala di intervalli: Scala di intervalli: le modalità non possiedono uno “zero assoluto” e quindi non possono essere misurate partendo da un’origine che indichi assenza della quantità Esempio: temperatura; zero convenzionale, diverso a seconda della scala adottata Confronto ammissibile: per differenza tra i valori assunti dal carattere sulle unità Esempio: l’aumento di calore che si verifica tra 0° e 20° della scala Celsius è lo stesso che si verifica tra 20° e 40°. Ma non si può affermare che il caldo a 40° è doppio che a 20°

101 101/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill La scala di misurazione Caratteri quantitativi Scala di rapporti: Scala di rapporti: le modalità possono essere misurate partendo da un’origine che rappresenta l’assenza della quantità (Esempio: fatturato) Confronto ammissibile: rapporto tra i valori assunti dal carattere in due diverse unità (Esempio: se il rapporto è 2 il fatturato è doppio)

102 102/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill La classificazione dei caratteri statistici


Scaricare ppt "1/89 Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill Le indagini campionarie  Le fasi di un’indagine campionaria  Il campionamento:"

Presentazioni simili


Annunci Google