La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

raccolta e trattamento delle informazioni

Presentazioni simili


Presentazione sul tema: "raccolta e trattamento delle informazioni"— Transcript della presentazione:

1 raccolta e trattamento delle informazioni
statistica raccolta e trattamento delle informazioni alessandro polli facoltà di scienze politiche, sociologia, comunicazione 4 marzo 2015

2 Alcune definizioni Popolazione statistica
Per popolazione si intende l'insieme degli elementi che sono oggetto di studio, ovvero l'insieme delle unità (dette unità statistiche) sulle quali viene effettuata la rilevazione delle modalità con le quali il fenomeno studiato si presenta Tali unità presentano tutte almeno una caratteristica comune, che viene accuratamente definita al fine di delimitare il loro insieme Esempio Con il termine di "Italiani" si può intendere sia le persone di nazionalità italiana, anche se residenti all'estero, sia le persone residenti in Italia, indipendentemente da quale sia la loro nazionalità

3 Alcune definizioni Popolazione statistica
Una popolazione statistica può essere (e a volte deve essere) definita anche rispetto al tempo Ad esempio si possono considerare gli Italiani che risultano residenti in Italia alle ore 12 di un dato giorno (popolazione definita secondo una caratteristica riferita ad un dato istante di tempo), oppure quelli che sono risultati residenti dal 1º gennaio al 31 dicembre di un dato anno (popolazione definita secondo una caratteristica riferita ad un intervallo di tempo)

4 Alcune definizioni Popolazione statistica
Per popolazione statistica non intendiamo esclusivamente un insieme biologico Costituisce una popolazione anche l'insieme delle lampadine prodotte da un'azienda in un dato periodo di tempo, l'insieme delle nazioni aderenti all’Unione europea in un dato anno, l'insieme delle imprese presenti sul territorio della provincia di Como, ecc.

5 Alcune definizioni Popolazione statistica Si distingue anche tra:
popolazione reale o empirica: un insieme le cui unità possono essere tutte concretamente osservate (ad esempio l'insieme delle persone, delle abitazioni o delle aziende oggetto di un censimento) popolazione virtuale o teorica: un insieme definibile con accuratezza ma non concretamente osservabile (ad esempio le possibili sestine estraibili nel gioco del superenalotto o l'insieme di tutti i possibili valori di una misura fisica)

6 Alcune definizioni Popolazione e campione
Le informazioni di interesse per l'analisi statistica possono costituire: Popolazione: se il collettivo comprende tutte le unità omogenee rispetto ad una caratteristica comune; Campione: se il collettivo in esame costituisce un sottoinsieme della popolazione di riferimento

7 Alcune definizioni Popolazione e campione
Le indagini su popolazione (o censuarie) riguardano l'intera popolazione e pur essendo più affidabili riguardo al parametro oggetto d'indagine presentano alcuni notevoli svantaggi: maggiori costi tempi più lunghi minore accuratezza e minori risorse concentrate sul controllo della qualità della rilevazione (quello che si guadagna in estensione si perde in profondità)

8 Alcune definizioni Popolazione e campione
Le rilevazioni campionarie, viceversa, sono utili per fare inferenza (ossia per desumere dal campione stesso informazioni relative all'intera popolazione) e presentano innegabili vantaggi: meno costose più rapide nella loro esecuzione più accurate e con maggiori risorse concentrate nei controlli di qualità della rilevazione

9 Alcune definizioni Popolazione e campione
L'indagine censuaria fornisce il valore «vero» dei parametri di interesse (parametri di posizione, di variabilità, di forma … ) L’indagine campionaria restituisce una sua stima al quale è associato un certo grado di fiducia (ovvero un'incertezza) quantificabile quando la formazione del campione risponde a determinati criteri di tipo probabilistico Il campionamento è adottato quando si vuole conoscere uno o più parametri di una popolazione, senza doverne analizzare ogni elemento: questo per motivi di costo (monetario), di tempo, di qualità o di disagio o perché analizzare la popolazione è impossibile su un piano operativo (ad esempio, studio di una popolazione di batteri)

10 Alcune definizioni Popolazione e campione
La scelta della strategia di campionamento avviene in base alle proprietà degli stimatori campionari dei parametri della popolazione oppure per fornire risposta ai problemi di costo, tempo citati in precedenza I concetti chiave da tenere in mente sono: La base di campionamento La popolazione d'analisi e la popolazione di rilevazione Il piano di campionamento e il disegno di campionamento L’errore di campionamento

11 Alcune definizioni La selezione del campione di osservazioni
Modalità di selezione del campione sono: Scelta di comodo (campionamento per quote o convenience sampling) Scelta ragionata (campionamento ragionato o judgemental sampling) Scelta casuale (campionamento casuale o random sampling) Scelta probabilistica (campionamento probabilistico o probabilistic sampling) Nella pratica quotidiana dei sondaggi di opinione e delle ricerche di mercato vengono usati tutti e quattro gli approcci

12 Alcune definizioni Il campionamento per quote
Il campionamento per quote è un particolare campionamento a scelta ragionata, realizzato con modalità organizzative del campionamento di comodo per il quale si prescinde completamente dalla disponibilità di una lista di appartenenti alla popolazione obiettivo In altri termini i vincoli imposti al campione sono solo quelli imposti dalle quote (che devono essere aggiornate e statisticamente attendibili). Esempi di caratteri possono essere: Sesso ed età Zona di residenza Livello di istruzione Condizione professionale

13 Alcune definizioni Il campionamento per quote
Quindi campione e popolazione devono avere pari quote di persone con un determinato carattere secondo l'idea (presunta e non verificata) che, a parità di composizione strutturale, il campione possa ritenersi rappresentativo della popolazione di riferimento La maggiore controindicazione del metodo consiste nel fatto che la disponibilità all'intervista - essendo determinata da fattori quali abitudini, reperibilità e predisposizione psicologica - può condurre alla sottostima sistematica della variabilità esistente nella popolazione (fatto tipico nel campionamento per quote)

14 Alcune definizioni Il campionamento ragionato
Il campionamento ragionato è una procedura di selezione del campione tale per cui la scelta del profilo del campione è demandata completamente a chi predispone il piano di rilevazione dell'indagine, sulla base di una teoria sostantiva che dà conto del fenomeno oggetto di studio. Il principio che guida questa procedura è quello della saturazione teorica per il quale si decide di sospendere il processo di incremento della base empirica quando il contributo che potrebbe essere ottenuto dall'aggiunta di un altro caso potrebbe essere nullo Di solito viene effettuato mediante la scelta dei cosiddetti testimoni privilegiati (o opinion leaders) e la dimensione del campione viene fissata di norma in base a criteri di pura convenienza. Uno dei più recenti metodi di campionamento ragionato è il c.d. snowball sampling Per tali caratteristiche il sondaggio è molto rapido, poco costoso e la selezione del campione molto snella

15 Alcune definizioni Il campionamento casuale
Il campionamento casuale affida la scelta del campione al caso e non deve essere influenzata, più o meno consciamente, da chi effettua l'indagine Le caratteristiche essenziali di un campionamento casuale semplice sono: tutte le unità della popolazione hanno eguale probabilità di fare parte del campione ogni campione di ampiezza k ha la stessa probabilità di essere formato

16 Alcune definizioni Il campionamento casuale
Un modo semplice per operare tale campionamento consiste nel numerare tutte le unità della popolazione, mettere in un'urna tante palline numerate, tutte uguali fra loro, quante sono le unità della popolazione e quindi sorteggiare da tale urna le palline per formare il campione Invece dell'urna si preferisce ricorrere a una tavola di numeri casuali. Le tavole dei numeri casuali si costruivano, un tempo, con metodi empirici; attualmente si utilizzano appositi software; per utilizzare le tavole dei numeri casuali, si parte da un punto qualunque, solitamente, estratto a sorte, e si procede in orizzontale, o in verticale, o in diagonale.

17 Alcune definizioni

18 Alcune definizioni

19 Alcune definizioni Il campionamento casuale
Conoscendo la distribuzione della popolazione è possibile: Determinare a priori il rischio d’errore a cui ci si espone nella stima delle caratteristiche di interesse (errore casuale di campionamento) estendere mediante processi di inferenza i risultati all’intera popolazione

20 Alcune definizioni Il campionamento probabilistico
Il campionamento probabilistico, del quale il campionamento casuale è un caso particolare, si ha quando ogni soggetto o oggetto, di cui è composta la popolazione, ha una probabilità diversa da zero di essere incluso nel campione Questo tipo di campione garantisce la rappresentatività, mentre nei campioni non probabilistici non si possono generalizzare i risultati di indagine. Infatti, il campione probabilistico e quello casuale sono quei campioni i cui risultati possono essere estesi con un certo livello di fiducia (detto anche livello di confidenza) alla popolazione Tra le principali metodologie di campionamento probabilistico ricordiamo:

21 Alcune definizioni

22 Alcune definizioni Il campionamento probabilistico
Campionamento stratificato. Il campionamento stratificato è una procedura di campionamento probabilistico che si applica nella statistica inferenziale Il primo passo da compiere è la suddivisione della popolazione, dalla quale si intende estrarre il campione, in sottopopolazioni dette strati, il più possibile omogenei rispetto alla variabile di cui si intende stimare il valore, utilizzando un'altra variabile correlata a quella che costituisce l'oggetto dello studio Successivamente si estrae, mediante una procedura di campionamento casuale semplice (cioè con reintroduzione), il campione relativo a ciascuno strato, ed infine si uniscono tali campioni, ottenendo in questo modo il campione globale

23 Alcune definizioni Il campionamento probabilistico
Una limitazione del campionamento stratificato è che lo strato di tutte le unità di campionamento, rispetto ai fattori su cui è basata la stratificazione, deve essere noto prima di scegliere il campione Non è indispensabile che il numero dei soggetti che compongono il campione all'interno di ciascuno strato sia proporzionale alla dimensione dello strato nella popolazione. In altre parole, si può effettuare un campionamento «non proporzionale» Naturalmente con un campionamento non proporzionale, l’inferenza sulla popolazione andrà debitamente corretta

24 Alcune definizioni Il campionamento probabilistico
Tra i pregi legati all’utilizzo di un campionamento stratificato vi sono una migliore rappresentatività e un migliore sfruttamento delle informazioni disponibili sulla popolazione che altre tecniche di campionamento non hanno. La conseguenza pratica di tutto ciò è la capacità di generare stime più efficienti Si ricorda inoltre come in caso di campionamento stratificato la varianza risulta avere valori più bassi rispetto ad esempio ad un campionamento casuale semplice

25 Alcune definizioni Il campionamento probabilistico
Campionamento a grappoli. Il campionamento a grappoli è un tipo di campionamento che non prevede l'estrazione di un singolo individuo come rappresentante della popolazione, ma di grappoli di individui con tutte le unità "appartenenti" al grappolo Ad esempio, classi scolastiche, reparti di lavoro o camere di ospedale vengono chiamati "grappoli", e inclusi nel campione Il vantaggio principale del campionamento a grappoli sta nel fatto che ogni grappolo al suo interno non è omogeneo, e quindi ha una parte di tutti gli elementi del campione, mentre i grappoli tra loro sono omogenei

26 Alcune definizioni Il campionamento probabilistico
Campionamento a due o più stadi. Il campionamento a due o più stadi è un piano di campionamento complesso, nel quale la popolazione viene suddivisa in strati (p.es. divisa per comune di residenza), solo alcuni dei quali vengono estratti a caso e all'interno di questi strati estratti si estrae a sua volta un campione casuale secondo un ulteriore piano di campionamento Solitamente si tratta di una variante del campionamento a grappoli in cui però all’interno dei grappoli estratti non vengono esaminate tutte le unità elementari presenti ma solo una parte di esse estratte casualmente (normalmente un campione casuale semplice)

27 Alcune definizioni Il campionamento probabilistico
Per esempio, ipotizziamo che per ridurre i costi di formazione del personale, decidiamo di non effettuare un'indagine in tutti i comuni di una regione, ma di scegliere a caso alcuni di questi In questo modo si riduce eventualmente pure il costo dovuto agli spostamenti del personale di rilevazione La scelta casuale dei comuni può avvenire con un qualsiasi piano di campionamento, per esempio con probabilità di estrazione proporzionale alla dimensione del comune. I comuni formano così il primo strato. Una volta scelti i comuni, si estrae in ciascuno di loro un campione di famiglie, p.es. seguendo un piano di campionamento semplice. Le famiglie formano così il secondo strato. All'interno delle famiglie si decide di intervistare soltanto una persona scelta a caso. Il campionamento delle persone forma così il terzo stadio

28 L’organizzazione delle informazioni
La matrice dati e le analisi preliminari Per realizzare una analisi statistica non è sufficiente raccogliere dati, bisogna anche organizzarli in modo appropriato (cioè mantenendo un certo ordine … ) Sia che i dati provengano da fonti secondarie o da rilevazioni ad hoc, essi vanno organizzati in modo da rendere possibili le analisi statistiche, che spesso coinvolgono una pluralità di variabili

29 L’organizzazione delle informazioni
La matrice dati e le analisi preliminari Organizzare i dati in modo appropriato significa strutturarli convenientemente, al fine di consentirne l’analisi. La struttura adottata per organizzare i dati è la matrice dati Definiamo matrice dati una tabella bidimensionale composta da un certo numero di righe e di colonne Su ogni riga riportiamo le informazioni riferite alle singole unità di osservazione, o unità statistiche. Nelle colonne vengono invece collocati gli attributi delle unità statistiche, cioè la caratteristica o le caratteristiche di interesse

30 L’organizzazione delle informazioni
La matrice dati e le analisi preliminari Ad esempio, se si deve realizzare una analisi di informazioni statistiche raccolte tramite una indagine campionaria sulle imprese, nelle righe della matrice dei dati verranno collocate le diverse imprese del campione, mentre nelle colonne verranno collocate le variabili che sono state rilevate in ciascuna impresa Le variabili possono essere di tipologie eterogenee per livello di misurazione: alcune quantitative, come il volume dei ricavi o il numero dei dipendenti; altre qualitative ordinali, come il titolo di studio del titolare dell’impresa; altre ancora qualitative sconnesse, come la forma giuridica Le analisi che potranno essere compiute e gli indici statistici che potranno essere calcolati naturalmente saranno diversi a seconda del tipo di variabili coinvolte

31 L’organizzazione delle informazioni
La matrice dati e le analisi preliminari Quali sono le principali analisi preliminari che possono essere condotte su matrici di dati del tipo accennato? In primo luogo, possiamo condurre analisi sui cosiddetti «profili di colonna» e quelle sui cosiddetti “profili di riga” della matrice. I profili di colonna si riferiscono alle distribuzioni delle singole variabili tra le unità statistiche, mentre i profili di riga descrivono le singole unità statistiche sulla base delle molteplici variabili su di esse rilevate

32 L’organizzazione delle informazioni
La matrice dati e le analisi preliminari Per quanto riguarda le analisi sui profili di colonna, possono essere condotte analisi univariate, concernenti cioè le singole variabili, attraverso indici che sono oggetto di approfondita trattazione nei corsi di statistica di base. Nel caso di variabili quantitative, ciò equivale a calcolare i principali indici di posizione, di variabilità, di forma, di concentrazione (nel caso di caratteri trasferibili) Quanto alle principali analisi bivariate, riguardano in particolare il grado di associazione tra coppie di variabili presenti nella matrice dei dati

33 L’organizzazione delle informazioni
La matrice dati e le analisi preliminari Con riferimento ai profili riga, le analisi che possono essere svolte mirano principalmente a misurare la distanza e la similarità tra unità statistiche Gli indici di associazione o di distanza costituiscono spesso il punto di partenza per analisi statistiche più complesse, quali la formulazione dei modelli di regressione multivariata e la realizzazione di diverse analisi multidimensionali (analisi delle corrispondenze, analisi delle corrispondenze multiple, analisi in componenti principali)

34 L’organizzazione delle informazioni
La matrice dati e le analisi preliminari Qui di seguito un semplice esempio di matrice dati:

35 L’organizzazione delle informazioni
La matrice dati e le analisi preliminari Una volta strutturata la matrice dei dati nella sua forma più comune, è auspicabile verificare la qualità dei dati contenuti nella matrice, in particolare l’eventuale presenza di valori anomali (outliers) e, nel caso di indagine tramite intervista, la presenza di mancate risposte parziali

36 L’organizzazione delle informazioni

37 L’organizzazione delle informazioni

38 L’organizzazione delle informazioni
La matrice dati e le analisi preliminari Come accennato, i caratteri osservati possono essere di natura eterogenea. Si possono infatti avere: caratteri qualitativi sconnessi, o su scala nominale, che prevedono modalità non numeriche e non ordinabili; caratteri qualitativi ordinali, o su scala ordinale, che prevedono modalità non numeriche ma tra loro ordinabili; caratteri quantitativi, sia su scala ad intervalli che su scala di rapporti, definiti su insiemi numerici La matrice dei dati è spesso caratterizzata dalla compresenza di variabili sia quantitative, sia qualitative

39 Cross-section, serie storiche, panel
Dati cross-section Definiamo cross-section una particolare organizzazione della matrice di dati. I dati cross-section sono riferiti a un certo numero di unità osservazionali, o unità statistiche, considerate in un certo punto del tempo o senza alcun riferimento alla variabile tempo. L’analisi di una cross-section di solito consiste nel confronto tra unità statistiche

40 Cross-section, serie storiche, panel
Dati cross-section Esempio Ipotizziamo di voler misurare l’attuale diffusione dell’obesità in una popolazione. A questo scopo possiamo estrarre un campione casuale di 1000 unità dalla popolazione (definito anche come una cross-section della popolazione), misurare il peso e l’altezza in queste unità e calcolare l’incidenza dell’obesità nel campione osservato Tale cross-section ci fornisce un’istantanea della popolazione oggetto di studio, nel momento in cui lo studio è stato condotto. Notare che sulla base dell’informazione cross- section non possiamo sapere se il fenomeno è in aumento o in diminuzione: possiamo solo descrivere l’attuale incidenza dell’obesità nella popolazione

41 Cross-section, serie storiche, panel
Dati cross-section Altro semplice esempio di cross section è il numero di stranieri residenti nelle regioni italiane al 1° gennaio 2013:

42 Cross-section, serie storiche, panel
Dati cross-section In una rolling cross-section sia l’inserimento di un’unità statistica nel campione, sia il momento in cui l’unità statistica è inserita nel campione, sono determinati casualmente Ad esempio, ipotizziamo di svolgere un sondaggio politico su un campione di 1000 elettori. In una rolling cross-section prima si selezionano casualmente le unità statistiche componenti il campione, poi si assegna casualmente a ciascuna unità una data in cui sarà intervistata

43 Cross-section, serie storiche, panel

44 Cross-section, serie storiche, panel
Serie cronologiche Un semplice esempio di serie cronologica è quella relativa al prodotto interno lordo italiano, espresso a valori correnti in milioni di euro dal 2000 al 2013:

45 Cross-section, serie storiche, panel
Serie cronologiche L’analisi più interessante su una serie storica è quella relativa alle sue caratteristiche dinamiche, cioè al «modo» in cui il fenomeno osservato varia nel tempo Cerchiamo di individuare il processo generatore del fenomeno osservato soprattutto a fini di previsione Tuttavia, la maggior parte dei fenomeni osservati è di tipo stocastico e si rivela quindi impossibile elaborare previsioni prive di errore

46 Cross-section, serie storiche, panel

47 Cross-section, serie storiche, panel
Serie cronologiche Nell’approccio classico analizzare una serie cronologica significa filtrare le informazioni al fine di individuare un certo numero di componenti separabili, quali il trend o tendenza di fondo, che generalmente si ricollega all’evoluzione di lungo periodo di alcune variabili esterne al modello il ciclo, che si manifesta come andamento oscillatorio attorno al trend e che riflette determinanti interne al modello di analisi la stagionalità, naturale o determinata da comportamenti umani il residuo è la componente stocastica della serie storica osservata e riflette variabilità residua, cioè non spiegata dalla componente strutturale

48 Cross-section, serie storiche, panel
Serie cronologiche L'approccio moderno nell’analisi delle serie storiche, invece, depura le osservazioni della componente strutturale (attraverso procedure che presenteremo in seguito) e si concentra nello studio delle caratteristiche matematico-probabilistiche della componente stocastica, cioè sul processo generatore delle osservazioni

49 Cross-section, serie storiche, panel
Dati panel Definiamo dati panel (o più semplicemente panel) un set di informazioni statistiche osservate su due dimensioni (tipicamente una dimensione cross-section e una dimensione temporale) Un panel è definito multidimensionale quando il fenomeno è osservato su tre o più dimensioni

50 Cross-section, serie storiche, panel
Dati panel Un semplice esempio di panel è rappresentato dal numero medio di occupati totali nelle regioni italiane tra il 2007 e il 2011, espresso in migliaia di unità:

51 Cross-section, serie storiche, panel
Dati panel Con riferimento alla tabella precedente, le informazioni si riferiscono a 20 unità statistiche (le regioni italiane) per un periodo compreso tra il e il 2011 Leggere la tavola nel senso delle colonne ci restituisce una cross- section (gli occupati nelle regioni nel 2007, ad esempio) Leggere la tavola nel senso delle righe ci restituisce una serie storica (gli occupati in Piemonte tra il 2007 e il 2011)

52 Cross-section, serie storiche, panel
Dati panel Come vedremo in seguito, esistono tecniche di fondamentale importanza per la rappresentazione bidimensionale di panel multidimensionali, in cui con riferimento ad una cross-section di unità statistiche (prima dimensione) è seguito nel tempo (seconda dimensione) un set di variabili di interesse per un certo fenomeno (ad esempio, nel caso della spesa media mensile per acquisto di una certa marca di cosmetico, potrebbero essere rilevanti il reddito medio mensile, il genere, l’età, il titolo di studio, … )


Scaricare ppt "raccolta e trattamento delle informazioni"

Presentazioni simili


Annunci Google