Statistica sociale Modulo A A.A. 2012-2013 Prof.ssa Barbara Baldazzi Dottore Mario Mastrangelo Facoltà di Lettere e Filosofia Università di Tor Vergata Barbara.Baldazzi@uniroma2.it Mario.mastrangelo@uniroma2.it
Statistica sociale Modulo A Orario lezioni: Lunedì ore 11-13 aula T12A Giovedì ore 14-16 aula T12A Venerdì ore 11-13 aula T12A Orario ricevimento: Lunedì ore 13-14 Studio 26, Edificio B, Primo Piano (presso la stanza della Prof.ssa D.F. Iezzi)
Temi del corso OBIETTIVI: La statistica riveste un ruolo rilevante in tutti i settori, anche nell’ambito della comunicazione, del turismo, dei servizi educativi e sociali. La sintesi di un fenomeno collettivo attraverso opportuni strumenti permette, infatti, di aiutare la conoscenza, di fornire strumenti per la valutazione e di prendere decisioni in condizioni di incertezza. Il corso ha lo scopo di fornire allo studente metodi e strumenti per la rilevazione, la classificazione e l’interpretazione dei dati riguardanti fenomeni sociali, ponendo particolare attenzione alle logiche sottostanti la loro creazione, ai presupposti per la loro applicazione ai dati reali e all’interpretazione dei risultati. PROPEDEUTICITA': Non sono necessari prerequisiti particolari se non le conoscenze di base acquisite nel corso di studi della scuola secondaria di secondo grado di qualsiasi indirizzo.
Temi del corso Argomenti del corso: - Alcune definizioni generali: la statistica ed i suoi obiettivi, il collettivo e l’unità statistica. - Statistica descrittiva e statistica inferenziale. - Le fonti statistiche. - La distribuzione di un carattere e la sua rappresentazione grafica. - La sintesi di una distribuzione di un carattere: medie e variabilità. - Confronti fra grandezze. - La costruzione degli indicatori compositi. - Associazione tra due caratteri: contingenza, correlazione e regressione LABORATORIO: Analisi dei dati con l’utilizzo del foglio elettronico Excel. Dove possibile la didattica sarà "per esempi", si cercherà cioè di partire da casi concreti per presentare teorie e approcci.
Testi e modalità di esame Iezzi D.F. (2009). Statistica per le Scienze Sociali, Carocci, Roma. Durante il corso saranno messi a disposizione degli studenti ulteriori materiali didattici. L’esame consiste in una prova scritta e eventuale orale Probabilmente ci svolgerà una prova di esonero a metà dicembre
La statistica La statistica per le scienze sociali è un insieme di metodologie per la raccolta e l’analisi dei dati, il cui utilizzo consente di descrivere, valutare e prevedere i fenomeni sociali La statistica analizza, in termini quantitativi, i fenomeni collettivi, ossia studia i fenomeni per i quali bisogna fare delle osservazione su un insieme di comportamenti individuali. La statistica Progetta: la raccolta dei dati necessari per indagare un fenomeno Analizza: i fenomeni collettivi con opportuni metodi Prevede: riesce a formulare delle previsioni
Il fenomeno sociale Siamo in presenza di un fenomeno sociale se: Coinvolge una molteplicità di soggetti Ha ripercussioni sulla collettività È di tipo statistico, cioè analizza i fatti in termini quantitativi Il fenomeno statistico è tutto ciò che può essere direttamente o indirettamente osservato e riguarda una molteplicità di unità statistiche Le caratteristiche che determinano di analizzare e descrivere un fenomeno vengono denominate caratteri o variabili statistiche
Il fenomeno sociale L’unità elementare su cui vengono osservati i caratteri si chiama unità statistica. Un insieme di unità statistiche omogenee a una o più caratteristiche costituisce un collettivo statistico o popolazione. Un carattere può assumere differenti modalità in corrispondenza delle diverse unità del collettivo Le modalità devono essere Esaustive, cioè in grado di interpretare qualunque manifestazione del carattere (eventualmente inseriamo “altro”) Mutuamente esclusive, ogni elemento della popolazione deve possedere una sola modalità del carattere
Es. condizione occupazionale Possibili modalità: Occupato Occupato a tempo determinato Casalinga Pensionato Disoccupato Inabile al lavoro
Es. condizione occupazionale modalità complete Occupato a tempo indeterminato Occupato a tempo determinato Casalinga Pensionato Disoccupato Inabile al lavoro Studente Altro
CARATTERI QUANTITATIVI Variabili statistiche QUALITATIVI Mutabili statistiche discreti continui Normali o sconnessi ordinali rettilinei ciclici
Caratteri I caratteri qualitativi presentano modalità di tipo verbale (aggettivi, nomi, ecc) Qualitativi sconnessi (sesso, luogo di nascita, colore degli occhi, luogo di destinazione di un viaggio,…) se hanno per modalità denominazioni tra le quali non esiste e non è possibile stabilire un ordinamento Chiamiamo Xj la modalità della variabile X per l’unità j e Xi la modalità della variabile X per l’unità i Abbiamo le proprietà di Simmetria Xj = Xi Xi = Xj Transatività Xj = Xi e Xj = Xk Xi = Xk
Caratteri Qualitativi ordinali : se hanno per modalità denominazioni qualitative per le quali è possibile stabilire un ordinamento naturale (titolo di studio, grado di soddisfazione, posizione in graduatoria, mese …) Le relazioni ammesse tra le modalità sono quelle di: maggiore (>) minore (<) uguale (=) I qualitativi ordinali CICLICI: le modalità si ripetono in maniera ciclica e la scelta della prima modalità è frutto di una convenzione (i giorni della settimana, i mesi dell’anno)
Caratteri Quantitativi esprimono una misura o una quantità (numero di figli, km percorsi, voto ad un esame, numero di posti letto…) Discreti: se le modalità costituiscono un insieme discreto, ossia sono numeri interi 0,1,2 Continui: se le modalità costituiscono un insieme continuo, quindi sono tutti i numeri reali compresi in un determinato intervallo I caratteri quantitativi possono essere classificati in TRASFERIBILI e NON TRASFERIBILI, a seconda che si possa pensare di trasferire una parte del carattere tra le unità
Caratteri (o variabili) Tipo di carattere Operazioni che posso fare Qualitativi sconnessi = ≠ Qualitativi ordinati =, >, < Quantitativi =, >, <, +, - posso misurare di quanto è minore o maggiore
Matrice di dati X1 X2 X3 X4 X5 … Xp 1 X11 X12 X13 X14 X15 X1p 2 X21 6 X61 X62 X63 X64 X65 X6p n-1 Xn-11 Xn-12 Xn-13 Xn-14 Xn-15 Xn-1p n Xn1 Xn2 Xn3 Xn4 Xn5 Xnp
Statistica descrittiva e inferenza La statistica descrittiva si occupa della descrizione e sintesi dei dati usando: Tabulazione e distribuzioni di frequenza Grafici Statistiche riassuntive Le conclusioni che si traggono dall’analisi dei dati riguardano solamente l’insieme dei dati analizzati
Tipi di rilevazioni La conoscenza statistica di un fenomeno può avvenire tramite: Rilevazione completa o censuaria – ottengo le informazioni da tutte le unità statistiche del collettivo – il censimento è condotto su tutte le unità di una popolazione, è una rilevazione diretta e individuale, cioè ogni unità è enumerata con le caratteristiche; e trasversale, cioè riferita a un preciso istante di tempo Rilevazione campionaria – ottengo le informazioni su un sottocollettivo (campione) del collettivo – per essere rappresentativa di tutti il collettivo deve poter ricostruire con una sufficiente approssimazione le caratteristiche del collettivo oggetto di studio
Rilevazioni campionarie Perché si fanno: Ridurre i costi eccessivi; Organizzare una ricerca più snella; Cogliere l’evoluzione di fenomeni che mutano velocemente Vantaggi: Riduzione dei tempi e dei costi Controllo dell’attendibilità del processo Il campione è l’insieme di n unità campionarie selezionate tra le N unità della popolazione o collettivo di riferimento, affinché le n unità possano rappresentare nel modo migliore questa popolazione
Famiglie e soggetti sociali 2008 Conoscere l’intreccio dei percorsi di vita individuali attraverso la ricostruzione delle diverse fasi del ciclo di vita familiare e lo studio dei rapporti interni alla famiglia Conoscere le reti di parentela e le reti di supporto formale e informale Conoscere le biografie lavorative degli individui per studiare la mobilità sociale Argomenti Struttura della famiglia Pendolari della famiglia Permanenza dei giovani in famiglia Reti di parentela e di aiuto informale Vita di coppia Usanze e tradizioni familiari
Disegno della ricerca Popolazione di interesse: ossia l’insieme delle unità statistiche sulle quali si intende investigare, è costituita dalle famiglie residenti in Italia e dagli individui ad esse appartenenti, al netto dei membri permanenti delle convivenze. L’unità di rilevazione è la famiglia di fatto, ossia l’insieme di persone coabitanti e legate da vincoli di matrimonio, parentela, affinità, adozione, tutela o affettivi Periodo di riferimento: è prevalentemente costituito dai 12 mesi precedenti l’intervista Intervista diretta (faccia a faccia con questionario cartaceo) di tutti gli individui appartenenti alle famiglie del campione Periodo di svolgimento: giugno 2008
Domini di studio gli ambiti rispetto ai quali sono riferiti i parametri di popolazione oggetto di stima sono: L’intero territorio nazionale Le 5 ripartizioni geografiche Le 19 + 2 regioni geografiche La tipologia comunale
Strategia di campionamento Per una indagine ad obiettivi plurimi è poco realistico pensare ad una strategia campionaria che assicuri prefissati livelli di precisione di tutte le stime prodotte Le stime vanno fornite per livelli territoriali differenti Es 1. se l’unico ambito di stima fosse l’intero territorio nazionale, la soluzione ottimale sarebbe quella di determinare la numerosità nazionale e ripartirla tra le regioni in modo proporzionale alla loro dimensione demografica Es 2. viceversa, per produrre stime con uguale attendibilità a livello regionale la soluzione ottimale sarebbe quella di selezionare un campione uguale in tutte le regioni
Numerosità campionaria In base alle considerazioni precedenti si è adottata una soluzione mista basata su criteri di costo ed organizzativi e su considerazioni degli errori campionari delle principali stime a livello nazionale e riferite ai domini territoriali di interesse La dimensione del campione teorico è pari a 24.000 famiglie Il numero di comuni campione non deve superare i 900 comuni L’allocazione del campione di famiglie e di comuni nelle varie regioni adotta un criterio di compromesso tale da garantire sia l’affidabilità delle stime a livello nazionale che delle stime a livello di ciascun dettaglio territoriale visto in precedenza
Numerosità campionaria Popolazione di riferimento 8.101 Comuni 22.360.539 famiglie 57.272.931 individui Campione 787 Comuni 19.227 famiglie 49.541 individui
Le famiglie numero famiglie residenti La selezione delle famiglie da intervistare in ogni comune campione viene effettuata dalla lista anagrafica di ciascun comune senza reimmissione e con probabilità uguali. La tecnica di selezione è di tipo sistematico Vengono messi in sequenza i fogli delle famiglie dell’anagrafe del comune Si calcola il passo di campionamento numero famiglie residenti Passo di campionamento ------------------------------ numero di famiglie campione
Le famiglie 3) Si selezionano le famiglie secondo il passo di campionamento Esempio: Comune con 300.000 famiglie Numero di famiglie da estrarre = 2.000 Passo di campionamento = 150 Famiglie estratte: 3; 3+150=153; 153+150=303; 303+150=453; ……
Calcolo delle stime Le unità appartenenti al campione rappresentano anche le unità della popolazione che non sono incluse nel campione Ad ogni unità campionaria viene attribuito un peso che denota il numero di unità della popolazione rappresentate dall’unità medesima Es: peso attribuito = 30 l’unità rappresenta se stessa e altre 29 unità della popolazione
Calcolo delle stime Procedura complessa che: corregge l’effetto distorsivo della mancata risposta totale (il numero teorico di famiglie non sempre viene realizzato, per l’impossibilità di reperire tutte le famiglie o perché alcune famiglie si rifiutano di concedere l’intervista) tiene conto di alcuni totali noti sulla popolazione in modo da far coincidere le stime campionarie con i totali noti (i totali noti sono: distribuzione regionale della popolazione residente per sesso e classi d’età, distribuzione regionale della popolazione residente per tipo di comune)
Rilevazioni campionarie Lista di campionamento: è l’archivio aggiornato di tutte le unità della popolazione di riferimento (le famiglie iscritte all’anagrafe) Parametro: è una sintesi numerica che descrive una caratteristica della popolazione Statistica: è un sintesi numerica che descrive una caratteristica di un campione Stimatore: è un funzione di un campione di dati estratti casualmente da una popolazione. Il valore assunto dallo stimatore, in corrispondenza di un campione, è detto stima Statistica inferenziale è l’insieme dei metodi che consentono di stimare una caratteristica di una popolazione sulla base di un campione estratto con modalità casuale
Evento, dato e informazione In generale il termine “dato” è definito come una descrizione originaria non interpretata degli eventi. Il “dato statistico”, invece, è un evento (soggetto, entità, accadimento o caratteristica) osservato e registrato che si differenzia dall’evento stesso perché depurato delle caratteristiche non ritenute essenziali secondo gli obiettivi di conoscenza. Dal dato iniziale spesso si passa al dato sintetico, ottenuto attraverso alcune elaborazioni, con lo scopo di ricomporre e descrivere il fenomeno o l’evento reale che ci interessa studiare. Conseguentemente dal dato iniziale si ottiene un OUTPUT (dato costruito e elaborato) e dall’output si ottiene un OUTCOME (output interpretato in funzione di un progetto).
Evento, dato e informazione Il dato diventa informazione quando viene: Memorizzato; Organizzato; Classificato; Messo in relazione; Interpretato. Il dato statistico è il risultato dell’operazione di rilevazione di una data caratteristica su un individuo di un collettivo I dati per acquisire un significato devono diventare informazione, cioè essere organizzati sulla base di obiettivi specifici COMPLETI - cioè capaci di descrivere un fenomeno o una situazione nel modo più esaustivo possibile; OMOGENEI - per cui i sistemi di rilevazione e classificazione devono garantirne la comparabilità; FASATI – nel senso che i dati devono riferirsi ad un preciso arco temporale.
Evento, dato e informazione Microdati: dati elementari, relativi cioè alla singola unità su cui sono stati rilevati. L’insieme dei dati rilevati sulla singola unità ne costituiscono il profilo. Macrodati: il risultato di un qualsiasi calcolo (somma, differenza, rapporto …) effettuato sui microdati secondo criteri definiti. Unità aggregate su cui non è possibile rilevare direttamente l’informazione si servono di macrodati (il reddito prodotto da una regione è dato da un aggregato di singoli redditi prodotti o percepiti) Metadati: le informazioni di carattere qualitativo e/o quantitativo riguardanti le modalità di produzione dei microdati e dei macrodati.
Materiali della lezione D. F. Iezzi, Statistica per le scienze sociali Carocci, 2009 - Capitolo 1