Statistica sociale Modulo A A.A Prof.ssa Barbara Baldazzi Dottore Mario Mastrangelo Facoltà di Lettere e Filosofia Università di Tor Vergata
Misure di tendenza centrale La distribuzione di frequenza è una descrizione completa della variabile cioè di come la variabile è distribuita nella popolazione In molte situazioni abbiamo bisogno di indici di sintesi della distribuzione MODA: è la modalità della variabile che si presenta nella distribuzione con maggiore frequenza Si può applicare a tutti i tipi di variabili
Misure di variabilità La moda segnala il valore maggiore, ma nulla ci dice su come è distribuita la variabile. Una variabile sconnessa ha una distribuzione massimamente OMOGENEA quando tutti i casi si presentano con la stessa modalità (il 100% del collettivo presenta una unica modalità) – è più omogenea quanto più essa è concentrata È massimamente eterogenea quando i casi sono equidistribuiti fra le modalità
Misure di tendenza centrale Data una distribuzione ordinata in senso crescente la mediana è il valore che biripartisce la distribuzione lasciando uguali numero di termini a destra e a sinistra MEDIANA: è la modalità mediana Si può applicare alle variabili ordinabili (non ai caratteri qualitativi sconnessi) Se n è dispari la mediana è il valore o la modalità che occupa la posizione (n+1)/2 Me = x (n +1)/2 Se n è pari la mediana è il valore o la modalità che occupa la posizione (n/2)+1 Me = (x (n /2) + x (n/2+1) )/2
Misure di tendenza centrale Data una distribuzione ordinata in senso crescente i quartili sono tre indici che dividono la distribuzione ordinata in 4 parti uguali. Il primo quartile (Q 1 ) è il valore che lascia alla propria sinistra il 25% dei termini e il 75% alla destra. Il secondo quartile (Q 2 ) coincide con la mediana, ed è il valore cha divide in due parti uguali la distribuzione. Il terzo quartile (Q 3 ) è il valore che la scia alla propria sinistra il 75% dei termini e il 25% alla destra.
La media Data un insieme di valori quantitativi e un funzione f f (x 1, x 2, …., x n ) si definisce media dei valori x 1, x 2, …., x n secondo il criterio f quel valore M tale che f (x 1, x 2, …., x n ) = f (M, M,, …, M ) La media M rappresenta il valore che sostituito ai singoli valori della distribuzione mantiene inalterato il totale. La media M è sempre un valore interno all’intervallo di valori di x j cioè x min <= M <= x max
La media aritmetica La media aritmetica M di un insieme di n valori x 1, x 2, …., x n di un carattere quantitativo X è pari alla somma dei valori divisa per il loro numero M=( x 1 + x 2 + …. + x n ) / n M= (∑ x i ) / n
La media aritmetica Se la distribuzione del carattere è una distribuzione di frequenza la media aritmetica μ si calcola come una media ponderata, cioè sommando i prodotti delle singole modalità x j per j=1, …., k e le rispettive frequenze n j per j = 1, …., k diviso la numerosità del collettivo M =( x 1 n 1 + x 2 n 2 + …. + x k n k ) / n M = (∑ x j n j ) / n Se ho le frequenze relative la formula diventa M = ∑ x j f j
La media aritmetica La media aritmetica risente fortemente dei valori estremi della distribuzione. Se sono presenti valori anomali (outlier), il valore medio calcolato può non rappresentare bene la distribuzione. La media aritmetica è molto sensibile ai valori anomali. A volte si usa la media troncata (trimmed mean) ossia la media calcolata solo sui valori centrali della distribuzione La trimmed mean al 90% significa calcolare la media escludendo il 5% dei valori più piccoli e il 5% dei valori più grandi
Proprietà della media aritmetica 1) La somma dei valori x 1 + x 2 + …. + x n è uguale alla media moltiplicata per il numero di unità n ∑ x i = nM 2) La media M è sempre un valore interno all’intervallo di valori di x j cioè x min <= M <= x max 3) La somma degli scarti positivi dalla media aritmetica è uguale, in valore assoluto, a quella degli scarti negativi e quindi la somma degli scarti (positivi e negativi) è uguale a zero Scarto (x i – M) ∑ ( x i – M) = 0
Proprietà della media aritmetica 4) La somma dei quadrati degli scarti dalla media aritmetica è minore della somma dei quadrati degli scarti da qualsiasi numero c ≠ M Scarto (x i – M) Scarto (x i – c) ∑ ( x i – c) 2 = min per c= M
Medie e Caratteri Tipo di carattereMedie che posso fare Qualitativi sconnessi Moda Qualitativi ordinatiModa, Mediana, Quartile Quantitativi Moda, Mediana, Quartile e Media
Fonti Gli enti produttori di dati statistici sono raggruppabili in tre tipologie: Enti appositamente preposti alla raccolta e diffusione dei dati (ISTAT) Enti che producono informazione statistica come sottoprodotto della propria attività istituzionale, produttiva o amministrativa (Fiat, Atac…) Enti di ricerca e singoli ricercatori.
Fonti: il Sistan, Sistema statistico nazionale Il Sistan è stato istituito per legge nel È la rete di soggetti pubblici e privati che fornisce l'informazione statistica ufficiale. Del Sistema fanno parte: l'Istituto nazionale di statistica (Istat); gli enti ed organismi pubblici d'informazione statistica (Isae, Inea, Isfol); gli uffici di statistica delle amministrazioni dello Stato e delle aziende autonome; gli uffici di statistica degli Uffici territoriali del Governo; gli uffici di statistica di regioni e province autonome; gli uffici di statistica di province, comuni (singoli o associati), aziende sanitarie locali, camere di commercio, industria, artigianato e agricoltura. Tutti questi uffici, pur rimanendo incardinati nelle rispettive amministrazioni di appartenenza, sono uniti dalla comune funzione di fornire al Paese l'informazione statistica ufficiale.
Fonti: Eurostat, l’ufficio statistico della Comunità Europea EUROSTAT è l’Ufficio Statistico delle Comunità Europee, con sede a Lussemburgo. Il suo statuto stabilisce che: Ha il compito di definire il programma statistico comunitario e di diffondere le statistiche comunitarie; inoltre, di uniformare i concetti e le definizioni, definire le classificazioni e le metodologie delle indagini. Le statistiche comunitarie sono quelle informazioni quantitative, aggregate e rappresentative tratte dalla raccolta e dall’elaborazione sistematica dei dati, prodotte dalle autorità nazionali e dall’autorità comunitaria nel quadro dell’attuazione del programma statistico comunitario.
Fonti: Eurostat, l’ufficio statistico della Comunità Europea...si intende per “statistiche comunitarie” le informazioni quantitative, aggregate e rappresentative tratte dalla raccolta e dall’elaborazione sistematica di dati prodotte dalle autorità nazionali e dall’autorità comunitaria nel quadro dell’attuazione del programma statistico comunitario… …si intende per “autorità nazionali” gli Istituti Nazionali di Statistica e gli altri organismi responsabili in ciascun Stato membro della produzione di statistiche comunitarie …si intende “autorità comunitaria” il servizio della Commissione responsabile dell’esecuzione dei compiti ad essa affidati nel settore della produzione di statistiche comunitarie (Eurostat)
Fonti: Eurostat, l’ufficio statistico della Comunità Europea Per diffusione si intende l'attività di rendere accessibili agli utenti le statistiche comunitarie. La diffusione è organizzata in modo tale da rendere imparziale ed agevole l'accesso alle statistiche comunitarie in tutta la Comunità. La diffusione delle statistiche comunitarie è effettuata dall'autorità comunitaria e dalle autorità nazionali nell'ambito delle rispettive competenze. L’Eurostat ha l’obiettivo di uniformare i concetti e le definizioni utilizzati dagli stati membri, definire le classificazioni e le metodologie di indagini comuni. Non raccoglie dati direttamente, ma armonizza le informazioni.
Materiali della lezione D. F. Iezzi, Statistica per le scienze sociali Carocci, Capitolo 8 (par 8.2.1; 8.2.2; 8.4) – Capitolo 2 (par. 2.1; 2.2; 2.3; 2.4)