Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione, di correlazione, per riassumere con pochi numeri (media, varianza, etc.) anche realtà complesse.
STATISTICA DESCRITTIVA – definizioni preliminari (1) Popolazione statistica: insieme o collettività entro cui si studia il fenomeno – Esempio: la popolazione statistica relativa a tutti gli elettori. Unità statistica: ogni elemento della popolazione statistica. Campione statistico: un qualsiasi insieme di unita statistiche prese da tutta la popolazione, che rappresenta una porzione della popolazione (campione rappresentativo). – Esempio: campione di elettori per individuare le intenzioni di voto di tutta la popolazione (exit-poll).
Statistica inferenziale Ha come obiettivo affermazioni valide anche per cose che non sono state osservate, generalizzando i risultati dei dati osservati, oppure per verificare ipotesi. Per far ciò si basa sul concetto di probabilità.
INDICI DI POSIZIONE Media Mediana Moda Quartili e percentili
MEDIA ARITMETICA La media aritmetica semplice è la misura di tendenza centrale più comunemente utilizzata. Quando si parla solo di media, si intende la media aritmetica semplice.
Moda La moda di una distribuzione è la modalità più frequente.
Mediana La mediana è il valore che occupa la posizione centrale nella distribuzione, tale che: metà delle osservazioni sono uguali o minori; metà delle osservazioni sono uguali o maggiori. La mediana divide in due parti di ugual numero linsieme dei valori osservati.
Per calcolare la mediana bisogna: (1) ordinare i valori osservati in ordine crescente, (2) prendere il valore centrale nella graduatoria ordinata. Il modo di procedere per il secondo punto varia a seconda del numero di osservazioni. se n è dispari se n è pari
Costruzione di distribuzioni in classi equi-ampie
Una distribuzione statistica consiste nellinsieme delle risposte assunte da un carattere statistico osservato su un dato collettivo. Si immagini di aver osservato o rilevato sulle N unità statistiche della popolazione una variabile X le cui modalità sono risultate essere (x 1, x 2,…, x l,…, x N ). Tale insieme di dati prende il nome di distribuzione unitaria della variabile X. Il pedice l individua lunità statistica sul quale è stato rilevata la variabile X. Ne deriva che con x l si indica la modalità assunta dalla variabile X per lelle-sima unità statistica (con l=1,2,….,N). Una distribuzione unitaria, pur essendo uninformazione esaustiva sul fenomeno, non consente una immediata individuazione delle caratteristiche salienti dello stesso: massimo, minimo, modalità più frequente, ecc. In altre parole non è utile per fornire informazioni di sintesi. Distribuzione unitaria
Come già affermato, la mediana è un indice che bipartisce egualmente la distribuzione ordinata. Estendendo questo concetto a più ripartizioni è possibile definire i quartili. Dividendo egualmente la distribuzione in quattro parti, si identificano: il primo quartile Q1. Rappresenta quella modalità tale che il 25% delle osservazioni assumono valori inferiori ad essa mentre il restante 75% hanno valori superiori. il secondo quartile Q2 che equivale alla mediana. il terzo quartile Q3. Rappresenta quella modalità tale che il 75% delle osservazioni assumono valori inferiori ad essa mentre il restante 25% hanno valori superiori. Analogamente, ripartendo la distribuzione in dieci o cento parti, si possono definire i decili così come i percentili. La mediana corrisponderà al quinto decile e al cinquantesimo percentile Quartili
Esempi di distribuzioni unitarie
La distribuzione di quantità è una organizzazione dei dati in forma tabellare tale che per ogni modalità della variabile X si fa corrispondere la quantità totale misurata/rilevata sulle N unità della popolazione. Essa esplicita, quindi, come lammontare complessivo del fenomeno si distribuisce tra le modalità del carattere X. Il pedice i indica la generica modalità del carattere (con i=1,2,…,k) Distribuzione di quantità
La distribuzione di frequenza è una organizzazione dei dati in forma tabellare tale che ad ogni modalità della variabile X si fa corrispondere la rispettiva frequenza. In altre parole, la distribuzione di frequenza esplicita quante volte una determinata modalità si presenta nel collettivo oggetto di studio. Essa è un modo sintetico per rappresentare le unità statistiche che assumono uguale modalità indicandone unicamente la frequenza di risposta. Distribuzione di frequenza
Si immagini una popolazione composta da N unità su cui è osservata una variabile X che assume k distinte modalità (variabile discreta). E possibile rappresentare le osservazioni in una distribuzione di frequenza in cui: x i consiste nella i-esima modalità della X n i consiste nella i-esima frequenza assoluta (il numero di volte che la modalità i si presenta nel collettivo osservato) f i = n i /N consiste nella i-esima frequenza relativa (la proporzione con cui la modalità i si presenta nel collettivo osservato) Distribuzione di frequenza per variabili discrete
Una prima sintesi grafica della distribuzione di una variabile discreta può essere ottenuta attraverso un diagramma a barre (o diagramma cartesiano). Esso è costruito ponendo sullasse delle ascisse le modalità della variabile X e sulle ordinate le frequenze (assolute o relative) corrispondenti ad ogni modalità. Si ottiene così una rappresentazione detta a barre verticali. Alcune osservazioni: Limpiego delle frequenze assolute o relative non cambia la forma della distribuzione. Il ricorso alle frequenze relative è necessario se si vogliono confrontare due diverse distribuzioni (es. distribuzione del numero di figli in Italia e in Francia). Rappresentazioni grafiche per variabili discrete
Esempi di distribuzioni per variabili discrete