Statistica descrittiva
Statistica descrittiva: unità statistica, popolazione, caratteri e modalità L’unità statistica è l’oggetto dell’osservazione del fenomeno di interesse (es. l’individuo di una popolazione) La popolazione è un insieme di unità che presentano alcune caratteristiche in comune Caratteri: caratteristiche “misurate” sull’unità (es: pressione sanguigna, positività ad un test diagnostico) Ciascun carattere è presente in una unità con una determinata modalità (es. pressione sanguigna=130/75, positività del test diagnostico)
Caratteri qualitativi e quantitativi I caratteri possono essere classificati secondo il diverso livello (scala) di misurazione e possono assumere diverse modalità. Caratteri qualitativi: caratteri che descrivono una qualità dell’unità statistica. Si distinguono in Nominali o sconnessi (non è possibile stabilire un ordine, es. sesso, gruppo sanguigno, colore degli occhi) Ordinali (è possibile stabilire un ordine, es. stato di salute, livello di istruzione) Caratteri quantitativi: caratteri che possono essere misurati (le modalità sono numeri). Possono essere continui o discreti. Si distinguono in scala di intervalli: variabili che non hanno uno zero assoluto (nella scala di misurazione zero significa assenza di quel carattere, es. scale di misurazione della temperatura, gradimento numerico). scala di rapporti: è possibile calcolare i rapporti tra unità statistiche rispetto (es. pressione sanguigna, peso, altezza, numero di sigarette fumate al giorno)
Distribuzioni L’effetto della determinazione delle modalità con cui ognuno dei caratteri si presenta in ciascuna unità del collettivo è la distribuzione del collettivo secondo i caratteri considerati. Caratteri qualitativi: definizione di classi o categorie e conta numerica delle osservazioni che cadono in ciascuna di esse. Caratteri quantitativi: scomposizione dei valori delle osservazioni in intervalli distinti solitamente di uguale ampiezza e conta delle osservazioni che cadono in ciascun intervallo (creazione degli intervalli di classe).
Distribuzioni di frequenza Distribuzione di frequenze assolute Distribuzione di frequenze relative Distribuzione per unità Distribuzione di frequenze cumulative id Peso (Kg) 1 70 2 65 3 54 4 71 5 6 67 7 8 45 9 55 10 Peso (Kg) ni 45 1 54 55 65 2 67 70 3 71 Peso (Kg) f 45 0.1 54 55 65 0.2 67 70 0.3 71 Peso (Kg) F 45 0.1 54 0.2 55 0.3 65 0.5 67 0.6 70 0.9 71 1
Grafico scatola e baffi Nella scatola è rappresentata la parte centrale della distribuzione, I baffi rappresentano le code, La linea orizzontale è la mediana della distribuzione I punti sono gli outliers (dati anomali) Q1 Q3
Istogramma Se la variabile è discreta e non raggruppata in classi, le frequenze si rappresentano con linee verticali. Se la variabile è raggruppata in classi, le frequenze assolute o relative sono proporzionali alle aree delle barre (per non confondersi con classi di ampiezza diversa). Frequenze di ogni valore o classe Valori o classi della variabile
Tabelle di contingenza Nel caso di osservazioni classificate secondo livelli nominali, le frequenze si rappresentano in tabelle di contingenza. id Caso (1=caso; 0=non caso) Fumo (1=fuma; 0=non fuma) 1 2 3 4 5 6 7 8 9 10 Fumo Non Fumo Caso 4 2 Non caso 1 3 Fumo Non Fumo Caso 0.4 0.2 Non caso 0.1 0.3
Misure di sintesi numerica Media Mediana Misure di tendenza centrale Moda Varianza Deviazione standard Coefficiente di variazione Misure di Variabilità o Campo di variazione dispersione Differenza interquartile
Misure di tendenza centrale di una distribuzione Moda: modalità più frequente nella popolazione (definita per distribuzioni quantitative e qualitative) Mediana: modalità che occupa il posto centrale nella distribuzione. Il calcolo della mediana richiede l’ordinamento delle unità rispetto alle modalità del carattere. (definita per distribuzioni qualitative ordinate e quantitative) n dispari: la mediana è il valore centrale (n+1)/2 n pari: la mediana è la media dei due valori centrali n/2 e n/2+1 Quartili: modalità che ripartiscono la distribuzione in 4 parti di uguali frequenze Media: è la somma delle modalità diviso la numerosità (definita solo per le distribuzioni quantitative) Distribuzione per unità: Distribuzione di frequenze: (k modalità distinte osservate)
45 54 55 65 67 70 71 Peso (Kg) f 45 0.1 54 55 65 0.2 67 70 0.3 71 Moda = 70 Kg (più frequente) Mediana = 66 Kg (media tra la 5° e la 6° modalità) Media = 45 x 0.1+54 x 0.1+…+71 x 0.1 = 63.2
La variabilità di una distribuzione Moda, media e mediana sono valori sintetici che indicano la “tendenza centrale” della distribuzione, ma è importante anche misurare la dispersione delle osservazioni intorno al valore centrale. Popolazione A 100 100 100 100 100 Media = 100, Var = 0 Popolazione B 110 90 95 100 105 Media = 100, Var = 50 Popolazione C 125 115 85 90 85 Media = 100, Var = 280
Misure di variabilità La varianza è un indice di dispersione dalla media delle misurazioni. E’ indicata solitamente con σ2 (σ è la deviazione standard o scarto quadratico medio). Distribuzione per unità Distribuzione per frequenze (k modalità osservate) Coefficiente di variazione: rapporto tra deviazione standard e media. Essendo un numero puro (adimensionato), è un indice di dispersione che permette di confrontare misure di fenomeni riferite a unità di misura differenti. Campo di variazione : differenza tra il valore massimo e il valore minimo delle osservazioni. Differenza interquartile: differenza tra il primo e il terzo quartile. Si tratta di un indice di variazione e viene a volte usato in alternativa alla deviazione standard
Peso (Kg) f 45 0.1 54 55 65 0.2 67 70 0.3 71 μ = 45 x 0.1+54 x 0.1+55 x 0.1+65 x 0.2+67 x 0.1+ +70 x 0.3+71 x 0.1=63.2 = (45-63.2)2x 0.1+(54-63.2)2x 0.1 +(55-63.2)2x 0.1 + +(65-63.2)2x 0.2+(67-63.2)2x 0.1 +(70-63.2)2x 0.3 + +(71-63.2)2x 0.1 =70.36 = √70.36=8.4 cv = 8.4/63.2=0.13