Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
1
Statistica descrittiva
2
Statistica descrittiva: unità statistica, popolazione, caratteri e modalità
L’unità statistica è l’oggetto dell’osservazione del fenomeno di interesse (es. l’individuo di una popolazione) La popolazione è un insieme di unità che presentano alcune caratteristiche in comune Caratteri: caratteristiche “misurate” sull’unità (es: pressione sanguigna, positività ad un test diagnostico) Ciascun carattere è presente in una unità con una determinata modalità (es. pressione sanguigna=130/75, positività del test diagnostico)
3
Caratteri qualitativi e quantitativi
I caratteri possono essere classificati secondo il diverso livello (scala) di misurazione e possono assumere diverse modalità. Caratteri qualitativi: caratteri che descrivono una qualità dell’unità statistica. Si distinguono in Nominali o sconnessi (non è possibile stabilire un ordine, es. sesso, gruppo sanguigno, colore degli occhi) Ordinali (è possibile stabilire un ordine, es. stato di salute, livello di istruzione) Caratteri quantitativi: caratteri che possono essere misurati (le modalità sono numeri). Possono essere continui o discreti. Si distinguono in scala di intervalli: variabili che non hanno uno zero assoluto (nella scala di misurazione zero significa assenza di quel carattere, es. scale di misurazione della temperatura, gradimento numerico). scala di rapporti: è possibile calcolare i rapporti tra unità statistiche rispetto (es. pressione sanguigna, peso, altezza, numero di sigarette fumate al giorno)
4
Distribuzioni L’effetto della determinazione delle modalità con cui ognuno dei caratteri si presenta in ciascuna unità del collettivo è la distribuzione del collettivo secondo i caratteri considerati. Caratteri qualitativi: definizione di classi o categorie e conta numerica delle osservazioni che cadono in ciascuna di esse. Caratteri quantitativi: scomposizione dei valori delle osservazioni in intervalli distinti solitamente di uguale ampiezza e conta delle osservazioni che cadono in ciascun intervallo (creazione degli intervalli di classe).
5
Distribuzioni di frequenza
Distribuzione di frequenze assolute Distribuzione di frequenze relative Distribuzione per unità Distribuzione di frequenze cumulative id Peso (Kg) 1 70 2 65 3 54 4 71 5 6 67 7 8 45 9 55 10 Peso (Kg) ni 45 1 54 55 65 2 67 70 3 71 Peso (Kg) f 45 0.1 54 55 65 0.2 67 70 0.3 71 Peso (Kg) F 45 0.1 54 0.2 55 0.3 65 0.5 67 0.6 70 0.9 71 1
6
Grafico scatola e baffi
Nella scatola è rappresentata la parte centrale della distribuzione, I baffi rappresentano le code, La linea orizzontale è la mediana della distribuzione I punti sono gli outliers (dati anomali) Q1 Q3
7
Istogramma Se la variabile è discreta e non raggruppata in classi, le frequenze si rappresentano con linee verticali. Se la variabile è raggruppata in classi, le frequenze assolute o relative sono proporzionali alle aree delle barre (per non confondersi con classi di ampiezza diversa). Frequenze di ogni valore o classe Valori o classi della variabile
8
Tabelle di contingenza
Nel caso di osservazioni classificate secondo livelli nominali, le frequenze si rappresentano in tabelle di contingenza. id Caso (1=caso; 0=non caso) Fumo (1=fuma; 0=non fuma) 1 2 3 4 5 6 7 8 9 10 Fumo Non Fumo Caso 4 2 Non caso 1 3 Fumo Non Fumo Caso 0.4 0.2 Non caso 0.1 0.3
9
Misure di sintesi numerica
Media Mediana Misure di tendenza centrale Moda Varianza Deviazione standard Coefficiente di variazione Misure di Variabilità o Campo di variazione dispersione Differenza interquartile
10
Misure di tendenza centrale di una distribuzione
Moda: modalità più frequente nella popolazione (definita per distribuzioni quantitative e qualitative) Mediana: modalità che occupa il posto centrale nella distribuzione. Il calcolo della mediana richiede l’ordinamento delle unità rispetto alle modalità del carattere. (definita per distribuzioni qualitative ordinate e quantitative) n dispari: la mediana è il valore centrale (n+1)/2 n pari: la mediana è la media dei due valori centrali n/2 e n/2+1 Quartili: modalità che ripartiscono la distribuzione in 4 parti di uguali frequenze Media: è la somma delle modalità diviso la numerosità (definita solo per le distribuzioni quantitative) Distribuzione per unità: Distribuzione di frequenze: (k modalità distinte osservate)
11
45 54 55 65 67 70 71 Peso (Kg) f 45 0.1 54 55 65 0.2 67 70 0.3 71 Moda = 70 Kg (più frequente) Mediana = 66 Kg (media tra la 5° e la 6° modalità) Media = 45 x x 0.1+…+71 x 0.1 = 63.2
12
La variabilità di una distribuzione
Moda, media e mediana sono valori sintetici che indicano la “tendenza centrale” della distribuzione, ma è importante anche misurare la dispersione delle osservazioni intorno al valore centrale. Popolazione A Media = 100, Var = 0 Popolazione B Media = 100, Var = 50 Popolazione C Media = 100, Var = 280
13
Misure di variabilità La varianza è un indice di dispersione dalla media delle misurazioni. E’ indicata solitamente con σ2 (σ è la deviazione standard o scarto quadratico medio). Distribuzione per unità Distribuzione per frequenze (k modalità osservate) Coefficiente di variazione: rapporto tra deviazione standard e media. Essendo un numero puro (adimensionato), è un indice di dispersione che permette di confrontare misure di fenomeni riferite a unità di misura differenti. Campo di variazione : differenza tra il valore massimo e il valore minimo delle osservazioni. Differenza interquartile: differenza tra il primo e il terzo quartile. Si tratta di un indice di variazione e viene a volte usato in alternativa alla deviazione standard
14
Peso (Kg) f 45 0.1 54 55 65 0.2 67 70 0.3 71 μ = 45 x x x x x 0.1+ +70 x x 0.1=63.2 = ( )2x 0.1+( )2x 0.1 +( )2x 0.1 + +( )2x 0.2+( )2x 0.1 +( )2x 0.3 + +( )2x 0.1 =70.36 = √70.36=8.4 cv = 8.4/63.2=0.13
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.