Misure di posizione Gli indici di posizione servono per individuare la tendenza centrale del fenomeno studiato. I più utilizzati sono: Moda Mediana Quartili, percentili,…
Moda La moda, detta anche “norma”, è il valore a cui corrisponde la massima frequenza assoluta o relativa. Nel caso di caratteri continui e per distribuzioni fornite per classi di ampiezza, il calcolo della moda avviene mediante l’individuazione della classe modale, cioè quella caratterizzata dalla massima frequenza. Se le classi non sono equi-ampie è bene dividere la frequenza assoluta di ogni classe per l’ampiezza dell’intervallo ottenendo la cosiddetta “densità di frequenza”. La classe modale è quella con la densità di frequenza più alta. Oltre alle distribuzioni di frequenza che hanno una sola moda dette unimodali, si trovano distribuzioni di frequenza che presentano due o più mode; denominate, rispettivamente, distribuzioni bimodali o plurimodali.
Moda: vantaggi La moda è un indice di posizione di immediata determinazione e ben interpretabile nei termini del problema perché, a differenza delle medie analitiche, è sicuramente un valore tra quelli. Il calcolo della moda presenta due vantaggi principali: È l’unica media che si riesce a valutare nel caso di caratteri qualitativi È la sola misura rilevante per certi tipi di problemi come ad es. la taglia dei vestiti.
Moda: svantaggi La moda presenta anche degli inconvenienti: Non è rappresentativa della popolazione in esame se due o più modalità, anche distanti tra loro, presentano frequenze simili, la determinazione di una fra loro può dipendere solo da qualche osservazione. Ad es. la moda del numero di componenti per famiglia in molte regioni d’Italia è la stessa anche se vi è una posizione differente tra la distribuzione delle famiglie nelle varie regioni, essendo noto che quelle meridionali sono tendenzialmente più numerose di quelle settentrionali. Ha un comportamento atipico rispetto ad altri indici di posizione, nel senso che non rispetta il principio di monotonicità. Infatti se alla distribuzione di una variabile si sostituiscono valori maggiori o minori di un indice di posizione, logica vorrebbe che l’indice muti nella stessa direzione; la moda non rispetta sempre questo principio. È meno stabile e meno oggettiva delle altre misure di tendenze centrale. Può, infatti, differire nella stessa serie di dati, quando si formano classi di distribuzione con ampiezza differente.
Esempio Determinare la moda della distribuzione “Gruppo sanguigno” frequenze A 34 B 19 AB 27 39 La moda (Mo) è il gruppo sanguigno 0 Determinare la moda della distribuzione di unità commerciali nel comune di Messina secondo il numero degli addetti (classe chiusa) Addetti Frequenze (U.C.) Di di 1-2 20 2 20/2=10 3-5 80 3 80/3=26.6 6-10 120 5 24 11-20 105 10 10.5 21-30 70 7 La classe modale è la classe chiusa 3-5
Distribuzione Unimodale Bimodale
Mediana È la modalità statistica che occupa la posizione centrale di una successione ordinata delle osservazioni. Caratteristiche: è calcolata sul numero di osservazioni; ogni valore estratto a caso ha la stessa probabilità di essere inferiore o superiore alla mediana. Non è influenzata dagli outliers Non è influenzata dai valori estremi
Mediana: Come si calcola? Per variabili discrete: Si dispongono i valori in una serie ordinata in modo crescente o decrescente e si conta il numero totale n di dati: se n è dispari, la mediana corrisponde al valore numerico del dato che occupa la posizione (n+1)/2; se n è pari, la mediana è calcolata come la media aritmetica dei valori che occupano le posizioni (n/2) e (n/2)+1 . Per variabili continue: Il raggruppamento in classi delle modalità consente al più di determinare la classe mediana nella quale ricade l’unità statistica che bipartisce la distribuzione ordinata delle modalità.
Mediana: proprietà Il numero degli scarti (xi - Me) positivi è esattamente uguale al numero degli scarti negativi La mediana si può definire come il centro di grado 1. È cioè quel valore che minimizza: Si può dimostrare che se il minimo è unico esso coincide con la mediana; altrimenti ogni punto dell’intervallo mediano minimizza l’espressione precedente
Esempio Calcolare la media e la mediana di una serie di 6 dati (10,1; 10,8; 13,1; 13,9; 14,2; 14,5; ) e rappresentarle graficamente. la media è 12,85 la mediana, essendo n pari, è data dalla media aritmetica dei valori che occupano le posizioni 3 e 4 quindi sarà:
Esempio In un campione di 131 pazienti affetti da cirrosi è stato rilevato il numero di complicanze rilevate. I dati sono stati organizzati nella seguente distribuzione di frequenza: Complicanze ni Freq.% Freq.cum. Freq.cum% 5 4 1 17 13 22 2 24 18 46 35 3 28 21 74 56 → mediana 3 complicanze 27 109 83 5 131 100 Totale N=131 dispari per cui la mediana corrisponderà al valore che occupa la posizione:
Esempio Classe Mediana Si consideri il peso di 59 cani raggruppato in classi di frequenza: Peso N° cani (ni) Freq.% Freq. cum. Freq.cum% 6-14 15 25.4 15-19 24 40.7 39 66.1 Classe mediana 20-24 13 22.0 52 88.1 25 7 11.9 59 100 Totale La mediana è il valore che occupa il posto (59+1)/2=30. La classe che contiene la 30° osservazione è quella 15-19; In maniera più immediata è la prima modalità cui corrisponde una freq. cum. percentuale uguale o maggiore del 50%
Quartili, Percentili,… Che cosa sono? Sono ottenuti estendendo la definizione di mediana; suddividendo in quattro gruppi di pari numerosità la popolazione di n unità, risulterà che tra il minimo delle osservazioni e un valore Q1, vi sono n/4 unità, come pure tra Q1 e Q2, tra Q2 e un valore Q3 ed il massimo. È possibile estendere tale concetto a quello di decili, percentili e quantili. Come si calcolano? Si ordinano in modo crescente i dati; Si determina il prodotto np dove n è il numero tot. delle osservazioni e p la proporzione di casi inferiore al quantile; se il prodotto non è un intero, si arrotonda per eccesso; se è intero si calcola la media tra il valore che occupa tale posizione e quello di posto successivo.
Esempio Supponiamo di voler calcolare i quartili relativi alla valutazione della qualità delle acque del lago di Ganzirri in base del numero di coliformi fecali presenti. Dall’osservazione sono risultati i seguenti dati : 8, 37, 23, 10, 16, 36, 18, 32, 25, 30 Come prima cosa è necessario ordinare in senso crescente i dati: 1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 8 10 16 18 23 25 30 32 36 37 I Quartile n x p=10x0.25=2.5 si arrotonda all’intero successivo 3° posto: 16 coliformi II Quartile n x p=10x0.5=5.0 media tra il 5° e 6° posto: (23+25)/2=24 coliformi III Quartile n x p=10x0.75=7.5 si arrotonda all’intero successivo 8° posto: 32 coliformi