STATISTICHE DESCRITTIVE Parte II
INDICI DI DISPERSIONE Introduzione agli Indici di Dispersione Gamma Differenza Interquartilica Varianza Deviazione Standard Coefficiente di Variazione
introduzione Una distribuzione di dati contiene un insieme di informazioni complesse e di per se poco maneggevole. Il ricorso ad un indice di tendenza centrale comporta una forte semplificazione, e da solo non fornisce informazioni esaurienti sulla distribuzione. Occorre anche capire quanto i dati siano dispersi intorno all’indice di tendenza centrale. Esempio Consideriamo i risultati dei compiti di Psicometria di tre diverse Facoltà: Facoltà A = {18, 22, 24, 16, 19, 22 , 18, 21} Facoltà B = {10, 10, 12, 10, 30, 28 , 30, 30} Facoltà C = {20, 20, 20, 20, 20, 20 , 20, 20} In ogni Facoltà la media dei voti è pari a 20, ma è evidente una diversa dispersione intorno a tale valore.
gli indici di dispersione Gli indici che vedremo servono a misurare la dispersione (o variabilità) di una data distribuzione di dati. Per questo motivo vengono definiti come indici di dispersione o indici di variabilità. Gli indici di dispersione possono assumere solo valori positivi (non ha senso parlare di dispersione negativa) o nulli (nei casi in cui tutti i dati osservati sono uguali tra loro).
la gamma La gamma, detta anche campo di variazione, è la differenza fra il valore massimo e quello minimo dei dati. Esempio I seguenti dati rappresentano le altezze in centimetri dei giocatori di una squadra di pallavolo. {188, 195, 198, 170, 185, 199} La gamma di tale distribuzione sarà:
la differenza interquartilica La differenza interquartilica, o range interquartile, è data dalla differenza tra il terzo e il primo quartile (o equivalentemente tra il 75-esimo e il 25-esimo percentile) dei dati: Nota: La differenza interquartilica, non tiene conto dei valori estremi della distribuzione dei dati, evitando così di considerare valori anomali. Per questo motivo è considerata un indice “robusto”.
la varianza La varianza σ2 di un insieme di dati è definita come la media degli scarti al quadrato tra i dati e la media dei dati stessi. Essa assume il valore minimo di 0 quando i dati sono tutti uguali tra loro e aumenta al crescere della variabilità dei dati. Le formule per il calcolo della varianza sono differenti a seconda che i dati siano o meno raggruppati in classi.
formula per il calcolo della varianza - dati non raggruppati – dove: è lo scarto tra l’i-esima unità statistica e la media dei dati.
formula ridotta per il calcolo della varianza - dati non raggruppati – La varianza può essere anche calcolata attraverso la seguente formula, che consente un calcolo più agevole e veloce: varianza = media dei quadrati - quadrato della media
Esempio[1] Un ricercatore ha valutato la capacità linguistiche di 10 bambini in età prescolare ottenendo i dati sottoriportati. La capacità di linguistica è qui indagata come numero di parole non conosciute nella lettura di un testo [da Keppel, 1992]. Calcolare la varianza dei dati, sia con la formula generale che con quella ridotta. codice soggetto Numero parole non note 1 8 2 6 3 7 4 5 9 10
Esempio[2] Calcoliamo innanzi tutto la media dei dati: Utilizziamo ora la formula generale per il calcolo della varianza:
Esempio[3] Utilizziamo ora la formula ridotta. Per prima cosa calcoliamo la “media dei quadrati”: Calcoliamo ora il “quadrato della media”: Infine utilizzando la formula ridotta per il calcolo della varianza otteniamo:
formula per il calcolo della varianza - dati raggruppati – dove: è la frequenza relativa dell’i-esima modalità statistica.
Esempio[1] Calcolare la varianza dei dati dell’esempio precedente utilizzandoli in forma raggruppata. Per prima cosa rappresentiamo i dati in forma raggruppata: xi Parole sconosciute fi frequenze 4 1 6 2 7 8 9
Esempio[2] Ricordando che la media dei dati è pari a 7, applichiamo la formula per il calcolo della varianza per dati raggruppati:
formula per il calcolo della varianza - dati raggruppati in classi – dove: è il valore centrale dell’i-esima classe di frequenza.
Esempio[1] In un’azienda veronese che produce occhiali sono stati rilevati gli stipendi mensili dei 20 dipendenti: Stipendio mensile in Euro Frequenze 800 - 1200 10 1200 - 1600 5 1600 - 2000 3 2000 - 2400 2 Calcolare la media e la varianza di tali dati. Nota: gli intervalli di frequenza si intendono del tipo “primo valore incluso – secondo valore escluso”.
Esempio[2] Calcoliamo la media dei dati: Calcoliamo ora la varianza di tali dati: Formula non corretta nella varianza
la deviazione standard La deviazione standard (o scarto quadratico medio) è la radice della varianza: Essa è molto utile in chiave interpretativa perché, a differenza della varianza, è espressa nella stessa unità di misura del fenomeno studiato. Esempio In campione di 20 soggetti è stata rilevata la variabile peso. In tale campione la media è pari a 70 Kg e la deviazione standard è pari a 10.7. Si potrà affermare che i soggetti differiscono mediamente di 10.7 Kg dal peso medio di 70 Kg.
il coefficiente di variazione[1] Il coefficiente di variazione è dato dal rapporto tra la deviazione standard e il valore assoluto della media dei dati: Esso è un indice di variabilità relativa, che tiene conto oltre che della deviazione standard dei dati anche della media. Per questo motivo è molto utile per eseguire dei confronti in termini di variabilità tra fenomeni “diversi” tra loro.
il coefficiente di variazione[2] Esempio Nel reparto di ginecologia e ostetricia di un ospedale è stato rilevato il peso di un campione di 80 neonati maschi e contemporaneamente il peso dei rispettivi papà. I dati ottenuti sono espressi nella seguente tabella: gruppo media deviazione standard neonati 3.4 Kg 0.8 papà 82 Kg 15 Ci si chiede se, rispetto alla variabile peso, esiste più variabilità nel gruppo dei neonati o in quello dei papà.
il coefficiente di variazione[3] Naturalmente confrontare le deviazioni standard non è di grande aiuto. Esse dipendono fortemente dalle media dei dati su cui sono state calcolate. Per poter operare un confronto sulla variabilità dei due gruppi è opportuno calcolare i rispettivi coefficienti di variazione: Osservando i risultati si può concludere che il gruppo dei bambini presenta una maggiore variabilità rispetto a quella del gruppo dei papà.
il coefficiente di variazione[3] In conclusione, vediamo alcuni valori particolari del CV che possono essere utili nello studio di una distribuzione di dati: CV = 0 , in questo caso la deviazione standard è pari a 0. Tutti i dati sono uguali tra loro e la media può essere considerata come un indice perfetto per rappresentarli. CV ≥ 0.5 , in questo caso la deviazione standard è più della metà della media. La media, in questo caso, non può essere considerata un buon indice per rappresentare i dati. CV ≤ 0.5 , in questo caso la deviazione standard è meno della metà della media. La media, in questo caso, può essere considerata un buon indice per rappresentare i dati.