Elaborazione Statistica dei Dati Sperimentali Facoltà di Scienze MM FF e NN, Università Sannio Misure di dispersione Giovanni Filatrella (filatrella@unisannio.it) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Ricapitoliamo il problema della sintesi dei dati Un istogramma o una tabella di dati contengono molte informazioni E’ utile talvolta riassumere i dati con degli indicatori (indici) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Oltre gli indici o misure di posizione Frequenza rel. D: Questa distribuzione potrebbe essere riassunta da un indice solo (moda, media o mediana), ma è possibile anche dare qualche indicazione su come si distribuisce la variabile casuale attorno all’indice di posizione? 0.4 0.3 0.2 0.1 1.0 1.2 1.4 1.6 1.8 2.0 tasso di fertilità G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
A cosa serve questo valore? Per riassumere i dati abbiamo appiattito l’informazione in un solo numero I valori si distribuiscono attorno a questo valore Dobbiamo dare un’idea di quanto distanti siano i dati dall’indice di posizione G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Esempi Un approccio potrebbe essere calcolare quanto siano distanti in media i punti dal punto medio: Ma questa quantità è zero: distributività della somma definizione di media G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Lo scarto quadratico medio Per evitare che le quantità maggiori di zero e quelle minori di zero si sommano i quadrati: Varianza o scarto quadratico medio: Ma questa quantità ha le dimensioni della variabile casuale al quadrato, quindi è comodo introdurre la deviazione standard ovvero la radice quadrata della varianza: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Formula semplificata Non è agevole calcolare la S direttamente dalla formula precedente, soprattutto mentre si raccolgono i dati. Usare invece: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Caso di più individui in corrispondenza della stesso valore della variabile casuale. Se i dati sono raggruppati in modo che diversi individui mostrano lo stesso valore per la variabile casuale, è conveniente elaborare la tabella prima di procedere al calcolo degli indici: Matr # esami 1 3 2 4 3 4 4 3 5 5 6 6 7 5 8 3 9 4 10 7 11 4 12 3 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Calcolo Matr. #es #stud esami Sj2 totali 1 3 4 3 8 3 12 3 4 12 6.25 2 4 3 4 9 4 11 4 4 16 0.25 5 5 7 5 2 10 .125 6 6 1 6 3.06 10 7 1 7 7.57 Totale 51 18.3 Media: (esami totali)/ (# studenti) 51/12=4.25 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Caratteristica dello scarto quadratico medio I valori estremi pesano molto, perché viene elevata al quadrato la differenza fra il valore della variabile casuale e la media. Es.: se nel caso precedente uno degli studenti con 4 esami dovesse fare 3 esami: la media passa da 4.25 a 4.5 (variazione del 5%), ma lo scarto quadratico medio passa da 1.52 a 2.08 (variazione del 30%). G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Altre misure di dispersione Semidispersione massima: Questa misura di dispersione dipende solo dai valori estremi e quindi non dice molto della distribuzione all’interno di questi valori. D.: immaginare un caso in cui è appropriata G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Altre misure di dispersione Range interquartile: Questa misura di dispersione dipende dalla distanza fra il 25mo percentile ed il 75mo. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali