La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

G LI I NDICI DI VARIABILITA’ - Campo di variazione - Scarto dalla media - Varianza - Scarto quadratico medio - Coefficiente di variazione 1 Elementi di.

Presentazioni simili


Presentazione sul tema: "G LI I NDICI DI VARIABILITA’ - Campo di variazione - Scarto dalla media - Varianza - Scarto quadratico medio - Coefficiente di variazione 1 Elementi di."— Transcript della presentazione:

1

2 G LI I NDICI DI VARIABILITA’ - Campo di variazione - Scarto dalla media - Varianza - Scarto quadratico medio - Coefficiente di variazione 1 Elementi di Statistica descrittiva

3 I NDICI DI V ARIABILITÀ I valori medi sono indici importanti per la descrizione sintetica di un fenomeno statistico Hanno però il limite di non darci alcuna informazione sulla distribuzione dei dati 2

4 Esempio In tre differenti prove di matematica 4 studenti hanno riportato le seguenti valutazioni 3 In tutte e tre le prove la media è 6,25 ma i dati sono chiaramente distribuiti in modo diverso

5 4 Diagramma di distribuzione delle tre prove

6 nel caso della 1 a prova e 2 a prova sarà opportuno fare un recupero per alcuni studenti nel caso della 3 a prova l’insegnante può ritenere che gli obiettivi siano stati raggiunti dalla classe, anche se ad un livello solo sufficiente 5

7 6 Campo di variazione (Range) Scarto medio dalla media Varianza e scarto quadratico medio Coefficiente di variazione In statistica è possibile valutare in modo sintetico la distribuzione dei dati mediante gli indici di variabilità (o dispersione) Vedremo i seguenti indici

8 7 C AMPO DI VARIAZIONE Campo variazione = x max – x min E’ il più semplice degli indici di variazione: Si calcola facendo la differenza tra il dato più grande e il dato più piccolo Rappresenta l’ampiezza dell’intervallo dei dati

9 8 Esempio Consideriamo le valutazioni della prima prova Xmax = 9; Xmin = 3 Range = 9 – 3 = 6

10 9 Calcoliamo il Range per tutte le tre prove Range 1 a prova = 6  dati più dispersi, risultati più eterogenei Range 3 a prova = 1  dati più concentrati, risultati più omogenei Range 2 a prova = Range 1 a prova = 6 Stessa Distribuzione?

11 10 Vediamo graficamente

12 11 Osservazioni: 1. Il campo di variazione dà informazioni sulla distribuzione dei dati: più R è piccolo più i dati sono concentrati; più R è grande più i dati sono dispersi. 2. R è espresso nella stessa unità di misura dei dati 3. Tuttavia R tiene conto solo dei dati estremi della distribuzione e non di tutti i dati, pertanto distribuzioni diverse ma con gli stessi valori estremi hanno range uguali Es. Range 1 a prova = Range 2 a prova. ma distribuzione 1 a prova  Distribuzione 2 a prova

13 12 S CARTO MEDIO DALLA MEDIA ARITMETICA Un altro modo per calcolare la variabilità dei dati (tenendo conto di tutti i dati) consiste nel calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze Scarto medio = Distanza media dei dati dalla media

14 Osservazione Scarto s m = 0

15 14 Esempio Consideriamo le valutazioni della prima prova  x 1  =  3 – 6,25  = 3,25;  x 2  =  5 – 6,25  = 1,25;  x 3  =  8 – 6,25  = 1,75;  x 4  =  9 – 6,25  = 2,75; Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25 4

16 15 Calcoliamo lo Scarto medio per tutte le tre prove Scarto 1 a prova = 2,25  dati più dispersi, risultati più eterogenei Scarto 3 a prova = 0,38  dati più concentrati, risultati più omogenei Scarto 2 a pr.  Scarto 1 a pr. “Le Distribuzioni Differiscono”

17 16 Diagramma degli scarti dalla media

18 17 Osservazioni: 1. Lo scarto medio dalla media dà informazioni sulla distribuzione dei dati: più S M è piccolo più i dati sono concentrati; più S M è grande più i dati sono dispersi. 2. S M è espresso nella stessa unità di misura dei dati 3. Non ha l'inconveniente del “Campo di variazione” in quanto S M tiene conto di tutti i dati della distribuzione

19 18 V ARIANZA E S CARTO QUADRATICO MEDIO Sono gli indici di variabilità più utilizzati, e tengono conto della distribuzione di tutti i dati. Varianza Rappresenta la media aritmetica dei quadrati delle distanze dei dati dalla media M

20 19

21 20 Esempio - Varianza Consideriamo le valutazioni della prima prova (  x 1 ) 2 = (3 – 6,25 ) 2 = 10,5625; (  x 2 ) 2 = (5 – 6,25 ) 2 = 1,5625; (  x 3 ) 2 = (8 – 6,25 ) 2 = 3,0625; (  x 4 ) 2 = (9 – 6,25 ) 2 = 7,5625;  2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875 4

22 21 Calcoliamo la Varianza per tutte le tre prove Varianza 1 a prova = 5,69  dati più dispersi, risultati più eterogenei Varianza 3 a prova = 0,19  dati più concentrati, risultati più omogenei Varianza 2 a pr.  Varianza 1 a pr “Le Distribuzioni Differiscono”

23 22 S CARTO QUADRATICO MEDIO O D EVIAZIONE STANDARD È uguale alla radice quadrata della varianza

24 23 Esempio - Scarto quadratico medio Riprendiamo le valutazioni della prima prova

25 24 Calcoliamo lo Scarto quadratico medio per tutte le prove Scarto q. 1 a prova = 2,38  dati più dispersi, risultati più eterogenei Scarto q. 3 a prova = 0,43  dati più concentrati, risultati più omogenei Scarto q. 2 a pr.  Scarto q. 1 a pr “Le Distribuzioni Differiscono”

26 25 Osservazioni: 1. La varianza  2 e lo scarto quadratico medio  danno informazioni sulla distribuzione dei dati: più  2 e  sono piccoli più i dati sono concentrati; più  2 e  sono grandi più i dati sono dispersi. 2. Entrambi gli indici tengono conto di tutti i dati della distribuzione

27 26 3. Entrambi si basano sulla proprietà della media per cui la somma dei quadrati degli scarti dalla media è minima 4. La varianza è espressa mediante il quadrato dell’unità di misura dei dati 5. Lo scarto quadratico nella stessa unità di misura dei dati e pertanto viene preferito alla varianza

28 27 Il coefficiente di variazione CV Il CV è una misura relativa di dispersione (le precedenti sono misure assolute) ed è una grandezza adimensionale. E’ particolarmente utile quando si devono confrontare le distribuzioni di due gruppi con medie molto diverse o con dati espressi in scale differenti (es. confronto tra variazione del peso e variazione dell’altezza).

29 28 Se i valori di CV sono esterni a quelli indicati « o si è in presenza di errori di rilevazione, « oppure il fenomeno presenta aspetti particolari. « se CV è molto basso (2 – 3 %) bisogna sospettare l’esistenza di fattori limitanti la variabilità, « se CV è molto alto (intorno al 40% o più) è molto probabile l’esistenza di fattori che aumentano la variabilità In natura il coeff. di variazione tende a rimanere costante per ogni fenomeno: i valori normalmente variano dal 5% al 15%

30 29 Calcoliamo il Coeff. di variazione delle tre prove CV 1 a prova = 38,16%  dati più dispersi, risultati più eterogenei CV 3 a prova = 6,93%  dati più concentrati, risultati più omogenei CV 2 a pr.  CV 1 a pr  “Le Distribuzioni Differiscono”

31 Esempio Nel reparto di ginecologia e ostetricia di un ospedale è stato rilevato il peso di un campione di 80 neonati maschi e contemporaneamente il peso dei rispettivi papà. I dati ottenuti sono espressi nella seguente tabella: Coefficiente di variazione GruppoMediaDeviazione Standard Neonati3,4 kg0,8 Babbo82 kg15 Ci si chiede se, rispetto alla variabile peso, esiste più variabilità nel gruppo dei neonati o in quello dei papà.

32 Per poter operare un confronto sulla variabilità dei due gruppi è opportuno calcolare i rispettivi coefficienti di variazione : Osservando i risultati si può concludere che il gruppo dei bambini presenta una maggiore variabilità rispetto a quella del gruppo dei Papà.

33 32 L E MISURE DI F ORMA Sono indici sintetici utilizzati per evidenziare particolarità nella forma della distribuzione. Noi esamineremo: l’asimmetria l’asimmetria la curtosi la curtosi

34 33 A SIMMETRIA Una distribuzione è simmetrica quando la sua curva di frequenza presenta un asse di simmetria In una distribuzione simmetrica media, mediana e moda sono coincidenti. media = mediana = moda In una distribuzione asimmetrica media, mediana e moda non sono più coincidenti La differenza (distanza) tra la media e la moda può essere considerata una misura della asimmetria

35 34 Un altro coeff di asimmetria è il Coeff. di asimmetria (di Fisher)  = scarto quadratico medio Se a = 0 distribuzione simmetrica Se a > 0 asimmetria destra Se a < 0 asimmetria sinistra Sono state proposte diverse misure dell’ asimmetria, per esempio le più semplici sono: Dette rispettivamente: primo e secondo coeff. di asimmetria di Pearson

36 35 A SIMMETRIA POSITIVA ( AS. D ESTRA ) moda < mediana < media La distribuzione è asimmetrica quando non presenta nessun asse di simmetria. Si ha un’asimmetria positiva o destra quando il ramo destro della curva è più lungo di quello sinistro In questo caso si ha: media=63,65 moda = 48 mediana =58

37 36 A SIMMETRIA NEGATIVA ( AS. S INISTRA ) media < mediana < moda Si ha un’asimmetria negativa o sinistra quando il ramo sinistro della curva è più lungo di quello destro In questo caso si ha: media = 85,24 moda = 100 mediana = 90

38 37 C URTOSI Se una distribuzione è simmetrica o quasi simmetrica allora può esser più o meno appuntita o più o meno appiattita rispetto alla distribuzione normale (o di Gauss) Se la curva è curva Leptocurtica più appuntita si dice curva Leptocurtica curva Platicurtica più appiattita si dice curva Platicurtica Coeff. di curtosi di Pearson   = scarto quadratico medio 0  K < +  Se K = 3 distribuzione normale se K > 3 curva leptocurtica Se K < 3 curva platicurtica.

39 38 C URTOSI leptocurtosi K = 8,57 platicurtosi K = 2,8 curva normale K = 3

40 39 C URTOSI Spesso il coeff. di curtosi viene indicato con b 2 che, come visto, nel caso della distribuzione normale è = 3 pertanto, talvolta, la curtosi viene indicata con (b 2 – 3) Allora: se la distribuzione è normale (b 2 – 3 ) = 0 se la distribuzione è leptocurtica (b 2 – 3 ) > 0 se la distribuzione è platicurtica (b 2 – 3 ) < 0

41 Esempio 1 Data la seguente distribuzione unitaria del carattere X: X: a. Calcolare la media aritmetica utilizzando la distribuzione di frequenza; b. Verificare che la somma degli scarti dalla media è zero; c. Verificare che la somma degli scarti al quadrato dalla media ( varianza) è più piccola della somma dal valore 2 ( ciò vale per ogni altro valore diverso dalla media aritmetica ). xixi fifi xifixifi Media =

42 Esercizio 2 Con riferimento alla seguente distribuzione di un gruppo di 60 aziende, secondo la classe di fatturato, calcolare a.La media e la classe modale; b.La varianza e lo scarto quadratico medio della distribuzione di fatturato.

43

44 Quando i valori si presentano raggruppati in classi si parla di classi modali. Se la distribuzione delle unità statistiche hanno intervalli di ampiezza diversa, allora la classe modale è quella classe a cui corrisponde la massima densità di frequenza h i. Nel nostro caso: Nel nostro caso è la classe modale 0 – 5

45 b) La varianza e lo scarto quadratico medio della distribuzione di fatturato.

46 45 Fine Lezione

47 La deviazione standard è particolarmente significativa nelle distribuzioni gaussiane (grafico simmetrico rispetto alla media). Si può dimostrare che se la distribuzione è gaussiana, si ha che: σ è un parametro che caratterizza la distribuzione normale (Gaussiana)

48 In una distribuzione perfettamente simmetrica con media M

49

50

51

52 Il costo mensile del trasporto scolastico in una popolazione di 800 studenti, ha una distribuzione gaussiana. Il costo medio mensile è C M =56 € e la deviazione standard  = 5 €; a.Quanti sono gli studenti che hanno un costo tra 56 – 61 €? b.Quanti studenti hanno un costo superiore a 66€? ( M+2  ) c.Quanti sono gli studenti che hanno un costo tra 56 – 61 €? Risposta a. Risposta b. Risposta c.

53 La popolazione e il campione E’ la ricerca dei valori dell’universo attraverso un suo campione. Il campione deve riprodurre in piccola scala la popolazione I nostri campioni vengono dedotti mediante estrazione anche ripetuta. Questo significa che ogni elemento della popolazione ha la stessa possibilità di essere nuovamente estratto. Le formule sono più semplici.

54 La popolazione e il campione Esempio: Una azienda agricola produce polli da rosticceria ogni 40 giorni del peso di 1,6 kg con una tolleranza di 0,1 kg. I polli da scartare sono lo 0,2% del totale.

55 La popolazione e il campione NumerositàMediaDeviazione standard Percentuale Popolazione N=25000  kg  p =0,2 Campione n = 500s =0,06 kgf =0,4 I dati che fornisce il campione rappresentano la stima della popolazione. Gli eventuali differenze andranno discusse ed eventualmente modificate. Riassumiamo i parametri in una tabella.

56 La sistribuzione campionaria

57

58

59 Stima della media Come si può stimare la media dell’universo utilizzando la media del campione? Questa procedura si chiama stima puntuale Meglio accompagnarla anche dalla deviazione standard del campione

60 In questo caso posso utilizzare la deviazione standard del campione s, che però non essendo uno stimatore corretto, va modificata in questo modo:

61 intervallo di confidenza : intervallo di valori plausibili per quel parametro, che viene definito intervallo di confidenza (o intervallo di fiducia ). Se la confidenza deve essere del 95%, significa che il 95% dei campioni estratti deve avere una altezza compresa nell’intervallo  qualcosa

62 Mi aspetto che questi 57 studenti abbiano un’altezza compresa nell’intervallo: La media del campione considerato è compresa nell’intervallo delle medie campionarie

63 ES: Stimiamo l’altezza media in una popolazione di ragazzi di 19 anni sapendo che da un campione di 65 di essi, abbiamo rilevato che l’altezza media e la deviazione standard sono rispettivamente: effettuiamo una stima puntuale a un livello di confidenza del 99% Errore standard L’intervallo di confidenza pari al 99% sarà:

64 Il reddito annuo (in migliaia di euro) di 7 fratelli è il seguente: La concentrazione IndividuiABCDEFG Reddito in migliaia di €


Scaricare ppt "G LI I NDICI DI VARIABILITA’ - Campo di variazione - Scarto dalla media - Varianza - Scarto quadratico medio - Coefficiente di variazione 1 Elementi di."

Presentazioni simili


Annunci Google