La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LIBRO – BIOSTATISTICA [Pagano-Gauvreau] PagParag. Argomento 333.Misure di sintesi numerica 333.1Misure di tendenza centrale 333.1.1Media 353.1.2Mediana.

Presentazioni simili


Presentazione sul tema: "LIBRO – BIOSTATISTICA [Pagano-Gauvreau] PagParag. Argomento 333.Misure di sintesi numerica 333.1Misure di tendenza centrale 333.1.1Media 353.1.2Mediana."— Transcript della presentazione:

1 LIBRO – BIOSTATISTICA [Pagano-Gauvreau] PagParag. Argomento 333.Misure di sintesi numerica 333.1Misure di tendenza centrale Media Mediana Moda 373.2Misure di dispersione Campo di variazione (Range) Campo di variazione inter quartile (Range inter quartile) Varianza e Deviazione standard Coefficiente di variazione 413.3Dati raggruppati Media raggruppata Varianza raggruppata 433.4Disuguaglianza di Chebychev 443.5Altre applicazioni 483.6Esercizi

2 Statistica Descrittiva dispersione di una distribuzione Obiettivi della lezione: media mediana moda frattili e percentili Intervallo di variazione Devianza Varianza Deviazione standardeviazione standard Intervallo interquartilentervallo interquartile Approfondimento

3 di ore di sonno MaschiFemmine Usando SOLO le medie possiamo ingannarci nel confrontare i caratteri di due gruppi di individui. Non ci stupiamo affatto, perchè sappiamo che le donne sono diverse dagli uomini sotto molti aspetti Numero frequenza Diamo un'occhiata alla distribuzione di frequenza delle ORE DI SONNO indotte da un sonnifero, dormite da 40 maschi e 40 femmine. dispersione di una distribuzione

4 La misura della variabilità, permette di descrivere in modo più completo la distribuzione di una variabile. Le misure di tendenza centrale: media, mediana e moda individuano l'elemento centrale della distribuzione. Diamo, di nuovo, un'occhiata alla distribuzione di frequenza delle ORE DI SONNO dei 40 soggetti. La media è di 5 ore ma uno sguardo alla tabella mostra che un buon numero di pazienti sono molto diversi tra loro. Alcuni presentano un periodo di sonno più breve ed altri più lungo della media. La media non dice in che misura i dati siano dispersi attorno al valore centrale. dispersione di una distribuzione dispersione di una distribuzione

5 Per facilitare i confronti riportiamo i dati in grafico. Il numero edio di letture risulta è di 5 ore in entrambe i sessi Se ci soffermiamo solo sulle medie potremmo concludere che le donne hanno una durata del sonno indotto pari a quella dei maschi. dispersione di una distribuzione dispersione di una distribuzione

6 I dati possono … essere uniformemente distribuiti, concentrarsi ai due estremi della scala concentrarsi a un capo della scala o disporsi in altro modo L'intervallo di variazione L'intervallo di variazione

7 Mentre in media le femmine presentano un durata del sonno uguale ai maschi, alcune di loro hanno un durata del sonno ancora superiore ai tempi più elevati dei maschi. Quindi le medie non sono insufficienti: per completare il quadro occorrono alcune misure di variabilità. L'intervallo di variazione o range consiste semplicemente nella differenza tra il valore massimo e il valore minimo della distribuzione. L'intervallo di variazione

8 L'intervallo di variazione tende ad ingannare quando nella distribuzio- ne si trovano pochi valori molto devianti. ESEMPIO:si valuta il tempo dattesa per accedere ad un esame radiografico in un ospedale di piccole dimensioni. I dati raccolti indicano che la maggior parte dei pazienti in studio ha dovuto attendere un periodo di tempo che oscilla tra i 6 e i 12 giorni. un paziente ha potuto effettuare l'esame dopo un solo giorno di attesa, un altro ha dovuto attendere ben 24 giorni. I tempi di attesa sono, per la maggior parte dei pazienti è di 9 giorni e l'intervallo di variazione (23 giorni) non mette in luce questo fatto. Un altro svantaggio dell'intervallo di variazione, come misura di variabilità, è che non dà nessuna indicazione di come i diversi valori si raggruppano attorno alla media L'intervallo di variazione

9 Esempio: {A}:{8,5,7,6,35,5,4} {B}:{11,8,10,9,17,8,7} ma in {A} i valori sono più dispersi che in {B}: in {A} i valori sono inclusi tra 4 e 35 in {B} i valori sono inclusi tra 7 e 17 La differenza tra il massimo e il minimo valore di un insieme di dati è detto intervallo di variazione (o range). il range di {A} è R A = = 31 il range di {B} è R B = = 10 Gli insiemi di valori di VES Il range è il più intuitivo fra gli indici di dispersione, ha però il difetto di basarsi solo sui due valori estremi, nei quali si manifesta maggiormente la variabilità di campionamento e l'errore di misura. hanno la stessa media ( =10), L'intervallo di variazione

10 Deviazione standard: Varianza campionaria: Coefficiente di variazione : Devianza: Gli indici di dispersione di più largo uso sono basati sugli scarti dalla media e, : per un campione di dimensione n, {x 1,x 2,...x n }, sono così definiti La devianza La devianza è la somma dei quadrati degli scarti tra ogni elemento del campione (x i ) e la media campionaria ( ).

11 La varianza campionaria è una media dei quadrati degli scarti (ed è espressa in unità al quadrato): si chiarirà poi perchè si usi, nel calcolo di s 2, il divisore (n-1) anziché n. Basti considerare che, se n=1, non si hanno informazioni sulla dispersione: in questo caso, la varianza campionaria è una forma indeterminata (0/0). La deviazione standard ha la medesima dimensionalità dei dati su cui è stata calcolata (es.: cm, dl, mmoli). Il coefficiente di variazione non ha dimensione: è un indice di variabilità relativa, utilizzabile per confrontare la dispersione di variabili con differenti unità di misura. La devianza, la varianza e la deviazione standard La devianza, la varianza e la deviazione standard

12 devianza per dati raggruppati in classi devianza per dati singoli formule di calcolo della devianza formule di calcolo della devianza

13 Esempio calcolo della devianza calcolo della devianza {A}:{ 8, 5, 7, 6, 35, 5, 4} Somma=70Media 70/7 = 10 D=(8-10) 2 +(5-10) 2 +(7-10) 2 +(6-10) 2 +(35-10) 2 +(5-10) 2 +(4-10) 2 =740 D= (2) 2 + (-5) 2 + (-3) 2 + (-4) 2 + (25) 2 + (-5) 2 + (-6) 2 =740 D= = 740 D= (70) 2 / 7= =740

14 Nell'esempio dei due insiemi di valori di VES si ha: In {A} l'intervallo ± s include anche valori negativi di VES, che ovviamente non sono possibili. L'uso di s per esprimere la dispersione dovrebbe essere quindi limitato alle distribuzioni simmetriche (o quasi). calcolo degli indici di dispersione {A}: { 8, 5, 7, 6, 35, 5, 4} D = ( ) 2 /7 = =740 s 2 = 740/6 = s = = 11.1 ic ={-1.1,21.1} CV%= 100 (11.1/10) = 111% {B}: { 11, 8, 10, 9, 17, 8, 7} D = (11+8+…+7) 2 /7 = = 68 s 2 = 68 / 6=11.33 s=11.33 = 3.4 ic ={6.6, 13.4} CV% = 100 (3.4/10) = 34%

15 x i f(x i )x i f(x i ) Nell'esempio della lunghezza dei neonati: calcolo della devianza ( dati in classi ) __1di5 calcolo della devianza ( dati in classi ) _ _1di5

16 x i f(x i )x i f(x i ) Nell'esempio della lunghezza dei neonati: calcolo della devianza ( dati in classi ) __2 di 5

17 x i f(x i )x i f(x i ) Nell'esempio della lunghezza dei neonati: calcolo della devianza ( dati in classi ) __3 di 5 media= /60=

18 x i f(x i )x i f(x i ) Nell'esempio della lunghezza dei neonati: calcolo della devianza ( dati in classi ) __4di5 calcolo della devianza ( dati in classi ) __4di5 media= /60= Var= /59 =6.2

19 D = ( ) ( ) ( ) 2 1 = x i f(x i )x i f(x i ) D = (3022.5) 2 /60 = = Nell'esempio della lunghezza dei neonati: Var= /59 =6.2 Deviazione standard = 2.49 calcolo della devianza ( dati in classi ) __5di5 media= /60=

20 esempio della lunghezza dei neonati: Istogramma dei dati Istogramma dei dati

21 Devianza= 620 ; Varianza=Devianza/(N-1)= 620/79 = calcolo della varianza ( dati in classi ) calcolo della varianza ( dati in classi ) xixi f(x i ) Σ Torniamo allesempio delle ORE DI SONNO Deviazione standard=6.429

22 Alcune osservazioni

23 i valori assoluti degli scarti, Dato un insieme di n valori: detta la loro media aritmetica e si chiama scarto semplice medio (assoluto) la media aritmetica dei valori assoluti degli scarti semplici di ciascun dato x dalla media aritmetica scarto semplice medio

24 Si definisce varianza di una distribuzione statistica la media aritmetica dei quadrati degli scarti dalla media. Si definisce scarto quadratico medio la radice quadrata della varianza. la varianza della popolazione

25 Deviazione standard

26 Un indice di dispersione di uso comune è l'intervallo interquartile, dato dalla differenza tra 3° e 1° quartile (cioè tra 75° e 25° centile): tale intervallo contiene la metà dei valori inclusi nel campione, indipendentemente dalla forma della distribuzione della variabile. l'intervallo interquartile

27 Obiettivi presentati nella lezione: media mediana moda percentili intervallo di variazione devianza varianza deviazione standard intervallo interquartile Indice di simmetria Coefficiente di variazione Sommario della statistica descrittiva

28 ESEMPIO: Come confrontare il vostro peso con quello di altre persone della vostra età? Supponiamo che uno di voi pesi 4 kg oltre la media dei soggetti della sua età: ci sono molti altri, della stessa età, con un peso maggiore, oppure egli è un piccolo gigante? Bisogna conoscere la deviazione standard dei pesi dei ragazzi di quella età, prima di fare un confronto con il peso degli altri. Supponiamo che il peso medio dei ragazzi di quell'età sia 45 kg e che la deviazione standard sia 2 kg: … allora un peso di 49 kg è sopra la media di due deviazioni standard. La deviazione standard è una quantità utile per effettuare confronti.

29 Regola di Chebischev K= numero di dalla S k =Proporzione (1-1/k 2 ) Percentuale (1-1/k 2 )* % % % % % %

30 Approfondimento: rivediamo alcune formule ed introduciamo le nozioni di … di asimmetria (skewness) e di curtosi

31 Principali indici statistici I grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici. Siano n osservazioni numeriche di posizione di forma di dispersione MODA MEDIANA MEDIA SCARTO QUADRATICO MEDIO VARIANZA RANGE ASIMMETRIA (SKEWNESS) CURTOSI ( KURTOSIS) INDICI

32 Indici di posizione: moda E' definita come il valore che ha la frequenza più alta. E' quel valore al di sotto del quale cadono la metà dei valori campionari. mediana E' quel valore che corrisponde alla somma di tutti i valori diviso il numero dei valori stessi. dove: X i = esito i-ma misura n = numero dei dati (dimensione del campione) media Gli indici di posizione indicano il valore attorno al quale i dati del campione sono posizionati Mi interessa la dispersione dei dati intorno a tale valore N.B. NELLA DISTRIBUZIONE NORMALE MEDIA= MODA = MEDIANA

33 Indici di dispersione: Media dei quadrati degli scarti x max -x min Range (intrevallo di variazione) Scarto medio assoluto Varianza campionaria Deviazione standard campionaria p_esimo quantile: si considera np per [ 0 p 1 ] Se np non è intero, considero k lintero successivo e il p_esimo quantile è x k Se np = k è intero, il p_esimo quantile è (x k + x k+1 )/2 Q 1 =primo quartile =25° percentile Q 2 =secondo quartile=50° percentile=mediana Q 3 =terzo quartile=75° percentile

34 Media uguale Deviazione Standard Diversa Media e varianza: Media=2 Varianza=1.33 Media=2 Varianza=4

35 Indici di forma INDICE DI ASIMMETRIA Kurtosis >0 coda a destra <0 coda a sinistra =0 simmetrica Misura quanto la distribuzione è appuntita >3 poco appuntita =3 caso della distribuzione normale <3 molto appuntita N.B. In molti software il coefficiemte di curtosi viene confrontato con il valore 0 Per la distribuzione gaussiana g=0 Skewness Per la distribuzione gaussiana g 2 =3

36 Applicazioni La simmetria ha benefici in molti settori. In molti modelli è semplicistico supporre che i dati abbiano una distribuzione [normale] simmetrica intorno alla media. La distribuzione normale ha una asimmetria di zero. Ma in realtà, spesso i punti dati non sono perfetta-mente simmetrici. Così, la comprensione della asimmetria della serie di dati reali indica che le deviazioni dalla media stanno più nel verso positivo o più nel verso negativo. Il test K 2 (D'Agostino) è un Goodness-of-fit test di nor-malità basato sulla asimmetria e curtosi campionaria.

37 Coefficienti di skewness di Pearson Karl Pearson ha suggerito i calcoli più semplici come una misura di asimmetria: La modalità di asimmetria di Pearson, definito da (media - Moda) / deviazione standard, Asimmetria primo coefficiente di Pearson, definita da 3 (media - moda) / deviazione standard, Asimmetria secondo coefficiente di Pearson, definito da 3 (media - mediana) / deviazione standard.

38 Skewness

39 Skewness per curve simmetriche

40 CURTOSI: leptocurtica

41 CURTOSI: distribuzione platicurtica

42

43 Indici: Schema riassuntivo media: moda: punto di max della distribuzione mediana: valore sotto al quale cadono la metà dei valori campionari. Si dispongono i dati in ordine crescente e si prende quello che occupa la posizione centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari) varianza deviazione standard range skewness (coeff. di asimmetria) curtosi: misura quanto la distribuzione è appuntita di posizione di dispersione di di forma >0 coda a ds <0 coda a sin =0 simmetrica >3 poco appuntita <3 molto appuntita


Scaricare ppt "LIBRO – BIOSTATISTICA [Pagano-Gauvreau] PagParag. Argomento 333.Misure di sintesi numerica 333.1Misure di tendenza centrale 333.1.1Media 353.1.2Mediana."

Presentazioni simili


Annunci Google