La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure.

Presentazioni simili


Presentazione sul tema: "LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure."— Transcript della presentazione:

1 LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure di posizione

2 un qualsiasi insieme di dati porta in sè una certa quantità di informazione OBIETTIVO: riassumere tutta linformazione possibile in modo SINTETICO ed EFFICACE diversi strumenti e possibilità offerti dalla statistica STATISTICHE DI BASE

3 la variabile dinteresse è lALTEZZA UNA POPOLAZIONE CON MOLTA VARIABILITÀ UNA POPOLAZIONE CON POCA VARIABILITÀ

4 Una serie di dati [misurazioni] è compiutamente descritta da tre PROPRIETÀ PRINCIPALI: La tendenza centrale o posizione La dispersione o variabilità La forma quando descrivono la POPOLAZIONE (si indicano con lettere dellalfabeto greco STATISTICHE PARAMETRI Queste misure descrittive sintetiche sono chiamate: quando sono calcolate su un CAMPIONE di dati (si indicano con lettere dellalfabeto latino) (x, s, p)

5 INDICI DI POSIZIONE INDICI DI POSIZIONE (measures of location or central tendency) 1.MODA 2.MEDIA 3.MEDIANA

6 MODA Si definisce moda di un insieme di dati o di una distribuzione di frequenza la modalità, il valore (o lintervallo di classe) della variabile a cui corrisponde la massima frequenza. E la scelta fatta dalla maggioranza della popolazione, lo stile che tutti seguono in statistica non è diverso esempio: (50 neonati) modalità x i frequenza assoluta n i frequenza relativa p i frequenza relativa percentuale p i (%) normale % forcipe10.022% cesareo % TOTALE % MODA o classe modale

7 MA LA MODA E SEMPRE UNA SOLA? Pressione sistolica di tre gruppi di maschi giapponesi: nativi, prima e seconda generazione di immigrati negli USA (Issei e Nisei). Winkelstein et al. Am J Epidemiol 1975; 102: NATIVI GIAPPONESI ISSEINISEI

8 MEDIANA Il valore centrale di una serie ORDINATA di dati Le osservazioni vengono separate dal valore mediano in due parti numericamente uguali Mediana (Me) è sinonimo di 50-esimo percentile o di II quartile se n è dispari Me = x [(n+1)/2] se n è pari Me = [x n/2 + x (n/2+1) ] / 2

9 es. sulla mediana 50 cm150 cm155 cm165 cm180 cm campione di 5 unità variabile dinteresse = altezza 1. ordino le unità secondo un ordine crescente di altezza

10 50 cm150 cm155 cm165 cm180 cm 2. identifico lunità centrale nella serie ordinata di dati es. sulla mediana campione di 5 unità variabile dinteresse = altezza

11 50 cm150 cm155 cm165 cm180 cm 2. la mediana è il VALORE che la variabile altezza assume sullunità che divide il campione in due parti numericamente uguali

12 NB: le misure di posizione sono valori, NON frequenze! 50 cm150 cm155 cm165 cm180 cm n è dispari Me = x [(n+1)/2] = x (5+1/2) = x 3 formalmente:

13 ESERCIZIO-II I dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne: 2.Raggruppate i dati in intervalli di ampiezza 1 g/100 ml. 3.Determinate la moda e la mediana della distribuzione (dati raggruppati in intervalli di classe).

14 MEDIA ARITMETICA La media aritmetica di un insieme di osservazioni è pari alla somma dei valori diviso il numero totale delle osservazioni Formalmente: siano (x 1, x 2, …, x n ) le osservazioni della variabile X su un campione di n unità statistiche, allora esempio: (8 osservazioni)

15 MEDIA ARITMETICA PONDERATA - I Se una variabile assume lo stesso valore in più unità statistiche la media può essere calcolata moltiplicando quel valore per la frequenza con cui compare nella distribuzione k = numero di valori che la variabile può assumere x i = i-esimo valore assunto dalla variabile i-esimo n i = frequenza corrispondente al valore x i

16 x1x2x3x4x5x6x7x8x1x2x3x4x5x6x7x esempio sulla media aritmetica ponderata: k = numero di valori che la variabile può assumere x i = valore assunto dalla variabile nel sogg. i-esimo n i = frequenza corrispondente al valore x i la variabile può assumere 5 valori (k = 5)

17 etànini xixi xinixini tot /10/)..( nnxnxnxx k = numero di classi della variabile x i = valore centrale della classe n i = frequenza corrispondente al valore x i La media ponderata si applica anche alla distribuzione di frequenza di una var. quantitativa continua

18 La media aritmetica gode di diverse proprietà, le due principali dal punto di vista applicativo sono legate al concetto di scarto: scarto (distanza) della prima osservazione dalla media media aritmetica = punto centrale della distribuzione PRIMA PROPRIETA DELLA MEDIA ARITMETICA la somma algebrica degli scarti delle osservazioni dalla loro media aritmetica è pari a zero

19 ESERCIZIO-III i)Determinate la media della distribuzione; ii) Verificate la I° pproprietà della media I dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne:

20 TIPO DI OPERAZIONI VARIABILE CONSENTITE MODA MEDIANA MEDIA nominale= ordinale= quantitativa= – + (/ *) QUALE MISURA DI POSIZIONE UTILIZZARE? Sì No

21 MEDIA ARITMETICA MEDIANAMODA Facile da trattare matematicamente Utilizza tutta linformazione contenuta nei dati CONFRONTO TRA LE MISURE DI POSIZIONE PER UNA VARIABILE QUANTITATIVA E inaffidabile in caso di distribuzioni asimmetriche Difficile da trattare matematicamente Dipende dal raggruppamento arbitrario dei dati Varia molto da campione a campione Buona misura con distribuzioni asimmetriche (es. tempo di sopravvivenza) Buona misura quando un valore ha una frequenza relativa molto elevata Buona misura con distribuzioni simmetriche (es. molti parametri biologici)

22 CONFRONTO TRA LE MISURE DI POSIZIONE PER UNA VARIABILE QUANTITATIVA CAMPIONE Moda = 4 Mediana = 5 Media 16 (senza outliers sarebbe circa 6) esempio: Supponiamo di avere le Degenze Ospedaliere di 10 individui (espresse in giorni) La media aritmetica è poco robusta in presenza di valori anomali (outliers)!

23 Moda > Mediana > Media ASIMMETRIA NEGATIVA Moda < Mediana < Media ASIMMETRIA POSITIVA Moda =Mediana =Media SIMMETRIA RELAZIONE TRA MODA MEDIANA E MEDIA ARITMETICA

24 1.CAMPO DI VARIAZIONE (range) 2.DISTANZA INTERQUARTILE 3.VARIANZA INDICI DI DISPERSIONE INDICI DI DISPERSIONE (measures of dispersion) 6. COEFFICIENTE DI VARIAZIONE

25 Range = x max - x min differenza tra il valore massimo e il valore minimo osservati RANGE (CAMPO DI VARIAZIONE) Si basa soltanto sui valori estremi della distribuzione e non tiene conto dei valori intermedi E' molto influenzato da osservazioni anomale (outliers) Tende ad aumentare al crescere del numero delle osservazioni

26 n = 11 Range = x max - x min = =17 num. linfonodi metastatici n = 10 Range = x max - x min = =10 = (0,10) num. linfonodi metastatici Variazione del numero di linfonodi metastatici

27 IQR = Q 3 - Q 1 differenza tra il III°quartile (Q3) ed il I°quartile (Q1) DISTANZA INTERQUARTILE In questo intervallo ricade la metà dei valori osservati, posta esattamente al centro della distribuzione. Non è influenzata da osservazioni anomale o estreme.

28 Statura Freq. Cumul Totale 34 MASCHI esempio: Statura matricole della Facoltà di Medicina (A.A. 95/96) Range = x max - x min = = 31 cm mediana (range) = 176 ( ) cm mediana (IQR) = 176 ( ) cm Calcolo del I° quartile: (rango percentilico = 25) 1. rango = (34+1) * 25 / 100 = 35 / I° quartile = 174 cm Calcolo del III° quartile: (rango percentilico = 75) 1. rango = (34+1) * 75 / 100 = 35 * 3 / III° quartile = 181 cm IQR = Q3 - Q1 = = 7 cm

29 Deviazione standard: Varianza campionaria: Devianza: Gli indici di dispersione di più largo uso sono basati sugli scarti dalla media e, : per un campione di dimensione n, {x 1,x 2,...x n }, sono così definiti La Varianza La devianza è la somma dei quadrati degli scarti tra ogni elemento del campione (x i ) e la media campionaria ( ).

30 Calcolo della deviazione standard (d.s) x x x xixi = = 15 devianza = (2 - 5) 2 + (5 - 5) 2 + (8 - 5) 2 = 18 S 2 = 18/2 = 9 d.s = 3 X = 5

31 Interpretazione della deviazione standard (SD) in una distribuzione simmetrica (Gaussiana)

32 In alcune situazioni il confronto della variabilità allinterno di due gruppi di osservazioni utilizzando la deviazione standard è fuorviante Due variabili diverse: In 91 ragazze matricole di Medicina a VeronanellA.A. 95/96, la media del peso era pari a55.1 Kg e la deviazione standard era pari a5.7 Kg, la media della statura era pari a166.1 cm e la deviazione standard era pari a6.1 cm. E maggiore la variabilità del peso o la variabilità della statura? 1.Le variabili misurate nei due gruppi sono diverse (le osservazioni nei due gruppi sono espresse con diverse unità di misura)

33 1.La variabile misurata è la stessa ma i valori medi delle osservazioni nei due gruppi sono molto distanti (le osservazioni nei due gruppi sono su diversi ordini di grandezza) Due gruppi con valori medi molto distanti: Tre neonati pesano rispettivamente3, 4e 5 Kg (media =4 Kg;dev.st. = 1 Kg). Tre bambini di 1 anno pesano10, 11e 12 Kg (media = 11 Kg;dev.st. =1 Kg). La deviazione standard è uguale nei due gruppi, ma il buon senso suggerisce che la variabilità del peso sia maggiore nei neonati.

34 COEFFICIENTE DI VARIAZIONE PERCENTUALE CV% = (deviazione standard / media) * 100% Ci permette di misurare la variabilità indipendentemente dalla grandezza e dalla scala di misura delle osservazioni Media Dev. standard CV Neonati 4 Kg 1 Kg 25.0 % Bambini 1 anno 11 Kg 1 Kg 9.1 % La variabilità del peso è maggiore nei neonati. Media Dev. standard CV Peso 55.1 Kg 5.7 Kg 10.3 % Statura cm 6.1 cm 3.7 % La variabilità del peso è maggiore della variabilità della statura.

35 MISURE PONDERATE (POOLED) Molto spesso è necessario riassumere linformazione pertinente ai valori di una variabile X misurata su due o più campioni indipendenti Esempio: lo stesso farmaco viene sperimentato in 2 ospedali A e B in A la % di guarigioni è del 25% su 100 pazienti in B la % di guarigioni è del 35% su 300 pazienti Considerando le due sperimentazioni, qual è la % di successo del farmaco?

36 In generale se si dispone di k campioni e su ognuno di essi è calcolata una misura di sintesi m i con fattore di ponderazione w i (in genere la numerosità del campione), la misura di sintesi ponderata in tutti i campioni sarà:

37 esercizio: il tempo di sopravvivenza medio dei pazienti con carcinoma polmonare trattati in due centri A e B è rispettivamente: A= 23.5 mesin = 80 B= 27.0 mesin = 30 Calcolare il tempo di sopravvivenza medio relativo ai due centri


Scaricare ppt "LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure."

Presentazioni simili


Annunci Google