La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LEZIONI DI STATISTICA MEDICA

Presentazioni simili


Presentazione sul tema: "LEZIONI DI STATISTICA MEDICA"— Transcript della presentazione:

1 LEZIONI DI STATISTICA MEDICA
Prof. Roberto de Marco Lezione n.4 Misure di posizione Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona

2 diversi strumenti e possibilità offerti dalla statistica
“ un qualsiasi insieme di dati porta in sè una certa quantità di informazione ” OBIETTIVO: riassumere tutta l’informazione possibile in modo SINTETICO ed EFFICACE diversi strumenti e possibilità offerti dalla statistica STATISTICHE DI BASE

3 la variabile d’interesse è l’ALTEZZA
UNA POPOLAZIONE CON MOLTA VARIABILITÀ UNA POPOLAZIONE CON POCA VARIABILITÀ

4 La tendenza centrale o posizione La dispersione o variabilità La forma
Una serie di dati [misurazioni] è compiutamente descritta da tre PROPRIETÀ PRINCIPALI: La tendenza centrale o posizione La dispersione o variabilità La forma quando descrivono la POPOLAZIONE (si indicano con lettere dell’alfabeto greco STATISTICHE PARAMETRI Queste misure descrittive sintetiche sono chiamate: quando sono calcolate su un CAMPIONE di dati (si indicano con lettere dell’alfabeto latino) (m, s, p) (x, s, p)

5 INDICI DI POSIZIONE (measures of location or central tendency)
MODA MEDIA MEDIANA

6 in statistica non è diverso
MODA E’ la scelta fatta dalla maggioranza della popolazione, lo stile che “tutti” seguono in statistica non è diverso Si definisce moda di un insieme di dati o di una distribuzione di frequenza la modalità, il valore (o l’intervallo di classe) della variabile a cui corrisponde la massima frequenza. esempio: (50 neonati) modalità x i frequenza assoluta n relativa p frequenza relativa percentuale (%) normale 35 0.70 70% forcipe 1 0.02 2% cesareo 14 0.28 28% TOTALE 50 1.00 100% MODA o classe modale

7 MA LA MODA E’ SEMPRE UNA SOLA?
Pressione sistolica di tre gruppi di maschi giapponesi: nativi, prima e seconda generazione di immigrati negli USA (Issei e Nisei). Winkelstein et al. Am J Epidemiol 1975; 102: NATIVI GIAPPONESI ISSEI NISEI

8 MEDIANA Me = x[(n+1)/2] Me = [xn/2 + x(n/2+1)] / 2
Il valore centrale di una serie ORDINATA di dati Le osservazioni vengono separate dal valore mediano in due parti numericamente uguali Mediana (Me) è sinonimo di 50-esimo percentile o di II quartile se n è dispari Me = x[(n+1)/2] se n è pari Me = [xn/2 + x(n/2+1)] / 2

9 1. ordino le unità secondo un ordine crescente di altezza
campione di 5 unità variabile d’interesse = altezza es. sulla mediana 50 cm 150 cm 155 cm 165 cm 180 cm 1. ordino le unità secondo un ordine crescente di altezza

10 2. identifico l’unità centrale nella serie ordinata di dati
campione di 5 unità variabile d’interesse = altezza es. sulla mediana 50 cm 150 cm 155 cm 165 cm 180 cm 2. identifico l’unità centrale nella serie ordinata di dati

11 50 cm 150 cm 155 cm 165 cm 180 cm 2. la mediana è il VALORE che la variabile altezza assume sull’unità che divide il campione in due parti numericamente uguali

12 formalmente: n è dispari Me = x[(n+1)/2] = x(5+1/2) = x3 50 cm 150 cm 155 cm 165 cm 180 cm 1 4 3 5 2 NB: le misure di posizione sono valori, NON frequenze!

13 ESERCIZIO-II Raggruppate i dati in intervalli di ampiezza 1 g/100 ml.
I dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne: Raggruppate i dati in intervalli di ampiezza 1 g/100 ml. Determinate la moda e la mediana della distribuzione (dati raggruppati in intervalli di classe).

14 MEDIA ARITMETICA La media aritmetica di un insieme di osservazioni è pari alla somma dei valori diviso il numero totale delle osservazioni Formalmente: siano (x1, x2, … , xn) le osservazioni della variabile X su un campione di n unità statistiche, allora esempio: (8 osservazioni)

15 MEDIA ARITMETICA PONDERATA - I
Se una variabile assume lo stesso valore in più unità statistiche la media può essere calcolata moltiplicando quel valore per la frequenza con cui compare nella distribuzione k = numero di valori che la variabile può assumere xi = i-esimo valore assunto dalla variabile i-esimo ni = frequenza corrispondente al valore xi

16 esempio sulla media aritmetica ponderata:
k = numero di valori che la variabile può assumere xi = valore assunto dalla variabile nel sogg. i-esimo ni = frequenza corrispondente al valore xi esempio sulla media aritmetica ponderata: x1 x2 x3 x4 x5 x6 x7 x8 5 16 13 27 11 la variabile può assumere 5 valori (k = 5)

17 La media ponderata si applica anche alla distribuzione
di frequenza di una var. quantitativa continua k = numero di classi della variabile xi = valore centrale della classe ni = frequenza corrispondente al valore xi età ni xi xini 5-9 2 7 14 9-13 11 22 13-17 5 15 75 17-21 1 18 tot 10 129 . 12.9 129/10 / ) .. ( 8 2 1 = + n x

18 PRIMA PROPRIETA’ DELLA MEDIA ARITMETICA
La media aritmetica gode di diverse proprietà, le due principali dal punto di vista applicativo sono legate al concetto di scarto: PRIMA PROPRIETA’ DELLA MEDIA ARITMETICA la somma algebrica degli scarti delle osservazioni dalla loro media aritmetica è pari a zero scarto (distanza) della prima osservazione dalla media  media aritmetica = punto ‘centrale’ della distribuzione

19 ESERCIZIO-III i) Determinate la media della distribuzione;
I dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne: i) Determinate la media della distribuzione; ii) Verificate la I° pproprietà della media

20 QUALE MISURA DI POSIZIONE UTILIZZARE?
TIPO DI OPERAZIONI VARIABILE CONSENTITE MODA MEDIANA MEDIA nominale =  ordinale =  < > quantitativa =  < > – + (/ *) No No

21 CONFRONTO TRA LE MISURE DI POSIZIONE PER UNA VARIABILE QUANTITATIVA
MODA MEDIANA MEDIA ARITMETICA Buona misura con distribuzioni simmetriche (es. molti parametri biologici) Buona misura quando un valore ha una frequenza relativa molto elevata Buona misura con distribuzioni asimmetriche (es. tempo di sopravvivenza) Facile da trattare matematicamente Utilizza tutta l’informazione contenuta nei dati Dipende dal raggruppamento arbitrario dei dati Varia molto da campione a campione E’ inaffidabile in caso di distribuzioni asimmetriche Difficile da trattare matematicamente

22 CONFRONTO TRA LE MISURE DI POSIZIONE PER UNA VARIABILE QUANTITATIVA
esempio: Supponiamo di avere le Degenze Ospedaliere di 10 individui (espresse in giorni) CAMPIONE Moda = 4 Mediana = 5 Media ≈ 16 (senza outliers sarebbe circa 6) La media aritmetica è poco “robusta” in presenza di valori anomali (outliers)!

23 RELAZIONE TRA MODA MEDIANA E MEDIA ARITMETICA
Moda < Mediana < Media ASIMMETRIA POSITIVA -6 -5 -4 -3 -2 -1 1 2 3 4 5 6 Moda = Mediana = Media SIMMETRIA Moda > Mediana > Media ASIMMETRIA NEGATIVA

24 INDICI DI DISPERSIONE (measures of dispersion)
CAMPO DI VARIAZIONE (range) DISTANZA INTERQUARTILE VARIANZA COEFFICIENTE DI VARIAZIONE

25 differenza tra il valore massimo e il valore minimo osservati
RANGE (CAMPO DI VARIAZIONE) Range = xmax - xmin differenza tra il valore massimo e il valore minimo osservati Si basa soltanto sui valori estremi della distribuzione e non tiene conto dei valori intermedi E' molto influenzato da osservazioni anomale (outliers) Tende ad aumentare al crescere del numero delle osservazioni

26 num. linfonodi metastatici num. linfonodi metastatici
Variazione del numero di linfonodi metastatici n = 10  Range = xmax - xmin = =10 = (0,10) num. linfonodi metastatici n = 11  Range = xmax - xmin = =17 num. linfonodi metastatici

27 differenza tra il III°quartile (Q3) ed il I°quartile (Q1)
DISTANZA INTERQUARTILE IQR = Q3 - Q1 differenza tra il III°quartile (Q3) ed il I°quartile (Q1) In questo intervallo ricade la metà dei valori osservati, posta esattamente al centro della distribuzione. Non è influenzata da osservazioni anomale o estreme.

28 esempio: Statura matricole della Facoltà di Medicina (A.A. 95/96)
Range = xmax - xmin = = 31 cm Statura Freq. Cumul. Totale MASCHI Calcolo del I° quartile: (rango percentilico = 25) 1. rango = (34+1) * 25 / 100 = 35 / 4  9 2. I° quartile = 174 cm Calcolo del III° quartile: (rango percentilico = 75) 1. rango = (34+1) * 75 / 100 = 35 * 3 / 4  26 2. III° quartile = 181 cm IQR = Q3 - Q1 = = 7 cm mediana (range) = 176 ( ) cm mediana (IQR) = 176 ( ) cm

29 La Varianza Gli indici di dispersione di più largo uso sono basati sugli scarti dalla media e, : per un campione di dimensione n, {x1,x2,...xn}, sono così definiti Devianza: Varianza campionaria: Deviazione standard: La devianza è la somma dei quadrati degli scarti tra ogni elemento del campione (xi) e la media campionaria ( ).

30 Calcolo della deviazione standard (d.s)
2 4 6 8 x xi = 15 devianza = (2 - 5)2 + (5 - 5)2 + (8 - 5)2 = 18 S2 = 18/2 = 9 d.s = 3 X = 5

31 Interpretazione della deviazione standard (SD)
in una distribuzione simmetrica (Gaussiana)

32 In alcune situazioni il confronto della variabilità all’interno di due gruppi di osservazioni utilizzando la deviazione standard è fuorviante Due variabili diverse : In 91 ragazze matricole di Medicina a Verona nell’A.A. 95/96, la media del peso era pari a 55.1 Kg e la deviazione standard era pari a 5.7 Kg , la media della statura 166.1 cm 6.1 cm . E’ maggiore la variabilità del peso o la variabilità della statura? Le variabili misurate nei due gruppi sono diverse (le osservazioni nei due gruppi sono espresse con diverse unità di misura)

33 Due gruppi con valori medi molto distanti :
Tre neonati pesano rispettivamente 3 , 4 e 5 Kg (media = 4 Kg ; dev.st. = 1 Kg ). Tre bambini di 1 anno pesano 10 11 12 Kg ( media = 11 Kg La deviazione standard è uguale nei due gruppi, ma il buon senso suggerisce che la variabilità del peso sia maggiore nei neonati. La variabile misurata è la stessa ma i valori medi delle osservazioni nei due gruppi sono molto distanti (le osservazioni nei due gruppi sono su diversi ordini di grandezza)

34 COEFFICIENTE DI VARIAZIONE PERCENTUALE
CV% = (deviazione standard / media) * 100% Ci permette di misurare la variabilità indipendentemente dalla grandezza e dalla scala di misura delle osservazioni Media Dev. standard CV Neonati 4 Kg 1 Kg 25.0 % Bambini 1 anno 11 Kg 9.1 % La variabilità del peso è maggiore nei neonati. Media Dev. standard CV Peso 55.1 Kg 5.7 Kg 10.3 % Statura 166.1 cm 6.1 cm 3.7 % La variabilità del peso è maggiore della variabilità della statura.

35 MISURE PONDERATE (POOLED)
Molto spesso è necessario riassumere l’informazione pertinente ai valori di una variabile X misurata su due o più campioni indipendenti Esempio: lo stesso farmaco viene sperimentato in 2 ospedali A e B in A la % di guarigioni è del 25% su 100 pazienti in B la % di guarigioni è del 35% su 300 pazienti Considerando le due sperimentazioni, qual è la % di successo del farmaco?

36 In generale se si dispone di k campioni e su ognuno di essi è calcolata una misura di sintesi mi con fattore di ponderazione wi (in genere la numerosità del campione), la misura di sintesi ponderata in tutti i campioni sarà:

37 esercizio: il tempo di sopravvivenza medio dei pazienti con carcinoma polmonare trattati in due centri A e B è rispettivamente: A = 23.5 mesi n = 80 B = 27.0 mesi n = 30 Calcolare il tempo di sopravvivenza medio relativo ai due centri


Scaricare ppt "LEZIONI DI STATISTICA MEDICA"

Presentazioni simili


Annunci Google