LEZIONI DI STATISTICA MEDICA

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

Le distribuzioni di probabilità continue
SCALA INTERVALLO / A RAPPORTO
____________________
LA VARIABILITA’ IV lezione di Statistica Medica.
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
“Teoria e metodi della ricerca sociale e organizzativa”
Variabilità Variabilità: inevitabile fluttuazione dei fenomeni naturali, fisici, sociali ecc le indicazioni fornite dalle misure di tendenza centrale (media.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
POTENZE cosa sono proprietà curiosità visualizzazione.
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Statistica descrittiva
Inferenza statistica per un singolo campione
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Introduzione alla statistica per la ricerca Lezione I
COSA VUOL DIRE FARE STATISTICA
Indici di variabilità Indici di variabilità assoluta
Misure di posizione Gli indici di posizione servono per individuare la tendenza centrale del fenomeno studiato. I più utilizzati sono: Moda Mediana Quartili,
Come descrivere un fenomeno in ambito sanitario: fondamenti di statistica descrittiva Brugnaro Luca.
STATISTICA a.a DISTRIBUZIONI DI FREQUENZE
Misure di dispersione Giovanni Filatrella
Statistica sociale Modulo A
VARIABILI E DISTRIBUZIONI DI FREQUENZA
Misurazione Le osservazioni si esprimono in forma di misurazioni
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Luciano giromini – la misura in psicologia, 2009 database e distribuzioni - misure di sintesi - misure di variabilità descrizione dei dati:
Statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Di Capuano,Colucci e Panunzi Valori medi I valori medi.
LA SINTESI STATISTICA Una serie di dati numerici è
Fondamenti di informatica
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
I principali tipi di grafici
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Simone Mosca & Daniele Zucchini 4Bi.
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
Lez. 3 - Gli Indici di VARIABILITA’
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Gli indici di dispersione
Statistica Descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
COSA VUOL DIRE FARE STATISTICA
Accenni di analisi monovariata e bivariata
Strumenti statistici in Excell
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
Martina Serafini Martina Prandi
Marta Pinto Stefania Serra Valentina Paravidino
3 June Biostatistica Biostatitistica= Statistica per scienze Biostatitistica= Statistica per scienze biologiche e sanitarie. biologiche e sanitarie.
STATISTICHE DESCRITTIVE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
Elaborazione statistica di dati
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
STATISTICA DESCRITTIVA La Sintesi Statistica Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Gli Indici di VARIABILITA’
Transcript della presentazione:

LEZIONI DI STATISTICA MEDICA Prof. Roberto de Marco Lezione n.4 Misure di posizione Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona

diversi strumenti e possibilità offerti dalla statistica “ un qualsiasi insieme di dati porta in sè una certa quantità di informazione ” OBIETTIVO: riassumere tutta l’informazione possibile in modo SINTETICO ed EFFICACE diversi strumenti e possibilità offerti dalla statistica STATISTICHE DI BASE

la variabile d’interesse è l’ALTEZZA UNA POPOLAZIONE CON MOLTA VARIABILITÀ UNA POPOLAZIONE CON POCA VARIABILITÀ

La tendenza centrale o posizione La dispersione o variabilità La forma Una serie di dati [misurazioni] è compiutamente descritta da tre PROPRIETÀ PRINCIPALI: La tendenza centrale o posizione La dispersione o variabilità La forma quando descrivono la POPOLAZIONE (si indicano con lettere dell’alfabeto greco STATISTICHE PARAMETRI Queste misure descrittive sintetiche sono chiamate: quando sono calcolate su un CAMPIONE di dati (si indicano con lettere dell’alfabeto latino) (m, s, p) (x, s, p)

INDICI DI POSIZIONE (measures of location or central tendency) MODA MEDIA MEDIANA

in statistica non è diverso MODA E’ la scelta fatta dalla maggioranza della popolazione, lo stile che “tutti” seguono in statistica non è diverso Si definisce moda di un insieme di dati o di una distribuzione di frequenza la modalità, il valore (o l’intervallo di classe) della variabile a cui corrisponde la massima frequenza. esempio: (50 neonati) modalità x i frequenza assoluta n relativa p frequenza relativa percentuale (%) normale 35 0.70 70% forcipe 1 0.02 2% cesareo 14 0.28 28% TOTALE 50 1.00 100% MODA o classe modale

MA LA MODA E’ SEMPRE UNA SOLA? Pressione sistolica di tre gruppi di maschi giapponesi: nativi, prima e seconda generazione di immigrati negli USA (Issei e Nisei). Winkelstein et al. Am J Epidemiol 1975; 102:502-13. NATIVI GIAPPONESI ISSEI NISEI

MEDIANA Me = x[(n+1)/2] Me = [xn/2 + x(n/2+1)] / 2 Il valore centrale di una serie ORDINATA di dati Le osservazioni vengono separate dal valore mediano in due parti numericamente uguali Mediana (Me) è sinonimo di 50-esimo percentile o di II quartile se n è dispari Me = x[(n+1)/2] se n è pari Me = [xn/2 + x(n/2+1)] / 2

1. ordino le unità secondo un ordine crescente di altezza campione di 5 unità variabile d’interesse = altezza es. sulla mediana 50 cm 150 cm 155 cm 165 cm 180 cm 1. ordino le unità secondo un ordine crescente di altezza

2. identifico l’unità centrale nella serie ordinata di dati campione di 5 unità variabile d’interesse = altezza es. sulla mediana 50 cm 150 cm 155 cm 165 cm 180 cm 2. identifico l’unità centrale nella serie ordinata di dati

50 cm 150 cm 155 cm 165 cm 180 cm 2. la mediana è il VALORE che la variabile altezza assume sull’unità che divide il campione in due parti numericamente uguali

formalmente: n è dispari Me = x[(n+1)/2] = x(5+1/2) = x3 50 cm 150 cm 155 cm 165 cm 180 cm 1 4 3 5 2 NB: le misure di posizione sono valori, NON frequenze!

ESERCIZIO-II Raggruppate i dati in intervalli di ampiezza 1 g/100 ml. I dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne: Raggruppate i dati in intervalli di ampiezza 1 g/100 ml. Determinate la moda e la mediana della distribuzione (dati raggruppati in intervalli di classe).

MEDIA ARITMETICA La media aritmetica di un insieme di osservazioni è pari alla somma dei valori diviso il numero totale delle osservazioni Formalmente: siano (x1, x2, … , xn) le osservazioni della variabile X su un campione di n unità statistiche, allora 5 16 13 27 11 5 13 13 esempio: (8 osservazioni)

MEDIA ARITMETICA PONDERATA - I Se una variabile assume lo stesso valore in più unità statistiche la media può essere calcolata moltiplicando quel valore per la frequenza con cui compare nella distribuzione k = numero di valori che la variabile può assumere xi = i-esimo valore assunto dalla variabile i-esimo ni = frequenza corrispondente al valore xi

esempio sulla media aritmetica ponderata: k = numero di valori che la variabile può assumere xi = valore assunto dalla variabile nel sogg. i-esimo ni = frequenza corrispondente al valore xi esempio sulla media aritmetica ponderata: x1 x2 x3 x4 x5 x6 x7 x8 5 16 13 27 11 la variabile può assumere 5 valori (k = 5)

La media ponderata si applica anche alla distribuzione di frequenza di una var. quantitativa continua k = numero di classi della variabile xi = valore centrale della classe ni = frequenza corrispondente al valore xi età ni xi xini 5-9 2 7 14 9-13 11 22 13-17 5 15 75 17-21 1 18 tot 10 129 . 12.9 129/10 / ) .. ( 8 2 1 = + n x

PRIMA PROPRIETA’ DELLA MEDIA ARITMETICA La media aritmetica gode di diverse proprietà, le due principali dal punto di vista applicativo sono legate al concetto di scarto: PRIMA PROPRIETA’ DELLA MEDIA ARITMETICA la somma algebrica degli scarti delle osservazioni dalla loro media aritmetica è pari a zero scarto (distanza) della prima osservazione dalla media  media aritmetica = punto ‘centrale’ della distribuzione

ESERCIZIO-III i) Determinate la media della distribuzione; I dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne: i) Determinate la media della distribuzione; ii) Verificate la I° pproprietà della media

QUALE MISURA DI POSIZIONE UTILIZZARE? TIPO DI OPERAZIONI VARIABILE CONSENTITE MODA MEDIANA MEDIA nominale =  ordinale =  < > quantitativa =  < > – + (/ *) Sì No Sì No Sì Sì Sì

CONFRONTO TRA LE MISURE DI POSIZIONE PER UNA VARIABILE QUANTITATIVA MODA MEDIANA MEDIA ARITMETICA Buona misura con distribuzioni simmetriche (es. molti parametri biologici) Buona misura quando un valore ha una frequenza relativa molto elevata Buona misura con distribuzioni asimmetriche (es. tempo di sopravvivenza) Facile da trattare matematicamente Utilizza tutta l’informazione contenuta nei dati Dipende dal raggruppamento arbitrario dei dati Varia molto da campione a campione E’ inaffidabile in caso di distribuzioni asimmetriche Difficile da trattare matematicamente

CONFRONTO TRA LE MISURE DI POSIZIONE PER UNA VARIABILE QUANTITATIVA esempio: Supponiamo di avere le Degenze Ospedaliere di 10 individui (espresse in giorni) CAMPIONE 4 5 12 3 4 4 95 8 6 Moda = 4 Mediana = 5 Media ≈ 16 (senza outliers sarebbe circa 6) La media aritmetica è poco “robusta” in presenza di valori anomali (outliers)!

RELAZIONE TRA MODA MEDIANA E MEDIA ARITMETICA Moda < Mediana < Media ASIMMETRIA POSITIVA -6 -5 -4 -3 -2 -1 1 2 3 4 5 6 Moda = Mediana = Media SIMMETRIA Moda > Mediana > Media ASIMMETRIA NEGATIVA

INDICI DI DISPERSIONE (measures of dispersion) CAMPO DI VARIAZIONE (range) DISTANZA INTERQUARTILE VARIANZA COEFFICIENTE DI VARIAZIONE

differenza tra il valore massimo e il valore minimo osservati RANGE (CAMPO DI VARIAZIONE) Range = xmax - xmin differenza tra il valore massimo e il valore minimo osservati Si basa soltanto sui valori estremi della distribuzione e non tiene conto dei valori intermedi E' molto influenzato da osservazioni anomale (outliers) Tende ad aumentare al crescere del numero delle osservazioni

num. linfonodi metastatici num. linfonodi metastatici Variazione del numero di linfonodi metastatici 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 10  Range = xmax - xmin = 10 - 0 =10 = (0,10) num. linfonodi metastatici 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 11  Range = xmax - xmin = 17 - 0 =17 num. linfonodi metastatici

differenza tra il III°quartile (Q3) ed il I°quartile (Q1) DISTANZA INTERQUARTILE IQR = Q3 - Q1 differenza tra il III°quartile (Q3) ed il I°quartile (Q1) In questo intervallo ricade la metà dei valori osservati, posta esattamente al centro della distribuzione. Non è influenzata da osservazioni anomale o estreme.

esempio: Statura matricole della Facoltà di Medicina (A.A. 95/96) Range = xmax - xmin = 193 - 162 = 31 cm Statura Freq. Cumul. 162 1 1 168 1 2 169 1 3 170 3 6 172 2 8 174 2 10 175 5 15 176 3 18 177 3 21 178 3 24 179 1 25 181 1 26 182 2 28 183 2 30 184 1 31 188 1 32 192 1 33 193 1 34 Totale 34 MASCHI Calcolo del I° quartile: (rango percentilico = 25) 1. rango = (34+1) * 25 / 100 = 35 / 4  9 2. I° quartile = 174 cm Calcolo del III° quartile: (rango percentilico = 75) 1. rango = (34+1) * 75 / 100 = 35 * 3 / 4  26 2. III° quartile = 181 cm IQR = Q3 - Q1 = 181 - 174 = 7 cm mediana (range) = 176 (162-193) cm mediana (IQR) = 176 (174-181) cm

La Varianza Gli indici di dispersione di più largo uso sono basati sugli scarti dalla media e, : per un campione di dimensione n, {x1,x2,...xn}, sono così definiti Devianza: Varianza campionaria: Deviazione standard: La devianza è la somma dei quadrati degli scarti tra ogni elemento del campione (xi) e la media campionaria ( ).

Calcolo della deviazione standard (d.s) 2 4 6 8 x xi = 2 + 5 + 8 15 devianza = (2 - 5)2 + (5 - 5)2 + (8 - 5)2 = 18 S2 = 18/2 = 9 d.s = 3 X = 5

Interpretazione della deviazione standard (SD) in una distribuzione simmetrica (Gaussiana)

In alcune situazioni il confronto della variabilità all’interno di due gruppi di osservazioni utilizzando la deviazione standard è fuorviante Due variabili diverse : In 91 ragazze matricole di Medicina a Verona nell’A.A. 95/96, la media del peso era pari a 55.1 Kg e la deviazione standard era pari a 5.7 Kg , la media della statura 166.1 cm 6.1 cm . E’ maggiore la variabilità del peso o la variabilità della statura? Le variabili misurate nei due gruppi sono diverse (le osservazioni nei due gruppi sono espresse con diverse unità di misura)

Due gruppi con valori medi molto distanti : Tre neonati pesano rispettivamente 3 , 4 e 5 Kg (media = 4 Kg ; dev.st. = 1 Kg ). Tre bambini di 1 anno pesano 10 11 12 Kg ( media = 11 Kg La deviazione standard è uguale nei due gruppi, ma il buon senso suggerisce che la variabilità del peso sia maggiore nei neonati. La variabile misurata è la stessa ma i valori medi delle osservazioni nei due gruppi sono molto distanti (le osservazioni nei due gruppi sono su diversi ordini di grandezza)

COEFFICIENTE DI VARIAZIONE PERCENTUALE CV% = (deviazione standard / media) * 100% Ci permette di misurare la variabilità indipendentemente dalla grandezza e dalla scala di misura delle osservazioni Media Dev. standard CV Neonati 4 Kg 1 Kg 25.0 % Bambini 1 anno 11 Kg 9.1 % La variabilità del peso è maggiore nei neonati. Media Dev. standard CV Peso 55.1 Kg 5.7 Kg 10.3 % Statura 166.1 cm 6.1 cm 3.7 % La variabilità del peso è maggiore della variabilità della statura.

MISURE PONDERATE (POOLED) Molto spesso è necessario riassumere l’informazione pertinente ai valori di una variabile X misurata su due o più campioni indipendenti Esempio: lo stesso farmaco viene sperimentato in 2 ospedali A e B in A la % di guarigioni è del 25% su 100 pazienti in B la % di guarigioni è del 35% su 300 pazienti Considerando le due sperimentazioni, qual è la % di successo del farmaco?

In generale se si dispone di k campioni e su ognuno di essi è calcolata una misura di sintesi mi con fattore di ponderazione wi (in genere la numerosità del campione), la misura di sintesi ponderata in tutti i campioni sarà:

esercizio: il tempo di sopravvivenza medio dei pazienti con carcinoma polmonare trattati in due centri A e B è rispettivamente: A = 23.5 mesi n = 80 B = 27.0 mesi n = 30 Calcolare il tempo di sopravvivenza medio relativo ai due centri