La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

STATISTICA DESCRITTIVA La Sintesi Statistica Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione.

Presentazioni simili


Presentazione sul tema: "STATISTICA DESCRITTIVA La Sintesi Statistica Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione."— Transcript della presentazione:

1 STATISTICA DESCRITTIVA La Sintesi Statistica Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione o variabilità La forma Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate: statistiche, quando sono calcolate su un campione di dati (si esprimono con lettere dell’alfabeto latino) parametri, quando descrivono la popolazione od universo dei dati (si esprimono con lettere dell’alfabeto greco

2 STATISTICA DESCRITTIVA indici di Posizione(measures of central tendency) MEDIA MODA MEDIANA Indici di Dispersione(measures of dispersion) CAMPO di VARIAZIONE (Range) DISTANZA INTERQUARTILE (Interquartile range) DEVIANZA VARIANZA DEVIAZIONE STANDARD COEFFICIENTE di VARIAZIONE

3 STATISTICA DESCRITTIVA Quali sono le principali MISURE di POSIZIONE nella seguente serie numerica? Serie ordinata (x(i) ) 3 4 4 4 5 6 8 11 15 MODA, valore più frequente MEDIANA,valore centrale in una serie ordinata MEDIA =(  xi/n)= 60/9 = 6,67

4 STATISTICA DESCRITTIVA La maggior parte delle variabili biologiche (peso, statura, glicemia) hanno una distribuzione normale, in cui media, mediana e moda coincidono. Alcune variabili (tempo di reazione, tempo di sopravvivenza, numero di linfonodi metastatici, concentrazione serica di IgE) hanno una distribuzione asimmetrica, in cui media e mediana non coincidono.

5 “ Me spiego: da li conti che se fanno seconno le statistiche d'adesso risurta che te tocca un pollo all'anno: e, se nun entra ne le spese tue, t'entra ne la statistica lo stesso perché c'è un antro che ne magna due” Il “dilemma” di Trilussa 02 (?)

6 la variabile d’interesse è l’ALTEZZA UNA POPOLAZIONE CON MOLTA VARIABILITÀ UNA POPOLAZIONE CON POCA VARIABILITÀ

7 STATISTICA DESCRITTIVA dispersione di una distribuzione Ore di sonno MaschiFemmine 11 3 23 6 33 7 47 8 511 5 68 3 74 1 82 1 91 1 10- - 11- 1 12- 1 13- 1 14- 1 15- 1 Usando SOLO le medie possiamo ingannarci nel confrontare i caratteri di due gruppi di individui. Diamo un'occhiata alla distribuzione di frequenza della durata di sonno indotto da un anestetico in un campione di 40+40 pazienti. Ad esempio, sappiamo che le donne sono notoriamente diverse dagli uomini sotto molti aspetti

8 STATISTICA DESCRITTIVA dispersione di una distribuzione Il periodo medio di sonno per le donne risulta di 5 ore così come per gli uomini Se ci soffermiamo solo sulle medie potremmo concludere che le donne hanno una durata di sonno uguale a quello dei maschi.

9 STATISTICA DESCRITTIVA Misure di Variabilità Nome italiano Nome inglese Campo di variazione Range Distanza interquartileInterquartile range Devianza (somma diSum of squares (SSq) scarti quadratici) VarianzaMean Square (MSq) Deviazione standard Standard deviation Coefficiente di variazione Variation coefficient

10 STATISTICA DESCRITTIVA Misure di Variabilità Range (campo di variazione) = Xmax - Xmin (differenza tra il valore massimo e il valore minimo) Svantaggi Si basa soltanto sui valori estremi della distribuzione e non tiene conto dei valori intermedi Tende ad aumentare al crescere del numero delle osservazioni E' molto influenzato da osservazioni anomale (outliers)

11 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 11  Range = x max - x min = 18 - 0 = 18 num. linfonodi metastatici 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 10  Range = x max - x min = 10 - 0 = 10 num. linfonodi metastatici esempio: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 2  Range = x max - x min = 10 - 0 = 10 num. linfonodi metastatici

12 L'intervallo di variazione I dati possono … essere uniformemente distribuiti, concentrarsi ai due estremi della scala concentrarsi a un capo della scala o disporsi in altro modo

13 L'intervallo di variazione in {A} i valori sono inclusi tra 4 e 35 in {B} i valori sono inclusi tra 7 e 17 La differenza tra il massimo e il minimo valore di un insieme di dati è detto intervallo di variazione (o range). il range di {A} è RA = 35 - 4 = 31 il range di {B} è RB = 17 - 7 = 10 Esempio: Gli insiemi di valori di VES {A}:{8,5,7,6,35,5,4} {B}:{11,8,10,9,17,8,7} hanno la stessa media (=10) Il range è il più intuitivo fra gli indici di dispersione, ha però il difetto di basarsi solo sui due valori estremi, nei quali si manifesta maggiormente la variabilità di campionamento e l'errore di misura

14 STATISTICA DESCRITTIVA Misure di Variabilità Range o distanza interquartile IQR = Q3 - Q1 differenza tra il terzo quartile (75° percentile)e il 1° quartile (25° percentile) Osservazioni In questo intervallo ricade la metà dei valori, posta esattamente al centro della distribuzione Non è molto influenzata da osservazioni anomale o estreme (statistica robusta) E' adatta a esprimere la variabilità di distribuzioni asimmetriche

15 Statura Freq. Cumul. 162 1 1 168 1 2 169 1 3 170 3 6 172 2 8 174 2 10 175 5 15 176 3 18 177 3 21 178 3 24 179 1 25 181 1 26 182 2 28 183 2 30 184 1 31 188 1 32 192 1 33 193 1 34 Totale 34 MASCHI esempio: Statura matricole della Facoltà di Medicina (A.A. 95/96) Range = x max - x min = 193 - 162 = 31 cm Calcolo del I° quartile: (rango percentilico = 25) 1. rango = (34+1) * 25 / 100 = 35 / 4  9 = 35 / 4  9 2. I° quartile = 174 cm Calcolo del III° quartile: (rango percentilico = 75) 1. rango = (34+1) * 75 / 100 = 35 * 3 / 4  26 = 35 * 3 / 4  26 2. III° quartile = 181 cm IQR = Q3 - Q1 = 181 - 174 = 7 cm generalmente si riporta: 174,181

16 l STATISTICA DESCRITTIVA Misure di Variabilità l'intervallo interquartile

17 STATISTICA DESCRITTIVA Misure di Variabilità DESCRIPTION OF A SERIES OF GASTRIC CANCER PATIENTS In the series of 921 patients, the total number of dissected lymph nodes was 23,288, with an average of 25.3 ± 16.3 (mean±SD) dissected nodes per case (median 21, range 1-108). The mean number of metastatic nodes was 4.3 ± 7.5 (median 1, range 0-74) in the overall series and 8.3 ± 8.7 (median 5, range 1- 74) in pN+ patients. Bibliografia De Manzoni G, Verlato G, Roviello F, Morgagni P, Di Leo A,Saragoni L, Marrelli D, Kurihara H, Pasini F, for the ItalianResearch Group for Gastric Cancer (2002) The new TNMclassification of lymph node metastasis minimizes stage migration problems in gastric cancer patients. Brit J Cancer, 87: 171-174

18 STATISTICA DESCRITTIVA Misure di Variabilità Table 3. Allergy parameters in subjects without self-reported allergic rhinitis and in subjects with perennial, seasonal and perennial+seasonal rhinitis. Absolute frequencies with percentage in brackets are reported for all variables but total IgE, which is expressed as median (interquartile range). Significance of differences was evaluated by chi-squared test for categorical variables and by one-way ANOVA for total IgE after logarithmic transformation. Significance was notevaluated by chi-squared test (---) when cells with expected value<5 exceeded 25%. NS =not significant Olivieri M, Verlato G, Corsico A, Lo Cascio V, Bugiani M, Marinoni A, de Marco R, for the ItalianECRHS group (2002) Prevalence and features of allergic rhinitis in Italy. Allergy, 57:600-606

19 STATISTICA DESCRITTIVA Misure di Variabilità Nel primo esempio viene utilizzata come misura di dispersione il range per descrivere una casistica nella sua globalità. Nel secondo esempio viene utilizzata come misura di dispersione la distanza interquartile. In questo modo è possibile confrontare i livelli di IgE totali fra 4 gruppi di numerosità molto diversa: n varia da 19 nel gruppo con rinite allergica perenne a 745 nel gruppo senza rinite.

20 STATISTICA DESCRITTIVA Misure di Variabilità Gli indici di dispersione di più largo uso sono basati sugli scarti dalla media Devianza =  (x  )2 = (  x) ² =  x ² - ----- N (o somma di scarti quadratici) La devianza raddoppia anche se la variabilità rimane costante

21 DEVIANZA E’ un indice di dispersione definito sulla base del concetto di scarto rispetto ad un punto centrale della distribuzione. E’ un indice di dispersione definito sulla base del concetto di scarto rispetto ad un punto centrale della distribuzione. E’ la base delle misure di dispersione per variabili quantitative (da essa discendono la Varianza e la Deviazione Standard). E’ la base delle misure di dispersione per variabili quantitative (da essa discendono la Varianza e la Deviazione Standard). Nel campione Nella popolazione media nel campione (statistica) dimensione del campione dimensione della popolazione media nella popolazione (parametro)

22 STATISTICA DESCRITTIVA Misure di Variabilità mediascartoscarto² 51 6600 711 Dev=2 51 600 7611 5 1 600 711 Dev=4

23 STATISTICA DESCRITTIVA Misure di Variabilità La devianza è maggiore perché i dati sono più dispersi o perché il numero delle osservazioni è più elevato? Bisogna tener conto della numerosità ! Inventiamo la Varianza = devianza / n  (x  )2/n =  ²

24 STATISTICA DESCRITTIVA Misure di Variabilità Es polli elevati al quadrato è una misura un po' difficile! Inventiamo la deviazione standard! deviazione standard =  varianza Parigi: 6  1 polli/mese (media  DS) New York: 6  5 polli/mese (media  DS)

25 STATISTICA DESCRITTIVA Misure di Variabilità Devianza o Somma dei Quadrati (SQ) (Sum of Squares - SSq) Si tratta di un indice di dispersione con riferimento a un centro E’ la base delle misure di dispersione dei dati, utilizzate in tutta la statistica parametrica. Da essa discendono la Varianza e la Deviazione Standard o scarto quadratico medio (sqm)

26 STATISTICA DESCRITTIVA Misure di Variabilità Varianza o Quadrato Medio (QM) (Mean Square - MSq) E’ una devianza media ossia la devianza rapportata al numero di osservazioni campionarie (n) o di popolazione (N) Media aritmetica dei quadrati degli scarti delle singole osservazioni dalla loro media aritmetica (media di X)

27 STATISTICA DESCRITTIVA Misure di Variabilità Varianza Osservazioni E’ adatta per distribuzioni simmetriche Tiene conto di tutte le osservazioni ed è dunque influenzata da eventuali osservazioni anomale (outliers) Non è direttamente confrontabile con la media o altri indici di posizione in quanto le unità di misura sono elevate al quadrato (valore teorico)

28 STATISTICA DESCRITTIVA Misure di Variabilità Deviazione Standard Osservazioni E’ una misura di distanza dalla media e quindi ha sempre un valore positivo. E' una misura della dispersione della variabile intorno alla media E’ direttamente confrontabile con le misure di posizione, essendo calcolata con la stessa unità di misura E’ di gran lunga più utilizzata della varianza (che ha un forte valore teorico) nelle pubblicazioni scientifiche per la sua “praticità d’uso” e immediata confrontabilità con la media

29 STATISTICA DESCRITTIVA Misure di Variabilità Deviazione Standard Questo numero rappresenta una misura della deviazione dei valori dalla media. Esso ci dice come i valori tendano a disperdersi intorno alla loro media: se la deviazione standard è piccola, indica un fitto addensamento dei valori intorno alla loro media; se è grande indica la presenza di valori molto lontani dalla media.

30 STATISTICA DESCRITTIVA Misure di Variabilità Deviazione Standard

31 STATISTICA DESCRITTIVA Misure di Variabilità Xi x²i (xi-M) (xi-M)² _________ ____________ 3 9 -39 5 25 -11 6 36 M=6 00 7 49 11 9 81 39 __________ _____________ 30 200020 dev=20var=4 ds=2

32 calcolo della varianza xixi f(x i ) 1 4144-464 2 941836-381 3 1093090-240 4 15166024015 5 16258040000 6 113666396111 7 54935245220 8 36424192327 9 28118162432 10 01000050 11 112111121636 12 114412144749 13 116913169864 14 119614196981 15 12251522510100 Σ 804002620620 Dev= 620 Varianza=Dev/(N) = 620/80 = 7.75 Ds= 2.78 Media=400/80=5

33 esempio: distribuzione di frequenza della statura delle matricole di Medicina dell’Università di Verona nell’A.A. 95/96

34 Raggruppate i dati in intervalli di ampiezza 1 g/100 ml. Determinate la varianza e la deviazione standard della distribuzione (dati raggruppati in intervalli di classe). ESEMPIO I dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne:

35 SOLUZIONE VARIANZA DEVIAZIONE STANDARD calcoliamo il prodotto tra il punto centrale della classe e la frequenza calcoliamo il prodotto tra il QUADRATO del valore centrale della classe e la frequenza

36 STATISTICA DESCRITTIVA Misure di Variabilità Coefficiente di variazione (CV) Due gruppi con valori medi molto distanti Tre neonati pesano rispettivamente 3, 4 e 5 Kg (media  DS: 4  1 Kg). Tre bambini di 1 anno pesano 10, 11 e 12 Kg (media  DS: 11  1 Kg). La deviazione standard è uguale nei due gruppi, ma il buon senso suggerisce che la variabilità del peso sia maggiore nei neonati.

37 STATISTICA DESCRITTIVA Misure di Variabilità Due variabili diverse In 91 ragazze matricole di Medicina a Roma nell’a.a. 2002/2003, il peso era pari a 55,1  5,7 Kg (media  DS) con un range di 45-70 Kg, la statura era 166,1  6,1 cm (medi  ±DS) con un range di 150-182 cm. E’ maggiore la variabilità del peso o la variabilità della statura?

38 STATISTICA DESCRITTIVA Misure di Variabilità Coefficiente di variazione (CV) Per rispondere a queste domande è necessario calcolare il coefficiente di variazione: CV = (deviazione standard / media) * 100. La deviazione standard viene espressa in percentuale della media. Media Dev. standard CV Neonati 4 Kg 1 Kg 25 % Bambini 1 anno 11 Kg 1 Kg 9,1 % La variabilità del peso è maggiore nei neonati.

39 STATISTICA DESCRITTIVA Misure di Variabilità Media Dev. standard CV Peso 55,1 Kg 5,7 Kg 10,3 % Statura 166,1 cm 6,1 cm 3,7 % La variabilità del peso è maggiore della variabilità della statura.

40 Esempio di calcolo degli indici di dispersione Nell'esempio dei due insiemi di valori di VES si ha: {A}:{ 8, 5, 7, 6, 35, 5, 4} Dev=82+52+... 42-(8+5+... 4) 2 /7=1440-700=740 s 2 = 740/6 = 123.33 s =√ 123.3. = 11.1= (-1.1,21.1) CV%= 100  (11.1/10) = 111% {B}: { 11, 8, 10, 9, 17, 8, 7} Dev=112+82+...72-(11+8+. 7) 2 /7= 768-700=68 s 2 = 68 / 6 = 11.33 s = √11.33 = 3.4= (6.6, 13.4) CV% = 100  (3.4/10) = 34% In {A} l'intervallo ± s include anche valori negativi di VES, che ovviamente non sono possibili. L'uso di s per esprimere la dispersione dovrebbe essere quindi limitato alle distribuzioni simmetriche (o quasi)


Scaricare ppt "STATISTICA DESCRITTIVA La Sintesi Statistica Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione."

Presentazioni simili


Annunci Google