Corso di STATISTICA Prof. Giovanni LATORRE e-mail: g.latorre@unical.it sito web: www.ecostat.unical.it/latorre/
Statistics in Medicine Robert H. Riffenburgh Ed. Academic Press Price: 53,95€ su Amazon
Characteristics of the Scientific Method: Steps in a scientific process to increase knowdlege: observe; gather data; describe; explain; predict. Science is a set of facts and theories based upon information obtained with Scientific Method Characteristics of the Scientific Method: a) the Method has to be objective or unbiased ; b) the Method should involve the control of variables; c ) the Method should be repeatable; d) the Method should allow the accumulation of results. Esempio: nella pratica clinica si percepisce che nei pazienti urologici esista una differenza di volume medio della prostata tra coloro per i quali la biopsia dia un risultato negativo e quelli per i quali il risultato è positivo; si decide pertanto di avviare un’osservazione sistematica registrando caso per caso il volume della prostata ed il risultato dell’esame bioptico, i dati raccolti verranno utilizzati per descrivere l’eventuale relazione tra volume prostatico e risultato della biopsia.
Elementary Concepts Statistical Unit or Unit Population Sample Sample Survey Experimental Design Variable: Discrete, Continuous (quantitative), Categorical (qualitative) Data: Discrete, Continuous, Categorical
Example In the Gynecological Department each woman was asked about the number of live births they had delivered so far. Answers: Raw Data 3 1 3 2 2 0 2 1 5 4 2 2 3 1 1 2 2 0 2 1 4 2 1 2 1 4 3 2 1 3 0 4 3 2 0 3 2 2 1 2 3 1 0 2 2 1 2 2 1 3 This is an example of discrete variable and discrete data. Discrete data: enumerazione o conteggio;
5 1 12 2 19 3 9 4 50 Frequency Distribution Tabulated Data N° of Live Births Frequency 5 1 12 2 19 3 9 4 Total 50 Abbiamo sintetizzato 50 informazioni numeriche (che sarebbero potute essere 500 o 5.000) con solo 12 numeri, senza perdita d’informazione. Tabulated Data
Frequency Histogram L’area dei rettangoli è proporzionale alla frequenza; Histogram
Volume of Prostate in 300 patients (VOL in ml) – Raw Data 32,26 25,59 62,06 36,31 51,07 68,09 39,98 29,30 33,80 32,20 26,96 31,03 38,15 60,78 36,15 52,84 38,00 44,00 17,00 16,19 36,09 21,38 38,39 22,56 20,84 8,00 25,70 30,40 44,70 32,96 12,89 38,53 98,09 50,78 87,33 36,40 33,30 35,00 13,50 30,87 28,30 33,09 26,41 26,34 31,62 67,00 26,50 43,00 41,00 73,73 57,77 19,95 32,24 18,42 20,68 68,00 16,40 65,10 6,90 30,50 41,51 68,99 39,48 25,00 51,00 48,50 15,00 30,54 23,56 19,46 30,64 13,83 38,62 34,00 41,30 28,90 24,00 36,85 62,85 36,94 22,17 20,94 67,49 13,00 40,00 39,00 25,10 16,39 29,05 24,90 53,92 35,88 74,44 24,80 23,70 31,40 36,00 33,20 17,37 22,41 29,58 51,61 40,05 26,70 60,30 35,50 82,43 25,47 33,45 43,22 32,49 55,00 18,00 18,30 6,50 38,57 52,51 40,14 59,76 17,60 53,00 7,60 28,20 44,88 50,84 17,72 36,97 26,46 29,97 67,20 58,00 48,70 33,70 27,76 22,48 26,05 25,12 57,35 88,17 15,30 67,60 50,00 14,86 26,88 37,81 30,52 39,54 22,00 32,90 45,00 49,13 60,93 35,59 30,35 40,22 40,80 11,90 15,10 41,50 36,05 24,33 62,25 94,32 60,13 26,00 21,50 31,45 31,78 39,43 24,19 42,44 51,76 34,90 64,70 27,00 53,99 7,17 31,83 80,96 32,40 55,80 34,20 75,13 37,73 29,93 26,36 16,43 40,20 51,30 12,50 70,21 27,26 23,19 19,62 20,30 32,30 19,45 30,86 23,34 35,28 22,71 48,88 37,60 71,30 19,60 65,00 26,89 26,72 33,25 70,04 73,52 25,69 23,20 22,50 12,10 34,07 49,26 24,52 39,28 48,26 25,60 30,80 3,30 37,50 52,42 42,34 23,14 33,79 28,42 20,80 21,20 47,30 30,26 41,60 17,31 36,62 27,49 32,80 18,86 114,03 52,80 46,19 29,71 32,33 45,90 18,40 30,00 20,58 56,28 42,92 23,50 23,84 75,22 54,90 15,90 21,83 42,59 16,03 44,03 77,26 79,15 34,40 15,80 Continuous data: Misurazione This is an example of continuous variable and continuous data.
Frequency Distribution Vol. Prostate (in ml.) Absolute Frequency 00 - 20 42 20 - 40 166 40 - 60 56 60 - 80 28 80 - 100 7 100 - 120 1 Total 300 Abbiamo sintetizzato l’informazione contenuta nei 300 valori con sole 12 informazioni, questa volta con perdita d’informazione, comunque conveniente. Convenzione: l’estremo superiore non appartiene alla classe. Tabulated Data
L’area dei rettangoli è proporzionale alla frequenza; Histogram
Frequency Distribution DRE Fr. negative 115 positive 185 Totale 300 DRE = digital rectal examination This is an example of categorical variable and categorical data.
L’area dei rettangoli è proporzionale alla frequenza
Frequency Distribution of the Volume of Prostate in 300 Patients Vol. Prostate Absolute Relative Cumuative (in ml.) Frequency 00 - 20 42 0,14 20 - 40 166 0,55 0,69 40 - 60 56 0,19 0,88 60 - 80 28 0,09 0,97 80 - 100 7 0,02 1,00 100 - 120 1 0,00 Total 300 ---
L’area dei rettangoli è proporzionale alla frequenza relativa, tutta l’area è uguale ad 1.
Frequency Curve or Line Chart.
Pie Chart
55
(x-0,69)/(0,88-0,69)=(55-40)/(60-40)=15/20=0,75; x=0,75
0,50
0,50 (x-20)/(40-20)=(0,50-0,14)/(0,69-0,14)=0,36/0,55=0,654545; x=20*0,654545+20=33,1 ml (Volume Mediano della Prostata)
Symbols X = Quantitative Variable (i.e.: N° of births per woman, Volume of Prostate per patient) xi = Value of X in the i-th out of n unit x1, x2, …. , xi, …. ,xn = Data (they can either be: Population or Sample Data)
Location Measures Summation Sign: Properties: If k=1/a : Oltre alle sintesi tabellari e grafiche esistono anche le Sintesi Numeriche, che misurano particolari aspetti dei dati rilevati. If k=1/a :
X Fr(X) = ni Fr.r(X) = fi x1 n1 f1 x2 n2 f2 … --- xi ni fi xk nk fk Arithmetic Mean: X Fr(X) = ni Fr.r(X) = fi x1 n1 f1 x2 n2 f2 … --- xi ni fi xk nk fk Total n 1 Misure di Tendenza Centrale Weighted Mean:
Examples: Also: N° of Live Births per Woman: alternatively: M = (0*5 + 1*12 + 2*19 + 3*9 + 4*4 + 5*1) / 50 = 1,96; M =(0*0,10+1*0,24+2*0,38+3*0,18+ 4*0,08+5*0,02)=1,96 2) Volume of Prostate per Patient: M = (32,26+25,59+….+34,40+25,00+15,80)/300 = 36,30427; M=(10*42+30*166+50*56+70*28+90*7+110*1)/300=36,33333; M=(10*0,14+30*0,55+50*0,19+70*0,09+90*0,02+110*0,00)=35,5. Nell’esempio 1 i risultati sono uguali perché nel passaggio dai dati grezzi a quelli tabellari non c’è alcuna perdita d’informazione, anche se se il calcolo basato sulle freq. Relative è da sconsigliare perché introduce errori di arrotondamento. Nell’esempio 2 il valore esatto è il primo. Il secondo è approssimato per la riduzione a tabella e quindi per l’uso dei valori centrali delle classi di frequenza Il terzo risultato è anche affetto anche da errore da arrotondamento.
Median = Me = (y50 – y51)/2 = (21,38 + 21,50) / 2 = 21.44 Let x1, x2, …. , xi, …. ,xn , n observations on the variable X and y1, y2, …. , yi, …. , yn the same data arranged in increasing order, then: if n is an odd number: Median = Me = y(n+1)/2 if n is an even number: Median = Me = [ yn/2 + y (n/2)+1 ]/2 Examples: N° of Live Births per Woman: 3 1 3 2 2 ….. 1 2 2 1 3 arranged in increasing order: 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 4; Median = Me = (2 + 2)/2 = 2. 2) Volume of Prostate per Patient: 32.26, 25.59, 62.06,….., 15.80 arranged in increasing order: 3.30, 6.50, 6.90, 7.17,….,98.09, 114.03; Median = Me = (y50 – y51)/2 = (21,38 + 21,50) / 2 = 21.44