Repetita iuvant Variabile Scala di misura Operazioni ammissibili Indice di intensità / posizione Indice di variabilità Qualitativa Nominale = ≠ Moda: Modalità più frequente Eterogeneità Gini Ordinale = ≠ > < Mediana: modalità dell’unità centrale della distribuzione ordinata ((n+1)/2) oppure (n/2) e (n/2+1) 11 aprile 2008
Repetita iuvant Errata corrige: Ni = Ni-1 + ni Ni = ni-1 + ni Fi 56 0,31 84 0,47 160 0,89 180 1,00 Neoplasia ni fi Grado I 56 0,31 Grado II 28 0,16 Grado III 76 0,42 Grado IV 20 0,11 Totale 180 1,00 Errata corrige: Ni = Ni-1 + ni Fi = Fi-1 + fi Ni = ni-1 + ni Fi = fi-1 + fi 11 aprile 2008
Rappresentazioni grafiche per variabili qualitative Diagramma a barre verticali In un sistema di assi cartesiani, si dispongono le modalità sull’asse delle ascisse, le frequenze (assolute o relative) sull’asse delle ordinate e in corrispondenza delle modalità si traccia una barra (rettangolo) di altezza proporzionale alla frequenza 11 aprile 2008
Esempio Tumore SNC ni fi A 141 0,78 B 9 0,05 C D 14 0,07 E 0,00 F 7 0,00 F 7 0,04 Totale 180 1,00 11 aprile 2008
Diagramma a barre orizzontali In un sistema di assi cartesiani, si dispongono le modalità sull’asse delle ordinate, le frequenze (assolute o relative) sull’asse delle ascisse e in corrispondenza delle modalità si traccia una barra (rettangolo) di larghezza proporzionale alla frequenza 11 aprile 2008
Diagramma a barre verticali per freq. ass. cumulate Diagramma a barre verticali per freq. rel. cumulate 11 aprile 2008
Diagramma a settori circolari L’attenzione è rivolta alle frequenze relative. Se il tutto è rappresentato da un cerchio, i settori circolari hanno ampiezza α proporzionale alla frequenza relativa delle modalità. Neoplasia ni fi αi Grado I 56 0,31 111,6 Grado II 28 0,16 57,6 Grado III 76 0,42 151,2 Grado IV 20 0,11 39,6 Totale 180 1,00 360,0 11 aprile 2008
Sintesi statistica di una variabile quantitativa Unità Genere Età Tumore SNC Neoplasia Anno prima diagnosi … 1 M 19 Meningioma Grado I 2000 2 18 Craniofaringioma Grado II 2003 3 F 20 Medulloblastoma 1999 29 21 Tum. pineale 2001 Unità statistica: individuo Variabile oggetto di studio: età Modalità: continua / discreta…. Gruppo di osservazione: 29 unità 11 aprile 2008
19 18 18 20 18 21 18 20 18 18 18 19 19 20 20 20 18 21 21 20 18 20 21 21 21 21 21 18 21 Età ni fi Ni Fi fi2 18 10 0,345 0,119 19 3 0,104 13 0,449 0,011 20 7 0,241 0,690 0,058 21 9 0,310 29 1,000 0,096 Totale 0,284 moda: 18 mediana: 20 G = 1 – 0,284 = 0,716 max(G) = 3/4 = 0,750 11 aprile 2008
Indice di tendenza centrale / posizione: Media aritmetica min(età) = min(xi) = 18 max(età) = max(xi) = 21 Indice di tendenza centrale / posizione: Media aritmetica Definizione Chisini: Dato un insieme di valori osservati x1, x2,…, xn, ed una funzione criterio f, si definisce Media dei valori x1, x2,…, xn secondo il criterio f quel valore M tale che f(x1, x2,…, xn ) = f(M, M,…, M) 11 aprile 2008
Es. se f(x1, x2,…, xn)=i xi , M rappresenta il valore che, la funzione f rappresenta l’aspetto dei dati che vogliamo rappresentare Es. se f(x1, x2,…, xn)=i xi , M rappresenta il valore che, sostituito ai singoli valori, mantiene inalterato il totale: f(x1, x2,…, xn)=i xi = i M = n M da cui M = i xi /n ovvero la Media Aritmetica. Altre funzioni f conducono a diversi tipi di media. 11 aprile 2008
Modificando la funzione criterio si ottengono altre medie Es.: Se tutte le modalità osservate sono positive, possiamo definire la funzione prodotto (invece della somma) f(x1, x2,…, xn)= i xi e ottenere, secondo il criterio di Chisini, i xi = i M = Mn da cui M = (i xi)1/n (media geometrica) Media armonica (i (1/xi)), media quadratica (i xi2)… 11 aprile 2008
Data una variabile X Es. 1 X = età 11 aprile 2008
Proprietà della media: Internalità: 2. Baricentro dei dati: scarti dalla media M 18 19 22 21 20 M 18 19 23 20 M 13 18 20 24 25 11 aprile 2008
Linearità: la media di una variabile Y, esprimibile come combinazione lineare di un’altra variabile X (la cui media è μ), ovvero Y = α + β X , è M(Y) = α + β μ Es: X=temp °C Y=temp °F Y = 32 + 9/5 X → M(Y) = 32 + 9/5 M(X) 4. i (xi – )2 i (xi – )2 per qualsiasi osservazioni: utilizza tutti i valori osservati (l’individuazione della mediana si basa sul numero di osservazioni e sulle posizioni) è espressa nella stessa unità di misura dei dati (dipende dall’ordine di grandezza) 11 aprile 2008
è influenzata dai valori anomali: x1=15 x2=20 x3=25 x4=30 x5=35 media=25 mediana=25 x1=15 x2=20 x3=25 x4=30 x5=350 media=88 mediana=25 Età ni 18 10 19 3 20 7 21 9 Totale 29 Media ponderata: Ad ogni modalità si attribuisce un peso pari alla propria frequenza 11 aprile 2008
Età ni 18 10 19 3 20 7 21 9 Totale 29 fi 0,345 0,104 0,241 0,310 1,000 11 aprile 2008
influenza dell’unità di misura altezza m ni fi xifi 1,71 10 0,345 0,58995 1,73 3 0,104 0,17992 1,75 7 0,241 0,42175 1,78 9 0,31 0,5518 Totale 29 1 1,74342 altezza cm ni fi xifi 171 10 0,345 58,995 173 3 0,104 17,992 175 7 0,241 42,175 178 9 0,31 55,18 Totale 29 1 174,342 11 aprile 2008