La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LIBRO – BIOSTATISTICA [Pagano-Gauvreau]

Presentazioni simili


Presentazione sul tema: "LIBRO – BIOSTATISTICA [Pagano-Gauvreau]"— Transcript della presentazione:

1 LIBRO – BIOSTATISTICA [Pagano-Gauvreau]
Parag. Argomento 33 3. Misure di sintesi numerica 3.1 Misure di tendenza centrale 3.1.1 Media 35 3.1.2 Mediana 3.1.3 Moda 37 3.2 Misure di dispersione 3.2.1 Campo di variazione (Range) 3.2.2 Campo di variazione inter quartile (Range inter quartile). 38 3.2.3 Varianza e Deviazione standard 40 3.2.4 Coefficiente di variazione 41 3.3 Dati raggruppati 3.3.1 Media raggruppata 42 3.3.2 Varianza raggruppata 43 3.4 Disuguaglianza di Chebychev 44 3.5 Altre applicazioni 48 3.6 Esercizi

2 Sintassi Media aritmetica Media Geometrica Media Armonica mediana moda
STATISTICA DESCRITTIVA Obiettivi della lezione: CENTRO DI UNA DISTRIBUZIONE Sintassi Media aritmetica  Media Geometrica Media Armonica mediana moda frattili e percentili intervallo di variazione varianza deviazione standard intervallo interquartile quale misura di posizione usare?

3 Caratteri qualitativi
Colore degli occhi Stato civile Gruppo Sanguigno Caratteri quantitativi Peso Numero di componenti Statura

4 Sintassi (1) Dato un insieme di N elementi {x1, x2, ... xN}
51 49.4 49 52.5 51.5 51.8 55 50.2 50.3 47.7 46.5 47.8 49.7 44.5 49.8 53 53.4 47.4 50.5 48.7 50 52.9 50.8 46.2 48.9 44.4 49.2 49.5 54.5 48.2 51.2 56.3 54 50.9 46 52.2 47 48.5 53.8 51.1 54.7 52.3 51.7 51.6 52.7 51 49.4 49 52.5 51.5 51.8 55 50.2 50.3 47.7 46.5 47.8 49.7 44.5 49.8 53 53.4 47.4 50.5 48.7 50 52.9 50.8 46.2 48.9 44.4 49.2 49.5 54.5 48.2 51.2 56.3 54 50.9 46 52.2 47 48.5 53.8 51.1 54.7 52.3 51.7 51.6 52.7 Si considerino N=60 dati da analizzare. I dati vengono suddivisi in un numero M=8 opportuno di classi; per ogni classe si ha, per j=1,2,…,M , Frequenza assoluta: nj numero di elementi di tipo j-esimo Frequenza relativa:

5 Centro di una distribuzione
dato un insieme di n elementi {x1, x2, ... xN} Si dice media aritmetica semplice di N numeri il numero che si ottiene dividendo la loro somma per N.

6 che utilizza un peso pj o la frequenza di ogni dato xj per j=1,…,m
dato un insieme di m elementi {x1, x2, ... xm} , e dato un insieme di m di numeri reali {p1, p2, ... pm} Si dice media aritmetica pesata che utilizza un peso pj o la frequenza di ogni dato xj per j=1,…,m

7 Esempio di media pesata
La media della lunghezza di un gruppo di f1= 7 neonati  m1=48.0 cm e di altri f2= 3 neonati  m2=49.5 cm. Per calcolare la media delle lunghezze dell'insieme totale di 10 neonati pur senza avere la conoscenza dei valori delle lunghezze individuali, si utilizzano le proprietà della media aritmetica : la somma delle lunghezze dei primi 7 è 48.0×7 = la somma delle lunghezze dei secondi 3 è 49.5×3 = la somma delle lunghezze di tutti i 10 è = La media della lunghezza di tutti i 10 neonati è = 484.5/10 = 48.45 Ovvero Media = (f1×m1 + f2×m2)/(f1+ f2)  Media = (7× ×49.5)/(7+3)

8 esempio di media aritmetica
51.0 49.4 49.0 52.5 51.5 51.8 46.5 47.8 49.7 44.5 49.8 53.0 48.7 50.0 52.9 50.8 46.2 48.9 54.5 48.2 51.2 49.5 56.3 46.0 52.2 47.0 51.1 54.7 52.3 55.0 50.2 50.3 47.7 48.5 53.8 53.4 47.4 50.5 51.7 44.4 49.2 54.0 50.9 51.6 52.7 esempio di media aritmetica Lunghezza(cm) in un campione di 60 neonati. la media aritmetica dei primi 6 valori di lunghezza di 6 neonati è: = ( )/6 = 305.2/6 = 50.87  la media aritmetica di tutti i 60 valori di lunghezza è: = ( …+53.8)/60 = /60 = La media aritmetica di N dati distinti è …

9 MEDIA per dati raggruppati in classi
limiti di classe xi f(xj) xif(xj) 45.0 2 0.0333 90.0 46.5 5 0.0500 232.5 48.0 7 0.2000 336.0 49.5 14 0.2500 693.0 51.0 16 0.2330 816.0 52.5 9 0.1667 472.5 54.0 0.0833 270.0 55.5 1 0.0666 57.0 0.0167 60 1.00 3022.5 MEDIA per dati raggruppati in classi ALTEZZA(cm) di un campione di 60 neonati. Nell'esempio del campione di 60 misure di lunghezza dei neonati: La media per dati raggruppati in m classi è … dove m è il numero di classi e , se f(xi) indica le frequenze assolute, se f(xi) indica le frequenze relative. oppure

10 proprietà della media aritmetica
Nota: valgono anche le seguenti relazioni: Dalla definizione consegue che la somma degli scarti di ogni elemen- to del campione dalla media aritmetica è 0: In questo senso la media rappresenta il baricentro della distribuzione. Per molte variabili (es.: statura adulta, emoglobinemia), il baricentro si trova dove si addensano i valori e si può considerare un valore tipico della variabile.

11 Media Aritmetica Per effettuare la correzione di errori accidentali.
Permette di sostituire i valori di ogni elemento senza cambiare il totale. Sostituzione di valori NULL Monotona crescente 11

12 … centro di una distribuzione : LA MEDIANA
Si dice mediana il valore che occupa il posto centrale in una distribuzione statistica di frequenza i cui valori sono disposti in ordine crescente La media aritmetica è la misura di posizione più usata ma. A volte, altre misure come la mediana e la moda si dimostrano utili.

13 media aritmetica e mediana
Si consideri un campione di valori di VES (velocità di eritrosedimen-tazione, mm/ora) misurati in 7 pazienti {8, 5, 7, 6, 35, 5, 4} In questo caso, la media ( = 10 mm/ora) non è un valore tipico della distribuzione: soltanto un valore su 7 è superiore alla media! Conviene usare come indice del centro la mediana, definita come quel valore che divide a metà la distribuzione, sicché l'insieme dei valori è per metà minore e per metà maggiore della mediana. Per calcolare la mediana si dispongono i dati in ordine crescente: ordine originale: {8, 5, 7, 6, 35, 5, 4} ordine crescente: {4, 5, 5, 6, 7, 8, 35}

14 mediana Se n è dispari, la mediana è il valore che occupa la posizione (n+1)/2 nell'insieme ordinato. Nell'esempio, poiché (n+1)/2=4, la mediana è 6 mm/ora, ed è tipica nel senso che si avvicina a buona parte dei valori del campione. Se n è pari, la mediana è la media dei valori che occu­pano le posizioni (n/2) ed [(n/2)+1] nell'insieme ordinato dei numeri. Se, nell'esempio, si esclude il valore più alto, si ottiene l'insieme ordinato {4, 5, 5, 6, 7, 8}, (n/2)=3 e [(n/2)+1]=4, e la mediana vale (5+6)/2=5.5.

15 mediana La mediana è semplicemente il dato centrale della distribuzione. Dopo aver disposto i dati in ordine crescente la mediana è quel valore che lascia alla sua sinistra e alla sua destra un ugual numero di termini. 51 49.4 49 52.5 51.5 51.8 55 50.2 50.3 47.7 46.5 47.8 49.7 44.5 49.8 53 53.4 47.4 50.5 48.7 50 52.9 50.8 46.2 48.9 44.4 49.2 49.5 54.5 48.2 51.2 56.3 54 50.9 46 52.2 47 48.5 53.8 51.1 54.7 52.3 51.7 51.6 52.7 mediana non è tra e cm di lunghezza [=( )/2= 52.0]

16 mediana Il 30° e il 31° valore nella serie ordinata è di 50.5 e 50.5 giorni: la mediana è perciò 50.5 Nota Bene La mediana NON è il valore intermedio tra i valori di lunghezza del 30mo e 31mo neonato esaminato, ma il valore intermedio tra la 30ª e 31ª osserva-zione, dopo aver ordinato i dati in verso crescente.

17 Mediana per dati raggruppati in classi
limiti di classe Xj f(xj) Nj F(xj) 45.0 2 0.0333 46.5 5 0.0233 0.1167 48.0 7 14 0.2333 49.5 28 0.4667 51.0 16 0.2667 44 0.7333 52.5 9 0.1500 53 0.8833 54.0 0.0833 58 0.9667 55.5 1 0.0167 59 0.9833 57.0 60 Mediana = 50.25

18 wj xj xj-1 ? interpolazione lineare della MEDIANA

19 Mediana per dati raggruppati in classi
= 50.25

20 Legge di Weber-Fechner: Risposta  log(stimolo)
Media geometrica Una delle leggi fondamentali della fisiologia afferma che la risposta eccitatoria di un organismo ad uno stimolo è proporzio-nale al logaritmo dello stimolo: Legge di Weber-Fechner: Risposta  log(stimolo) Tale legge è valida anche in altri ambiti, quali la farmaco­logia (l'effetto di un principio attivo è proporzionale non alla sua dose ma al logaritmo della dose), la microbiologia, l'enzimologia e l'immunologia.

21 Esempio di media geometrica
Si riportano i valori (ng/ml) di concentrazione minima di penicillina-G inibente la Neissaria gonorrhoeae (MIC) presente nell'urina di 7 pazienti: {31.25, 62.5, 125, 250, 500, 1000, 2000}.  Tali dati risentono del fatto che il metodo di determinazione della MIC è basato su diluizioni (1:1) successive della concentrazione iniziale di penicillina G (si noti che la differenza tra e 62.5 è la metà di quella tra 62.5 e 125, e così via). La media aritmetica (566.96) risente dei valori più alti ed è più del doppio della mediana (250). In scala logaritmica,invece, le differenze tra le concentrazioni log10(MIC) sono uguali: {1.495, 1.796, 2.097, 2.398, 2.699, 3.000, 3.301} e la media aritmetica dei logaritmi è (2.398) e coincide con il logaritmo della mediana

22 Neisseria gonorrhoeae
Neisseria gonorrhoeae (NG) is a Gram-negative diplococcus that commonly infects the mucosa of the urethra, cervix, rectum, and throat. It frequently presents as an uncomplicated, symptomatic infection at one or more of these sites. In women, untreated lower genital tract infection, which more often may be asymptomatic, may progress to pelvic inflamma-tory disease (PID). Repeated cases of PID increase the risk for chronic pelvic pain, ectopic pregnancy, and infertility

23 Media geometrica Si dice media geometrica l'antilogaritmo della media aritmetica dei logaritmi:

24 Media geometrica Dalla definizione di logaritmo si ricava che la media geometrica di n valori si può calcolare come radice n-ma del loro prodotto: Nell'esempio: antilog10(2.398)= dove la differenza è dovuta ad errori di arrotondamento.

25 Tasso di incremento di colture di batteri
Se il tasso di incremento in 4 giorno consecutivi risulta pari a 1.75, 2.0, 1.5, 1.25, quale è il tasso medio di incremento? Giorno 1 2 3 4 Tasso incr. 1.75 1.5 1.25 N° batt eff. 1750 3500 5250 6562 N° batt calc 1601 2562 4102

26 … centro di una distribuzione : Media Armonica
media di N proporzioni Esempio: P1= 0.1% ed P2=0.05% ovvero P1=1/10 e p2=1/20 hanno media aritmetica 3/40 ovvero PMEDIA= 0.075 La Media armonica MH e’ = 1/15

27 Media Armonica: Costo medio di prodotti confezionati
Avendo speso 24 euro nell’acquisto di confezioni del costo di 4 euro, ed altrettanto per l’acquisto di confezioni del costo di 6 euro ed ancora per l’acquisto confezioni del costo di 8 euro. Quale sarà il prezzo medio globale?

28 Problema di Briatore Una macchina da corsa esegue un giro di pista a 100 km/ora ed un secondo giro di pista a 300 km/ora. Qual è stata la sua velocità media ? A voi la risposta … … … … …

29 Problema di Briatore risposta)
Una macchina da corsa esegue un giro di pista a 100 km/ora ed un secondo giro di pista a 300 km/ora. Qual è stata la sua velocità media ? A voi la risposta … 2/(1/100+1/300)= 150… … … …

30 Media Armonica (Una gita in montagna )
Mio suocero è un buon camminatore. È capace di fare gite lunghissime cammi-nando sempre con quel suo passo svelto ed instancabile. Ieri … Ieri è partito alle 3 del pomeriggio ha fatto un bel tratto piano, poi è salito su un monte, ne è ridisceso ed è ritornato a casa alle 9 di sera senza fermarsi. Nei tratti piani avanza a 8 chilometri l'ora ed è facile stargli dietro, ma anche su una salita ripida, come quella di ieri, mantiene una media di 6 km/h. In discesa, poi allunga il passo e fa 12 Km/ora, senza stancarsi mai. Quanti chilometri era lunga la gita di mio suocero ? A che ora era sulla cima del monte (mezz'ora più o meno)?

31 Risposte & riflessioni (Una gita in Montagna )
Supponiamo che la salita fosse di 6 km. Avrebbe impiegato un'ora a salire e mezz'ora a scendere. Quindi nel tratto in salita/discesa avrebbe percorso 12 km in un'ora e mezza. La sua velocità media, quindi sarebbe stata di 8 km/h, come sul piano. Pertanto lui ha camminato sempre ad una velocità media di 8km/h. Partito alle tre e tornato alle nove di sera, ha camminato per 48 km. Se il tratto fosse stato tutto piano, si sarebbe trovato a tornare indietro dopo 3 ore. Se il tratto fosse stato tutto in salita si sarebbe trovato a tornare indietro dopo 4 ore. Pertanto, se diciamo che dopo 3 ore e mezza era sulla cima, abbiamo risposto correttamente. Per gli amanti della statistica ed i cultori di Chisini e della sua splendida defi- nizione di media, la velocità media nel tratto in salita e discesa si calcola con la media armonica, se vogliamo che la velocità media conservi i tempi di percorrenza.

32 INFINE PER CHI NON è CONVINTO
Y X La gita è lunga 48 km = x (in piano) + y (in salita) DATI Spazio = vel*t , t = spazio / vel e vel=Spazio/tempo t1=x/ t2=y/6 8*t1+6*t2+12*(t2/2)+8*t1=48 ovvero 4*t1+3*t2=12 quindi t2=(12-4*t1)/3 t1 t2 t1+t2 2 4/ /3 / /3

33 Frattili di una distribuzione
Una distribuzione può essere descritta per mezzo dei suoi frattili. Si dice frattile (sinonimi: centile, percentile e quantile) p-esimo di una distribuzione quel valore xp tale che la frequenza relativa cumulata F(xp )= p. Ad esempio, il 50° centile di una distribuzione è il valore che, sull'asse dei numeri reali, ha alla sua sinistra il 50% dei valori della distribuzione, e coincide con la mediana. Il 10° centile è il valore che ha alla sinistra il 10% della distribuzione.

34 Nei grafici cumulati, i valori riportati sull'asse verticale indicano la frequenza delle rilevazioni con valore pari o minore ai valori in corrispondenza sull'asse orizzontale 100 90 80 70 60 50 40 30 20 10 00

35 calcolo dei frattili Per il frattile di una seriazione di frequenza si ricorre all'interpolazione lineare xj-1 e xj sono i limiti inferiore e superiore della classe … F(xj) e F(xj-1) sono le frequenze cumulate della classe … e della classe contigua precedente f(xj) = F(xj)-F(xj-1) è la frequenza della classe … wj = xj - xj-1 è l'ampiezza della classe… … classe j che contiene il frattile ricavabile dalla proporzione:

36 una distribuzione in breve
Un insieme di dati può essere descritto con 5 frattili: la mediana, i quartili 1° e 3° , e due centili estremi (es.: il 10° ed il 90°). Si danno così indicazioni su localizzazione, dispersione e forma della distribuzione. limiti di classe xj f(xj) Nj F(xj) 48.0 2 0.0333 49.5 5 0.0500 51.0 7 0.2000 17 52.5 14 0.2500 32 54.0 16 0.2330 46 55.5 9 0.1667 56 57.0 0.0833 61 58.5 1 0.0666 65 60.0 0.0167 66

37 Con riferimento all'esempio delle lunghezze dei neonati:
10° centile 25° centile= 1° quartile 50°centile= mediana 75°centile= 3° quartile 90° centile

38 l'intervallo interquartile
Un indice di dispersione di uso comune è l'intervallo interquartile, dato dalla differenza tra 3° e 1° quartile (cioè tra 75° e 25° centile): tale intervallo contiene la metà dei valori inclusi nel campione, indipendentemente dalla forma della distribuzione della variabile.

39 L’efficienza e la immediatezza delle distribuzioni cumulative
Il primo quintile 40 verso 54 anni per il tumore al seno verso il tumore all’ovaio

40 … centro di una distribuzione : La Moda
Si dice moda di una distribuzione statistica di frequenza il valore che compare con la massima frequenza

41 La Moda Più di rado si incontra una terza misura di posizione, la moda; è il valore che si verifica più spesso (frequenza assoluta più elevata); la modalità della variabile in cui si registra il maggior numero di casi. Quanto sono usualmente lunghi i bimbi alla nascita? Guardando i dati a nostra disposizione, è subito evidente maggior numero (16) di bimbi è lungo tra i 50.3 cm e i 51.7 cm. la classe modale è dunque Se la distribuzione ha più di due valori massimi o se la frequenza più alta riscontrata nell’insieme considerato non supera di molto le altre la moda non è un buon indicatore di tendenza centrale.

42 La moda di seriazioni statistiche
amp = ampiezza della classe modale . xinf = limite inferiore della classe modale

43 La moda Lunghezza supina (cm) in un campione di 60 neonati. Valori ottenuti con l'infantometro Harpenden. Estremi Valore Freq Semplici Freq cumulate di classe Centrale n % 45.0 2 46.5 5 7 48.0 14 49.5 28 51.0 16 44 52.5 9 0.15 53 54.0 58 55.5 1 59 57.0 60 Nella classe , piu’ vicino alla casse con freq=14

44 quale misura di posizione usare?
A quale misura di tendenza centrale ci riferiamo? Il proprietario di una ditta afferma "Lo stipendio mensile nella nostra ditta è euro" Il sindacato dei lavoratori dice che “lo stipendio medio è di euro”. L'agente delle tasse dice che “lo stipendio medio è stato di euro”. Queste risposte diverse sono state ottenute tutte dai dati della seguente tabella. Stipendio mensile N° di lavoratori 1.300 2 1.700 22 2.200 19 2.600 3 6.500 9.400 1 23.000 Media aritmetica= lire 2.700 Mediana = lire 2.200 Moda = lire 1.700

45 interpretazione delle misure di posizione
La media aritmetica indica che, se il denaro fosse distribuito in modo che ciascuno ricevesse la stessa somma, ciascun dipendente avrebbe avuto euro La moda ci dice che la paga mensile più comune è di euro La moda si considera spesso come il valore tipico dell'insieme di dati poiché è quello che si presenta più spesso. Non tiene però conto degli altri valori e spesso in un insieme di dati vi è più di un valore che corrisponde alla definizione di moda. La mediana indica che circa metà degli addetti percepiscono meno di euro, e metà di più. La mediana non è influenzata dai valori estremi eventualmente presenti ma solo dal fatto che essi siano sotto o sopra il centro dell'insieme dei dati.

46 In quale ordine si dispongono le misure di tendenza cetrale ?

47 FINE DELL’ARGOMENTO MISURE DI TENDENZA CETRALE

48 quale misura di posizione usare?
A quale misura di tendenza centrale ci riferiamo? La percentuale è una misura molto semplice e di facile comprensione Se ci dicono che il 10% della popolazione è composta da “Mancini” , è facile calcolare che il 90% è costituita da “Destrimani” Immaginiamo quindi di classificare 1000 adolescenti in accordo alla osservanza delle leggi: “Delinquenti” o “Rispettosi della Legge”. 810 Osservanti Destri e 90 Delinquenti Destri , 80 Osservanti Mancini e 20 Delinqunti Mancini Destrimani Mancini Osservanti 810 80 Delinquenti 90 20 100 =10% La tabella non ci aiuta molto a capi-re il fenomeno: appare che siano più delinquenti i destrimani ?

49 quale misura di posizione usare?
A quale misura di tendenza centrale ci riferiamo? Passiampo alle percentuali % RIGHE Destrimani Mancini Totale Osservanti 91% [810] 9% [80] 100% [900] Delinquenti 82% [ 90] 18% [ 20] 100% [ 100] La tabella ci informa sulla probabilità Che ha un Osservante di essere mancino Che ha un Delinquente di essere mancino

50 quale misura di posizione utilizzare?
A quale misura di tendenza centrale ci riferiamo? cambiamo il verso della proporzionalità % COLONNE Destrimani Mancini Rispettoso 90% [810] 80% [80] Delinquente 10% [ 90] 20% [ 20] Totale 100% [900] 100% [100] La tabella ci informa sulla probabilità … Che ha un Destrimano di essere Rispettoso della Legge Che ha un Mancino di essere Rispettoso della Legge

51 Principali indici statistici
di posizione di forma di dispersione MODA MEDIANA MEDIA SCARTO QUADRATICO MEDIO VARIANZA RANGE ASIMMETRIA (SKEWNESS) CURTOSI ( KURTOSIS) INDICI

52 Sintassi Preambolo media mediana moda
STATISTICA DESCRITTIVA Obiettivi della lezione: Sintassi Preambolo media  mediana moda frattili e percentili intervallo di variazione varianza deviazione standard intervallo interquartile Fine dell’argomento

53 Siméon-Denis Poisson (1781-1840)


Scaricare ppt "LIBRO – BIOSTATISTICA [Pagano-Gauvreau]"

Presentazioni simili


Annunci Google