LIBRO – BIOSTATISTICA [Pagano-Gauvreau]

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

Le distribuzioni di probabilità continue
SCALA INTERVALLO / A RAPPORTO
dispersione di una distribuzione
____________________
LA VARIABILITA’ IV lezione di Statistica Medica.
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
“Teoria e metodi della ricerca sociale e organizzativa”
Variabilità Variabilità: inevitabile fluttuazione dei fenomeni naturali, fisici, sociali ecc le indicazioni fornite dalle misure di tendenza centrale (media.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
Analisi preliminari dei dati
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
Statistica descrittiva
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Esercizi x1=m-ts x2=m+ts
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Varianza campionaria Errore standard della varianza campionaria
La distribuzione normale e normale standardizzata
Campionamento casuale semplice
di biostatistica Pagano - Gauvreaux
Obiettivi del corso di Statistica Medica.
Introduzione alla statistica per la ricerca Lezione I
COSA VUOL DIRE FARE STATISTICA
Canale A. Prof.Ciapetti AA2003/04
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a DISTRIBUZIONI DI FREQUENZE
Esercizi x1=m-ts x2=m+ts
Misure di dispersione Giovanni Filatrella
Statistica sociale Modulo A
LEZIONI DI STATISTICA MEDICA
Misurazione Le osservazioni si esprimono in forma di misurazioni
Lezione 4 Probabilità.
SNV a.s Servizio di valutazione del sistema dellistruzione Incontro provinciale di coordinamento organizzativo a cura del CSA di Treviso Novembre.
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Pedagogia sperimentale
Luciano giromini – la misura in psicologia, 2009 database e distribuzioni - misure di sintesi - misure di variabilità descrizione dei dati:
Statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Fondamenti di informatica
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Simone Mosca & Daniele Zucchini 4Bi.
La Variabilità e La Concentrazione
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
Lez. 3 - Gli Indici di VARIABILITA’
Teoria della probabilità
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Gli indici di dispersione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
COSA VUOL DIRE FARE STATISTICA
Accenni di analisi monovariata e bivariata
Strumenti statistici in Excell
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
Martina Serafini Martina Prandi
Marta Pinto Stefania Serra Valentina Paravidino
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Gli Indici di VARIABILITA’
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

LIBRO – BIOSTATISTICA [Pagano-Gauvreau] Parag. Argomento 33 3. Misure di sintesi numerica 3.1 Misure di tendenza centrale 3.1.1 Media 35 3.1.2 Mediana 3.1.3 Moda 37 3.2 Misure di dispersione 3.2.1 Campo di variazione (Range) 3.2.2 Campo di variazione inter quartile (Range inter quartile). 38 3.2.3 Varianza e Deviazione standard 40 3.2.4 Coefficiente di variazione 41 3.3 Dati raggruppati 3.3.1 Media raggruppata 42 3.3.2 Varianza raggruppata 43 3.4 Disuguaglianza di Chebychev 44 3.5 Altre applicazioni 48 3.6 Esercizi

dispersione di una distribuzione Statistica Descrittiva Obiettivi della lezione: media   mediana moda frattili e percentili Intervallo di variazione Devianza Varianza Deviazione standard Intervallo interquartile Approfondimento dispersione di una distribuzione

dispersione di una distribuzione Numero frequenza Usando SOLO le medie possiamo ingannarci nel confrontare i caratteri di due gruppi di individui. di ore di sonno Maschi Femmine 1 3 2 6 7 4 8 5 11 9 10 - 12 13 14 15 Diamo un'occhiata alla distribuzione di frequenza delle ORE DI SONNO indotte da un sonnifero, dormite da 40 maschi e 40 femmine. Non ci stupiamo affatto, perchè sappiamo che le donne sono diverse dagli uomini sotto molti aspetti

dispersione di una distribuzione La misura della variabilità, permette di descrivere in modo più completo la distribuzione di una variabile. Le misure di tendenza centrale: media, mediana e moda individuano l'elemento “centrale” della distribuzione. Diamo, di nuovo, un'occhiata alla distribuzione di frequenza delle ORE DI SONNO dei 40 soggetti. La media è di 5 ore ma uno sguardo alla tabella mostra che un buon numero di pazienti sono molto diversi tra loro. Alcuni presentano un periodo di sonno più breve ed altri più lungo della media. La media non dice in che misura i dati siano dispersi attorno al valore centrale.

dispersione di una distribuzione Il numero edio di “letture” risulta è di 5 ore in entrambe i sessi Se ci soffermiamo solo sulle medie potremmo concludere che le donne hanno una durata del sonno indotto pari a quella dei maschi. Per facilitare i confronti riportiamo i dati in grafico.

L'intervallo di variazione I dati possono … essere uniformemente distribuiti, concentrarsi ai due estremi della scala concentrarsi a un capo della scala o disporsi in altro modo

L'intervallo di variazione Mentre in media le femmine presentano un durata del sonno uguale ai maschi, alcune di loro hanno un durata del sonno ancora superiore ai tempi più elevati dei maschi. Quindi le medie non sono insufficienti: per completare il quadro occorrono alcune misure di variabilità. L'intervallo di variazione o range consiste semplicemente nella differenza tra il valore massimo e il valore minimo della distribuzione.

L'intervallo di variazione L'intervallo di variazione tende ad ingannare quando nella distribuzio-ne si trovano pochi valori molto devianti. ESEMPIO: “si valuta il tempo d’attesa per accedere ad un esame radiografico in un ospedale di piccole dimensioni. I dati raccolti indicano che la maggior parte dei pazienti in studio ha dovuto attendere un periodo di tempo che oscilla tra i 6 e i 12 giorni. un paziente ha potuto effettuare l'esame dopo un solo giorno di attesa, un altro ha dovuto attendere ben 24 giorni. I tempi di attesa sono, per la maggior parte dei pazienti è di 9 giorni e l'intervallo di variazione (23 giorni) non mette in luce questo fatto.” Un altro svantaggio dell'intervallo di variazione, come misura di variabilità, è che non dà nessuna indicazione di come i diversi valori si raggruppano attorno alla media

L'intervallo di variazione Esempio: hanno la stessa media ( =10), {A}: { 8, 5, 7, 6, 35, 4 } {B}: 11, 10, 9, 17, 7 Gli insiemi di valori di VES ma in {A} i valori sono più dispersi che in {B}: in {A} i valori sono inclusi tra 4 e 35 in {B} i valori sono inclusi tra 7 e 17 La differenza tra il massimo e il minimo valore di un insieme di dati è detto intervallo di variazione (o range). il range di {A} è RA = 35 - 4 = 31 il range di {B} è RB = 17 - 7 = 10 Il range è il più intuitivo fra gli indici di dispersione, ha però il difetto di basarsi solo sui due valori estremi, nei quali si manifesta maggiormente la variabilità di campionamento e l'errore di misura.

La devianza Devianza: Varianza campionaria: Deviazione standard: Gli indici di dispersione di più largo uso sono basati sugli scarti dalla media e, : per un campione di dimensione n, {x1,x2,...xn}, sono così definiti Devianza: Varianza campionaria: Deviazione standard: Coefficiente di variazione: La devianza è la somma dei quadrati degli scarti tra ogni elemento del campione (xi) e la media campionaria ( ).

La devianza, la varianza e la deviazione standard La varianza campionaria è una media dei quadrati degli scarti (ed è espressa in unità al quadrato): si chiarirà poi perchè si usi, nel calcolo di s2, il divisore (n-1) anziché n. Basti considerare che, se n=1, non si hanno informazioni sulla dispersione: in questo caso, la varianza campionaria è una forma indeterminata (0/0). La deviazione standard ha la medesima dimensionalità dei dati su cui è stata calcolata (es.: cm, dl, mmoli). Il coefficiente di variazione non ha dimensione: è un indice di variabilità relativa, utilizzabile per confrontare la dispersione di variabili con differenti unità di misura.

formule di calcolo della devianza devianza per dati singoli devianza per dati raggruppati in classi

calcolo della devianza Esempio {A}: { 8, 5, 7, 6, 35, 5, 4} Somma=70 Media 70/7 = 10 D= (8-10)2+(5-10)2+(7-10)2+(6-10)2+(35-10)2+(5-10)2+(4-10)2=740 (2)2 + (-5)2 + (-3)2 + (-4)2+ (25)2 + (-5)2 + (-6)2 =740 4 + 25 + 9 + 16 + 625 + 25 + 36 = 740 D= 64 + 25 + 49 + 36 + 1225+25+16 - (70)2 / 7 =1440-700=740

calcolo degli indici di dispersione Nell'esempio dei due insiemi di valori di VES si ha: {A}: { 8, 5, 7, 6, 35, 5, 4} D = 82+52+... 42 - (8+5+... 4)2/7 = 1440-700=740 s2 = 740/6 =123.33 s =√ 123.3 = 11.1 ic ={-1.1,21.1}   CV%= 100(11.1/10) = 111% {B}: { 11, 8, 10, 9, 17, 8, 7} D = 112+82+...72-(11+8+…+7)2/7 = 768-700 = 68  s2 = 68 / 6=11.33 s=√11.33 = 3.4 ic ={6.6, 13.4} CV% = 100  (3.4/10) = 34%  In {A} l'intervallo  ± s include anche valori negativi di VES, che ovviamente non sono possibili. L'uso di s per esprimere la dispersione dovrebbe essere quindi limitato alle distribuzioni simmetriche (o quasi).

calcolo della devianza ( dati in classi ) __1di5 Nell'esempio della lunghezza dei neonati: xi f(xi) xi f(xi) 45.0 2 90.0 -5.375 28.891 57.781 2025.00 4050.00 46.5 5 232.5 -3.875 15.016 75.078 2162.25 10811.25 48.0 7 336.0 -2.375 5.641 39.484 2304.00 16128.00 49.5 14 693.0 -0.875 0.766 10.719 2450.25 34303.50 51.0 16 816.0 0.625 0.391 6.250 2601.00 41616.00 52.5 9 472.5 2.125 4.516 40.641 2756.25 24806.25 54.0 270.0 3.625 13.141 65.703 2916.00 14580.00 55.5 1 5.125 26.266 3080.25 57.0 6.625 43.890 3249.00 60 3022.5 365.812 152624.25

calcolo della devianza ( dati in classi ) __2 di 5 Nell'esempio della lunghezza dei neonati: xi f(xi) xi f(xi) 45.0 2 90.0 -5.375 28.891 57.781 2025.00 4050.00 46.5 5 232.5 -3.875 15.016 75.078 2162.25 10811.25 48.0 7 336.0 -2.375 5.641 39.484 2304.00 16128.00 49.5 14 693.0 -0.875 0.766 10.719 2450.25 34303.50 51.0 16 816.0 0.625 0.391 6.250 2601.00 41616.00 52.5 9 472.5 2.125 4.516 40.641 2756.25 24806.25 54.0 270.0 3.625 13.141 65.703 2916.00 14580.00 55.5 1 5.125 26.266 3080.25 57.0 6.625 43.890 3249.00 60 3022.5 365.812 152624.25

calcolo della devianza ( dati in classi ) __3 di 5 Nell'esempio della lunghezza dei neonati: xi f(xi) xi f(xi) 45.0 2 90.0 -5.375 28.891 57.781 2025.00 4050.00 46.5 5 232.5 -3.875 15.016 75.078 2162.25 10811.25 48.0 7 336.0 -2.375 5.641 39.484 2304.00 16128.00 49.5 14 693.0 -0.875 0.766 10.719 2450.25 34303.50 51.0 16 816.0 0.625 0.391 6.250 2601.00 41616.00 52.5 9 472.5 2.125 4.516 40.641 2756.25 24806.25 54.0 270.0 3.625 13.141 65.703 2916.00 14580.00 55.5 1 5.125 26.266 3080.25 57.0 6.625 43.890 3249.00 60 3022.5 365.812 152624.25 media= 3022.5 /60= 50.375

calcolo della devianza ( dati in classi )__4di5 Nell'esempio della lunghezza dei neonati: xi f(xi) xi f(xi) 45.0 2 90.0 -5.375 28.891 57.781 2025.00 4050.00 46.5 5 232.5 -3.875 15.016 75.078 2162.25 10811.25 48.0 7 336.0 -2.375 5.641 39.484 2304.00 16128.00 49.5 14 693.0 -0.875 0.766 10.719 2450.25 34303.50 51.0 16 816.0 0.625 0.391 6.250 2601.00 41616.00 52.5 9 472.5 2.125 4.516 40.641 2756.25 24806.25 54.0 270.0 3.625 13.141 65.703 2916.00 14580.00 55.5 1 5.125 26.266 3080.25 57.0 6.625 43.890 3249.00 60 3022.5 365.812 152624.25 media= 3022.5 /60= 50.375 Var= 365.812/59 =6.2

calcolo della devianza ( dati in classi )__5di5 Nell'esempio della lunghezza dei neonati: xi f(xi) xi f(xi) 45.0 2 90.0 -5.375 28.891 57.781 2025.00 4050.00 46.5 5 232.5 -3.875 15.016 75.078 2162.25 10811.25 48.0 7 336.0 -2.375 5.641 39.484 2304.00 16128.00 49.5 14 693.0 -0.875 0.766 10.719 2450.25 34303.50 51.0 16 816.0 0.625 0.391 6.250 2601.00 41616.00 52.5 9 472.5 2.125 4.516 40.641 2756.25 24806.25 54.0 270.0 3.625 13.141 65.703 2916.00 14580.00 55.5 1 5.125 26.266 3080.25 57.0 6.625 43.890 3249.00 60 3022.5 365.812 152624.25 media= 3022.5 /60= 50.375 D = (45.0-50.375)2 2 + (46.5-50.375)25+...+ (57.0-50.375)2 1 = 365.812 D = 152624.25 - (3022.5)2/60 = 152624.25 - 152258.44 = 365.813 Var= 365.812/59 =6.2 Deviazione standard = 2.49

Istogramma dei dati esempio della lunghezza dei neonati:

calcolo della varianza ( dati in classi ) xi f(xi) 1 4 -4 64 2 9 18 36 -3 81 3 10 30 90 -2 40 15 16 60 240 -1 5 25 80 400 6 11 66 396 7 49 35 245 20 8 24 192 27 162 32 100 121 12 144 13 169 14 196 225 Σ 2620 620 Devianza= 620 ; Varianza=Devianza/(N-1)= 620/79 = 41.33 Torniamo all’esempio delle ORE DI SONNO Deviazione standard=6.429

Alcune osservazioni

Dato un insieme di n valori: scarto semplice medio Dato un insieme di n valori: detta la loro media aritmetica e i valori assoluti degli scarti, si chiama scarto semplice medio (assoluto) la media aritmetica dei valori assoluti degli scarti semplici di ciascun dato x dalla media aritmetica

la varianza della popolazione Si definisce varianza di una distribuzione statistica la media aritmetica dei quadrati degli scarti dalla media. Si definisce scarto quadratico medio la radice quadrata della varianza.

Deviazione standard

l'intervallo interquartile Un indice di dispersione di uso comune è l'intervallo interquartile, dato dalla differenza tra 3° e 1° quartile (cioè tra 75° e 25° centile): tale intervallo contiene la metà dei valori inclusi nel campione, indipendentemente dalla forma della distribuzione della variabile.

Sommario della statistica descrittiva Obiettivi presentati nella lezione: media   mediana moda percentili intervallo di variazione devianza varianza deviazione standard intervallo interquartile Indice di simmetria Coefficiente di variazione

La deviazione standard è una quantità utile per effettuare confronti.  ESEMPIO: Come confrontare il vostro peso con quello di altre persone della vostra età?  Supponiamo che uno di voi pesi 4 kg oltre la media dei soggetti della sua età: ci sono molti altri, della stessa età, con un peso maggiore, oppure egli è un piccolo gigante? Bisogna conoscere la deviazione standard dei pesi dei ragazzi di quella età, prima di fare un confronto con il peso degli altri. Supponiamo che il peso medio dei ragazzi di quell'età sia 45 kg e che la deviazione standard sia 2 kg:  … allora un peso di 49 kg è sopra la media di due deviazioni standard.

Regola di Chebischev K= numero di s dalla m Sk =Proporzione (1-1/k2) Percentuale (1-1/k2)*100 1 0.00 00 % 1.5 0.56 56 % 2 0.75 75 % 2.5 0.84 84 % 3 0.88 88 % 3.5 0.92 92 %

Approfondimento: rivediamo alcune formule ed introduciamo le nozioni di … di asimmetria (skewness) e di curtosi

Principali indici statistici I grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici. Siano n osservazioni numeriche MODA MEDIANA MEDIA di posizione SCARTO QUADRATICO MEDIO VARIANZA RANGE INDICI di dispersione ASIMMETRIA (SKEWNESS) CURTOSI ( KURTOSIS) di forma

Indici di posizione: moda media mediana E' definita come il valore che ha la frequenza più alta. E' quel valore che corrisponde alla somma di tutti i valori diviso il numero dei valori stessi. dove: Xi = esito i-ma misura n = numero dei dati (dimensione del campione) media E' quel valore al di sotto del quale cadono la metà dei valori campionari. mediana Gli indici di posizione indicano il valore attorno al quale i dati del campione sono posizionati Mi interessa la dispersione dei dati intorno a tale valore N.B. NELLA DISTRIBUZIONE NORMALE MEDIA= MODA = MEDIANA

Indici di dispersione: xmax -xmin Range (intrevallo di variazione) Scarto medio assoluto Media dei quadrati degli scarti Varianza campionaria Deviazione standard campionaria p_esimo quantile: si considera np per [ 0 ≤ p ≤1 ] Se np non è intero, considero k l’intero successivo e il p_esimo quantile è xk Se np = k è intero, il p_esimo quantile è (xk+ xk+1)/2 Q1=primo quartile =25° percentile Q2=secondo quartile =50° percentile =mediana Q3=terzo quartile =75° percentile

Deviazione Standard Diversa Media e varianza: Media uguale Deviazione Standard Diversa Media=2 Varianza=1.33 Media=2 Varianza=4

Skewness Kurtosis Indici di forma INDICE DI ASIMMETRIA >0 coda a destra <0 coda a sinistra =0 simmetrica Per la distribuzione gaussiana g=0 Kurtosis Misura quanto la distribuzione è appuntita >3 poco appuntita =3 caso della distribuzione normale <3 molto appuntita Per la distribuzione gaussiana g2=3 N.B. In molti software il coefficiemte di curtosi viene confrontato con il valore 0

Applicazioni La simmetria ha benefici in molti settori. In molti modelli è semplicistico supporre che i dati abbiano una distribuzione [normale] simmetrica intorno alla media. La distribuzione normale ha una asimmetria di zero. Ma in realtà, spesso i punti dati non sono perfetta-mente simmetrici. Così, la comprensione della asimmetria della serie di dati reali indica che le deviazioni dalla media stanno più nel verso positivo o più nel verso negativo. Il test K2 (D'Agostino) è un Goodness-of-fit test di nor-malità basato sulla asimmetria e curtosi campionaria.

Coefficienti di skewness di Pearson Karl Pearson ha suggerito i calcoli più semplici come una misura di asimmetria: La modalità di asimmetria di Pearson, definito da (media - Moda) / deviazione standard, Asimmetria primo coefficiente di Pearson, definita da 3 (media - moda) / deviazione standard, Asimmetria secondo coefficiente di Pearson, definito da 3 (media - mediana) / deviazione standard.

Skewness

Skewness per curve simmetriche

CURTOSI: leptocurtica

CURTOSI: distribuzione platicurtica

Indici: Schema riassuntivo di posizione media: moda: punto di max della distribuzione mediana: valore sotto al quale cadono la metà dei valori campionari. Si dispongono i dati in ordine crescente e si prende quello che occupa la posizione centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari) di dispersione varianza deviazione standard range >0 coda a ds <0 coda a sin =0 simmetrica di di forma skewness (coeff. di asimmetria) curtosi: misura quanto la distribuzione è appuntita >3 poco appuntita <3 molto appuntita