STATISTICA DESCRITTIVA La Sintesi Statistica Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione.

Slides:



Advertisements
Presentazioni simili
Il senso dei dati: Elaborazione e Interpretazione.
Advertisements

dispersione di una distribuzione
LA VARIABILITA’ IV lezione di Statistica Medica.
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
La divulgazione della statistica
Variabilità Variabilità: inevitabile fluttuazione dei fenomeni naturali, fisici, sociali ecc le indicazioni fornite dalle misure di tendenza centrale (media.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
Analisi dei dati per i disegni ad un fattore
Analisi preliminari dei dati
Descrizione dei dati Metodi di descrizione dei dati
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Statistica descrittiva
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Introduzione alla statistica per la ricerca Lezione I
COSA VUOL DIRE FARE STATISTICA
Indici di variabilità Indici di variabilità assoluta
Misure di posizione Gli indici di posizione servono per individuare la tendenza centrale del fenomeno studiato. I più utilizzati sono: Moda Mediana Quartili,
Come descrivere un fenomeno in ambito sanitario: fondamenti di statistica descrittiva Brugnaro Luca.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Statistica sociale Modulo A
LEZIONI DI STATISTICA MEDICA
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Pedagogia sperimentale
Statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Di Capuano,Colucci e Panunzi Valori medi I valori medi.
Fondamenti di informatica
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Simone Mosca & Daniele Zucchini 4Bi.
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
La Variabilità e La Concentrazione
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
Lez. 3 - Gli Indici di VARIABILITA’
Gli Indici di VARIABILITA’
Statistica La statistica è
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Gli indici di dispersione
COSA VUOL DIRE FARE STATISTICA
Accenni di analisi monovariata e bivariata
Strumenti statistici in Excell
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
Martina Serafini Martina Prandi
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi Univariata.
Marta Pinto Stefania Serra Valentina Paravidino
3 June Biostatistica Biostatitistica= Statistica per scienze Biostatitistica= Statistica per scienze biologiche e sanitarie. biologiche e sanitarie.
Elementi di statistica descrittiva
STATISTICHE DESCRITTIVE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
A.A STATISTICA E CALCOLO DELLE PROBABILITA’ Docenti: Stefania Mignani Maurizio Brizzi.
Elaborazione statistica di dati
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
La covarianza.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Statistica sociale Modulo A A.A Prof.ssa Barbara Baldazzi Dottore Mario Mastrangelo Facoltà di Lettere e Filosofia Università di Tor Vergata.
STATISTICA ASSISTITA Esercitazione dott.ssa Clelia Cascella.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Elementi di statistica descrittiva Prof.ssa Nadia Andreuzzi
Gli Indici di VARIABILITA’
Transcript della presentazione:

STATISTICA DESCRITTIVA La Sintesi Statistica Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione o variabilità La forma Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate: statistiche, quando sono calcolate su un campione di dati (si esprimono con lettere dell’alfabeto latino) parametri, quando descrivono la popolazione od universo dei dati (si esprimono con lettere dell’alfabeto greco

STATISTICA DESCRITTIVA indici di Posizione(measures of central tendency) MEDIA MODA MEDIANA Indici di Dispersione(measures of dispersion) CAMPO di VARIAZIONE (Range) DISTANZA INTERQUARTILE (Interquartile range) DEVIANZA VARIANZA DEVIAZIONE STANDARD COEFFICIENTE di VARIAZIONE

STATISTICA DESCRITTIVA Quali sono le principali MISURE di POSIZIONE nella seguente serie numerica? Serie ordinata (x(i) ) MODA, valore più frequente MEDIANA,valore centrale in una serie ordinata MEDIA =(  xi/n)= 60/9 = 6,67

STATISTICA DESCRITTIVA La maggior parte delle variabili biologiche (peso, statura, glicemia) hanno una distribuzione normale, in cui media, mediana e moda coincidono. Alcune variabili (tempo di reazione, tempo di sopravvivenza, numero di linfonodi metastatici, concentrazione serica di IgE) hanno una distribuzione asimmetrica, in cui media e mediana non coincidono.

“ Me spiego: da li conti che se fanno seconno le statistiche d'adesso risurta che te tocca un pollo all'anno: e, se nun entra ne le spese tue, t'entra ne la statistica lo stesso perché c'è un antro che ne magna due” Il “dilemma” di Trilussa 02 (?)

la variabile d’interesse è l’ALTEZZA UNA POPOLAZIONE CON MOLTA VARIABILITÀ UNA POPOLAZIONE CON POCA VARIABILITÀ

STATISTICA DESCRITTIVA dispersione di una distribuzione Ore di sonno MaschiFemmine Usando SOLO le medie possiamo ingannarci nel confrontare i caratteri di due gruppi di individui. Diamo un'occhiata alla distribuzione di frequenza della durata di sonno indotto da un anestetico in un campione di pazienti. Ad esempio, sappiamo che le donne sono notoriamente diverse dagli uomini sotto molti aspetti

STATISTICA DESCRITTIVA dispersione di una distribuzione Il periodo medio di sonno per le donne risulta di 5 ore così come per gli uomini Se ci soffermiamo solo sulle medie potremmo concludere che le donne hanno una durata di sonno uguale a quello dei maschi.

STATISTICA DESCRITTIVA Misure di Variabilità Nome italiano Nome inglese Campo di variazione Range Distanza interquartileInterquartile range Devianza (somma diSum of squares (SSq) scarti quadratici) VarianzaMean Square (MSq) Deviazione standard Standard deviation Coefficiente di variazione Variation coefficient

STATISTICA DESCRITTIVA Misure di Variabilità Range (campo di variazione) = Xmax - Xmin (differenza tra il valore massimo e il valore minimo) Svantaggi Si basa soltanto sui valori estremi della distribuzione e non tiene conto dei valori intermedi Tende ad aumentare al crescere del numero delle osservazioni E' molto influenzato da osservazioni anomale (outliers)

n = 11  Range = x max - x min = = 18 num. linfonodi metastatici n = 10  Range = x max - x min = = 10 num. linfonodi metastatici esempio: n = 2  Range = x max - x min = = 10 num. linfonodi metastatici

L'intervallo di variazione I dati possono … essere uniformemente distribuiti, concentrarsi ai due estremi della scala concentrarsi a un capo della scala o disporsi in altro modo

L'intervallo di variazione in {A} i valori sono inclusi tra 4 e 35 in {B} i valori sono inclusi tra 7 e 17 La differenza tra il massimo e il minimo valore di un insieme di dati è detto intervallo di variazione (o range). il range di {A} è RA = = 31 il range di {B} è RB = = 10 Esempio: Gli insiemi di valori di VES {A}:{8,5,7,6,35,5,4} {B}:{11,8,10,9,17,8,7} hanno la stessa media (=10) Il range è il più intuitivo fra gli indici di dispersione, ha però il difetto di basarsi solo sui due valori estremi, nei quali si manifesta maggiormente la variabilità di campionamento e l'errore di misura

STATISTICA DESCRITTIVA Misure di Variabilità Range o distanza interquartile IQR = Q3 - Q1 differenza tra il terzo quartile (75° percentile)e il 1° quartile (25° percentile) Osservazioni In questo intervallo ricade la metà dei valori, posta esattamente al centro della distribuzione Non è molto influenzata da osservazioni anomale o estreme (statistica robusta) E' adatta a esprimere la variabilità di distribuzioni asimmetriche

Statura Freq. Cumul Totale 34 MASCHI esempio: Statura matricole della Facoltà di Medicina (A.A. 95/96) Range = x max - x min = = 31 cm Calcolo del I° quartile: (rango percentilico = 25) 1. rango = (34+1) * 25 / 100 = 35 / 4  9 = 35 / 4  9 2. I° quartile = 174 cm Calcolo del III° quartile: (rango percentilico = 75) 1. rango = (34+1) * 75 / 100 = 35 * 3 / 4  26 = 35 * 3 / 4  III° quartile = 181 cm IQR = Q3 - Q1 = = 7 cm generalmente si riporta: 174,181

l STATISTICA DESCRITTIVA Misure di Variabilità l'intervallo interquartile

STATISTICA DESCRITTIVA Misure di Variabilità DESCRIPTION OF A SERIES OF GASTRIC CANCER PATIENTS In the series of 921 patients, the total number of dissected lymph nodes was 23,288, with an average of 25.3 ± 16.3 (mean±SD) dissected nodes per case (median 21, range 1-108). The mean number of metastatic nodes was 4.3 ± 7.5 (median 1, range 0-74) in the overall series and 8.3 ± 8.7 (median 5, range 1- 74) in pN+ patients. Bibliografia De Manzoni G, Verlato G, Roviello F, Morgagni P, Di Leo A,Saragoni L, Marrelli D, Kurihara H, Pasini F, for the ItalianResearch Group for Gastric Cancer (2002) The new TNMclassification of lymph node metastasis minimizes stage migration problems in gastric cancer patients. Brit J Cancer, 87:

STATISTICA DESCRITTIVA Misure di Variabilità Table 3. Allergy parameters in subjects without self-reported allergic rhinitis and in subjects with perennial, seasonal and perennial+seasonal rhinitis. Absolute frequencies with percentage in brackets are reported for all variables but total IgE, which is expressed as median (interquartile range). Significance of differences was evaluated by chi-squared test for categorical variables and by one-way ANOVA for total IgE after logarithmic transformation. Significance was notevaluated by chi-squared test (---) when cells with expected value<5 exceeded 25%. NS =not significant Olivieri M, Verlato G, Corsico A, Lo Cascio V, Bugiani M, Marinoni A, de Marco R, for the ItalianECRHS group (2002) Prevalence and features of allergic rhinitis in Italy. Allergy, 57:

STATISTICA DESCRITTIVA Misure di Variabilità Nel primo esempio viene utilizzata come misura di dispersione il range per descrivere una casistica nella sua globalità. Nel secondo esempio viene utilizzata come misura di dispersione la distanza interquartile. In questo modo è possibile confrontare i livelli di IgE totali fra 4 gruppi di numerosità molto diversa: n varia da 19 nel gruppo con rinite allergica perenne a 745 nel gruppo senza rinite.

STATISTICA DESCRITTIVA Misure di Variabilità Gli indici di dispersione di più largo uso sono basati sugli scarti dalla media Devianza =  (x  )2 = (  x) ² =  x ² N (o somma di scarti quadratici) La devianza raddoppia anche se la variabilità rimane costante

DEVIANZA E’ un indice di dispersione definito sulla base del concetto di scarto rispetto ad un punto centrale della distribuzione. E’ un indice di dispersione definito sulla base del concetto di scarto rispetto ad un punto centrale della distribuzione. E’ la base delle misure di dispersione per variabili quantitative (da essa discendono la Varianza e la Deviazione Standard). E’ la base delle misure di dispersione per variabili quantitative (da essa discendono la Varianza e la Deviazione Standard). Nel campione Nella popolazione media nel campione (statistica) dimensione del campione dimensione della popolazione media nella popolazione (parametro)

STATISTICA DESCRITTIVA Misure di Variabilità mediascartoscarto² Dev= Dev=4

STATISTICA DESCRITTIVA Misure di Variabilità La devianza è maggiore perché i dati sono più dispersi o perché il numero delle osservazioni è più elevato? Bisogna tener conto della numerosità ! Inventiamo la Varianza = devianza / n  (x  )2/n =  ²

STATISTICA DESCRITTIVA Misure di Variabilità Es polli elevati al quadrato è una misura un po' difficile! Inventiamo la deviazione standard! deviazione standard =  varianza Parigi: 6  1 polli/mese (media  DS) New York: 6  5 polli/mese (media  DS)

STATISTICA DESCRITTIVA Misure di Variabilità Devianza o Somma dei Quadrati (SQ) (Sum of Squares - SSq) Si tratta di un indice di dispersione con riferimento a un centro E’ la base delle misure di dispersione dei dati, utilizzate in tutta la statistica parametrica. Da essa discendono la Varianza e la Deviazione Standard o scarto quadratico medio (sqm)

STATISTICA DESCRITTIVA Misure di Variabilità Varianza o Quadrato Medio (QM) (Mean Square - MSq) E’ una devianza media ossia la devianza rapportata al numero di osservazioni campionarie (n) o di popolazione (N) Media aritmetica dei quadrati degli scarti delle singole osservazioni dalla loro media aritmetica (media di X)

STATISTICA DESCRITTIVA Misure di Variabilità Varianza Osservazioni E’ adatta per distribuzioni simmetriche Tiene conto di tutte le osservazioni ed è dunque influenzata da eventuali osservazioni anomale (outliers) Non è direttamente confrontabile con la media o altri indici di posizione in quanto le unità di misura sono elevate al quadrato (valore teorico)

STATISTICA DESCRITTIVA Misure di Variabilità Deviazione Standard Osservazioni E’ una misura di distanza dalla media e quindi ha sempre un valore positivo. E' una misura della dispersione della variabile intorno alla media E’ direttamente confrontabile con le misure di posizione, essendo calcolata con la stessa unità di misura E’ di gran lunga più utilizzata della varianza (che ha un forte valore teorico) nelle pubblicazioni scientifiche per la sua “praticità d’uso” e immediata confrontabilità con la media

STATISTICA DESCRITTIVA Misure di Variabilità Deviazione Standard Questo numero rappresenta una misura della deviazione dei valori dalla media. Esso ci dice come i valori tendano a disperdersi intorno alla loro media: se la deviazione standard è piccola, indica un fitto addensamento dei valori intorno alla loro media; se è grande indica la presenza di valori molto lontani dalla media.

STATISTICA DESCRITTIVA Misure di Variabilità Deviazione Standard

STATISTICA DESCRITTIVA Misure di Variabilità Xi x²i (xi-M) (xi-M)² _________ ____________ M= __________ _____________ dev=20var=4 ds=2

calcolo della varianza xixi f(x i ) Σ Dev= 620 Varianza=Dev/(N) = 620/80 = 7.75 Ds= 2.78 Media=400/80=5

esempio: distribuzione di frequenza della statura delle matricole di Medicina dell’Università di Verona nell’A.A. 95/96

Raggruppate i dati in intervalli di ampiezza 1 g/100 ml. Determinate la varianza e la deviazione standard della distribuzione (dati raggruppati in intervalli di classe). ESEMPIO I dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne:

SOLUZIONE VARIANZA DEVIAZIONE STANDARD calcoliamo il prodotto tra il punto centrale della classe e la frequenza calcoliamo il prodotto tra il QUADRATO del valore centrale della classe e la frequenza

STATISTICA DESCRITTIVA Misure di Variabilità Coefficiente di variazione (CV) Due gruppi con valori medi molto distanti Tre neonati pesano rispettivamente 3, 4 e 5 Kg (media  DS: 4  1 Kg). Tre bambini di 1 anno pesano 10, 11 e 12 Kg (media  DS: 11  1 Kg). La deviazione standard è uguale nei due gruppi, ma il buon senso suggerisce che la variabilità del peso sia maggiore nei neonati.

STATISTICA DESCRITTIVA Misure di Variabilità Due variabili diverse In 91 ragazze matricole di Medicina a Roma nell’a.a. 2002/2003, il peso era pari a 55,1  5,7 Kg (media  DS) con un range di Kg, la statura era 166,1  6,1 cm (medi  ±DS) con un range di cm. E’ maggiore la variabilità del peso o la variabilità della statura?

STATISTICA DESCRITTIVA Misure di Variabilità Coefficiente di variazione (CV) Per rispondere a queste domande è necessario calcolare il coefficiente di variazione: CV = (deviazione standard / media) * 100. La deviazione standard viene espressa in percentuale della media. Media Dev. standard CV Neonati 4 Kg 1 Kg 25 % Bambini 1 anno 11 Kg 1 Kg 9,1 % La variabilità del peso è maggiore nei neonati.

STATISTICA DESCRITTIVA Misure di Variabilità Media Dev. standard CV Peso 55,1 Kg 5,7 Kg 10,3 % Statura 166,1 cm 6,1 cm 3,7 % La variabilità del peso è maggiore della variabilità della statura.

Esempio di calcolo degli indici di dispersione Nell'esempio dei due insiemi di valori di VES si ha: {A}:{ 8, 5, 7, 6, 35, 5, 4} Dev= ( ) 2 /7= =740 s 2 = 740/6 = s =√ = 11.1= (-1.1,21.1) CV%= 100  (11.1/10) = 111% {B}: { 11, 8, 10, 9, 17, 8, 7} Dev= ( ) 2 /7= =68 s 2 = 68 / 6 = s = √11.33 = 3.4= (6.6, 13.4) CV% = 100  (3.4/10) = 34% In {A} l'intervallo ± s include anche valori negativi di VES, che ovviamente non sono possibili. L'uso di s per esprimere la dispersione dovrebbe essere quindi limitato alle distribuzioni simmetriche (o quasi)