La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Statistica descrittiva e inferenziale Prof. Franco Zappulla.

Presentazioni simili


Presentazione sul tema: "Statistica descrittiva e inferenziale Prof. Franco Zappulla."— Transcript della presentazione:

1 Statistica descrittiva e inferenziale Prof. Franco Zappulla

2 Statistica descrittiva: prende in considerazione gli aspetti di organizzazione, presentazione (es. tabelle e grafici) e compendio dei dati; vi fanno parte le statistiche anagrafiche (nascite, morti, matrimoni, ecc). Statistica inferenziale: come trarre conclusioni riguardanti le popolazioni a partire dallo studio di un campione.

3 Scale di misura scala nominale: sono dati di tipo classificatorio (es. gruppi sanguigni, tipo di patologia, ecc); la scala nominale piu' semplice e' quella dicotomica, cioe' quella che prevede solo due possibilita' (vivi o morti, maschi o femmine, con o senza un certo attributo, ecc); scala ordinale: prevede un ordine predeterminato, anche se non e' prevista un'uguale distanza fra le modalita' (es. indice di Apgar, punteggi di gravita' di una malattia, ecc). La scala a ranghi e' quella che ordina gli elementi dal minore al maggiore assegnando i numeri d'ordine e trascurando le distanze tra gli elementi ordinati; scala numerica a intervalli: la scala puo' essere discreta, cioe' a numeri interi (es. battiti cardiaci al minuto) o continua, cioe' con infiniti valori intermedi (es altezza, peso, eta')

4 Distribuzione di frequenza E il modo piu' conveniente per riassumere e presentare i dati con le scale numeriche. Consiste in un certo numero di classi predeterminate (ad es. intervalli di altezza) associate alla frequenza delle osservazioni i cui valori cadono entro l'intervallo definito da ciascuna classe. Il numero di classi e' in genere compreso fra 10 e 20 e i limiti vanno fissati con accuratezza. Il modo con cui una distribuzione di frequenza viene rappresentata graficamente e' un grafico ad istogrammi. L'istogramma, che non e' altro che un diagramma a colonne, presenta in ordinata il numero di osservazioni in ciascuna classe (comincia da zero) e in ascissa le classi (il centro di ogni colonna coincide con il punto centrale della classe). Si ricorda che l'area della colonna coincide con la frequenza (soprattutto se la distribuzione di frequenza non ha intervalli di classe di uguale ampiezza).

5

6 Skewness e Kurtosis Altre caratteristiche importanti delle distribuzioni di frequenza sono il grado di asimmetria o skewness (che puo' essere a destra o a sinistra, cioe' positiva o negativa) e il grado di accentramento o kurtosis (picchi stretti o picchi ampi o presenza di piu' picchi).

7 SINTESI DEI DATI Le caratteristiche fondamentali di una distribuzione di frequenza (parametri di una curva normale) sono: 1) la posizione o tendenza centrale; 2) la dispersione o variazione.

8 1) MISURE DI POSIZIONE a) media: la media aritmetica (la piu' comune delle medie) e' la somma delle osservazioni divise per il loro numero, cioe': m=(x 1 + x 2 + x 3 + x n )/n cioe' x/n La media aritmetica, molto duttile nelle elaborazioni statistiche, ha un unico grosso inconveniente, quello che può essere influenzata notevolmente dai valori estremi.

9 Media e DS di 2 gruppi La media di due gruppi e': (m 1 *n 1 + m 2 *n 2 )/(n 1 + n 2 ) La DS di due gruppi e' data dalla radice quadrata della Somma dei Quadrati diviso per i Gradi di Liberta' (vedi programma PRIMER, opzione Analisi della Varianza a una via).

10 Altre medie - media geometrica : e' la radice ennesima del prodotto delle osservazioni; per il calcolo e' comodo usare i logaritmi: log MG = (log x)/n (per avere MG bastera' calcolare l'antilogaritmo di log MG); - media armonica: MA = n/ (1/x) oppure 1/MA = (1/x)/n

11 Misure di posizione: b) Mediana E l'osservazione di mezzo in una serie di osservazioni messe in ordine crescente o decrescente. In altre parole e' quel valore rispetto al quale meta' dei valori della popolazione risultano superiori e l'altra meta' inferiori. Se la distribuzione e' "normale" circa il 68% degli elementi e' compreso entro 1 DS, mentre il 95% e' compreso entro le 2 DS. Pertanto in una distribuzione "normale" esiste una certa corrispondenza fra valori percentili e DS La mediana è poco usata nei conti statistici (ad es. nel test della mediana), ma ha il vantaggio di non essere influenzata dalle osservazioni estreme.

12

13 Misure di posizione: c) moda E' l'osservazione che si verifica con maggior frequenza; quindi la moda puo' essere assente (specie se le osservazioni sono poche) o puo' essere plurima (es. curve bimodali con 2 picchi). Nelle distribuzioni "normali" (cioe' unimodali e simmetriche) media, mediana e moda coincidono.

14 2) MISURE DI DISPERSIONE O DI VARIABILITA' Servono a esprimere il grado di variabilita' o dispersione attorno al valore medio. Naturalmente le fonti di variabilita' possono essere tante e si suole raggrupparle in tre grandi gruppi (v. oltre): variazione biologica temporale errori di misura.

15 a) range (o intervallo di variabilita'): e' la differenza tra il valore massimo e il valore minimo;

16 b) deviazione media E' la media di tutti gli scarti (o deviazioni) dalla media calcolati in valore assoluto (cioe' senza il segno). Se invece di calcolare i valori assoluti si elevano al quadrato i termini e si divide per n si ha la varianza: V(x) = ( (x i - m) 2 )/n

17 Per ottenere misure di variazione nelle stesse unita' delle osservazioni originali si calcola la radice quadrata della varianza che prende il nome di DS (deviazione standard) o sigma. Piu' precisamente si deve parlare di sigma quando le osservazioni rappresentano l'intera popolazione (e quindi n rappresenta il numero totale dei casi), mentre si parla di DS quando si parla di un campione (e in tal caso al posto di n si usa n-1, che sono anche detti gradi di liberta').

18 Kgx-mquadrato somma=30 somma=10 media=510/6=1,6666 (varianza o s 2 ) sqrt di 1,666=1,29 (sigma)

19 c) coefficiente di variazione (CV): e' rappresentato dalla DS/m * 100 Il valore che ne deriva e' una quantita' priva di dimensione, mentre la DS e' espressa nelle stesse unita' delle osservazioni originali. Il CV permette quindi il confronto di grandezze diverse.

20 ERRORE STANDARD DELLA MEDIA (SEM) La media e la DS calcolate da un campione sono stime della media e della DS dell'intera popolazione dalla quale il campione e' tratto. Per quantificare in termini probabilistici l'accuratezza di queste stime, possiamo calcolare i loro SE (sia della media che della DS). Il SEM (DS/ n) quantifica il grado di certezza col quale la media calcolata da un campione casuale stima la vera media della popolazione da cui il campione e' tratto. Pertanto la DS e il SEM misurano 2 aspetti decisamente diversi: la DS descrive la variabilita' della popolazione, il SEM descrive l'incertezza nella stima della media. La media vera della popolazione originale cade ad una distanza dalla media campionaria inferiore a 2 SEM in circa il 95% dei possibili campioni. In pratica si approssima l'intervallo di confidenza al 95% con la media +2 SEM.

21 LIMITI DI CONFIDENZA Piu' esattamente si calcolano i limiti di confidenza al 95% con m ± t*SEM (dove t deriva dalle tabelle del t di student guardando nella colonna di p=0.05 e alla riga relativa a n-1 gradi di liberta'); ovviamente per i limiti di confidenza al 99% bastera' leggere il valore di t nella colonna corrispondente.

22 COME STABILIRE LA NORMALITA' DI UNA CURVA 1) Visivamente con il comando FREQ nomevar/HISTO. 2) Con il test non parametrico di Kolmogorov-Smirnov nella variante ad un campione: se e' significativo la variabile non e' distribuita in modo normale. Es. NPAR TEST K-S(normal)=nomevar. 3) Dividendo la kurtosis e la skewness per i relativi S.E. (si ottengono con il comando DESCRIPTIVE e l'opzione STAT=ALL); il valore di "t" cosi' ottenuto si valuta nelle tabelle del "t" di Student per n-1 gradi di libertà: anche in questo caso se e' significativo la variabile non e' distribuita "normalmente". Alti valori di kurtosis e di skewness (grosso modo oltre le 2-3 unita') sono gia' indicativi di mancanza di "normalità".

23 ACCURATEZZA DI UNA MISURA Una misura si dice accurata quando presenta queste due caratteristiche: a) precisione: dipende dal grado di dispersione di un insieme di osservazioni; una misura meno e' dispersa e piu' e' precisa; b) mancanza di vizio: e' la capacita' di ottenere il valore vero.

24 SORGENTI DI VARIAZIONE In medicina e biologia le misure cliniche quantitative sono esposte a tre tipi fondamentali di variazione: 1) biologica: tutti i fattori che rendono diversi i vari individui: eta', sesso, razza, dieta, ecc; la variazione dovuta alla variabilita' biologica è detta anche "variabilità tra soggetti" (between subjects); 2) temporale : tutti i fattori che determinano variazioni nello stesso individuo da un momento all'altro; 3) errore di misura: tutti i fattori che tendono a produrre differenze in misure diverse dello stesso fenomeno (strumenti di misura, errori tecnici, diversita' dell'osservatore, ecc); tale variabilita' e' detta anche "variabilita' entro soggetti" (within subjects). L'analisi della varianza e' la tecnica statistica che permette di disaggregare la varianza totale in due componenti: quella inter-soggetti e quella intra-soggetti.

25 COMANDI PER SPSS/PC: EXAMINE tsh / PLOT=ALL. DESCRIPTIVE (DES): da' per ogni variabile la media e la DS; con l'opzione STAT=ALL si ottengono anche lo SE della media, la varianza, il range, la Kurtosis (indica la presenza di piu' picchi: piu' il valore e' distante da 0 e piu' picchi esistono) e la Skewness (cioe' il grado di asimmetria: piu' e' distante da 0 e piu' e' asimmetrica una curva). Es.: DES eta peso altezza/STAT=ALL. Con OPT=3 si crea una nuova variabile con gli Z-scores: si ottiene sottraendo il valore medio di una variabile da ogni valore, e dividendo la differenza per la DS della variabile. Il nome della nuova variabile e' lo stesso preceduto da una Z.

26 MEANS Calcola la media e la DS di una o piu' variabili suddivise in uno o piu' gruppi (BY). Con l'opzione STAT=1 il programma calcola anche l'analisi della varianza. Es: MEANS t3 t4 tsh BY sesso/STAT=1. FREQUENCIES (FRE) produce tavole di frequenza per i valori di ogni variabile specificata. Esistono diversi sottocomandi: BARCHART (esprime le frequenze come colonne a barre), HISTOGRAM (esprime le frequenze come colonne), NTILES, PERCENTILES (calcola i percentili specificati subito dopo). Es.: FRE eta/NTILES=4. (calcola i percentili 25, 50 e 75) FRE eta/PERC

27 Il caso

28 Misure di accordo: esempio di un esame interpretato da due clinici diversi Secondo clinico Test +Test – Test + a ba+b Primo Clinico Test - cdc+d Accordo osservato = = 78 % 100

29 Ma questa descrizione del loro accordo è piuttosto superficiale, perché se il secondo clinico avesse semplicemente lanciato in aria una moneta (il caso) egli sarebbe stato per un certo numero di volte daccordo con il primo osservatore. Se vogliamo calcolare laccordo fra i due clinici basandoci solo sul caso la tabella sarebbe la seguente: Secondo clinico (lancio monetina) Test +Test – Primo Test + a 50% di 56=28 b 50% di 56=28 a+b 56 Clinico Test - c 50% di 44=22 d 50% di 44=22 c+d 44 50/100= 50% 50/100= 50% 100 Accordo legato al caso = (28+22)/100 = 50 %

30 Se supponiamo che il caso intervenga anzichè 50 e 50 %, 58% dei casi un test positivo e il 42% dei casi un test neg.: Secondo clinico (lancio monetina) Test + Test – a b Primo Test +58% di 56=32,5 42% di 56=23,5 a+b 56 c d clinico Test -58% di 44=25,5 42% di 44=18,5 c+d 44 58/100= 58% 42/100= 42% 100 Accordo atteso in base al caso = (32,5+18,5)/100 = 51 %

31 Quindi laccordo trovato era del 78 % e laccordo atteso soltanto in base al caso era del 51 %. Esiste un modo per combinare queste due percentuali in un indice che sia clinicamente utile? Questo indice si chiama K (kappa o di concordanza) e rappresenta la proporzione di accordo potenziale, escludendo quindi il caso, effettivamente raggiunto.

32


Scaricare ppt "Statistica descrittiva e inferenziale Prof. Franco Zappulla."

Presentazioni simili


Annunci Google