Statistica descrittiva e inferenziale

Slides:



Advertisements
Presentazioni simili
I TEST DI SIGNIFICATIVITA' IL TEST DI STUDENT
Advertisements

LA VARIABILITA’ IV lezione di Statistica Medica.
Intervalli di confidenza
Proprietà degli stimatori
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
Analisi preliminari dei dati
Descrizione dei dati Metodi di descrizione dei dati
Gli errori nell’analisi statistica
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
Statistica descrittiva
Inferenza statistica per un singolo campione
Introduzione alla statistica per la ricerca Lezione I
DISTRIBUZIONI TEORICHE DI PROBABILITA’
COSA VUOL DIRE FARE STATISTICA
Distribuzioni di probabilità
Come descrivere un fenomeno in ambito sanitario: fondamenti di statistica descrittiva Brugnaro Luca.
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a LA STATISTICA INFERENZIALE
STATISTICA a.a DISTRIBUZIONI DI FREQUENZE
Misure di dispersione Giovanni Filatrella
VERIFICA DEI RIFLESSI …Tutto ciò che avreste voluto sapere e non avete mai osato chiedere… M. & D.
Complementi al Corso di Ecologia - Approfondimenti di statistica
Rappresentazione dei dati statistici
Misurazione Le osservazioni si esprimono in forma di misurazioni
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
METODI E CONTROLLI STATISTICI DI PROCESSO
Statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
Le distribuzioni campionarie
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Lez. 3 - Gli Indici di VARIABILITA’
Statistica La statistica è
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Gli indici di dispersione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
COSA VUOL DIRE FARE STATISTICA
Accenni di analisi monovariata e bivariata
Strumenti statistici in Excell
Martina Serafini Martina Prandi
“Teoria e metodi della ricerca sociale e organizzativa”
3 June Biostatistica Biostatitistica= Statistica per scienze Biostatitistica= Statistica per scienze biologiche e sanitarie. biologiche e sanitarie.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
La distribuzione campionaria della media
Elaborazione statistica di dati
Accenni di analisi monovariata e bivariata
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Ipotesi operative TeoriaEsperienza diretta e/o personale Quesito Piano esecutivo Scelta popolazione Scelta strumenti Scelta metodi statistici Discussione.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Analisi delle osservazioni
Gli Indici di VARIABILITA’
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

Statistica descrittiva e inferenziale Prof. Franco Zappulla

Statistica descrittiva: prende in considerazione gli aspetti di organizzazione, presentazione (es. tabelle e grafici) e compendio dei dati; vi fanno parte le statistiche anagrafiche (nascite, morti, matrimoni, ecc). Statistica inferenziale: come trarre conclusioni riguardanti le popolazioni a partire dallo studio di un campione.

Scale di misura scala nominale: sono dati di tipo classificatorio (es. gruppi sanguigni, tipo di patologia, ecc); la scala nominale piu' semplice e' quella dicotomica, cioe' quella che prevede solo due possibilita' (vivi o morti, maschi o femmine, con o senza un certo attributo, ecc); scala ordinale: prevede un ordine predeterminato, anche se non e' prevista un'uguale distanza fra le modalita' (es. indice di Apgar, punteggi di gravita' di una malattia, ecc). La scala a ranghi e' quella che ordina gli elementi dal minore al maggiore assegnando i numeri d'ordine e trascurando le distanze tra gli elementi ordinati; scala numerica a intervalli: la scala puo' essere discreta, cioe' a numeri interi (es. battiti cardiaci al minuto) o continua, cioe' con infiniti valori intermedi (es altezza, peso, eta')

Distribuzione di frequenza E’ il modo piu' conveniente per riassumere e presentare i dati con le scale numeriche. Consiste in un certo numero di classi predeterminate (ad es. intervalli di altezza) associate alla frequenza delle osservazioni i cui valori cadono entro l'intervallo definito da ciascuna classe. Il numero di classi e' in genere compreso fra 10 e 20 e i limiti vanno fissati con accuratezza. Il modo con cui una distribuzione di frequenza viene rappresentata graficamente e' un grafico ad istogrammi. L'istogramma, che non e' altro che un diagramma a colonne, presenta in ordinata il numero di osservazioni in ciascuna classe (comincia da zero) e in ascissa le classi (il centro di ogni colonna coincide con il punto centrale della classe). Si ricorda che l'area della colonna coincide con la frequenza (soprattutto se la distribuzione di frequenza non ha intervalli di classe di uguale ampiezza).

Skewness e Kurtosis Altre caratteristiche importanti delle distribuzioni di frequenza sono il grado di asimmetria o skewness (che puo' essere a destra o a sinistra, cioe' positiva o negativa) e il grado di accentramento o kurtosis (picchi stretti o picchi ampi o presenza di piu' picchi).

SINTESI DEI DATI Le caratteristiche fondamentali di una distribuzione di frequenza (parametri di una curva “normale”) sono: 1) la posizione o tendenza centrale; 2) la dispersione o variazione.

1) MISURE DI POSIZIONE a) media: la media aritmetica (la piu' comune delle medie) e' la somma delle osservazioni divise per il loro numero, cioe': m=(x1 + x2 + x3 + xn)/n cioe' x/n La media aritmetica, molto duttile nelle elaborazioni statistiche, ha un unico grosso inconveniente, quello che può essere influenzata notevolmente dai valori estremi.

Media e DS di 2 gruppi La media di due gruppi e': (m1*n1 + m2*n2)/(n1 + n2) La DS di due gruppi e' data dalla radice quadrata della Somma dei Quadrati diviso per i Gradi di Liberta' (vedi programma PRIMER, opzione Analisi della Varianza a una via).

Altre medie - media geometrica : e' la radice ennesima del prodotto delle osservazioni; per il calcolo e' comodo usare i logaritmi: log MG = (log x)/n (per avere MG bastera' calcolare l'antilogaritmo di log MG); - media armonica: MA = n/ (1/x) oppure 1/MA = (1/x)/n

Misure di posizione: b) Mediana E’ l'osservazione di mezzo in una serie di osservazioni messe in ordine crescente o decrescente. In altre parole e' quel valore rispetto al quale meta' dei valori della popolazione risultano superiori e l'altra meta' inferiori. Se la distribuzione e' "normale" circa il 68% degli elementi e' compreso entro 1 DS, mentre il 95% e' compreso entro le 2 DS. Pertanto in una distribuzione "normale" esiste una certa corrispondenza fra valori percentili e DS La mediana è poco usata nei conti statistici (ad es. nel test della mediana), ma ha il vantaggio di non essere influenzata dalle osservazioni estreme.

Misure di posizione: c) moda E' l'osservazione che si verifica con maggior frequenza; quindi la moda puo' essere assente (specie se le osservazioni sono poche) o puo' essere plurima (es. curve bimodali con 2 picchi). Nelle distribuzioni "normali" (cioe' unimodali e simmetriche) media, mediana e moda coincidono.

2) MISURE DI DISPERSIONE O DI VARIABILITA' Servono a esprimere il grado di variabilita' o dispersione attorno al valore medio. Naturalmente le fonti di variabilita' possono essere tante e si suole raggrupparle in tre grandi gruppi (v. oltre): variazione biologica temporale errori di misura.

a) range (o intervallo di variabilita'): e' la differenza tra il valore massimo e il valore minimo;

b) deviazione media E' la media di tutti gli scarti (o deviazioni) dalla media calcolati in valore assoluto (cioe' senza il segno). Se invece di calcolare i valori assoluti si elevano al quadrato i termini e si divide per n si ha la varianza: V(x) = ( (xi - m)2)/n

Per ottenere misure di variazione nelle stesse unita' delle osservazioni originali si calcola la radice quadrata della varianza che prende il nome di DS (deviazione standard) o sigma. Piu' precisamente si deve parlare di sigma quando le osservazioni rappresentano l'intera popolazione (e quindi n rappresenta il numero totale dei casi), mentre si parla di DS quando si parla di un campione (e in tal caso al posto di n si usa n-1, che sono anche detti gradi di liberta').

Kg x-m quadrato ------------------------------------------------------- 5 0 0 7 2 4 3 -2 4 4 -1 1 6 1 1 somma=30 somma=10 media=5 10/6=1,6666 (varianza o s2) sqrt di 1,666=1,29 (sigma)

c) coefficiente di variazione (CV): e' rappresentato dalla DS/m * 100 Il valore che ne deriva e' una quantita' priva di dimensione, mentre la DS e' espressa nelle stesse unita' delle osservazioni originali. Il CV permette quindi il confronto di grandezze diverse.

ERRORE STANDARD DELLA MEDIA (SEM) La media e la DS calcolate da un campione sono stime della media e della DS dell'intera popolazione dalla quale il campione e' tratto. Per quantificare in termini probabilistici l'accuratezza di queste stime, possiamo calcolare i loro SE (sia della media che della DS). Il SEM (DS/ n) quantifica il grado di certezza col quale la media calcolata da un campione casuale stima la vera media della popolazione da cui il campione e' tratto. Pertanto la DS e il SEM misurano 2 aspetti decisamente diversi: la DS descrive la variabilita' della popolazione, il SEM descrive l'incertezza nella stima della media. La media vera della popolazione originale cade ad una distanza dalla media campionaria inferiore a 2 SEM in circa il 95% dei possibili campioni. In pratica si approssima l'intervallo di confidenza al 95% con la media +2 SEM.

LIMITI DI CONFIDENZA Piu' esattamente si calcolano i limiti di confidenza al 95% con m ± t*SEM (dove t deriva dalle tabelle del t di student guardando nella colonna di p=0.05 e alla riga relativa a n-1 gradi di liberta'); ovviamente per i limiti di confidenza al 99% bastera' leggere il valore di t nella colonna corrispondente.

COME STABILIRE LA NORMALITA' DI UNA CURVA 1) Visivamente con il comando FREQ nomevar/HISTO. 2) Con il test non parametrico di Kolmogorov-Smirnov nella variante ad un campione: se e' significativo la variabile non e' distribuita in modo normale. Es. NPAR TEST K-S(normal)=nomevar. 3) Dividendo la kurtosis e la skewness per i relativi S.E. (si ottengono con il comando DESCRIPTIVE e l'opzione STAT=ALL); il valore di "t" cosi' ottenuto si valuta nelle tabelle del "t" di Student per n-1 gradi di libertà: anche in questo caso se e' significativo la variabile non e' distribuita "normalmente". Alti valori di kurtosis e di skewness (grosso modo oltre le 2-3 unita') sono gia' indicativi di mancanza di "normalità".

ACCURATEZZA DI UNA MISURA Una misura si dice accurata quando presenta queste due caratteristiche: a) precisione: dipende dal grado di dispersione di un insieme di osservazioni; una misura meno e' dispersa e piu' e' precisa; b) mancanza di vizio: e' la capacita' di ottenere il valore vero.

SORGENTI DI VARIAZIONE In medicina e biologia le misure cliniche quantitative sono esposte a tre tipi fondamentali di variazione: 1) biologica: tutti i fattori che rendono diversi i vari individui: eta', sesso, razza, dieta, ecc; la variazione dovuta alla variabilita' biologica è detta anche "variabilità tra soggetti" (between subjects); 2) temporale : tutti i fattori che determinano variazioni nello stesso individuo da un momento all'altro; 3) errore di misura: tutti i fattori che tendono a produrre differenze in misure diverse dello stesso fenomeno (strumenti di misura, errori tecnici, diversita' dell'osservatore, ecc); tale variabilita' e' detta anche "variabilita' entro soggetti" (within subjects). L'analisi della varianza e' la tecnica statistica che permette di disaggregare la varianza totale in due componenti: quella inter-soggetti e quella intra-soggetti.

COMANDI PER SPSS/PC: EXAMINE tsh / PLOT=ALL. DESCRIPTIVE (DES): da' per ogni variabile la media e la DS; con l'opzione STAT=ALL si ottengono anche lo SE della media , la varianza, il range, la Kurtosis (indica la presenza di piu' picchi: piu' il valore e' distante da 0 e piu' picchi esistono) e la Skewness (cioe' il grado di asimmetria: piu' e' distante da 0 e piu' e' asimmetrica una curva). Es.: DES eta peso altezza/STAT=ALL. Con OPT=3 si crea una nuova variabile con gli Z-scores: si ottiene sottraendo il valore medio di una variabile da ogni valore , e dividendo la differenza per la DS della variabile. Il nome della nuova variabile e' lo stesso preceduto da una Z.

MEANS t3 t4 tsh BY sesso/STAT=1. Calcola la media e la DS di una o piu' variabili suddivise in uno o piu' gruppi (BY). Con l'opzione STAT=1 il programma calcola anche l'analisi della varianza. Es: MEANS t3 t4 tsh BY sesso/STAT=1. FREQUENCIES (FRE) produce tavole di frequenza per i valori di ogni variabile specificata. Esistono diversi sottocomandi: BARCHART (esprime le frequenze come colonne a barre), HISTOGRAM (esprime le frequenze come colonne), NTILES, PERCENTILES (calcola i percentili specificati subito dopo). Es.: FRE eta/NTILES=4. (calcola i percentili 25, 50 e 75) FRE eta/PERC 3 10 25 50 75 90 97.

Il caso

Misure di accordo: esempio di un esame interpretato da due clinici diversi Secondo clinico Test + Test – Test + a b a+b 46 10 56 Primo Clinico Test - c d c+d 12 32 44 58 42 100 46 + 32 Accordo osservato = ----------- = 78 % 100

Ma questa descrizione del loro accordo è piuttosto superficiale, perché se il secondo clinico avesse semplicemente lanciato in aria una moneta (il caso) egli sarebbe stato per un certo numero di volte d’accordo con il primo osservatore. Se vogliamo calcolare l’accordo fra i due clinici basandoci solo sul caso la tabella sarebbe la seguente: Secondo clinico (lancio monetina) Test + Test – Primo Test + a 50% di 56=28 b 50% di 56=28 a+b 56 Clinico Test - c 50% di 44=22 d 50% di 44=22 c+d 44 50/100= 50% 50/100= 50% 100 Accordo legato al caso = (28+22)/100 = 50 %

Se supponiamo che il caso intervenga anzichè 50 e 50 %, 58% dei casi un test positivo e il 42% dei casi un test neg.: Secondo clinico (lancio monetina) Test + Test – a b Primo Test + 58% di 56=32,5 42% di 56=23,5 a+b 56 c d clinico Test - 58% di 44=25,5 42% di 44=18,5 c+d 44 58/100= 58% 42/100= 42% 100 Accordo atteso in base al caso = (32,5+18,5)/100 = 51 %

Quindi l’accordo trovato era del 78 % e l’accordo atteso soltanto in base al caso era del 51 %. Esiste un modo per combinare queste due percentuali in un indice che sia clinicamente utile? Questo indice si chiama K (kappa o di concordanza) e rappresenta la proporzione di accordo potenziale, escludendo quindi il caso, effettivamente raggiunto.