Gli errori nell’analisi statistica Errore di Tipo I – Il trattamento NON ha effetto, ma noi riteniamo che lo abbia Errore di tipo II – Il trattamento ha effetto ma noi riteniamo che NON lo abbia Alfa è il criterio richiesto per la significatività statistica. Assumendo che l’ipotesi nulla sia vera, alfa è la proporzione di studi che risulteranno in un errore di tipo I Beta è la proporzione di studi che avranno un errore di tipo II
Potenza di uno studio Un’analisi di potenza viene svolta nella progettazione di uno studio, per poter anticipare la possibilità che si ottengano risultati significativi. E’ basata sugli stessi fattori associati alla significatività: 1) numerosità del campione, 2) dimensione dell’effetto, 3) valore di alfa Potenza è quindi la proporzione di studi che, date le caratteristiche elencate precedentemente, porterà ad un risultato significativo Errore di tipo II = 1 - potenza
Potenza di uno studio per dimensioni dell’effetto – Confronto fra due popolazioni
Potenza di uno studio per valore di alfa – Confronto fra due popolazioni
Campionamento casuale (1) Campioni di popolazione possono essere selezionati in modi differenti In statistica, tuttavia, per poter estendere le proprie conclusioni ad una popolazione generale, partendo da un campione, è necessario partire da una selezione basata sulla “randomizzazione” dei soggetti
Campionamento casuale (2) Ogni membro della popolazione ha una possibilità uguale ed indipendente di essere scelto o di essere assegnato ad un gruppo La scelta di un membro del gruppo non influenza in alcun modo la scelta dei membri successivi Un esempio …
Tipi di variabili Alfanumeriche Numeriche ( scale) Nominali Ordinali Intervallari e razionali, discrete e continue
Variabili alfanumeriche (stringa, ASCII) Parole, caratteri dell’alfabeto, numeri trattati come caratteri Non consentono operazioni matematiche, anche se molti software permettono operazioni logiche (es. “A” < “B”) Usate nella ricerca biomedica solo: a scopi identificavi (es. cognome, nome, acronimo, codice fiscale) per riportare un commento Es. “Che tipo di frattura ha subito?” 1. femore 2. polso 3. vertebra 4. altro (specificare) ____________________________________
Scale nominali (categoriche, qualitative) Categorie non ordinate, mutuamente esclusive L’assegnazione di un valore quantitativo piuttosto di un altro è arbitrario es. codici categorie professionali 1. medici 2. fisioterapisti 3. infermieri Un tipo particolare: le variabili dicotomiche es. stato vitale 1. vivo 2. morto
Scale ordinali Categorie mutuamente esclusive, ordinate I valori numerici esprimono il grado di intensità relativa della caratteristica es. grado di disabilità 0. non disabile 1. disabilità lieve 2. disabilità moderata 3. disabilità grave Uguali differenze numeriche non corrispondono ad uguali differenze di intensità
Scale intervallari e razionali Per ogni grado della scala, uguali differenze numeriche corrispondono ad uguali differenze di intensità Se lo zero è arbitrario, la scala è intervallare ma non razionale es. temperatura: Celsius 0 – Fahrenheit 32 50 ºC = (32 + 1.8 x 50) ºF = 122 ºF 100 ºC = (32 + 1.8 x 100) ºF = 212 ºF 100 è il doppio di 50, ma 212 non è il doppio di 122 Se lo zero corrisponde all’assenza della caratteristica, la scala è detta razionale es. scala Kelvin (temperatura), glicemia, pressione arteriosa
Scale discrete e continue Le scale intervallari (razionali o no) sono distinguibili in: Continue: sempre possibile trovare intervalli più piccoli es. distanza Discrete: intervalli interi es. numero di figli di una donna
Trasformazione di variabili Var. continue o discrete var. ordinali sulla base di una soglia predefinita es. PAS, soglia diagnostica di ipertensione 140 mmHg sulla base della distribuzione di frequenza Vantaggio: semplicità di analisi Svantaggio: perdita di dettaglio
Controllo di qualità dei dati Preparare il manuale operativo Provare gli strumenti prima di cominciare la raccolta dati Addestrare il personale Prima dell’immissione dati, controllarne l’ appropriatezza (es. codifiche mancanti, impossibili o inesistenti) correggere Doppia immissione (o verifica dell’immissione) Controlli logici e d’intervallo
Raccolta e presentazione dei dati Solitamente in tabelle, in cui ogni osservazione è rappresentata da una riga ed ogni variabile da una colonna Utili a questo scopo software tipo Excel, con: “fogli di lavoro” per l’immissione dati formule e funzioni per effettuare operazioni sui dati funzione di ordinamento grafici analisi statistica I dati Excel possono essere scambiati con altri software (esportati o importati)
Riduzione dei dati I dati relativi alle osservazioni individuali vanno sintetizzati, esprimendo: la frequenza delle osservazioni la tendenza centrale e la variabilità (dispersione) (A tale scopo, i dati vanno preliminarmente ordinati) I dati così sintetizzati possono essere presentati in forma di tabelle e grafici
Misure di tendenza centrale: media, mediana e moda Media (aritmetica): somma delle osservazioni diviso il loro numero Mediana: il valore che divide a metà le osservazioni (50% sono più basse o uguali, 50% sono maggiori) Moda: il (i) valore(i) più frequenti in una serie di osservazioni
Diversi andamenti di curve di distribuzione
Curve di distribuzione
Media, mediana e moda a confronto La media si presta meglio a rappresentare dati simmetricamente disposti rispetto al valore centrale La mediana è meno influenzata dai valori estremi, quindi è da preferirsi in caso di distribuzioni fortemente asimmetriche La presenza di più mode può suggerire che la popolazione in esame è in realtà composta da due subpopolazioni diverse V. esempi in Excel
Distribuzione normale Distribuzione teorica di probabilità per n∞
Proprietà della distribuzione normale Descritta interamente dalla media m e dalla deviazione standard s Simmetrica attorno a m, flesso a m–s e m +s Va da -∞ a +∞ X ~ N (m, s2) s s m-s m m+s X
Confronto tra distribuzioni normali m-s2 m-s1 m+s2 m+s1 Stessa media, diversa deviazione standard m1-s m2-s m1 m2 Stessa deviazione standard, diversa media