Introduzione alla statistica per la ricerca Lezione IV Stefano Guidi Siena, 30Ottobre 2010
Statistica Inferenziale Processo di verifica di ipotesi: Assumo che H0 sia vera Calcolo la probabilità (p) di osservare i risultati ottenuti per caso Se p < 5% rigetto H0 e concludo H1 vera Test significativo al 5% (α=5%) Se H0 fosse vera i risultati che ho trovato sarebbero troppo improbabili->H0 falsa
Confrontare medie (usi del t-test) Confrontare la media di un campione ad un valore di riferime nto T test ad un campione (H0: μ=μ0 vs Ha:μ≠μ0) Es: I bambini di 4 anni comprendono il passivo o danno una risposta a caso? (H0: μ=0.5 vs Ha:μ≠0.5) Confrontare le medie di due campioni T test a due campioni indipendenti (H0: μ1=μ2 vs Ha:μ1≠μ0) Es: La comprensione del passivo dei maschi è diversa da quella delle femmine? (H0: μm=μf vs Ha:μm≠μf)
BrightStats Web-application (gratuita) per analisi statistiche (registrazione obbligatoria) http://www.brightstat.com/ 3 tipi di finestre: Data: I dati Variables: elenco delle variabili presenti e delle loro caratteristiche (tipo di scala) Output: grafici e risultati delle analisi
BrightStats (Interfaccia) Barra menù Icone accesso rapido Area dati/variabili/output Navigazione finestre
Menu File (gestione file dati) Caricare i dati (da file esterni): Comando: File/Upload Database Scegliere e caricare un file .xls(x) o .txt (occhio al formato) Comando: File/Import from Database Scegliere il file precedentemente uploadato Salvare i dati in locale: Comando: File/Save from Local Specificare il nome del file Caricare i dati (da locale): Comando: File/Load to local Dati: QI.xlsx
T test in BrightStats Formato dati: Esplorare prima i dati una colonna per i valori della variabile dipendente (scala numerica), una riga per (ogni) soggetto Esplorare prima i dati Comando: Analyze/Descriptives Scegliere variabili di interesse e selezionare le statistiche richieste (media, mediana, deviazione standard, min, max…) Comando: Graphs/Histograms Specificare estremi ed intervallo
T test in BrightStats Effettuare il test Output Comando: Analyze/Compare Means/One Sample T test Specificare il valore contro cui testare la media del gruppo Output Valore di t; P value: probabilità di osservare il risultato per caso con H0 vera (Test significativo se p ≤ 0.05) df: gradi di libertà del test (riportare insieme a t e p!)
Confrontare 2 medie La paura dei ragni (aracnofobia) è causata solo dai ragni veri o anche dalle immagini dei ragni? 24 aracnofobici 2 gruppi (formati a caso) 12 vedono ragni veri 12 vedono immagini di ragni Il gruppo è la variabile indipendente Test per ansia (variabile dipendente) Secondo uso del t test, molto più comune del primo in realtà Dati: ragniBG.xls
T test in BrightStats Formato dati: Esplorare i dati: una colonna per i valori della variabile dipendente (scala numerica), una riga per (ogni) soggetto [ex: Anxiety) Una colonna per indicare il gruppo di appartenza (scala numerica, labels per i nomi gruppi) [ex: Group] Esplorare i dati: Comando: Graphs>Lines Scegliere il tipo di grafico (Single lines + Summaries for groups) Specificare cosa rappresenta la linea (other Summary) Specificare quale è la variabile di interesse (Variable) Specificare il tipo di indice da calcolare (Function. Ex: Mean) Specificare quale è l’asse delle categoria (Category Axis)
T test in BrightStats Output Effettuare il test Cosa riportare Comando: Analyze>Compare Mean>Indipendent Samples T test Specificare quale è la variabile dipendente (test variables) Specificare quale è la variabile indipendente (grouping variable) Specificare quali livelli della variabile indipendente definiscono i gruppi (group 1 e group 2) Output Test della varianza (se significativo, varianze diverse) Esito del T-test (per varianze uguali e diverse) Cosa riportare Media del gruppo o dei gruppi e della differenza, e relativi standar error t(df) = valore t; p = p value
Campioni appaiati A volte i campioni che io voglio confrontare riguardano le stesse persone, che io osservo in condizioni diverse (misure ripetute) Ex: Paura prima-dopo terapia Violate le assunzioni del t-test Usare il related samples t-test
Esempio 1 Terapia Cognitivo-Comportamentale ed anoressia. Soggetti: 29 ragazze con diagnosi di anoressia Misura (variabile indipendente) Peso (lb) prima della terapia 12 settimane dopo la terapia Dati anoressia e CBT.xlsx
Campioni appaiati in BrightStats Formato dati: Almeno due colonne per la variabile dipendente Ex: prima e dopo terapia Una riga per soggetto T-test a campioni appaiati (paired) Comando: Analyze/Compare Means/2 Related Samples Specificare le coppie di variabili
Campioni appaiati Vantaggi rispetto al test a campioni indipendenti: Più potenza statistica con minor numero di soggetti Maggiore sensibilità per rigettare H0 anche con differenze piccole Considero la variazione individuale Contro: Non sempre applicabile Effetti di carry over (ordine dei trattamenti) Immaginate che nello studio sull’aracnofobia ad ogni soggetto fosse fatto vedere sia un ragno vero che un immagine, effettuando una misura dell’ansia dopo ogni esposizione. Dati ragniRM.xlsx. Ripetere test per campioni correlate. Notare che adesso il p value è molto più basso ed il test è stavolta significativo!
Oltre il t test T test confronta 2 gruppi alla volta Spesso vogliamo confrontare più di 2 gruppi (livelli della variabile indipendente) Ex: Valutare le differenze tra l’efficacia di 10 possibili loghi per un nuovo brand Ex: Verificare l’efficacia di due diversi dosaggi di un farmaco, (rispetto ad un controllo - placebo) Altre volte vogliamo confrontare l’effetto di più di una variabile indipendente Ex: efficacia di uno spot in base al contenuto di immagini di donne discinte (nessuno, basso, alto) per uomini e donne (seconda variabile indipendente)
Oltre il t test Posso fare tanti t test, 1 per ogni possibile coppia di loghi, ma Tanti test: 10 loghi -> 45 coppie! Richiede molti calcoli I risultati sono meno comprensibili I test non sono indipendenti Aumentano le probabilità di avere un test significativo per caso (familywise error rate) 1 test significativo su 20 è uno sbaglio! Soluzione: Analisi della Varianza (ANOVA)
Analisi della Varianza (ANOVA) Ronald Fisher Permette di confrontare le differenze tra le medie di 2 o più gruppi/trattamenti H0:μi=μj per ogni i e j Ha:μi≠μj per almeno una coppia i,j Stessa logica di fondo nel test Calcolo di una statistica F che misura il grado in cui H0 è violata F misura la probabilità di osservare per caso i risultati ottenuti, assumendo che H0 sia vera F grande indica differenze difficilmente attribuibili al caso Differenze - risultati molto improbabili se H0 fosse vera
Esempio 1 Sono interessato agli effetti di un farmaco sul grado di allerta in un compito di natura attentiva 18 soggetti, 3 gruppi Variabile indipendente (dosaggio) Basso dosaggio farmaco Alto dosaggio farmaco Controllo (placebo) Test del grado di allerta Numero di errori nel compito (variabile dipendente) Dati: anova ex 1.xlsx
ANOVA in BrightStats (I) Formato dati Una riga per ogni soggetto Una colonna per nome/numero del soggetto (consigliato) Una colonna per (ogni) variabile indipendente Variabile di tipo “string” (measure = “scale”) per ANOVA 1-way, OPPURE Variabile scala numerica (più generale, consigliato) Per trasformare una variabile string in una numerica usare: Transform/Automatic Recode Una colonna per i valori della variabile dipendente (scala numerica)
ANOVA in BrightStats (II) Esplorare i dati (descrittive, grafico medie) Condurre il test (opzione 1 - limitata) Comando: Analyze/Compare Means/One Way ANOVA Specificare la(e) variabile(i) dipendente (Test Variables) Specificare la variabile indipendente (Grouping Variable) Condurre il test (opzione 2 - migliore) * Comando: Analyze/ANOVA/ANOVA Specificare la variabile dipendente (Dependent Variable) Specificare la(e) variabile(i) indipendente (Fixed Factors) * solo se indipendente(i) numerica
Output ANOVA Output BrightStas Riportare: Esempio F(2,15)=8,789; Tabella medie Test varianze (opz.) Tabella anova Riportare: Valore di F; P value: (Test significativo se p ≤ 0.05) df: gradi di libertà (Between Groups e Within Groups) Dati anova ex2.xlsx (dipendente allerta) indipendente: dosaggio (controllo, alto dosaggio, basso dosaggio) Esempio F(2,15)=8,789; P<.01
F è un test generalista F test significativo Fornisce evidenza contro H0 H0 è specifica Ha è generica: molti pattern possibili Non mi dice come H0 è violata Non distingue diversi possibili pattern compatibili con Ha Test Omnibus (generalista) Non fornisce informazioni sulla natura degli effetti dei trattamenti
Quali medie differiscono? 2 strumenti diversi per individuare quali gruppi differiscano Confronti analitici/contrasti pianificati/ad hoc Confronti sistematici/post hoc (in BrightStats) Entrambi i sistemi permettono di controllare il rischio di errori di tipo I (cioè rifiutare l’ipotesi nulla quando questa è vera), Gli errori di tipo I aumentano con il numero di test indipendenti condotti sui dati di un esperimento Ecco perché non è consigliabile applicare semplicemente un t-test a tutte le coppie di medie Fare vedere che solo gruppo alta dose è diverso da altre
Post hoc (confronti a coppie) Confronti tra le medie di tutte le possibili coppie di gruppi: Alto vs basso Alto vs controllo Basso vs controllo Selezionarli dalle opzioni della finestra di dialogo del test: Tukey HSD (pochi gruppi) Scheffe (molti gruppi) Duncan (sconsigliato)
Esempio 2 (1-way) Sono interessato agli effetti di 2 farmaci per i disordini da iperattività nei bambini 15 bambini affetti di età uguale 5 placebo 5 farmaco A 5 farmaco B Test di comprensione su testo Numero di errori (variabile dipendente) Dati: anova ex 2.xlsx
Esempio 3 (1-Way) Consumo di caffeina e controllo motorio Finger tapping test: Battere con un dito su un tasto in un intervallo di tempo (10s) Numero di battutte nell’intervallo (variabile dipendente) Variabile indipendente Dose di caffeina assunta (4 livelli) Livelli: 0, 100, 200 o 300 ml Dati: fingertapping.xlsx
ANOVA 1-way e Fattoriale In una ANOVA 1-way i gruppi sono definiti dai livelli di una sola variabile indipendente: Num. dei gruppi = num. dei livelli del fattore indipendente Una ANOVA fattoriale analizza simultaneamente l’effetto di più di un fattore sulla variabile dipendente Num. gruppi = (num. livelli del I fattore) x (num. livelli del II fattore) x (…) Es: Fattore Età (3 anni, 6 anni, adulti) Fattore Lingua Madre (Italiano, Inglese) 3 x 2 = 6 gruppi
Esempio ANOVA fattoriale (2-way) Variabile dipendente: Valore della bellezza del partner 2 Fattori: Genere (2 livelli) Alcool assunto (3 livelli: no alcool, 2, 4 pinte) 2 x 3 = 6 possibili combinazioni Interazione tra i fattori Dati: goggles.xls
Interazione di Fattori In una ANOVA fattoriale possiamo analizzare non solo gli effetti dei singoli fattori (sulla variabile dipendente), ma anche gli effetti di interazione tra i fattori Interazione: l’effetto di uno dei fattori sulla variabile dipendente cambia ai diversi livelli di un altro fattore Effetto semplice: l’effetto di uno dei fattori ad uno specifico livello di un altro fattore Effetto principale: effetto di un fattore indipendentemente dai livelli degli altri fattori
Esempio 3: La mariuana ti rallenta? Fattori: Precedente uso di mariuana (3 livelli) Nessuno Lieve Moderato Condizione (2 livelli): Fuma una sigaretta che sembra e odora come una canna Fuma una canna Variabile dipendente: tempo di reazione (ms) Pagano, 1998 Dati cannabis.xlsx 12 ss per condizione
Esempio Fattoriale 2 Uno psicologo vuole sapere se Fattori: Gli effetti fisiologici dell’alcol influenzano l’aggressività, e se Le aspettative (psicologiche) sul consumo di alcol influenzano l’aggressività Fattori: Consumo di alcol: si vs no Aspettativa di assumere alcol: si vs no Variabile dipendente Intensità scossa somministrata Dati: alcool.xlsx
Tipi di Fattori e di ANOVA Si distinguono 2 tipi di fattori in una ANOVA: Fattori Between Subjects Soggetti diversi assegnati ai diversi livelli del fattore (Gruppo di età) Analogia con t test per campioni indipendenti Fattori Within Subjects (ANOVA a misure ripetute) Ogni soggetto testato a tutti i livelli del fattore Analogia con t test per campioni appaiati In un’ANOVA mista sono combinati fattori between subjects e within subjects
Esempio 1-Way Within Differenze tra tutor nella severità nel correggere i compiti Fattore (variabile indipendente): tutor incaricato di correggere i compiti 4 livelli (diversi tutor) Variabile dipendente (misura): Voto assegnato dal tutor 10 compiti Dati: Tutor.xlsx
ANOVA Misure Ripetute in BrightStats Formato dati Numero di colonne (numeriche) = Numero di livelli fattore Within [EX: tutor = 4] Una riga per ogni soggetto Le celle contengono la variabile dipendente Effettuare il test * Comando: Analyze/Compare Means/Rep. One Way ANOVA Specificare le variabili con le misure (una per ogni livello del fattore) nel campo Test Variables Specificare i post-hoc e altre opzioni * Valido solo in caso di solo fattore (1-Way) Within
Output BrightStats Tabella medie Eventuali post-hoc Tabella ANOVA Eventuali correzioni sfericità
Esempio 2-Way mista Scrivere sms peggiora la grammatica? Fattori Gruppo (between - 2 livelli): Incoraggiati a scrivere sms Proibito scrivere sms Tempo (Within - 2 livelli): All’inizio dello studio Sei mesi dopo Variabile dipendente (misura): Punteggio in test di grammatica 50 bambini (25 per gruppo) Dati: textmessages .xlsx 50 ss bambini
ANOVA Mista in BrightStats * Comando: Analyze/ANOVA Repeated Measurements Scegliere il formato dei dati (SPSS style per il formato wide) Definire i fattore Within ed il numero di livelli (add per aggiungere, poi continue) Specificare quali colonne della tabella (Variables) corrispondono ai livelli dei fattori within Specificare il/i fattore/i Between (Grouping Factors) Specificare opzioni e post-doc * Valido solo in caso di solo fattore Within, per 2 o più fattori Within usare EzAnova o altri (SPSS, R) ezANova è un software gratuito per l’analisi della varianza, in tutte le sue forme.
Esempio 2-Way mista Grande fratello e personalità borderline? Fattori Gruppo (between - 2 livelli): Concorrenti GF Controlli Tempo (Within - 2 livelli): Prima di entrare nella casa Dopo l’uscita dalla casa Variabile dipendente (misura): Percentuale di personalità borderline 16 partecipanti (8 x gruppo) Dati: bigbrother.xlsx 16 ss
Esempio 2-way Within (Luci, birra, ecc…) Quali fattori mediano l’effetto dell’alcool sui giudizi di attrattività? Fattori: Consumo di alcool (4 livelli): 0, 2, 4, o 6 pinte di birra Tipo di luce: Soffusa Forte Variabile dipendente: Bellezza del partner scelto Usare ezAnova per le analisi Dati x ezAnova: birreluci.eza 26 ss, misure ripetute
Formato Dati x ANOVA Within Subject Numero di colonne (per variabile dipendente) = Numero di livelli fattore Within 1 x Numero di livelli fattore Within 2 2 (tipo di luce) x 4 (consumo alcol) = 8 colonne Una riga per ogni soggetto Altre eventuali colonne Es: Soggetto sperimentale, Eventuali Fattori Between ecc.
Esempio 2-way Within (Stroop Effect) Tipi di parole: Nomi di colori Nomi di oggetti Condizioni presentazione: Normale (b/n) Congruente Incongruente Misura Tempo di lettura (ms) Usare exAnova Dati: stroop.eza
Esempio 2-way Mista Matteini: Preverbal possessor construction in production 1 fattore Between (gruppo): Conoscenza lingua (madre lingua, beginner, intermediate, advanced) 1 fattore Within: Struttura Frase: Agg + Nome vs Nome Proporzione di frasi corrette per i due tipi di frasi Dati: esempio 2way mista.xlsx
ANOVA: Applicabilità e assunzioni 1 Variabile dipendente di tipo continuo 1 o più variabili indipendenti categoriali (fattori) Ogni fattore indipendente può assumere 2 o più livelli (≠ t-test) Assunzioni principali: Variabile dipendente con distribuzione normale Varianze omogenee tra i gruppi Effetto dei fattori di tipo additivo Trasformazioni dei dati: Quando le precedenti condizioni non completamente soddisfatte, si possono applicare trasformazioni numeriche dei dati per cercare di ripristinare le assunzioni Es: trasformazione arcosen su proporzioni Es: trasformazione logaritmica su tempi di reazione Differenze - risultati molto improbabili se H0 fosse vera