Esame di Analisi Multivariata dei Dati

Slides:



Advertisements
Presentazioni simili
Corso di Laurea in Scienze e Tecniche psicologiche
Advertisements

Analisi Multivariata dei Dati
Corso di Laurea in Scienze e tecniche psicologiche
1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati General linear model e mixed.
LA MISURA IN PSICOLOGIA. Scopo del corso Il corso si propone di offrire allo studente:  un’introduzione alle tematiche connesse alla misura in psicologia.
1 Principali analisi statistiche 1. Confronto fra medie (2 o piú campioni) 2. Correlazione e regressione 3. Analisi di tabelle di contigenza Variabile.
ITT-LSA “T. SARROCCHI” Corso Microsoft PowerPoint SAPER APRIRE UNA PRESENTAZIONE Sequenza comandi 1)Posizionarsi con il mouse sul menù File e fare clicclic.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
Basi di OpenOffice Calc – 2009 A cura di: Di Cicco – Giannini - Periloso.
Disegni di Ricerca e Analisi dei Dati in Psicologia.
Precorso di Statistica per le Lauree Magistrali
Logica Lezz
Corso «Nozioni di Informatica» – riepilogo di alcuni concetti visti
Distribuzioni limite La distribuzione normale
Analisi dei Dati – Tabelle e Grafici
Variabili casuali a più dimensioni
Esportare le proprie mappe da QGis
Modellazione delle mappe di residuo
GLI STRUMENTI AUSILIARI
SAI TRASFORMARE I DATI AZIENDALI IN VALORE STRATEGICO PER IL BUSINESS?
L’analisi monovariata
Metodi Quantitativi per Economia, Finanza e Management Lezione n°12 Regressione Logistica: Le ipotesi del modello, la stima del modello.
Esame di Analisi Multivariata dei Dati
Simulazione esame Analisi Multivariata dei Dati
Terza Lezione → Navigare nel file System → parte 2
L’analisi della varianza:
DISTRIBUZIONI TEORICHE DI PROBABILITA’
Metodi Statistici per l’Analisi del Cambiamento
L’analisi del comportamento delle imprese (seconda parte)
PIANIFICAZIONE DEI TRASPORTI Regressione lineare
Analisi delle Traiettorie: Modelli di Crescita Latente (LGM)
Corso di Laurea in Scienze e Tecniche Psicologiche
Excel 1 - Introduzione.
Corso di Laurea in Scienze e Tecniche psicologiche
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Corso di Laurea in Scienze e tecniche psicologiche
APPUNTI DI STATISTICA INFERENZIALE
Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.
Precorso di Statistica per le Lauree Magistrali
FAQ.
Statistica descrittiva bivariata
Autocorrelazione dei residui
Autocorrelazione dei residui
Access.
Statistica descrittiva
Statistica Scienza che studia i fenomeni collettivi.
Basi di dati - Fondamenti
Metodologia statistica per le Scienze Agrarie
Metodologia statistica per le Scienze Agrarie
Università degli Studi di Modena e Reggio Emilia
La distribuzione campionaria: principi generali
Regressione e Variabili Dipendenti Dicotomiche (intro alla logistica)
Distribuzione per stato di occupazione
Corsi di Laurea in Biotecnologie
Interpretare la grandezza di σ
Corso di Laurea Ingegneria Informatica Fondamenti di Informatica
Fogli elettronici e videoscrittura
Excel 3 - le funzioni.
Esercizio 2 Un gruppo di persone con DCA ha partecipato per tre mesi ad una psicoterapia di gruppo per aumentare la propria autostima. Verificare che la.
Precorso di Statistica per le Lauree Magistrali
Fogli di Calcolo Elettronici
Fare ricerca mai così facile!
Associazione tra due variabili
Associazione tra variabili qualitative
Interazioni tra v.i.: analisi di moderazione
Statistica e probabilità Università degli Studi di Sassari Facoltà di Medicina veterinaria Corso di Laurea in Medicina veterinaria Anno Accademico 2017/2018.
Variabile interveniente
Statistica descrittiva bivariata
Esercitazione 8 Correzione simulazione esame AMD
Transcript della presentazione:

Esame di Analisi Multivariata dei Dati Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neurospicologia Esame di Analisi Multivariata dei Dati Modelli misti e GGLM A cura di Matteo Forgiarini Modificato da Giulio Costantini

Mixed models

Ristrutturazione del file Il file empatia wide.sav contiene i dati nel formato «una riga per soggetto, una colonna per ogni condizione sperimentale within e una colonna per ogni fattore between». Questo tipo di formato di dati permette di analizzare i dati di modelli a misure ripetute tramite il General Linear Model. Per poter effettuare un’analisi con l’approccio Mixed Model occorre ristrutturare il file per ottenere i dati «per lungo», ovvero occorre ottenere un file in cui vi sia una riga per ogni condizione sperimentale within e una colonna per ogni fattore between. Per ogni soggetto avremo dunque un numero di righe pari al numero di condizioni sperimentali within.

Ristrutturazione del file Nel menu «Dati», scegliamo «Ristruttura». Par passare dal file per il GLM al file per i MIXED Model scegliamo «ristruttura le variabili in casi» e indichiamo che vogliamo ristrutturare un gruppo di variabili.

Ristrutturazione del file Nelle variabili destinazione inseriamo le variabili che descrivono la struttura within del file. Nelle vabili fisse, che non verranno trasposte, inseriamo gli eventuali fattore between presenti nel file. Rinominiamo la variabile di destinazione per indicare il contenuto del file.

Ristrutturazione del file In questo file sono presenti 2 fattori within che danno origine a 6 condizioni sperimentali. Indichiamo quindi che vogliamo creare 2 variabili indice per gestire la struttura within dei dati.

Ristrutturazione del file Indichiamo i nomi delle due variabili e quanti livelli descrivono rispettivamente. Nel file sono presenti i dati riferiti a 2 tipi di stimoli e 3 etnie. Il software indica che si aspetta una struttura che descriva 6 condizioni sperimentali. Glielo avevamo detto noi!

Ristrutturazione del file Otteniamo un file che contiene 6 righe per ogni soggetto «Id». La variabile dipendente Empatia contiene in ogni cella il valore misurato per ogni particolare condizione sperimentale indicata dai fattori stimolo ed etnia. Le variabili between subjects (genere, età e facoltà) non cambiano tra i due formati di file.

Ora stimiamo un modello misto con SPSS Nota: SPSS non è un buon software per i modelli misti. “SPSS is not the best program in the world for multilevel modelling. Most people who do serious multilevel modelling tend to use specialist software such as MLwiN, HLM and R. There are several excellent books that compare the various packages, and SPSS tends to fare pretty badly (Tabachnick & Fidell, 2012; Twisk, 2006). The main area where SPSS is behind its competitors is that it cannot do multilevel modelling when the outcome variable is categorical, yet this is bread and butter for the other packages mentioned. SPSS also has (and I am not the only one to say this) a completely indecipherable windows interface for doing multilevel models.” (Field, 2013, Discovering Statistics with SPSS) Quindi tenetevi pronti al peggio!

Ora stimiamo un modello misto con SPSS Gli stimoli hanno un effetto sulla risposta SCR dei soggetti, quando si tiene conto del fatto che i dati sono clusterizzati entro soggetti?

Ora stimiamo un modello misto con SPSS Nella finestra «Soggetti» inseriamo la variabile che definisce le categorie di osservazioni. Questo è un esempio di completely indecipherable windows interface: non sempre dovrete mettere la variabile che identifica i “soggetti” qui. Se avete bambini clusterizzati in scuole, metterete “scuole”, se avete pazienti clusterizzati in cliniche, metterete “clinica” etc. Non mettete niente in “Ripetuti”. La finestra “Ripetuti” serve se avete più ripetizioni delle stesse variabili in tempi diversi e se avete salvato una variabile che specifica il “tempo” di ciascuna misura (es. tempo 1, tempo 2, tempo 3…). Se specificate ripetuti, dovete specificare anche il tipo di covarianza ripetuta, cioè come le covarianze tra le diverse osservazioni sono stimate.

Ora stimiamo un modello misto con SPSS Qui inseriamo, come di solito, la variabile dipendente, i fattori ed eventuali covariate ( = predittori non categorici). Ora esaminiamo le finestre: Fissi Random Statistiche Medie marginali

Finestra Fissi ATTENZIONE: Non basta specificare «stimolo» come predittore nella finestra iniziale, bisogna ri-specificarlo in Fissi. Qui potete chiedere quali effetti principali e quali interazioni volete stimare, se avete più fattori.

Finestra Random: random intercept Qui bisogna specificare gli effetti random. Di solito vogliamo avere almeno l’intercetta random (cioè permettere che ogni soggetto abbia la sua intercetta), quindi mettiamo un flag nella casella «Includi Intercettazione». ATTENZIONE! Anche se abbiamo chiesto ID come variabile di raggruppamento nella prima finestra, ora dobbiamo ri-specificarla in «combinazioni»!

Finestra Random: random intercept Questa barra ci permette di indicare se vogliamo porre vincoli sulla matrice di correlazione tra effetti random. Selezionando «Non strutturato» indichiamo che NON vogliamo porre vincoli e quindi stimare tutte le correlazioni tra effetti random. Serve modificarla solo se abbiamo più di un effetto random, come per esempio una random intercept e una random slope.

Finestra Random: random slope Se vogliamo anche una «random slope» possiamo specificarla qui. La random slope significa che ogni soggetto ha anche un coefficiente specifico (es. di regressione) per quel fattore. In questo caso, NON chiediamo la random slope. Di solito non vogliamo le random slope per predittori nominali (fattori) con k livelli. Se lo facciamo, otteniamo una random slope per ciascuno dei k-1 contrasti.

Finestra Statistiche Covarianze effetti random e Test per parametri di covarianza: chiediamoli quando vogliamo sapere se la random intercept e la/le random slope/s hanno una varianza significativa (cioè, se vale la pena indicarli come effetti random perché variano tra soggetti) e una covarianza significativa. Stime dei parametri: indichiamolo se vogliamo avere i coefficienti di regressione, serve soprattutto se abbiamo delle covariate (predittori continui), mentre un po’ meno se abbiamo fattori.

Finestra Medie Marginali Se abbiamo dei fattori, come in questo caso, è più utile stimare le medie marginali, cioè le medie stimate nei diversi valori del/dei fattore/i e nelle combinazioni tra fattori.

Interpretare l’output Come abbiamo chiesto, il modello include un’intercetta random.

Interpretare l’output Queste sono informazioni sul fit del modello. Servono se volete paragonare più modelli (es. con diverse strutture di covarianza) per scegliere il modello più parsimonioso, cioè che dà più informazione con meno parametri. Non tratteremo questo tipo di confronti.

Interpretare l’output: Effetti Fissi Effetti fissi: si interpretano esattamente come gli effetti nel GLM. In questo caso, c’è un effetto di Stimolo significativo, F(1, 234) = 23.26, p < ,001

Interpretare l’output: Effetti Fissi Troviamo questa tabella se abbiamo chiesto le stime dei parametri in statistiche. In questo caso, ci dicono l’SCR predetta è uguale a 1966.7 se lo stimolo è un ago (Stimolo = 2) e a 1966.7-130.1 = 1836.6 se lo stimolo è una gomma (Stimolo = 1). Le stime dei parametri sono più utili se usiamo predittori continui, per predittori nominali è meglio guardare direttamente le medie.

Interpretare l’output: Effetti Fissi – Medie marginali Come nell’ANOVA, si tratta delle medie marginali stimate dall’equazione. Notate che sono identiche a quelle che abbiamo calcolato noi a mano nella slide precedente a partire dai parametri.

Interpretare l’output: Varianza-Covarianza effetti random Covarianze tra gli effetti random. In questo caso, la variazione dell’intercetta non è significativa.

Modello lineare generalizzato GGLM

Logica dei GGLM Problema: Variabile dipendente che non permette di rispettare le assunzioni del GLM. (1) Relazione non lineare, (2) Residui non normalmente distribuiti. Soluzione: 1) Link function = funzione che trasforma la VD in modo da rendere la relazione tra le VI e la VD. Il GLM viene eseguito sulla Y trasformata. 2) Usare test statistici basati su una distribuzione di probabilità diversa da quella normale (e.g., Poisson).

Regressione di Poisson y = frequenze (i.e., distribuite secondo una Poisson) Link function = ln (y). Ln(y) = a + bX I coefficienti b sono su scala logaritmica. Si interpretano come «All’aumentare di un’unità della X, il logaritmo della Y aumenta di b». Coefficienti exp(B): «All’aumentare di un’unità della X, la Y aumenta di exp(B) volte». Trovate una dimostrazione semplice a p. 252 di Gallucci & Leone (2012).

Esercizio bambini aggressivi (cap. 10) Scaricare i dataset qui: http://pearson.it/opera/pearson/0-4490-modelli_statistici_per_le_scienze_sociali alla voce «esempi cap. 10» Aprire il file bambini_aggressivi.sav Svolgere una regressione di Poisson del numero di atti aggressivi sul punteggio nel test di aggressività. Analizza > modelli lineari generalizzati > modelli lineari generalizzati

1) Specifica il tipo di modello statistico, in questo caso una regressione di Poisson

2) Specifica la variabile dipendente (detta anche «Risposta» o «Response variable» in inglese).

3) Specifica chi sono i predittori 3) Specifica chi sono i predittori. Come per il GLM mettiamo in fattori le variabili che definiscono gruppi di osservazioni (es. Predittori nominali, vedi ANOVA di Poisson) e in covariate i predittori continui

4) Specifica il modello di predizione: chi sono i predittori 4) Specifica il modello di predizione: chi sono i predittori? Quali effetti di interazione vogliamo testare?

5) Questo flag serve per avere i coefficienti anche nella forma exp(b)

6) Questo flag serve per salvare i punteggi predetti

All’aumentare di un’unità dell punteggio del test di aggressione il logaritmo del numero di aggressioni aumenta di 0.168. Il numero di aggressioni aumenta di 1.183 volte, p < .001

ANOVA di Poisson Come la regressione di Poisson, ma con variabili indipendenti nominali (fattori). Esempio: rifacciamo l’analisi usando questa volta la variabile (fascia di) Età come predittore

Regressione logistica  

Esercizio infarto Aprire il dataset ansia_infarto.sav Regressione logistica: L’ansia predice l’infarto? ANOVA logistica: la terapia predice l’infarto. ANCOVA logistica: la terapia predice l’infarto al netto dell’effetto dell’ansia?

Differenze nell’input rispetto alla regressione di Poisson

Regressione logistica

ANOVA logistica

ANCOVA logistica

ANCOVA logistica