Introduzione all’uso di SPSS
Introduzione all'uso di SPSS
Cos’è un pacchetto statistico? Un software che contiene procedure per esplorare gestire modellare un insieme di dati
Cos’è un insieme di dati? Con l’espressione insieme di dati (o le affini archivio di dati, base di dati, ecc.) si fa riferimento a una collezione di dati strutturata come una tabella in cui: sulle righe ci sono le unità di osservazione sulle colonne le variabili osservate.
Statistical Package for Social Sciences
L’interfaccia di SPSS (1) Le finestre: dati (Editor dei dati SPSS) output (Viewer SPSS) sintassi (Editor della sintassi SPSS)
L’interfaccia di SPSS (2) I menu a tendina: File, Modifica, Visualizza (tutte le finestre) Dati, Trasforma (Editor dei dati SPSS) Inserisci, Formato (Viewer SPSS) Analizza, Grafici (tutte le finestre) Esegui (Editor della sintassi SPSS) Strumenti, Finestra, ? (tutte le finestre)
Costruire la base dati
Editor dei dati SPSS E’ composto di due fogli: Visualizzazione dati: dedicato alla vista dell’archivio dati Visualizzazione variabili: dedicato alla definizione degli attributi delle variabili
Inserire i dati in SPSS Per costruire la base in formato SPSS (*.sav) immettendo i dati direttamente nella finestra Editor dei dati SPSS bisogna: definire le variabili e i loro attributi (foglio “Visualizzazione variabili”) inserire i valori in ogni cella (foglio “Visualizzazione dati”
Esercizio Predisporre l’Editor dei dati di SPSS per l’inserimento dei dati relativi al seguente frammento di un questionario sul tema I giovani e l'Europa
Importare i dati in SPSS Con il comando File-Apri-Dati è possibile acquisire in SPSS archivi di dati registrati in diversi tipi di file: formato SPSS (*.sav) formato Excel (*.xls) formato Lotus, dBase, ecc. formato Testo (*.txt) formato predefinito più comune formati alternativi
Esercizio Importare in SPSS i dati contenuti nel file in formato Excel “alcohol.xls”
Modificare la base dati
Perché modificare la base dati? Talvolta, per rispondere ad esigenze che insorgono nell’analisi dei dati, è necessario costruire delle nuove variabili, ovvero eseguire una particolare operazione per ogni unità statistica. Il menu SPSS di riferimento è Trasforma (finestra Editor dei dati SPSS)
Operazioni con le variabili Le operazioni principali che possiamo fare, su tutti i casi o su quelli che soddisfano una determinata condizione, sono: conta delle ricorrenze (Trasforma-Conteggia) calcolo di valori (Trasforma -Calcola) ricodifica di valori (Trasforma -Ricodifica)
Trasforma-Conteggia Per ogni unità statistica possiamo contare, attraverso un insieme di variabili, quante volte ricorre: un valore un dato mancante un intervallo di valori
File KIDS.SAV Contiene i dati di un’inchiesta americana sulla popolarità in alunni di scuola elementare. Per ciascun soggetto abbiamo: dati anagrafici: genere (gender); età in anni (age); razza (race); ambiente in cui vive (live) 20 giudizi di importanza per essere popolare tra gli amici (1=molto importante; 4=per nulla importante), relativi alle seguenti aree: rendimento scolastico (grades1-grades5); sport (sport1-sport5); aspetto (look1-look5); soldi (money1-money5)
Esempio n.1 (kids.sav) Contare quante volte ciascun soggetto ha espresso il giudizio “molto importante” per essere popolare tra gli amici.
Problema n.1 (kids.sav) Contare i dati mancanti per ciascun soggetto.
Introduzione all'uso di SPSS Trasforma-Calcola Per ogni unità statistica possiamo eseguire un calcolo ovvero risolvere un espressione nella quale sono coinvolti uno o più dei seguenti elementi: costanti (0, 1, 2, …) variabili presenti nell’archivio dati operatori aritmetici (+, -, *, /, **) funzioni (MEAN, SUM, LOG, LN, SQRT, …)
Esempio n.2 (kids.sav) Creare una nuova variabile (sport) che esprima la somma dei punteggi nella rispettiva area.
Problema n.2 (kids.sav) Creare quattro nuove variabili (grades, sport, look, money) che esprimano la media dei cinque punteggi nella rispettiva area.
Trasforma-Ricodifica (1) Per ogni us possiamo assegnare nuovi valori ad una variabile (o più variabili a cui vogliamo applicare la medesima nuova codifica): sostituendo i vecchi valori con i nuovi (Ricodifica nelle stesse variabili) conservando la variabile originaria con la vecchia codifica e creandone un’altra con la nuova codifica (Ricodifica in variabili differenti)
Trasforma-Ricodifica (2) In entrambi i tipi di ricodifica (nelle stesse variabili e in variabili differenti) possiamo: assegnare un diverso nuovo valore per ciascun valore originario assegnare uno stesso nuovo valore a più valori originari
Esempio n.3 (kids.sav) Ricodificare nella stessa variabile la variabile gend, assegnando il valore 1 a boy e il valore 2 a girl.
Problema n.3 (kids.sav) Ricodificare nella stessa variabile la variabile race (assegnare il valore 1 a White e valore 2 a Other).
Esempio n.4 (kids.sav) Ricodificare in variabili diverse la variabile live, assegnando il valore 1 a Rural, il valore 2 a Suburban e il valore 3 a Urban.
Problema n.4 (kids.sav) Ricodificare la variabile età (age) in tre classi: 9-10 anni (classe1); 11 anni (classe2); 12-13 anni (classe3).
Filtri e separazioni Per eseguire analisi statistiche solo sui soggetti che soddisfano una determinata condizione bisogna “filtrare” i soggetti in base a quella condizione (Dati-Seleziona casi) Per eseguire analisi statistiche separate per gruppo bisogna “distinguere” i soggetti in base a una o più variabili di raggruppamento (Dati-Distingui)
Come definire una condizione? Per definire una condizione possiamo utilizzare uno o più dei seguenti elementi: costanti (0, 1, 2, …) variabili presenti nell’archivio dati operatori aritmetici (+, -, *, /, **) funzioni (MEAN, SUM, LOG, LN, SQRT, …) e in particolare operatori logici e di confronto (&, |, >, <=, …)
Esempi di condizione si vuole eseguire una certa analisi solo per i soggetti maschi (valore 1; variabile sesso): sesso=1 si vuole eseguire una certa analisi solo per i soggetti maschi con età maggiore di 20 anni (variabile eta) sesso=1 & eta>20
Esempio n.5 (kids.sav) Selezionare gli alunni che vivono in ambiente urbano.
Problema n.5 (kids.sav) Selezionare gli alunni che vivono in ambiente urbano o sub-urbano e sono di razza bianca.
Statistiche descrittive
Statistiche descrittive Analizza Statistiche descrittive Frequenze (Procedura FREQUENCIES) Descrittive (Procedura DESCRIPTIVES) Esplora (Procedura EXAMINE) Tavole di contingenza (Procedura CROSSTABS)
File BANK.SAV Contiene una serie di dati sugli addetti (102) di una banca americana: codice dell’addetto (id); sesso (sex), età in anni (age) e in classi (agelevel), gruppo etnico (minority), anni di studio (edlevel); categoria lavorativa (jobcat), anzianità nel ruolo (time), anni di lavoro (work), salario iniziale e attuale (salbeg, salnow)
Esempio n.1 (bank.sav) Analizzare la distribuzione di frequenza, producendo tabelle e grafici, delle variabili: gruppo etnico (var1) anni di studio (var2)
Problema n.1 (bank.sav) Analizzare la distribuzione di frequenza, producendo tabelle e grafici, delle variabili: categoria lavorativa (var1) anni di lavoro (var2)
Frequenze (var1) statistiche
Frequenze (var1) distribuzione di frequenza (assoluta, relativa)
Frequenze (var1) grafici a barre
Frequenze (var1) grafici a torta
Frequenze (var2) statistiche
Frequenze (var2) distribuzione di frequenza (assoluta, relativa)
Introduzione all'uso di SPSS Frequenze (var2) istogramma
Frequenze (var2) istogramma con curva normale
Esplora (var2) grafico ramo-foglia Anni di lavoro Stem-and-Leaf Plot Frequency Stem & Leaf 31,00 0 . 0000000000000000000000111111111 15,00 0 . 222222222333333 15,00 0 . 444444444555555 6,00 0 . 666667 3,00 0 . 899 6,00 1 . 001111 4,00 1 . 2223 3,00 1 . 455 3,00 1 . 667 1,00 1 . 9 4,00 2 . 0001 2,00 2 . 33 ,00 2 . 1,00 2 . 6 8,00 Extremes (>=30) Stem width: 10,00 Each leaf: 1 case(s)
Esplora (var2) grafico a scatola
Descrittive (var2) principali indici di sintesi per variabili numeriche
distribuzione di frequenza congiunta (assoluta e relativa)
Esempio n.2 (bank.sav) Analizzare la distribuzione di frequenza congiunta (assoluta e relativa) delle variabili gruppo etnico e sesso dell’addetto.
Problema n.2 (bank.sav) Analizzare la distribuzione di frequenza congiunta (assoluta e relativa) delle variabili categoria lavorativa e sesso dell’addetto.
Tavole di Contingenza distribuzione congiunta (assoluta)
Tavole di Contingenza distribuzione congiunta (assoluta e relativa)
Tavole di Contingenza distribuzione congiunta (assoluta e relativa)
Tavole di Contingenza distribuzione congiunta (assoluta e relativa)
Relazione tra variabili
File BANK.SAV Contiene una serie di dati sugli addetti (102) di una banca americana: codice dell’addetto (id); sesso (sex), età in anni (age) e in classi (agelevel), gruppo etnico (minority), anni di studio (edlevel); categoria lavorativa (jobcat), anzianità nel ruolo (time), anni di lavoro (work), salario iniziale e attuale (salbeg, salnow)
Associazione tra categorie Sulla tabella di frequenza che incrocia due variabili categoriali (tavola di contingenza) è possibile calcolare un’opportuna statistica per valutare se esiste una relazione significativa tra le variabili di interesse. La principale statistica per valutare la relazione (associazione) tra variabili categoriali è il Chi-quadrato
Esempio n.3 (bank.sav) Valutare se esiste una relazione significativa tra categoria lavorativa e gruppo etnico di appartenenza.
Problema n.3 (bank.sav) Valutare se esiste una relazione significativa tra categoria lavorativa e sesso dell’addetto.
Tavole di Contingenza chi-quadrato
Analizza Confronta medie Medie (Procedura MEANS) Test T: campione unico (Procedura T-TEST) Test T: campioni indipendenti (Procedura T-TEST) Test T: campioni appaiati (Comando T-TEST)
Esempio n.4 (bank.sav) Calcolare media e deviazione standard della variabile salario attuale per ogni categoria lavorativa.
Problema n.4 (bank.sav) Calcolare media e deviazione standard della variabile salario attuale per ogni classe di età.
Medie medie condizionate
Test t a un campione Si basa sul confronto tra due medie: una osservata e una nota. Assume che la variabile di interesse si distribuisca normalmente nella popolazione e che il campione sia estratto in maniera casuale dalla popolazione
Esempio n.5 (bank.sav) Confrontare la media del salario iniziale del campione con il salario medio nazionale degli impiegati di banca pari a 5000$.
Problema n.5 (bank.sav) Confrontare la media del salario corrente del campione con il salario medio nazionale degli impiegati di banca pari a 13000$.
Test T: campione unico statistiche descrittive
Test T: campione unico test t
Test t per campioni indipendenti (1) Si basa sul confronto tra due medie di una stessa variabile calcolate in due campioni indipendenti di soggetti. Assume che la variabile di interesse si distribuisca normalmente nella popolazione e che i due campioni siano estratti in maniera casuale dalla popolazione Esiste un valore di t per varianze omogenee e uno per varianze non omogenee
Test t per campioni indipendenti (2) È una tecnica statistica in cui si cerca di stabilire se esista una relazione tra una variabile indipendente ed una variabile dipendente; La variabile indipendente è di tipo categoriale (con due categorie o comunque solo due di esse vengono considerate); La variabile dipendente è di tipo numerico;
Esempio n.6 (bank.sav) Verificare se il salario medio attuale dei bianchi è significativamente diverso da quello dei non bianchi.
Problema n.6 (bank.sav) Verificare se il salario medio attuale dei maschi è significativamente diverso da quello delle femmine.
Test T: campioni indipendenti statistiche descrittive
Test T: campioni indipendenti
Test t per campioni appaiati Si basa sul confronto tra due medie di una stessa caratteristica calcolate sugli stessi soggetti in momenti diversi (ad es. prima e dopo un intervento) o su soggetti appaiati (ad es. mariti e mogli). Assume che la variabile di interesse si distribuisca normalmente nella popolazione e che il campione sia estratto in maniera casuale dalla popolazione
Problema n.7 (bank.sav) Verificare se è significativa la differenza tra il salario iniziale e quello attuale.
Test T: campioni appaiati statistiche descrittive
Test T: campioni appaiati correlazioni
Test T: campioni appaiati
Analizza Correlazione Bivariata (Procedura CORRELATIONS)
Correlazione (lineare) Misura la forza della relazione lineare tra due variabili. Assume valori compresi tra –1 (perfetta relazione lineare negativa) e +1 (perfetta relazione lineare positiva) E’ pari a 0 in assenza di relazione lineare tra le due variabili
Problema n.8 (bank.sav) Valutare se esiste una correlazione significativa tra gli anni di studio e il salario corrente.
Correlazione - Bivariata correlazioni
Grafici A dispersione Semplice (Procedura GRAPH)
Problema n.9 (bank.sav) Produrre un grafico a dispersione ponendo in ascissa gli anni di studio e in ordinata il salario corrente .
Grafici - A dispersione - Semplice