L’analisi Bivariata Studia la relazione fra coppie di variabili. Le funzioni dell’analisi bivariata sono: Stabilire se date due variabili (x e y) esiste tra loro una relazione di indipendenza o di associazione In caso di associazione, quantificare (ove possibile) il grado di associazione tra coppie di variabili mediante coefficienti. Cosa bisogna tenere a mente quando si effettua un analisi bivariata: L’analisi bivariata studia relazione statistiche e quindi probabilistiche; Distinzione tra variabili indipendenti e variabili dipendenti; Le tecniche di analisi bivariata variano in base al tipo di variabili considerate Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
Variabile indipendente Tecniche di analisi bivariata Variabile indipendente Categoriali Cardinale Dipendente Variabile Tavola di contingenza Analisi della varianza (lezione 10) Regressione e correlazione Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
L’analisi Bivariata L’analisi bivariata ha come prodotto principale una tavola di contingenza (o tabella a doppia entrata, o incrocio). Rispetto alla distribuzione di frequenza la tavola di contingenza tiene contemporaneamente conto di due variabili: la prima posta in colonna, la seconda in riga. Oltre alle frequenze assolute, possiamo chiedere al software di restituire un output con le frequenze relative. A seconda della richiesta effettuata, se percentualizzare per colonna o per riga, si ottengono informazioni differenti. Grande importanza riveste dunque il tipo di percentualizzazione. Sinteticamente: Si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile posta in colonna ha sulla variabile posta in riga; Si sceglie la percentuale di riga quando si vuole analizzare l’influenza che la variabile posta in riga ha sulla variabile posta in colonna. I totali, di riga e di colonna, costituiscono le “frequenze marginali” e corrispondono alle frequenze delle variabili prese singolarmente (monovariate). Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
Esempi di informazioni ottenute con diverse percentualizzazioni Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
Misurare l’associazione tra due variabili Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
Logica e test del Chi-quadrato Il test del chi-quadrato è un test di “verifica” delle ipotesi che ci da conto della significatività della relazione fra due variabili nominali. Il test rientra nella famiglia dei test delle ipotesi in quanto permette di confrontare una serie di dati osservati con la serie di dati attesi in base ad un’ipotesi teorica e di stimare la bontà di questa ipotesi. Si tratta di falsificare l’ipotesi nulla (H0), ovvero di assenza di relazione statistica fra due variabili. Se l’ipotesi di assenza di relazione viene respinta, automaticamente viene accettata l’ipotesi di ricerca (H1) che sostiene l’esistenza della relazione. Due concetti essenziali: Frequenze osservate: è il numero dei dati di una cella effettivamente rilevati Frequenze attese (expected): è la frequenza teorica che si dovrebbe ottenere sulla base dei totali marginali, se tra le due variabili considerate non esistesse alcuna associazione. Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
Logica e test del Chi-quadrato Il test del chi-quadrato si basa sulla differenza tra frequenze osservate e frequenze attese. Se la frequenza osservata è “molto” diversa rispetto alla frequenza attesa, allora c’è un associazione tra le due variabili Il valore del chi-quadrato è tanto maggiore quanto maggiore è la distanza fra tabella delle frequenze osservate e tabella delle frequenze attese. È zero nel caso di indipendenza perfetta nei dati. Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
Σ= Esempio di calcolo MANUALE del chi quadrato Data la tavola di contingenza Step 1: Calcolo delle fe 787*969/1745 787*776/1745 507*969/1745 507*776/1745 451*969/1745 451*776/1745 437,022 349,978 281,538 225,462 250,441 200,559 Step 2: Applic. della formula (312 - 437,022)2/437,022 (475 - 349,978)2/349,978 (353 - 281,538)2/281,538 (154 - 225,462)2/225,462 (304 - 250,441)2/250,441 (147 - 200,559)2/200,559 35,766 44,661 18,139 22,651 11,454 14,303 Σ= 146,974 Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
g.d.l. = (n. di righe – 1) * (nr. di colonne -1) Distribuzione teorica del Chi-quadrato La tavola di distribuzione del chi-quadrato ci dice se un certo valore del chi quadrato è sufficientemente piccolo da poter essere attribuito ad errori casuali (ovvero ad una distribuzione casuale delle unità nelle celle della tabella) o se esiste una qualche relazione fra le due variabili e a che livello di probabilità tale relazione è significativa. Il controllo sulle tavole di distribuzione è necessario in quanto, a determinati livelli di probabilità, anche valori del chi-quadrato lontani dallo zero potrebbero rendere compatibile il risultato con l’ipotesi nulla H di indipendenza fra le variabili. Come si effettua il controllo del valore ottenuto con quello della tavola di distribuzione? Bisogna innanzitutto calcolare i gradi di libertà di una tabella: g.d.l. = (n. di righe – 1) * (nr. di colonne -1) e.s. In una tabella a doppia entrata composta da due variabili ciascuna con quattro modalità: g.d.l. = (4 - 1) * (4 - 1) = 9 In secondo luogo va individuato il livello di probabilità cui riferirsi Si confrontano valori calcolati con quelli della tavola di distribuzione del chi-quadrato Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
L’analisi Bivariata Convenzionalmente si respinge l’ipotesi nulla di indipendenza (H0) se p ≤ 0,05, cioè se il valore del chi-quadrato è così grande da avere solo il 5% di probabilità di essere dovuto al caso (cioè ad errori casuali) ed il 95% di essere invece addebitabile ad una relazione fra le variabili. Esercizio: data la tabella e il valore χ2=146,974 Calcolare i gradi di libertà Data la tavola di distribuzione del χ2 Valutare a che livello di probabilità la relazione è significativa (se lo è). Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata g.d.l. = (3 – 1) * (2 – 1) = 2 significatività con p < 0,005
Misure di associazione Il chi-quadrato ci dice circa la significatività della relazione tra due variabili, ma non ci dice nulla circa l’intensità (o forza) di questa relazione. Per le variabili nominali si parla di misure di associazione. Le misure principali si basano sul χ2 pertanto esso appare sempre al numeratore o al denominatore. Perché non è possibile utilizzare il χ2 come misura della forza di una relazione? Semplicemente perché i valori del χ2 sono direttamente proporzionali alla numerosità campionaria. Tale indice però ha un difetto: non è normalizzato, ossia non ha un campo di variazione compreso tra 0 e 1 e pertanto rende difficile sia la sua interpretazione che il raffronto con indici diversi (provenienti da altre popolazioni). Per phi il valore minimo (di assoluta indipendenza) è zero, ma il valore massimo varia a seconda delle dimensioni della tabella. Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
Misure di associazione Cramèr, sulla base della considerazione che il valore massimo di χ2 è (k - 1)*N, dove k è il minore fra il numero di righe e di colonne (Corbetta, p. 586), pensa di dividere il valore del χ2 proprio per questa quantità. Tale indice assume valori compresi fra 0 (indipendenza) e 1 (relazione perfetta) Anche Pearson pensa ad una soluzione all’impossibilità di confrontare i valori del χ2 La sua soluzione non permette tuttavia una piena confrontabilità fra valori ottenuti con variabili diverse in quanto il limite superiore della sua C varia a seconda delle dimensioni della tabella. Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
Misure di cograduazione Per le variabili ordinali, si parla invece di misure di cograduazione Entra i gioco oltre all’esistenza e alla forza di una relazione anche il concetto di direzione della relazione. Le misure di cograduazione si basano sul confronto fra i valori assunti dalle variabili X ed Y su tutte le possibili coppie di casi: Su un caso i valori di X e Y sono entrambi maggiori (o minori) di quelli delle stesse variabili su un altro caso abbiamo concordanza (P = coppia di casi concordate) Se un caso ha un valore maggiore di X e uno minore di Y rispetto ad un altro caso abbiamo discordanza (Q = coppia di casi discordante) Terzo caso: la coppia di casi presenta lo stesso valore su X e/o su Y, abbiamo una coppia di casi appaiata Il coefficiente più famoso è il gamma di Goodman e Krusal (1954) Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
L’analisi Bivariata Tale coefficiente varia tra -1 e +1 Tende a sovrastimare la forza di un’associazione (perché non considera le coppie appaiate) Inoltre, risente del numero delle modalità delle due variabili (aumenta all’aumentare della sensibilità di una delle classificazione delle variabili categoriali ordinate) Per ovviare a questi limiti si può ricorrere ad altre due misure: Tau-b (o tau q), per le tabelle quadrate Tau-c (o tau r), per le tabelle rettangolari Con k numero minore tra righe e colonne I coefficienti di Kendal, come il gamma, sono ambedue bidirezionali Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
Altre misure di cograduazione Lambda di Goodman e Kruskal che misura la dipendenza del carattere Y dal carattere X D di Sommer, primo coefficiente uni-direzionale. Rispetto al gamma, al denominatore troviamo Lc, le coppie appaiate, ovvero le coppie formate da casi che hanno lo stesso valore sulla variabile in colonna, considerata dipendente. D indica la prevalenza di coppie P (cograduate) e (Q contrograduate) nell’insieme delle coppie non legate sulla variabile indipendente. Nel caso di variabili ordinali con un elevato numero di modalità (es. graduatorie o valori derivanti da un termometro dei sentimenti) la misura di cograduazione più utilizzata è il ρ (rho) di Spearman Dove d è la differenza tra la posizione di un soggetto nella graduatoria relativa a due diversi criteri, cioè il suo punteggio sulle due variabili messe in relazione, e N è la numerosità della popolazione (Marradi, 1997) Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
Rappresentazione grafica congiunta di due variabili A barre affiancate Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
Rappresentazione grafica congiunta di due variabili A barre sovrapposte Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
Esercitazione Data le variabili “GC/GS” e “migliorati/peggiorati” (creata nel corso delle lezioni precedenti ) effettuare l’analisi bi-variata facendo attenzione alle percentualizzazioni e utilizzando i coefficienti più opportuni. Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata
Analisi della correlazione tra percezione del rischio e scartoT1/T2 Esercitazione Tavola di contingenza e chi-quadrato per approfondimento*migliorati/peggiorati Lettura della tavola Analisi della correlazione tra percezione del rischio e scartoT1/T2 Teoria e pratica della valutazione Laboratorio – Lezione VIII L’analisi bivariata