Associazione tra due variabili Oltre a descrivere un singola variabile, la statistica è utile anche per descrivere contemporaneamente due variabili dello stesso tipo, ossia per capire il grado di associazione tra due variabili. Variabili quantitative: si parla di correlazione tra variabili e si utilizza il grafico di dispersione Variabili qualitative: si parla di dipendenza tra variabili e si usa la tabella di frequenza doppia
Variabili quantitative SOGGETTI ANSIA (X) DEPRESSIONE (Y) 1 5 7 2 3 4 9 6 8 La relazione tra due variabili quantitative si rappresenta sul “grafico di dispersione”, utilizzando i punteggi di ciascun soggetto in X e in Y come coordinate. Per interpretare il grafico si usano le medie delle due variabili, che vanno a formare 4 quadranti.
Grafico crescente: ansia e depressione
Grafico decrescente: ansia e voto
Punteggi sparsi: ansia e intelligenza
Il grafico di dispersione Quando la nuvola di punti è inclinata verso l’alto, da sinistra a destra, vi è una relazione crescente: le variabili sono direttamente proporzionali. Dunque: all’aumentare dei punteggi di una variabile (X) aumentano i punteggi anche nell’altra variabile (Y). Quando la nuvola di punti è inclinata verso il basso, da sinistra a destra, vi è una relazione decrescente : le variabili sono inversamente proporzionali. Dunque: all’aumentare dei punteggi di una variabile (X) i punteggi nell’altra variabile (Y) diminuiscono . Quando la nuvola di punti è sparsa, ossia vi sono dei punti in tutti i quadranti, vi è assenza di correlazione: i punteggi di una variabile non sono associati all’altra.
La correlazione La correlazione è un “valore” che esprime la relazione lineare tra due variabili quantitative, ossia indica se e quanto due variabili “variano” insieme. È necessario pertanto calcolare la “covarianza” e poi standardizzare, ossia dividere per il prodotto delle due deviazioni standard. Essendo un coefficiente standardizzato varia tra -1 e 1.
Dalla varianza alla covarianza La varianza indica quanto variano i punteggi di una variabile e consiste nel calcolare la somma degli scarti quadratici, diviso N Per calcolare la covarianza, invece, bisogna considerare due variabili contemporaneamente.
Calcolo del coefficiente r Per calcolare la correlazione, la covarianza deve essere standardizzata per il prodotto delle due deviazioni standard. rxy= Coefficiente di correlazione di Pearson Numeratore = covarianza Denominatore = prodotto delle deviazioni standard
Esempio: Calcolare il coefficiente di correlazione tra ansia e depressione SOGGETTI ANSIA DEPRESSIONE 1 5 7 2 3 4 9 6 8
Calcolo del coefficiente r Sog X Y 1 5 7 2 3 4 9 6 8 (X-4) (Y-6) 1 -2 -1 -3 -4 3 2 (X-4) (Y-6) 1 2 12 9 4 (X-4)2 (Y-6)2 1 4 9 16 Σ28/6 Σ32/6 σ=√4,67 σ=√5,33 Σ29 Cov=29/6 Cov=4,83 Ẍ 4 Ȳ 6 σx 2,16 σy 2,31 σxσy 4,99
Coefficiente r rxy=0,97 Tale risultato, vicino al valore massimo di +1, indica un correlazione alta e positiva nel campione.
Test di ipotesi sulla correlazione Per poter generalizzare i risultati ottenuti su un campione all’intera popolazione, è necessario utilizzare un test inferenziale sulla correlazione. Il coefficiente di correlazione della popolazione si indica con la lettera ρ (RHO). Le ipotesi da testare sono sempre: H0: assenza di correlazione tra le due variabili nella popolazione, ossia H0: ρ = 0, H1: correlazione tra le due variabili nella popolazione, ossia H1: ρ ≠ 0 ipotesi bidirezionale
Distribuzione e valore critico Per testare l’ipotesi si fa rifermento alla distribuzione t di Student. tcri quanti gradi di libertà? Il numero di parametri, intesi come scarti dalla media, che non può variare è uguale ad 1 per ciascuna variabile. Poiché le variabili sono due i gradi di libertà saranno uguali a: tcri = N-2 Dove N = numero di soggetti
Valore calcolato e decisione Il valore di t calcolato è uguale al coefficiente di correlazione (r) diviso la radice quadrata del rapporto tra coefficiente di alienazione (1-r2, ossia la varianza non condivisa tra le due variabili) e gradi di libertà, Dove: r = coefficiente di correlazione di Pearson 1-r2 = coefficiente di alienazione N-2 = gradi di libertà Decisione: rifiuto H0 se |tcal|> |tcri| che diventa:
Applicazione e soluzione esempio -2,776 +2,776 Rifiuto H0 Accetto H0 Rifiuto H0
Esercizio 1 H0: ρ=0. H1: ρ≠0. tcri(4)=|2,776| r = .97 Decisione: Siccome tcal > tcri rifiuto H0. Commento: C’è una correlazione tra le due variabili, in particolare ansia e depressione sono correlate significativamente e positivamente.
Esercizio In un gruppo di 10 soggetti, il disturbo ossessivo-compulsivo e l’ansia presentano r= 0,60. Stabilire se i due disturbi correlano anche nella popolazione. Procedura: Formulare le ipotesi; Disegnare la distribuzione Trovare tcri e tcal; Trarre le conclusioni
Soluzione esercizio H0: ρ=0 H1: ρ≠0 tcri(8)=2,306 Conclusioni: Siccome tcal < tcri accetto H0. Le due variabili, quindi, non risultano correlate nella popolazione.
Considerazioni Tale risultato appare del tutto sorprendente, visto la letteratura clinica indica chiaramente il legame tra ansia e disturbo ossessivo compulsivo. Decidiamo, pertanto di ripetere il test, raccogliendo i dati su 15 soggetti; anche in questo caso il disturbo ossessivo-compulsivo e l’ansia presentano r = 0.60. Stabilire se i due disturbi correlano anche nella popolazione.
Soluzione H0: ρ=0 H1: ρ≠0 tcri(13)= |2,160| Conclusioni: Siccome tcal > tcri rifiuto H0. Ansia e disturbo ossessivo compulsivo risultano correlate positivamente e sono, pertanto, direttamente proporzionali.
Implicazione sull’accettazione di H0 Non aver rifiutato H0 sulla base dei dati del campione, non significa aver verificato l’assenza di correlazione tra due variabili nella popolazione. Se i risultati portano ad accettare H0, bisogna concludere dicendo che: non vi sono evidenze sufficienti per verificare che ρ ≠ 0, ossia che le due variabili risultano correlate. Come si evidenzia dall’esempio precedente N svolge un ruolo fondamentale.
N e test di correlazione Nel test di correlazione (in particolare) N gioca un duplice ruolo: Al crescere di N diminuisce il tcri Al crescere di N aumenta tcalc Ciò significa che: Valori di r discreti o piccoli rischiano di risultare significativi con N grande; valori grandi di r rischiano di risultare non significativi con N piccolo. Al crescere di N aumentano quindi le possibilità di rifiutare H0
Esercizio 1 Verificare, attraverso il test di ipotesi adeguato, l’associazione tra punteggio in un test di “moralità” e numero di “reati lievi”. Risolvere l’esercizio indicando: Ipotesi; Disegno; Valore critico e calcolato; Conclusioni. SOGGETTI MORALITÀ REATI LIEVI 1 6 2 4 3 5
Esercizio 1: Disegno e Ipotesi -3,182 +3,182 Rifiuto H0 Accetto H0 Rifiuto H0
Calcolo del coefficiente r (X-5) (X-5)2 (Y-1) (Y-1)2 (X-5) (Y-1) Sog X Y 1 6 2 4 3 5 1 -1 2 4 -2 4/N 6/N Σ -4 σ2x 0,8 σ2y 1,2 σx 0,89 σy 1,1 σx 0,89 σy 1,1 Σxσy 0,98
Coefficiente r rxy=-0,82
Esercizio 1 H0: ρ=0. H1: ρ≠0. tcri(3)=|3,182| Conclusioni: Siccome |tcal | < |tcri| accetto H0. Non vi sono prove sufficienti che dimostrano la correlazione tra le variabili.
Esercizio 2 Verificare, attraverso il test di ipotesi adeguato, l’associazione tra “stabilità emotiva” e “stress”. Risolvere l’esercizio indicando: Ipotesi; Disegno; Valore critico e calcolato; Conclusioni. SOGGETTI STABILITA’ EMOTIVA STRESS 1 5 2 3 4 7 6 8
Esercizio 2: Disegno e Ipotesi -2,447 +2,447 Rifiuto H0 Accetto H0 Rifiuto H0
Calcolo del coefficiente r Sog X Y 1 5 2 3 4 7 6 8 (X-5) (X-5)2 (Y-1) (Y-1)2 (X-5) (Y-1) -2 4 1 -1 2 12/N 2/N -4 σ2x 1,5 σ2y 0,25 σx 1,22 σy 0,50 σx 1,22 σy 0,50 σxσy 0,61
Coefficiente r rxy=-0,82
Esercizio 2 H0: ρ=0. H1: ρ≠0. tcri(6)=|2,447| Conclusioni: Siccome -tcal < -tcri rifiuto H0. Nella popolazione le due variabili risultano correlate negativamente e significativamente.