L’analisi della varianza: la variabile dipendente è cardinale, l’indipendente è categoriale L’analisi della varianza serve a studiare la relazione tra una variabile categoriale (X) e una variabile cardinale (Y): X è in ipotesi indipendente, le sue singole categorie (modalità) si definiscono “gruppi”; Y è in ipotesi dipendente da X. Le modalità di una variabile cardinale sono troppo numerose affinché una tavola di contingenza risulti leggibile, d’altro canto è possibile utilizzare misure di sintesi (medie e varianze) non utilizzabili per le variabili categoriali. Dunque se la X è categoriale e la Y è cardinale possiamo confrontare queste misure di sintesi calcolate per la Y entro i gruppi definiti dalla X. Lo scopo dell’analisi della varianza è testare l’ipotesi che la varianza di Y dipenda da X, o in altre parole che le medie dei gruppi costituiti dalle modalità di X sulla variabile Y siano significativamente differenti. Esempio: formuliamo l’ipotesi che la soddisfazione lavorativa (rilevata con una scala di atteggiamento) dipenda dal tipo di contratto dei soggetti. Metodologia della ricerca sociale
L’analisi della varianza: la variabile dipendente è cardinale, l’indipendente è categoriale L’analisi della varianza verifica l’ipotesi nulla: H0: tutte le medie sono uguali tra di loro Cioè: H0: la soddisfazione lavorativa non dipende dal tipo di contratto L’ipotesi alternativa è: H1: almeno una media è diversa dalle altre H1: esiste almeno un gruppo identificato dal tipo di contratto per cui la soddisfazione lavorativa ha una media diversa da quella di un altro L’ipotesi nulla viene rifiutata se c’è almeno un gruppo con una media significativamente diversa da quella di un altro. Metodologia della ricerca sociale
L’analisi della varianza: la variabile dipendente è cardinale, l’indipendente è categoriale L’analisi della varianza rientra tra le analisi statistiche inferenziali, cioè mirate a valutare se le evidenze emerse su dati campionari sono estendibili all’intera popolazione da cui è estratto il campione. Perché abbia senso applicare questa analisi devono darsi le seguenti condizioni: Le osservazioni devono essere tra loro indipendenti La variabile dipendente deve avere distribuzione normale Le varianze all’interno degli strati devono essere omogenee (cioè simili tra loro). Metodologia della ricerca sociale
La scomposizione della varianza Possiamo scomporre lo scarto dalla media di un singolo valore della distribuzione di Y (ad esempio della soddisfazione lavorativa) in due componenti: Lo scarto del valore dalla media del suo gruppo (ad esempio lo scarto del soggetto A dalla media dei soggetti con contratto a tempo determinato); Lo scarto della media del gruppo dalla media generale (ad esempio lo scarto della media dei soggetti con contratti a tempo determinato dalla media generale). Allo stesso modo è possibile scomporre la somma del quadrato degli scarti di tutti i valori dalla media generale, cioè la devianza totale: Dove p è il numero dei gruppi, n è il numero dei casi, yij il singolo valore della distribuzione, ŷ la media generale, ŷi la media dei gruppi. Metodologia della ricerca sociale
La scomposizione della varianza La variabilità totale della variabile dipendente Y è descritta dalla devianza totale (cioè dalla somma dei quadrati degli scarti dalla media). La somma dei quadrati di quanto la soddisfazione lavorativa di ciascun soggetto si discosta dalla media generale della soddisfazione lavorativa. La variabilità fra i gruppi (definiti dalle modalità di X) è descritta dalla devianza tra i gruppi (cioè dalla somma dei quadrati degli scarti tra le medie dei gruppi e la media generale, detta anche somma esterna dei quadrati o devianza spiegata): La somma dei quadrati di quanto la soddisfazione lavorativa di ciascun gruppo individuato dal tipo di contratto si discosta dalla media generale della soddisfazione lavorativa. Metodologia della ricerca sociale
La scomposizione della varianza La variabilità nei gruppi (entro i gruppi) è descritta dalla devianza entro i gruppi (cioè dalla somma dei quadrati degli scarti dalla media del gruppo, detta anche somma interna dei quadrati o devianza non spiegata): La somma dei quadrati di quanto la soddisfazione lavorativa di ciascun soggetto si discosta dalla media della soddisfazione lavorativa del gruppo individuato dal tipo di contratto a cui il soggetto stesso appartiene. Devianza spiegata o non spiegata da cosa? … dalla variabile categoriale: la devianza spiegata è la parte di variabilità della variabile dipendente attribuibile alla variabile indipendente (nell’esempio è la parte della variabilità della soddisfazione lavorativa attribuibile al tipo di contratto dei soggetti); la devianza non spiegata è la parte di variabilità di Y non attribuibile a X (cioè la parte di variabilità della soddisfazione lavorativa non attribuibile al tipo di contratto). Metodologia della ricerca sociale
La scomposizione della varianza SQesterna=0 in caso di assenza di relazione SQinterna=0 in caso di relazione perfetta Il diverso peso relativo della somma dei quadrati esterna e della somma dei quadrati interna (cioè della devianza spiegata e di quella non spiegata) può essere utilizzato per valutare la significatività e la forza della relazione tra X e Y. Metodologia della ricerca sociale
Un esempio di scomposizione della varianza Caso Genere (X) Stress lavoro correlato (Y) a M 3 b 6 F d 5 … n 4 Media N M 4,59 53 F 5,63 47 Totale 5,14 100 Sono gli scarti dei singoli valori dalla media complessiva: (3-5,14)2+(6-5,14)2+(6-5,14)2+(5-5,14)2+…+(4-5,14)2= 862,162 Metodologia della ricerca sociale
Un esempio di scomposizione della varianza Caso Genere (X) Stress lavoro correlato (Y) a M 3 b 6 F d 5 … n 4 Media N M 4,59 53 F 5,63 47 Totale 5,14 100 Sono gli scarti delle medie dei gruppi dalla media complessiva: (4,59-5,14)2+(4,59-5,14)2+(5,63-5,14)2+(5,63-5,14)2+…+(4,59-5,14)2 = 53(4,59-5,14)2+47(5,63-5,14)2=27,185 Metodologia della ricerca sociale
Un esempio di scomposizione della varianza Caso Genere (X) Stress lavoro correlato (Y) a M 3 b 6 F d 5 … n 4 Media N M 4,59 53 F 5,63 47 Totale 5,14 100 Sono gli scarti dei singoli valori dalla media dei gruppi: (3-4,59)2+(6-4,59)2+(6-5,63)2+(5-5,63)2+…+(4-4,59)2= 834,977 Metodologia della ricerca sociale
La scomposizione della varianza Ad ognuna delle devianze sono associati i gradi di libertà: • la devianza totale ha n − 1 gradi di libertà (dove n è la numerosità dei casi); • la devianza tra gruppi ha p − 1 gradi di libertà (dove p è il numero dei gruppi); • la devianza entro i gruppi ha n - p gradi di libertà: Dividendo la devianza per i gradi di libertà si ottiene la stima della varianza della popolazione. Varianza entro i gruppi: Varianza tra i gruppi: Metodologia della ricerca sociale
Tornando all’esempio: Media N M 4,59 53 F 5,63 47 Totale 5,14 100 Caso Genere (X) Stress lavoro correlato (Y) a M 3 b 6 F d 5 … n 4 (100-1)=(2-1)+(100-2) 99 = 1 + 98 862,162 = 834,977 + 27,185 Varianza tra i gruppi: Varianza entro i gruppi: =27,185/1 =27,185 =834,977/98 =8,520 Metodologia della ricerca sociale
La significatività della relazione: il test F Il test F serve a verificare l’ipotesi di uguaglianza delle medie confrontando varianza spiegata e varianza non spiegata: Se l’ipotesi nulla è vera le due stime della varianza sono uguali; se è falsa la stima esterna è maggiore di quella interna. La statistica F ha una distribuzione campionaria conosciuta, segue una distribuzione F di Fisher, cioè si conosce il suo valore critico in base al quale respingere o accettare H0 a seconda dei gradi di libertà delle due stime. Esistono tabelle dei valori critici a seconda della significatività e la regola decisionale è: Rifiuto H0 se F (calcolato) > Fα (tabulato). Metodologia della ricerca sociale
La significatività della relazione: il test F Per il test F esiste una tavola per ogni livello di significatività, riportiamo quella per α=0,05 (che è il valore generalmente utilizzato come soglia): n-p p-1 Metodologia della ricerca sociale
La forza della relazione: l’eta-quadrato Il confronto tra le medie dei gruppo può rendere conto della forza della relazione: tanto più le medie differiscono tra loro maggiore sarà la forza della relazione. Esistono però diversi coefficienti per quantificare questa forza, il più semplice è l’eta-quadrato, dato dal rapporto tra la somma dei quadrati esterna (cioè la devianza spiegata) e la somma dei quadrati totale (la devianza totale). Varia tra 0 (assenza di relazione) e 1 (relazione perfetta, tutta la devianza di Y è attribuibile a X) ed è chiamato anche rapporto di correlazione di Pearson. L’eta-quadrato risente del numero delle categorie della variabile categoriale, quindi si deve fare attenzione nel confrontare eta-quadrati di una stessa Y con X aventi un numero di modalità differenti, inoltre presenta dei problemi se il numero dei casi in ogni gruppo è troppo ridotto. Metodologia della ricerca sociale
Tornando all’esempio: Caso Genere (X) Stress lavoro correlato (Y) a M 3 b 6 F d 5 … n 4 Media N M 4,59 53 F 5,63 47 Totale 5,14 100 Varianza tra i gruppi: 27,185 Varianza entro i gruppi: 8,520 862,162 = 834,977 + 27,185 27,185 / 8,520 = 3,191 Sig. = 0,077 27,185/ 862,162 = 0,32 η = √0,32 = 0,178 Metodologia della ricerca sociale
La significatività della F: Le tavole prestampate dei valori soglia del test F non riportano tutti i gradi di libertà, spesso quindi è necessario osservare l’F tabulato per un numero maggiore di g.d.l. rispetto a quelli effettivi. Infatti se la F calcolata ha un valore più elevato anche del valore tabulato per un g.d.l. più alto possiamo rifiutare l’ipotesi nulla. Ad esempio nella tabella riportata dei valori di F per α=0,05 possiamo confrontare la F calcolata con quella teorica per 1*120 g.d.l. (risulta inferiore, dunque la probabilità di errore nell’accettare H1 è superiore allo 0,5%). Calcolando con excel, o software simili, la significatività sappiamo che una F pari a 3,191, con 1 g.d.l. al numeratore e 98 g.d.l. al denominatore, ha α=0,077, dunque che accettando H1 abbiamo una probabilità di errore del 7,7%. Metodologia della ricerca sociale
L’analisi della varianza: esempi e calcoli Alcune note Il calcolo degli indici legati all’analisi della varianza sembra complesso, in realtà non si tratta che di rapporti (divisioni) tra somme di scarti (sottrazioni) elevati al quadrato. Il calcolo non viene svolto a mano perché l’ANOVA ha senso se applicata a campioni, con scopi inferenziali, dunque su molti casi. I principali programmi di analisi dei dati forniscono non solo tutti gli indici necessari (cioè non solo la F e l’eta-quadro), ma anche gli elementi che li compongono: Somma dei quadrati (cioè la devianza) tra i gruppi, entro i gruppi e totale; Media dei quadrati (cioè la varianza) tra i gruppi, entro i gruppi e totale; Gradi di libertà. Metodologia della ricerca sociale
Esempi: Analisi della varianza. Assenza di relazione Tipo di contratto a tempo determinato Soddisfazione lavorativa A termine Media 4,92 N 60 Dev. std. 2,48 Di breve durata 4,58 67 2,41 Occasionale 4,51 73 2,03 Totale 4,66 200 2,30 Eta Eta quadrato 0,077 0,006 Somma dei quadrati gdl Media dei quadrati F Sig. Soddisfazione lavorativa Fra gruppi 6,265 2 3,133 ,591 ,555 Entro gruppi 1043,819 197 5,299 Totale 1050,084 199 Metodologia della ricerca sociale
Esempi: Analisi della varianza. 2. Presenza di una relazione Tipo di contratto a tempo determinato Soddisfazione per il reddito da lavoro A termine Media 3,15 N 60 Dev. std. 1,94 Di breve durata 6,06 67 1,55 Occasionale 4,36 73 2,01 Totale 4,57 200 2,18 Eta Eta quadrato 0,538 0,29 Somma dei quadrati gdl Media dei quadrati F Sig. Soddisfazione per il reddito da lavoro Fra gruppi 273,799 2 136,899 40,180 ,000 Entro gruppi 671,211 197 3,407 Totale 945,010 199 Metodologia della ricerca sociale
Regressione e correlazione Nel caso entrambe le variabili siano cardinali è possibile analizzare sia la forza che la forma della relazione, ma è necessario utilizzare due differenti strumenti: la correlazione serve ad analizzare la forza di una relazione; la regressione (la più semplice e utilizzata è quella lineare) permette di analizzarne la forma. Questi due strumenti si differenziano anche per quanto riguarda la direzione della relazione: la correlazione serve a quantificare la forza della relazione, dunque non dipende dalla sua direzione (il valore del coefficiente è lo stesso sia che Y dipenda da X sia che X dipenda da Y); la regressione identificando la forma della relazione cambia a seconda della sua direzione: se ipotizziamo che Y dipenda da X avremo una funzione diversa di quella che otterremmo ipotizzando che X dipenda da Y. Metodologia della ricerca sociale
La correlazione: il coefficiente r Il coefficiente di correlazione r, detto anche coefficiente di correlazione di Bravais-Pearson, misura la forza di una relazione tra due variabili cardinali: E’ il rapporto tra la covarianza fra X e Y e il prodotto delle deviazioni standard di X e di Y (se infatti dividiamo tutto per N, cioè per la numerosità campionaria otteniamo la covarianza al numeratore e il prodotto tra le varianze al denominatore). Questo coefficiente non dipende dalla direzione della relazione, e assume valore +1 in caso di perfetta relazione positiva; -1 in caso di perfetta relazione negativa e 0 in assenza di relazione (in caso di relazione perfetta i punti sono tutti allineati su una retta di regressione). Si tratta inoltre di un numero puro, quindi non risente dell’unità di misura delle due variabili in analisi. Metodologia della ricerca sociale
Il coefficiente r: un esempio Caso Soddisfazione lavorativa Autorealizzazione A 4,8 5,6 B 4,3 C 5,7 6,2 D 6,3 6,6 E 7,5 6,9 Medie 5,98 5,92 r=[(4,8-5,98)(5,6-5,92)+(5,6-5,98)(4.3-5,92)+(5,7-5,98)(6,2-5,92)+(6,3-5,98)(6,6-5,92)+(7,5-5,98)(6,9-5,92)]/√{[(4,8-5,98)2+(5,6-5,98)2+(5,7-5,98)2+(6,3-5,98)2+(7,5-5,98)2]*[(5,6-5,92)2+(4.3-5,92)2+(6,2-5,92)2+(6,6-5,92)2+(6,9-5,92)2] } =2,622/ √(4,028*4,228)=0,635 Metodologia della ricerca sociale 23
Il coefficiente di correlazione r Il coefficiente r, presenta alcune caratteristiche che è bene tenere presenti quando lo si utilizza: è un coefficiente di correlazione lineare, dunque non rileva relazione che abbiano una forma diversa dalla linearità; è molto sensibile ai valori estremi; errori legati a queste caratteristiche si possono evitare semplicemente osservando con attenzione i diagrammi di dispersione. Per il coefficiente di correlazione r esistono dei test di significatività che permettono di stabilire se i valori trovati sono sufficientemente elevati da permettere di falsificare l’ipotesi nulla H0. Il quadrato del coefficiente r è l’R-quadrato, dunque se r è pari a 0,5 da un lato possiamo dire che il 25% della variazione della variabile dipendente è spiegata da quella della variabile indipendente, dall’altro non possiamo interpretare un r=0,5 come pari alla metà della correlazione perfetta. Metodologia della ricerca sociale
Esempi: una matrice di correlazione Una matrice di correlazioni è una tabella che presenta nelle celle i coefficienti di correlazione tra le corrispondenti variabili in riga e colonna. La diagonale principale è costituita da valori 1 (la correlazione di una distribuzione con se stessa è perfetta) e n(n-1)/2 valori corrispondenti alle correlazioni fra tutte le coppie di variabili (infatti la metà della tabella al di sopra della diagonale principale sarebbe simmetrica e identica: l’r fra X e Y è uguale all’r fra Y e X. Soddisfazione lavorativa Autorealizzazione Motivazione al raggiungimento degli obiettivi 1 0,51 -0,62 -0,37 Metodologia della ricerca sociale
La regressione lineare Nello studio delle relazioni tra variabili, oltre a misurare l’entità (o forza) del legame esistente, spesso si è anche interessati ad accertare come varia una di esse al variare dell’altra, cioè ad individuare un’opportuna funzione che metta in relazione la variabile indipendente e quella dipendente. Il modello di regressione che scegliamo di applicare dipende dalla nostra ipotesi circa la relazione tra X e Y: a. se ipotizziamo, ad esempio, che la soddisfazione lavorativa dipenda dal reddito in modo tale che all’aumentare di una unità di reddito la soddisfazione aumenti di una certa quota stiamo ipotizzando una relazione lineare, dunque possiamo applicare un modello di regressione lineare; b. se invece la nostra ipotesi è che la soddisfazione lavorativa cresca con il reddito, ma solo fino a una certa soglia, per poi restare stabile oppure decrescere, stiamo ipotizzando relazioni non lineari, dunque non possiamo utilizzare un modello di regressione lineare, ma a seconda dei casi sceglieremo una funzione più opportuna. Bisogna dunque tenere presente che se si effettua l’analisi della regressione lineare tra due variabili e non si riscontra una relazione lineare non vuol dire che non ci sia relazione: potrebbe infatti sussistere una relazione curvilinea. Metodologia della ricerca sociale
La nuvola dei punti Se non dovessimo avere un ipotesi forte circa la forma della relazione tra le variabili che stiamo analizzando prima di usare un modello di regressione possiamo utilizzare una rappresentazione grafica come strumento esplorativo. Poiché la regressione lineare semplice è applicabile esclusivamente a variabili cardinali, la rappresentazione grafica più adatta è la rappresentazione cartesiana: facendo corrispondere ad una delle due variabili (quella indipendente) l’asse delle X, e all’altra l’asse delle Y, si collocano sul piano i casi in base ai loro valori su ciascuna variabile. Ogni individuo sarà rappresentato da un punto le cui coordinate saranno i valori ottenuti sulla variabile indipendente (X) e dipendente (Y). Già per la rappresentazione grafica la distinzione tra variabile indipendente e dipendente è particolarmente importante, come vedremo infatti i valori del coefficiente di regressione differiscono a seconda della scelta. La rappresentazione grafica sul piano cartesiano produrrà una nuvola di punti, detta diagramma di dispersione (scattergram o scatterplot). Metodologia della ricerca sociale
Alcuni esempi di nuvole dei punti: Assenza di relazione Relazione lineare positiva Relazione lineare negativa Relazione non lineare Metodologia della ricerca sociale
La regressione lineare: la funzione In una regressione lineare si analizza la variabile dipendente (Y) come funzione della variabile indipendente (X): Y= f(X) Data una nuvola di punti in cui si ravvisa un andamento lineiforme, ipotizziamo di tracciare una retta, che chiamiamo retta interpolante, la quale meglio di tutte le altre si avvicina ai tutti i punti e che, dunque, sintetizzi la nuvola. Y Sarebbe irrealistico pensare, almeno nell’ambito delle scienze sociali che vi sia relazione perfetta fra due variabili, ovvero che per tutti i punti siano collegabili fra di loro con una retta. X Y Più realistico invece è pensare ad un andamento lineiforme per cui sia possibile immaginare una retta che sintetizzi, meglio di altre rette possibili, l’informazione data dai punti. X Metodologia della ricerca sociale
La regressione lineare: i parametri Y= f(X) Y = a + bX Data una nuvola di punti, il problema è dunque quello di determinare i parametri a e b della retta che, meglio di tutte le altre è in grado di sintetizzarla, dove: a è l’intercetta, ovvero il punto in cui la retta intercetta l’asse delle y, ovvero l’ordinata della retta quando l’ascissa è 0; b è il coefficiente angolare, cioè la pendenza della retta. Il metodo dei minimi quadrati ci permette di determinare a e b a partire dai valori delle due variabili X e Y sui casi individuando la retta che riduce al minimo la somma dei quadrati degli scarti fra i valori teorici di Y (sulla retta) ed i valori di Y osservati (nei dati): Coefficiente di regressione Intercetta Metodologia della ricerca sociale
Il coefficiente di regressione Dividendo il numeratore ed il denominatore del coefficiente di regressione per la numerosità campionaria (N) otteniamo: al numeratore la covarianza tra X e Y; al denominatore la varianza di X. covarianza fra X e Y varianza di X Dunque b = Questo spiega perché il coefficiente di correlazione r è il prodotto dei due b che otterremmo analizzando la regressione di Y su X e quella di X su Y. Metodologia della ricerca sociale
L’errore Dato che la retta di regressione non dà una rappresentazione perfetta della nuvola di punti, ma solo una sua sintesi, poiché i punti non sono mai allineati perfettamente sulla retta stessa, bisogna introdurre un ulteriore coefficiente e detto errore o residuo: Y= a + bX + e Il valore di e è dato dallo scarto fra il valore predetto dall’equazione di regressione e il valore effettivamente osservato nei dati: Y – Ŷ = e L’errore è dunque il residuo non spiegato, relativo a ciascuna osservazione. Metodologia della ricerca sociale
L’errore Il residuo è definito come la differenza tra i valori osservati (Y) ed i corrispondenti valori teorici (Ŷ), che si collocano sulla retta di regressione: Y Y= a + bX + e Q5 P3 e= Y-Ŷ Q4 P1 Q3 e5 P4 Q2 e5= Y(P5)-Ŷ(Q5) Q1 P2 P5 X1 X2 X3 X4 X5 X Ciascun residuo è dunque il valore numerico, riferito a ciascuna unità, rispetto al corrispondente valore osservato, che non è spiegato dalla relazione lineare con la variabile indipendente. Metodologia della ricerca sociale
La bontà dell’adattamento ai dati Il metodo dei minimi quadrati garantisce l’individuazione della retta che sintetizza in maniera ottimale la nuvola dei punti, ma bisogna controllare che questa retta sia realmente in grado di spiegare l’andamento delle osservazioni, cioè controllarne la bontà dell’adattamento ai dati. Per farlo si segue un procedimento simile alla scomposizione della varianza nell’Anova, la scomposizione della devianza: Dove: Devianza totale dei valori della variabile dipendente; misura la variazione dei valori di y intorno alla loro media. Devianza dei valori stimati (o devianza di regressione); variazione spiegata attribuibile alla relazione fra X e Y. Devianza dei residui (o residua); attribuibile a fattori estranei alla relazione fra X e Y. Metodologia della ricerca sociale
La bontà dell’adattamento ai dati Dunque la devianza totale è composta da: SST = SSR + SSE Somma totale dei quadrati = Somma dei quadrati della regressione + Somma dei quadrati degli errori La devianza è una misura di variabilità: pertanto la devianza delle osservazioni è il risultato del contributo di due componenti: La variabilità dei valori stimati; espressa dalla devianza di regressione. la parte “spiegata” dalla relazione lineare; La variabilità dei punti attorno alla retta; espressa dalla devianza residua. Anche se la sua prossimità (Dev (E)) allo 0 indica che la rappresentazione (sintesi) fornita dalla retta di regressione è soddisfacente, il valore della devianza residua non è direttamente utilizzabile per misurare la bontà dell’adattamento perché il suo valore numerico è influenzato dall’ordine di grandezza delle variabili utilizzate Metodologia della ricerca sociale
La bontà dell’adattamento ai dati: l’indice di determinazione lineare Dato che la devianza residua non basta a rendere conto della bontà dell’adattamento si utilizza l’indice di determinazione lineare R-quadrato. L’R-quandrato è dato dal rapporto tra devianza di regressione (SSE) e devianza totale (SST): Essendo un rapporto al tutto, ha un campo di variazione compreso tra 0 e 1, dove 0 indica un pessimo adattamento della retta ai dati e 1 indica un adattamento perfetto. Metodologia della ricerca sociale
Esempi: Assenza di relazione Metodologia della ricerca sociale
Relazione lineare diretta. Esempi: Relazione lineare diretta. Metodologia della ricerca sociale
Relazione lineare inversa. Esempi: Relazione lineare inversa. Metodologia della ricerca sociale