Analisi delle osservazioni II parte Lezioni di Fondamenti e metodi per l’analisi empirica nelle scienze sociali
Descrizione e spiegazione Analisi statistica monovariata (misure di sintesi e misure di dispersione) Modelli probabilistici Distribuzioni note di probabilità (uniforme, normale, ecc.) Analisi bivariata Analisi multivariata Relazione tra due o più fenomeni sociali g.fanci@unimc.it A.A. 2015 - 2016
Analisi delle osservazioni Caratteristiche logico-matematiche Procedura Analisi Informazioni Dati g.fanci@unimc.it A.A. 2015 - 2016
Operazione di traduzione del materiale empirico grezzo in matrice dati Descrizione Matrice casi per variabili: l’unità di analisi deve essere sempre la stessa su tutti i casi deve essere rilevata la stessa informazione Codifica Operazione di traduzione del materiale empirico grezzo in matrice dati g.fanci@unimc.it A.A. 2015 - 2016
Esempio matrice dati o casi per variabili g.fanci@unimc.it A.A. 2015 - 2016
Numero dei casi che presentano quel valore (Valore assoluto) (segue) Distribuzione di frequenza = una rappresentazione nella quale ad ogni valore della variabile viene associata la frequenza con la quale esso si presenta nei casi analizzati (Marradi, 1999) Assolute Relative Frequenze Numero dei casi che presentano quel valore (Valore assoluto) Rapporto dei casi al totale del campione (percentuale per comparazione) g.fanci@unimc.it A.A. 2015 - 2016
Esempio g.fanci@unimc.it A.A. 2015 - 2016
Misure di sintesi Moda, Mediana e Media Analisi monovariata g.fanci@unimc.it A.A. 2015 - 2016
Misure di sintesi e variabili Ogni variabile ha la sua misura di sintesi = BARICENTRO dei suoi valori. MODA: modalità che si presenta con maggior frequenza; variabili nominali; MEDIANA: modalità del caso che occupa il posto di mezzo nella distribuzione ordinata dei casi secondo quella variabile; variabili ordinali; N dispari = N+1/2; N pari = N/2 e N/2 + 1; MEDIA: somma dei valori assunta dalla variabile su tutti i casi divisa per il numero di casi; variabili cardinali. g.fanci@unimc.it A.A. 2015 - 2016
Rappresentazioni grafiche delle distribuzioni Nominali Diagrammi a barre Diagrammi di composizione Cardinali Istogramma Poligono di frequenza g.fanci@unimc.it A.A. 2015 - 2016
Per le variabili nominali g.fanci@unimc.it A.A. 2015 - 2016
Per le variabili cardinali Istogramma g.fanci@unimc.it A.A. 2015 - 2016
(segue) Poligono di frequenza g.fanci@unimc.it A.A. 2015 - 2016
Relazioni tra variabili Si osserva una covariazione tra due fenomeni, ossia che variano insieme; es.: al variare del titolo di studio varia il reddito. Due considerazioni: Si tratta di relazioni statistiche, ossia di tipo probabilistico: è più probabile che un individuo con laurea guadagni di più, ma possono esserci eccezioni; La ricerca consente di osservare la covariazione, ma la interpretazione causale spetta al ricercatore: “covariazione non significa causazione”. g.fanci@unimc.it A.A. 2015 - 2016
Dipendente / Indipendente Variabile dipendente Variabile indipendente classe sociale /orientamento politico; educazione /pregiudizio razziale; età / atteggiamento religioso g.fanci@unimc.it A.A. 2015 - 2016
Tecniche di analisi bivariata In linea generale parliamo di RELAZIONE (o covariazione). Più precisamente: se la relazione è tra variabili nominali parliamo di associazione; se la relazione è tra variabili ordinali parliamo di cograduazione; se la relazione è fra variabili cardinali parliamo di correlazione; Variabile indipendente V. Dipendente Nominale Cardinale Tavole di contingenza Analisi della varianza Regressione e Correlazione g.fanci@unimc.it A.A. 2015 - 2016
Tavole di contingenza: associazione Occorre innanzitutto osservare congiuntamente le due distribuzioni di frequenza Ossia bisogna organizzare le osservazioni in una tabella a doppia entrata (o tavola di contingenza) in grado di mostrare congiuntamente le modalità delle due variabili. g.fanci@unimc.it A.A. 2015 - 2016
W X Basso w1 Medio w2 Alto w3 somma S Femmina x1 4 (n1,1) 3 (n1,2) Esempio tavola di contingenza (contingent in inglese significa “condizionata” ) W = gradimento (dipendente); X = genere (indipendente) W X Basso w1 Medio w2 Alto w3 somma S Femmina x1 4 (n1,1) 3 (n1,2) 4 (n1,3) 11 n1. Maschio x2 (n2,1) 2 (n2,2) (n2,3) 9 n2. 8 n.1 5 n.2 7 n.3 20 N g.fanci@unimc.it A.A. 2015 - 2016
Riflessioni sulla tabella Distribuzione congiunta di X e di W: frequenze congiunte assolute N con doppio pedice; Distribuzione marginale di X: la prima e l’ultima colonna eliminando l’effetto di W; Distribuzione marginale di W: la prima e l’ultima riga eliminando l’effetto di X; Percentuali di riga; Percentuali di colonna. g.fanci@unimc.it A.A. 2015 - 2016
Esempio: Pratica religiosa per età (Corbetta, 1999, Fonte Itanes, 1996) g.fanci@unimc.it A.A. 2015 - 2016
Come scegliere la percentuale? Si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile posta in colonna ha sulla variabile posta in riga; Si sceglie la percentuale di riga quando si vuole analizzare l’influenza che la variabile posta in riga ha sulla variabile posta in colonna Si definisce qual è la variabile indipendente e si percentualizza all’interno della sua modalità. g.fanci@unimc.it A.A. 2015 - 2016
Regressione: correlazione Se la relazione interessa due variabili cardinali parliamo di correlazione e ci serviamo della retta di regressione come modello matematico. Rappresentazione grafica: piano cartesiano: Sulla retta orizzontale – chiamata delle ascisse – si pone, per convenzione, la variabile che si assume essere indipendente, talvolta detta esplicativa; Sulla retta verticale – chiamata delle ordinate – si pone, per convenzione, la variabile che si assume essere dipendente. g.fanci@unimc.it A.A. 2015 - 2016
0 = punto di origine P è la mia osservazione che presenta stato 5 per la variabile che assumo essere indipendente e 7 per la variabile che assumo essere dipendente g.fanci@unimc.it A.A. 2015 - 2016
Grafico di dispersione g.fanci@unimc.it A.A. 2015 - 2016
Retta regressione (segue) g.fanci@unimc.it A.A. 2015 - 2016
Diagrammi dispersione La scelta del modello matematico appropriato è suggerita dal modo in cui si distribuiscono i valori delle due variabili nel diagramma di dispersione g.fanci@unimc.it A.A. 2015 - 2016
Relazione lineare bivariata “Regrediamo” Y rispetto ad X Regressione bivariata, in termini algebrici Y = a + bX Dove a indica una costante, punto in cui la retta “intercetta” o incrocia l’asse verticale; b indica il coefficiente di regressione, ossia l’inclinazione della retta; Si dice che la retta interpola, meglio di altre forme, i punti (le osservazioni) e sintetizza la nuvola. g.fanci@unimc.it A.A. 2015 - 2016
Equazione predittiva Predire Y da X Posso conoscere la variazione di Y se, come e quando varia X Valore assunto da Y per ciascuna osservazione i è funzione lineare esatta del corrispondente valore di X Ŷi = a + byx Xi g.fanci@unimc.it A.A. 2015 - 2016
Modello di regressione lineare La difficoltà maggiore è quella di non riuscire a rappresentare relazioni bivariate con una retta perfettamente interpolante. occorre stimare le deviazioni dalla predizione lineare Yi = a + byx Xi + ei Dove ei rappresenta la porzione di valore di Y per l’osservazione i che non è predetta dalla sua relazione lineare con X. g.fanci@unimc.it A.A. 2015 - 2016
e1 Y X Valore osservato i-esimo Valore medio della distribuzione Valore predetto i-esimo Errore i-esimo A.A. 2015 - 2016 g.fanci@unimc.it
Y e1 X e1 10 – 12 = (10 – 5) + (5 – 12) A.A. 2015 - 2016 g.fanci@unimc.it
Y – Ŷ = [a + byx Xi + ei ] – [a + byx Xi ] = ei Errore o residuo Si chiama residuo per indicare lo scarto fra il valore atteso o predetto dall’equazione di regressione e il valore effettivamente osservato Y – Ŷ = e Y – Ŷ = [a + byx Xi + ei ] – [a + byx Xi ] = ei g.fanci@unimc.it A.A. 2015 - 2016
Stima della equazione di regressione stimare valori dei due coefficienti con le osservazioni le stime di a e bxy devono minimizzare gli errori, “fare sì che gli errori di predizione prodotti da quella equazione siano minori di quelli prodotti da qualsiasi relazione lineare” (Knoke) I due coefficienti devono soddisfare il criterio dei minimi quadrati: “la migliore retta sia quella che rende minima la somma delle differenze al quadrato tra i valori di yi realmente osservati e i corrispondenti valori che la retta stessa fornisce per i diversi valori di xi osservati” g.fanci@unimc.it A.A. 2015 - 2016
Retta detta anche dei minimi quadrati La somma dei residui è sempre = 0, se la elevo al quadrato il valore sarà sempre positivo “Sommando le differenze al quadrato fra ogni valore osservato di Yi e il corrispondente valore Ŷi predetto dall’equazione di regressione prescelta si dovrebbe ottenere una quantità minore di quella che si otterrebbe utilizzando qualsiasi altra equazione di regressione lineare” (Knoke) g.fanci@unimc.it A.A. 2015 - 2016
Devianza spiegata e devianza non spiegata g.fanci@unimc.it A.A. 2015 - 2016
Coefficiente ρ di Bravais Pearson Il coefficiente di correlazione lineare ρ misura l’intensità del legame lineare (interpretabile graficamente da una retta) tra due variabili cardinali X e Y, ovvero il grado di proporzionalità esistente tra X e Y. Si calcola come rapporto tra covarianza tra X e Y e il rapporto degli scarti quadratici medi: ρxy = covxy σx σy ρ = + 1, correlazione perfetta positiva ρ = - 1 , correlazione perfetta negativa g.fanci@unimc.it A.A. 2015 - 2016
Esempi grafici di dispersione g.fanci@unimc.it A.A. 2015 - 2016
(segue) g.fanci@unimc.it A.A. 2015 - 2016
(segue) g.fanci@unimc.it A.A. 2015 - 2016
Coefficiente di determinazione Corrisponde a ρ di Pearson al quadrato, fornisce la stima della varianza spiegata di una variabile da parte dell’altra. ρ2 = σ x y 2 σ x 2 σ y 2 0 > ρ2 > 1 È una misura della capacità della retta di regressione di rappresentare la nube di punti del diagramma di dispersione. Quanto più i punti sono lontani dalla retta tanto più ρ2 tende a 0; più sono vicini più si approssima a 1. ρ2 = 0, la retta non è la rappresentazione migliore, forse la relazione c’è ma è più adeguata un’altra figura. g.fanci@unimc.it A.A. 2015 - 2016
(segue) g.fanci@unimc.it A.A. 2015 - 2016