Accenni di analisi monovariata e bivariata
ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle relazioni con le altre variabili DISTRIBUZIONE DI FREQUENZA: è l’ordinamento tabulare dei dati raccolti e le frequenze corrispondenti
Verifiche da fare in sede di analisi monovariata: Verifica di PLAUSIBILITÀ: controllo nella matrice dei “valori selvaggi” AGGREGAZIONE DELLE MODALITÀ, secondo due criteri: - equilibrio della distribuzione - affinità semantica
CONTROLLI SUI DATI: controlli di plausibilità; controllo in matrice dei valori selvaggi; controlli di congruenza; valori mancanti; ponderazione EQUILIBRIO DELLA DISTRIBUZIONE Le modalità si possono raggruppare secondo: I valori che assume la distribuzione L’affinità semantica (non si possono assommare variabili con significato divergente)
Equilibrio della distribuzione 15-17 32% 18-21 16% 22-25 15% 26-29 37% LICEO CLASSICO 15,6% LICEO SCIENTIFICO 19,7% ALTRO LICEO 6,9% IST. TECNICO 33,5% IST. PROFESSIONALE 8,1% ALTRO 16,2% 48% Equilibrio della distribuzione 52% 42,2% 41,6%
Valori mancanti Distinguiamo 4 situazioni di valori mancanti: Non sa: il soggetto non sa rispondere Non applicabile: il soggetto non è tenuto a rispondere Non risponde: il soggetto rifiuta di rispondere Valore implausibile: si registra un valore non compreso nel codice Soltanto le ultime due costituiscono realmente dei valori mancanti
Valori selvaggi
Misure e test applicabili in sede di analisi monovariata Media aritmetica: somma dei valori, divisi per il loro numero (solo se la variabile è cardinale) Varianza: in una distribuzione, è la distanza dei singoli valori dal valore medio. Se la varianza è alta significa che i singoli valori sono molto diversi tra loro
Mediana: è il valore di una distribuzione che la divide in due parti Moda: è la modalità della distribuzione che ha la frequenza maggiore, cioè il maggior numero di casi (se la variabile è nominale è l’unica misura di tendenza centrale calcolabile)
Distribuzione di frequenza della variabile ordinale “auto-collocazione sulla scala sinistra-destra” % % cum. Estrema sinistra 52 2,2 Sinistra 531 22,0 24,2 Centro-sinistra 742 30,8 55,0 Centro 313 13,0 68,0 Centro-destra 505 20,9 88,9 Destra 243 10,1 99,0 Estrema destra 24 1,0 100 Totale 2.410
ANALISI BIVARIATA Studia le relazioni che possono esistere tra 2 variabili. Ha come prodotto una tabella di contingenza. Se riporto percentuali di riga: totale marginale di riga = a 100 Se riporto percentuali di colonna: totali marginali di colonna = a 100 Si scelgono le percentuali da riportare sulla base di quella che consideriamo variabile indipendente.
Il numero delle categorie non deve essere troppo elevato FREQUENZA OSSERVATA: è il numero dei dati di una cella effettivamente rilevati FREQUENZA ATTESA: è la frequenza teorica che si dovrebbe ottenere sulla base dei totali marginali, se tra le due variabili considerate non esistesse alcuna associazione. FREQ. ATTESA = Prodotto dei totali marginali Totale dei casi
Se la frequenza osservata è molto diversa rispetto alla freq Se la frequenza osservata è molto diversa rispetto alla freq. attesa, allora c’è un’associazione tra le due variabili. I risultati sono affidabili e statisticamente significativi soltanto se le frequenze attese sono alte e le freq. osservate basse. Chi-quadrato: testa la significatività della relazione tra 2 variabili; si basa sulla differenza tra freq. osservate e freq. attese
Frequenze attese/Frequenze osservate
COME VERIFICARE LA RELAZIONE TRA DUE VARIABILI? Chi-quadrato: testa la significatività della relazione tra 2 variabili; si basa sulla differenza tra frequenze osservate (fo) e frequenze attese (fe) (fo─ fe)2 χ2 = Σ fe
Test statistico di verifica delle ipotesi: In realtà non verifica (= dimostrare che è vera) un’ipotesi, ma può solo arrivare a falsificarla (= dimostrare che è falsa) Il chi quadro,quindi, può arrivare a dimostrare che l’ipotesi nulla (secondo la quale non esiste una relazione fra la variabili) è falsa