ANALISI E INTERPRETAZIONE DATI
Variabili con diversi livelli di risposta ANALISI DEI DATI SE ALTA STRUTTURAZIONE BASSA O SEMI STRUTTURAZIONE SI HANNO Variabili testuali Variabili con diversi livelli di risposta
Analisi di dati ad alta strutturazione Statistica Monovariata e Bivariata si serve di Studia la variazione di una variabile per volta Studia la covariazione di due variabili
La statistica monovariata Può essere: Descrittiva descrive una data realtà educativa attraverso dei parametri quantitativi che ricavo dal campione Inferenziale inferisce parametri della popolazione a partire da quelli quantitativi del campione. Nella statistica monovariata viene utilizzata la distribuzione di frequenza cioè come si distribuiscono i casi del campione nelle categorie delle variabili 4
La distribuzione di frequenza SEMPLICE CUMULATA QUAL E’ IL VOSTRO TITOLO DI STUDIO? Risposte possibili frequenze SEMPLICE (n1; n2; n3..) CUMULATE Ni=n1+n2+…+ni elementari 30 medie 50 30+50=80 diploma 80 30+50+80=160 laurea 40 30+50+80+40=200
Distribuzione di frequenza SEMPLICE RELATIVA Distribuzione di frequenza PERCENTUALE CUMULATA QUAL E’ IL VOSTRO TITOLO DI STUDIO? Risposte possibili frequenze SEMPLICI (n. di CASI) CUMULATE Frequenze RELATIVE fi=ni/N PERCENTUALI Pi=100*fi elementari 30 0,15 15% medie 50 80 0,25 25% diploma 160 0,4 40% laurea 40 200 0,2 20%
Per vedere come si distribuiscono, complessivamente, i casi nei valori che la variabile può assumere utilizziamo gli indici di tendenza centrale e gli indici di dispersione. Servono a stabilire come e dove si addensano i dati a nostra disposizione. Sono: MEDIA MODA MEDIANA Ci permettono di misurare quanto e come si disperdono i dati. Sono: SQUILIBRIO CAMPO DI VARIAZIONE DIFFERENZA INTERQUARTILICA VARIANZA e DEVIAZIONE STANDARD
Indici di tendenza centrale
MEDIA ES 1. 8, 7, 10, 15, 13 (esami sostenuti da cinque ragazzi) È la somma dei valori assunti da tutti i casi diviso per il numero dei casi. Ha significato quando il numero dei casi è piuttosto alto. ES 1. 8, 7, 10, 15, 13 (esami sostenuti da cinque ragazzi) 8+7+10+15+13= 53 Media= 53(somma dei valori)/5 (numero dei casi) = 10,6 media degli esami sostenuti CASI ESAMI SOSTENUTI 1 8 7 10 15 13 TOTALE 5
MEDIA MEDIA= Totale esami sostenuti /Totale N. dei casi 1 8 4 7 2 10 6 15 13 TOTALE 14 MEDIA= Totale esami sostenuti /Totale N. dei casi Media ES2: [(8*1)+(7*4)+(10*2)+(15*6)+(13*1) ]/ 14= (8+28+20+90+13)/14 = 159/14= 11,35
MODA ES2. 3,7,8,7,15,13 7 è la moda perché è il valore che ricorre è la categoria con la frequenza più alta (nella quale si addensa il numero maggiore di casi), non in senso assoluto, ma relativo (non è necessario cioè che contenga il 50% dei casi, è sufficiente che sia quella con il numero maggiore di casi rispetto alle altre). ES1. 8, 7, 10, 15, 13 In questo caso la MODA non esiste ES2. 3,7,8,7,15,13 7 è la moda perché è il valore che ricorre più volte N. DI CASI VALORI 1 3 2 7 8 13 15
MEDIANA è il punto centrale delle distribuzione ordinata e divide il campione in due parti. ES1. 8, 7, 10, 15, 13 La serie deve essere disposta in ordine crescente 7,8,10,13,15 M=10 ES 2. 7, 8, 10,13 M = 4 /2 = 2 CASI ESAMI SOSTENUTI 1 7 2 8 3 10 4 13 5 15 TOTALE CASI Freq. cumulata ESAMI SOSTENUTI 1 7 2 8 3 10 4 13 TOTALE La Mediana si posiziona tra la seconda e la terza riga (seconda posizione rispetto alla frequenza cumulata), corrispondente a 9 ((10+8)/2 = 9)
MEDIANA CASI Freq. cumulata ESAMI SOSTENUTI 2 7 1 3 8 6 13 15 TOTALE ES3. M= 8/ 2= 4 La Mediana si posiziona nella terza riga (quarta posizione rispetto alla frequenza cumulata), in corrispondenza del 13 ((13+13) /2 = 13)
ATTENZIONE!!! La MODA Vale solo per variabili cardinali e categoriali e non è utilizzabile per i dati a bassa strutturazione. La MEDIANA Può essere applicata alle variabili cardinali ed alle variabili ordinate.
Indici di dispersione
LO SQUILIBRIO 1/2 È la somma delle proporzioni al quadrato per ciascuna modalità della variabile. ES1. ES. Pi=(30/90)* 100 ES. Pi=(33,3/100) N. Di studenti (casi) Voto Percentuale Trasformazioni in proporzioni rispetto all’unità Quadrato delle proporzioni 30 21 33,3% 0,33² 0,1089 5 25 5,5% 0,05² 0,0025 35 27 38.8% 0,39² 0,1521 29 15 16,6% 0,17² 0,0289 TOT: 90 ~100%
LO SQUILIBRIO 2/2 Quadrato delle proporzioni ES1. 0,1089 0,0025 0,1521 0,0289 SQUILIBRIO= 0,1089+0,0025 +0,1521+0,0025+0,0289= 0.2949 La somma dei quadrati delle proporzioni è lo squilibrio e in questo caso è 0,2949. Il massimo squilibrio possibile è 1 mentre il minimo squilibrio è 1/k, dove k è la categoria. Il minimo squilibrio lo abbiamo quando tutte le categorie hanno la stessa frequenza.
CAMPO DI VARIAZIONE ES1. Tra 30 e 21 il campo di variazione è 9 è la distanza (o l'intervallo) tra il valore minimo e il valore massimo. Questo tipo di misura ha significato quando vi è una certa uniformità di distribuzione. ES1. N. Di studenti Voto 30 21 5 25 35 27 29 15 TOT: 90 Tra 30 e 21 il campo di variazione è 9
DIFFERENZA INTERQUARTILICA 1/2 i quartili sono misure di posizione con cui dividiamo la nostra distribuzione in parti uguali pari al 25% del totale (si definisce in percentuale: 25%). I quartili dividono la popolazione in quattro parti: 25%, 50%, 75% e 100%. La differenza interquartilica è la distanza del valore posizionato sul 75% della distribuzione dal valore posizionato sul 25% della distribuzione. Consente di escludere i valori che si posizionano agli estremi della distribuzione di frequenza che possono essere significativamente differenti dal resto della distribuzione, perciò risulta spesso più efficace del campo di variazione.
DIFFERENZA INTERQUARTILICA 2/2 ES1. 33,3+ 5,5 =PC N. Di studenti Voto Percentuale Percentuale cumulata 30 21 33,3% primo quartile 5 25 5,5% 38,8% 35 27 38.8% 77,6% Terzo quartile 29 83,1% 15 16,6% 99,7% TOT: 90 ~100% Distanza tra valore posizionato sul 75% della distribuzione e valore posizionato sul 25% . Quindi la differenza tra 27 e 21 è 6
DEVIAZIONE STANDARD 1/2 è la radice della somma delle differenze di ciascun valore rispetto alla media elevato al quadrato e rapportato al numero di casi. Questo indice è in grado di indicare lo scostamento medio dei soggetti dalla media, ovvero il grado di eterogeneità o omogeneità delle risposte (quanto, mediamente, i punteggi/valori si discostano dalla media complessiva). Viene chiamata varianza quando non viene riportata sotto radice. ES1. N. Di studenti Voto 30 21 5 25 35 27 29 15 TOT: 90 MEDIA= [ (21*30)+(25*5)+(27*35)+(29*5)+(30*15) ]/ 90= (630+125+945+145+450) /90= 2295/90= 25,5
DEVIAZIONE STANDARD 2/2 VARIANZA ES1. MEDIA=25, 5 N. Di studenti Voto 30 21 5 25 35 27 29 15 TOT: 90 MEDIA=25, 5 VARIANZA è uguale alla deviazione standard, senza la radice ∂= √{ [(21- 25,5)² *30] + [(25- 25,5)²*5] + [(27- 25,5)² *35]+ [(29- 25,5)² *5 ]+ [(30- 25,5)² *15 ] /90 }= √ [(20,25*30) + ( 0,25* 5) + (2,25*35)+ (12,25*5)+(20,25*15)/ 90]= √ [(607,5+1,25+ 78,75+ 61,25+ 303,75)/ 90 ] = √ (1052,5/90) = √11,69= 3,42
ATTENZIONE!!! Lo SQUILIBRIO Vale solo per variabili cardinali e categoriali. Il CAMPO DI VARIAZIONE Vale solo per le variabili categoriali, cardinali e ordinate. La DIFFERENZA INTERQUARTILICA E’ possibile solo per le variabili categoriali ordinate e cardinali La DEVIAZIONE STANDARDVale solo per le variabili cardinali
La statistica bivariata Per verificare se una relazione tra variabili è significativa si può utilizzare il test del Chi quadro (χ2) Individua la relazione tra due variabili. Una volta individuata la presenza di una relazione occorre precisarne la natura e quindi: che direzione assume la relazione; se si tratta di relazione positiva (ovvero se al crescere di x cresce anche y); se si tratti, invece, di relazione negativa (opposta alla precedente); se si tratta di relazione simmetrica o asimmetrica; l'intensità e la forza della relazione che viene misurata attraverso specifici indici che misurano come si combina e con quale forza la variazione dei fenomeni che stiamo esaminando. 24
CHI QUADRO è dato dalla somma delle frequenze osservate nella realtà alle quali vengono sottratte le frequenze teoriche al quadrato e rapportate alle frequenze teoriche. Le frequenze teoriche si ottengono con i totali marginali di riga e di colonna. Per calcolarle si effettua una moltiplicazione e una divisione per ogni cella: si moltiplicano i due totali marginali corrispondenti e si divide per N (numero totale dei casi).
CHI QUADRO ES1. Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2 N. Di esami sostenuti Votazione media conseguita 21 25 27 30 TOT. riga Studenti scienze educazione 2 3 4 11 Studenti STPPM 1 9 TOT. COLONNA 6 5 N= 20 Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2 11*5/ 20=2,75 9*6/ 20=2,7 9*4/ 20=1,8 9*5/ 20=2,25
CHI QUADRO ES1. 2 3 4 1 Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2 N. Di esami sostenuti Votazione media conseguita 21 25 27 30 TOT. COLONNA Studenti scienze educazione 2 3 4 11 Studenti STPPM 1 9 TOT. RIGA 6 5 N= 20 ES1. Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2 11*5/ 20=2,75 9*6/ 20=2,7 9*4/ 20=1,8 9*5/ 20=2,25 Si sottraggono alle frequenze osservate le frequenze teoriche e si elevano al quadrato, dividendo poi il risultato per le frequenze teoriche. (2-3,3) ²= 1,69 (4-2,7) ²= 1,69 (3-2,2) ²= 0,64 (1-1,8) ²= 0,64 (2-2,75) ²= 0,56 (3-2.25) ²=0,56 (4-2,75) ²=1,56 (1-2.25) ²= 1,56
CHI QUADRO χ2 ES1. =0,51+0,62+0,29+0,35+0,21+0,25+0,57+0,69= 3,49 (2-3,3) ²= 1,69 / 3,3 =0,51 (4-2,7) ²= 1,69 /2,7= 0,62 (3-2,2) ²= 0,64 /2,2=0,29 (1-1,8) ²= 0,64/ 1,8= 0,35 (2-2,75) ²= 0,56/ 2,75=0,21 (3-2.25) ²=0,56/ 2.25=0,25 (4-2,75) ²=1,56/ 2,75=0,57 (1-2.25) ²= 1,56/ 2.25=0,69 χ2 =0,51+0,62+0,29+0,35+0,21+0,25+0,57+0,69= 3,49 Un χ2 superiore a zero esclude l'ipotesi nulla, ma questo non ha molto significato in quanto esiste quasi sempre (o molto spesso) una qualche differenza tra le frequenze teoriche e le frequenze assegnate.
CHI QUADRO ES1. Per vedere se il nostro chi quadro identifichi o meno una relazione significativa occorre calcolare i gradi di libertà che dipendono dal numero di celle contenute in una tabella. g.d.l.= (r-1) (c-1) dove g = n dei gradi di libertà r = n delle righe C = n delle colonne N. Di esami sostenuti Votazione media conseguita 21 25 27 30 TOT. RIGA Studenti scienze educazione 2 3 4 11 Studenti STPPM 1 9 TOT. COLONNA 6 5 N= 20 Nel nostro caso si avrà allora: g.d.l.= (2-1) * (4-1) =3
CHI QUADRO Dobbiamo adesso andare a vedere le tavole del χ2 Il livello di significatività viene solitamente stabilito a 0,05. Dobbiamo adesso andare a vedere le tavole del χ2 considerando che i nostri g.d.l. sono 3
CHI QUADRO
CHI QUADRO Con 3 gradi di libertà, il valore di 3,49 è inferiore al valore-limite previsto di 7,815 e dunque la relazione non è statisticamente significativa avendo, appunto, un χ2 non significativo.