La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

ANALISI E INTERPRETAZIONE DATI

Presentazioni simili


Presentazione sul tema: "ANALISI E INTERPRETAZIONE DATI"— Transcript della presentazione:

1 ANALISI E INTERPRETAZIONE DATI

2 Variabili con diversi livelli di risposta
ANALISI DEI DATI SE ALTA STRUTTURAZIONE BASSA O SEMI STRUTTURAZIONE SI HANNO Variabili testuali Variabili con diversi livelli di risposta

3 Analisi di dati ad alta strutturazione
Statistica Monovariata e Bivariata si serve di Studia la variazione di una variabile per volta Studia la covariazione di due variabili

4 La statistica monovariata
Può essere: Descrittiva descrive una data realtà educativa attraverso dei parametri quantitativi che ricavo dal campione Inferenziale inferisce parametri della popolazione a partire da quelli quantitativi del campione. Nella statistica monovariata viene utilizzata la distribuzione di frequenza cioè come si distribuiscono i casi del campione nelle categorie delle variabili 4

5 La distribuzione di frequenza SEMPLICE CUMULATA
QUAL E’ IL VOSTRO TITOLO DI STUDIO? Risposte possibili frequenze SEMPLICE (n1; n2; n3..) CUMULATE Ni=n1+n2+…+ni elementari 30 medie 50 30+50=80 diploma 80 =160 laurea 40 =200

6 Distribuzione di frequenza
SEMPLICE RELATIVA Distribuzione di frequenza PERCENTUALE CUMULATA QUAL E’ IL VOSTRO TITOLO DI STUDIO? Risposte possibili frequenze SEMPLICI (n. di CASI) CUMULATE Frequenze RELATIVE fi=ni/N PERCENTUALI Pi=100*fi elementari 30 0,15 15% medie 50 80 0,25 25% diploma 160 0,4 40% laurea 40 200 0,2 20%

7 Per vedere come si distribuiscono, complessivamente, i casi nei valori che la variabile può assumere utilizziamo gli indici di tendenza centrale e gli indici di dispersione. Servono a stabilire come e dove si addensano i dati a nostra disposizione. Sono: MEDIA MODA MEDIANA Ci permettono di misurare quanto e come si disperdono i dati. Sono: SQUILIBRIO CAMPO DI VARIAZIONE DIFFERENZA INTERQUARTILICA VARIANZA e DEVIAZIONE STANDARD

8 Indici di tendenza centrale

9 MEDIA ES 1. 8, 7, 10, 15, 13 (esami sostenuti da cinque ragazzi)
È la somma dei valori assunti da tutti i casi diviso per il numero dei casi. Ha significato quando il numero dei casi è piuttosto alto. ES 1. 8, 7, 10, 15, 13 (esami sostenuti da cinque ragazzi) = 53 Media= 53(somma dei valori)/5 (numero dei casi) = 10,6 media degli esami sostenuti CASI ESAMI SOSTENUTI 1 8 7 10 15 13 TOTALE 5

10 MEDIA MEDIA= Totale esami sostenuti /Totale N. dei casi
1 8 4 7 2 10 6 15 13 TOTALE 14 MEDIA= Totale esami sostenuti /Totale N. dei casi Media ES2: [(8*1)+(7*4)+(10*2)+(15*6)+(13*1) ]/ 14= ( )/14 = 159/14= 11,35

11 MODA ES2. 3,7,8,7,15,13 7 è la moda perché è il valore che ricorre
è la categoria con la frequenza più alta (nella quale si addensa il numero maggiore di casi), non in senso assoluto, ma relativo (non è necessario cioè che contenga il 50% dei casi, è sufficiente che sia quella con il numero maggiore di casi rispetto alle altre). ES1. 8, 7, 10, 15, 13 In questo caso la MODA non esiste ES2. 3,7,8,7,15,13 7 è la moda perché è il valore che ricorre più volte N. DI CASI VALORI 1 3 2 7 8 13 15

12 MEDIANA è il punto centrale delle distribuzione ordinata e divide il campione in due parti. ES1. 8, 7, 10, 15, 13 La serie deve essere disposta in ordine crescente  7,8,10,13,15 M=10 ES 2. 7, 8, 10,13 M = 4 /2 = 2 CASI ESAMI SOSTENUTI 1 7 2 8 3 10 4 13 5 15 TOTALE CASI Freq. cumulata ESAMI SOSTENUTI 1 7 2 8 3 10 4 13 TOTALE La Mediana si posiziona tra la seconda e la terza riga (seconda posizione rispetto alla frequenza cumulata), corrispondente a 9 ((10+8)/2 = 9)

13 MEDIANA CASI Freq. cumulata ESAMI SOSTENUTI 2 7 1 3 8 6 13 15 TOTALE ES3. M= 8/ 2= 4 La Mediana si posiziona nella terza riga (quarta posizione rispetto alla frequenza cumulata), in corrispondenza del 13 ((13+13) /2 = 13)

14 ATTENZIONE!!! La MODA Vale solo per variabili cardinali e categoriali e non è utilizzabile per i dati a bassa strutturazione. La MEDIANA Può essere applicata alle variabili cardinali ed alle variabili ordinate.

15 Indici di dispersione

16 LO SQUILIBRIO 1/2 È la somma delle proporzioni al quadrato per ciascuna modalità della variabile. ES1. ES. Pi=(30/90)* 100 ES. Pi=(33,3/100) N. Di studenti (casi) Voto Percentuale Trasformazioni in proporzioni rispetto all’unità Quadrato delle proporzioni 30 21 33,3% 0,33² 0,1089 5 25 5,5% 0,05² 0,0025 35 27 38.8% 0,39² 0,1521 29 15 16,6% 0,17² 0,0289 TOT: 90 ~100%

17 LO SQUILIBRIO 2/2 Quadrato delle proporzioni ES1. 0,1089 0,0025 0,1521 0,0289 SQUILIBRIO= 0,1089+0, ,1521+0,0025+0,0289= 0.2949 La somma dei quadrati delle proporzioni è lo squilibrio e in questo caso è 0,2949. Il massimo squilibrio possibile è 1 mentre il minimo squilibrio è 1/k, dove k è la categoria. Il minimo squilibrio lo abbiamo quando tutte le categorie hanno la stessa frequenza.

18 CAMPO DI VARIAZIONE ES1. Tra 30 e 21 il campo di variazione è 9
è la distanza (o l'intervallo) tra il valore minimo e il valore massimo. Questo tipo di misura ha significato quando vi è una certa uniformità di distribuzione. ES1. N. Di studenti Voto 30 21 5 25 35 27 29 15 TOT: 90 Tra 30 e 21 il campo di variazione è 9

19 DIFFERENZA INTERQUARTILICA 1/2
i quartili sono misure di posizione con cui dividiamo la nostra distribuzione in parti uguali pari al 25% del totale (si definisce in percentuale: 25%). I quartili dividono la popolazione in quattro parti: 25%, 50%, 75% e 100%. La differenza interquartilica è la distanza del valore posizionato sul 75% della distribuzione dal valore posizionato sul 25% della distribuzione. Consente di escludere i valori che si posizionano agli estremi della distribuzione di frequenza che possono essere significativamente differenti dal resto della distribuzione, perciò risulta spesso più efficace del campo di variazione.

20 DIFFERENZA INTERQUARTILICA 2/2
ES1. 33,3+ 5,5 =PC N. Di studenti Voto Percentuale Percentuale cumulata 30 21 33,3% primo quartile 5 25 5,5% 38,8% 35 27 38.8% 77,6% Terzo quartile 29 83,1% 15 16,6% 99,7% TOT: 90 ~100% Distanza tra valore posizionato sul 75% della distribuzione e valore posizionato sul 25% . Quindi la differenza tra 27 e 21 è 6

21 DEVIAZIONE STANDARD 1/2 è la radice della somma delle differenze di ciascun valore rispetto alla media elevato al quadrato e rapportato al numero di casi. Questo indice è in grado di indicare lo scostamento medio dei soggetti dalla media, ovvero il grado di eterogeneità o omogeneità delle risposte (quanto, mediamente, i punteggi/valori si discostano dalla media complessiva). Viene chiamata varianza quando non viene riportata sotto radice. ES1. N. Di studenti Voto 30 21 5 25 35 27 29 15 TOT: 90 MEDIA= [ (21*30)+(25*5)+(27*35)+(29*5)+(30*15) ]/ 90= ( ) /90= 2295/90= 25,5

22 DEVIAZIONE STANDARD 2/2 VARIANZA ES1. MEDIA=25, 5
N. Di studenti Voto 30 21 5 25 35 27 29 15 TOT: 90 MEDIA=25, 5 VARIANZA è uguale alla deviazione standard, senza la radice ∂= √{ [(21- 25,5)² *30] + [(25- 25,5)²*5] + [(27- 25,5)² *35]+ [(29- 25,5)² *5 ]+ [(30- 25,5)² *15 ] /90 }= √ [(20,25*30) + ( 0,25* 5) + (2,25*35)+ (12,25*5)+(20,25*15)/ 90]= √ [(607,5+1,25+ 78,75+ 61, ,75)/ 90 ] = √ (1052,5/90) = √11,69= 3,42

23 ATTENZIONE!!! Lo SQUILIBRIO Vale solo per variabili cardinali e categoriali. Il CAMPO DI VARIAZIONE Vale solo per le variabili categoriali, cardinali e ordinate. La DIFFERENZA INTERQUARTILICA E’ possibile solo per le variabili categoriali ordinate e cardinali La DEVIAZIONE STANDARDVale solo per le variabili cardinali

24 La statistica bivariata
Per verificare se una relazione tra variabili è significativa si può utilizzare il test del Chi quadro (χ2) Individua la relazione tra due variabili. Una volta individuata la presenza di una relazione occorre precisarne la natura e quindi: che direzione assume la relazione; se si tratta di relazione positiva (ovvero se al crescere di x cresce anche y); se si tratti, invece, di relazione negativa (opposta alla precedente); se si tratta di relazione simmetrica o asimmetrica; l'intensità e la forza della relazione che viene misurata attraverso specifici indici che misurano come si combina e con quale forza la variazione dei fenomeni che stiamo esaminando. 24

25 CHI QUADRO è dato dalla somma delle frequenze osservate nella realtà alle quali vengono sottratte le frequenze teoriche al quadrato e rapportate alle frequenze teoriche. Le frequenze teoriche si ottengono con i totali marginali di riga e di colonna. Per calcolarle si effettua una moltiplicazione e una divisione per ogni cella: si moltiplicano i due totali marginali corrispondenti e si divide per N (numero totale dei casi).

26 CHI QUADRO ES1. Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2
N. Di esami sostenuti Votazione media conseguita 21 25 27 30 TOT. riga Studenti scienze educazione 2 3 4 11 Studenti STPPM 1 9 TOT. COLONNA 6 5 N= 20 Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2 11*5/ 20=2,75 9*6/ 20=2,7 9*4/ 20=1,8 9*5/ 20=2,25

27 CHI QUADRO ES1. 2 3 4 1 Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2
N. Di esami sostenuti Votazione media conseguita 21 25 27 30 TOT. COLONNA Studenti scienze educazione 2 3 4 11 Studenti STPPM 1 9 TOT. RIGA 6 5 N= 20 ES1. Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2 11*5/ 20=2,75 9*6/ 20=2,7 9*4/ 20=1,8 9*5/ 20=2,25 Si sottraggono alle frequenze osservate le frequenze teoriche e si elevano al quadrato, dividendo poi il risultato per le frequenze teoriche. (2-3,3) ²= 1,69 (4-2,7) ²= 1,69 (3-2,2) ²= 0,64 (1-1,8) ²= 0,64 (2-2,75) ²= 0,56 (3-2.25) ²=0,56 (4-2,75) ²=1,56 (1-2.25) ²= 1,56

28 CHI QUADRO χ2 ES1. =0,51+0,62+0,29+0,35+0,21+0,25+0,57+0,69= 3,49
(2-3,3) ²= 1,69 / 3,3 =0,51 (4-2,7) ²= 1,69 /2,7= 0,62 (3-2,2) ²= 0,64 /2,2=0,29 (1-1,8) ²= 0,64/ 1,8= 0,35 (2-2,75) ²= 0,56/ 2,75=0,21 (3-2.25) ²=0,56/ 2.25=0,25 (4-2,75) ²=1,56/ 2,75=0,57 (1-2.25) ²= 1,56/ 2.25=0,69 χ2 =0,51+0,62+0,29+0,35+0,21+0,25+0,57+0,69= 3,49 Un χ2 superiore a zero esclude l'ipotesi nulla, ma questo non ha molto significato in quanto esiste quasi sempre (o molto spesso) una qualche differenza tra le frequenze teoriche e le frequenze assegnate.

29 CHI QUADRO ES1. Per vedere se il nostro chi quadro identifichi o meno una relazione significativa occorre calcolare i gradi di libertà che dipendono dal numero di celle contenute in una tabella. g.d.l.= (r-1) (c-1) dove g = n dei gradi di libertà r = n delle righe C = n delle colonne N. Di esami sostenuti Votazione media conseguita 21 25 27 30 TOT. RIGA Studenti scienze educazione 2 3 4 11 Studenti STPPM 1 9 TOT. COLONNA 6 5 N= 20 Nel nostro caso si avrà allora: g.d.l.= (2-1) * (4-1) =3

30 CHI QUADRO Dobbiamo adesso andare a vedere le tavole del χ2
Il livello di significatività viene solitamente stabilito a 0,05. Dobbiamo adesso andare a vedere le tavole del χ2 considerando che i nostri g.d.l. sono 3

31 CHI QUADRO

32 CHI QUADRO Con 3 gradi di libertà, il valore di 3,49 è inferiore al valore-limite previsto di 7,815 e dunque la relazione non è statisticamente significativa avendo, appunto, un χ2 non significativo.


Scaricare ppt "ANALISI E INTERPRETAZIONE DATI"

Presentazioni simili


Annunci Google