ANALISI E INTERPRETAZIONE DATI

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Advertisements

Il senso dei dati: Elaborazione e Interpretazione.
LA VARIABILITA’ IV lezione di Statistica Medica.
Intervalli di confidenza
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
“Teoria e metodi della ricerca sociale e organizzativa”
Variabili casuali a più dimensioni
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Analisi dei dati per i disegni ad un fattore
Descrizione dei dati Metodi di descrizione dei dati
Gli errori nell’analisi statistica
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
COSA VUOL DIRE FARE STATISTICA
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a LA STATISTICA INFERENZIALE
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Pedagogia sperimentale
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Simone Mosca & Daniele Zucchini 4Bi.
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Gli indici di dispersione
COSA VUOL DIRE FARE STATISTICA
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Accenni di analisi monovariata e bivariata
Strumenti statistici in Excell
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
Martina Serafini Martina Prandi
Esercizio 1: 1) La seguente distribuzione riporta i punteggi di ansia misurata su studenti di psicometria:
Marta Pinto Stefania Serra Valentina Paravidino
3 June Biostatistica Biostatitistica= Statistica per scienze Biostatitistica= Statistica per scienze biologiche e sanitarie. biologiche e sanitarie.
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
“Teoria e metodi della ricerca sociale e organizzativa”
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Accenni di analisi monovariata e bivariata
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Accenni di analisi monovariata e bivariata. ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
RAPPRESENTAZIONE DATI LA RAPPRESENTAZIONE PUÒ ESSERE UTILIZZATA A SCOPO DI ANALISI, INTERPRETAZIONI E COMUNICAZIONI. PER RAGGIUNGERE QUESTI OBIETTIVI È.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Implementazione.
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

ANALISI E INTERPRETAZIONE DATI

Variabili con diversi livelli di risposta ANALISI DEI DATI SE ALTA STRUTTURAZIONE BASSA O SEMI STRUTTURAZIONE SI HANNO Variabili testuali Variabili con diversi livelli di risposta

Analisi di dati ad alta strutturazione Statistica Monovariata e Bivariata si serve di Studia la variazione di una variabile per volta Studia la covariazione di due variabili

La statistica monovariata Può essere: Descrittiva descrive una data realtà educativa attraverso dei parametri quantitativi che ricavo dal campione Inferenziale inferisce parametri della popolazione a partire da quelli quantitativi del campione. Nella statistica monovariata viene utilizzata la distribuzione di frequenza cioè come si distribuiscono i casi del campione nelle categorie delle variabili 4

La distribuzione di frequenza SEMPLICE CUMULATA QUAL E’ IL VOSTRO TITOLO DI STUDIO? Risposte possibili frequenze SEMPLICE (n1; n2; n3..) CUMULATE Ni=n1+n2+…+ni elementari 30 medie 50 30+50=80 diploma 80 30+50+80=160 laurea 40 30+50+80+40=200

Distribuzione di frequenza SEMPLICE RELATIVA Distribuzione di frequenza PERCENTUALE CUMULATA QUAL E’ IL VOSTRO TITOLO DI STUDIO? Risposte possibili frequenze SEMPLICI (n. di CASI) CUMULATE Frequenze RELATIVE fi=ni/N PERCENTUALI Pi=100*fi elementari 30 0,15 15% medie 50 80 0,25 25% diploma 160 0,4 40% laurea 40 200 0,2 20%

Per vedere come si distribuiscono, complessivamente, i casi nei valori che la variabile può assumere utilizziamo gli indici di tendenza centrale e gli indici di dispersione. Servono a stabilire come e dove si addensano i dati a nostra disposizione. Sono: MEDIA MODA MEDIANA Ci permettono di misurare quanto e come si disperdono i dati. Sono: SQUILIBRIO CAMPO DI VARIAZIONE DIFFERENZA INTERQUARTILICA VARIANZA e DEVIAZIONE STANDARD

Indici di tendenza centrale

MEDIA ES 1. 8, 7, 10, 15, 13 (esami sostenuti da cinque ragazzi) È la somma dei valori assunti da tutti i casi diviso per il numero dei casi. Ha significato quando il numero dei casi è piuttosto alto. ES 1. 8, 7, 10, 15, 13 (esami sostenuti da cinque ragazzi) 8+7+10+15+13= 53 Media= 53(somma dei valori)/5 (numero dei casi) = 10,6 media degli esami sostenuti CASI ESAMI SOSTENUTI 1 8 7 10 15 13 TOTALE 5

MEDIA MEDIA= Totale esami sostenuti /Totale N. dei casi 1 8 4 7 2 10 6 15 13 TOTALE 14 MEDIA= Totale esami sostenuti /Totale N. dei casi Media ES2: [(8*1)+(7*4)+(10*2)+(15*6)+(13*1) ]/ 14= (8+28+20+90+13)/14 = 159/14= 11,35

MODA ES2. 3,7,8,7,15,13 7 è la moda perché è il valore che ricorre è la categoria con la frequenza più alta (nella quale si addensa il numero maggiore di casi), non in senso assoluto, ma relativo (non è necessario cioè che contenga il 50% dei casi, è sufficiente che sia quella con il numero maggiore di casi rispetto alle altre). ES1. 8, 7, 10, 15, 13 In questo caso la MODA non esiste ES2. 3,7,8,7,15,13 7 è la moda perché è il valore che ricorre più volte N. DI CASI VALORI 1 3 2 7 8 13 15

MEDIANA è il punto centrale delle distribuzione ordinata e divide il campione in due parti. ES1. 8, 7, 10, 15, 13 La serie deve essere disposta in ordine crescente  7,8,10,13,15 M=10 ES 2. 7, 8, 10,13 M = 4 /2 = 2 CASI ESAMI SOSTENUTI 1 7 2 8 3 10 4 13 5 15 TOTALE CASI Freq. cumulata ESAMI SOSTENUTI 1 7 2 8 3 10 4 13 TOTALE La Mediana si posiziona tra la seconda e la terza riga (seconda posizione rispetto alla frequenza cumulata), corrispondente a 9 ((10+8)/2 = 9)

MEDIANA CASI Freq. cumulata ESAMI SOSTENUTI 2 7 1 3 8 6 13 15 TOTALE ES3. M= 8/ 2= 4 La Mediana si posiziona nella terza riga (quarta posizione rispetto alla frequenza cumulata), in corrispondenza del 13 ((13+13) /2 = 13)

ATTENZIONE!!! La MODA Vale solo per variabili cardinali e categoriali e non è utilizzabile per i dati a bassa strutturazione. La MEDIANA Può essere applicata alle variabili cardinali ed alle variabili ordinate.

Indici di dispersione

LO SQUILIBRIO 1/2 È la somma delle proporzioni al quadrato per ciascuna modalità della variabile. ES1. ES. Pi=(30/90)* 100 ES. Pi=(33,3/100) N. Di studenti (casi) Voto Percentuale Trasformazioni in proporzioni rispetto all’unità Quadrato delle proporzioni 30 21 33,3% 0,33² 0,1089 5 25 5,5% 0,05² 0,0025 35 27 38.8% 0,39² 0,1521 29 15 16,6% 0,17² 0,0289 TOT: 90 ~100%

LO SQUILIBRIO 2/2 Quadrato delle proporzioni ES1. 0,1089 0,0025 0,1521 0,0289 SQUILIBRIO= 0,1089+0,0025 +0,1521+0,0025+0,0289= 0.2949 La somma dei quadrati delle proporzioni è lo squilibrio e in questo caso è 0,2949. Il massimo squilibrio possibile è 1 mentre il minimo squilibrio è 1/k, dove k è la categoria. Il minimo squilibrio lo abbiamo quando tutte le categorie hanno la stessa frequenza.

CAMPO DI VARIAZIONE ES1. Tra 30 e 21 il campo di variazione è 9 è la distanza (o l'intervallo) tra il valore minimo e il valore massimo. Questo tipo di misura ha significato quando vi è una certa uniformità di distribuzione. ES1. N. Di studenti Voto 30 21 5 25 35 27 29 15 TOT: 90 Tra 30 e 21 il campo di variazione è 9

DIFFERENZA INTERQUARTILICA 1/2 i quartili sono misure di posizione con cui dividiamo la nostra distribuzione in parti uguali pari al 25% del totale (si definisce in percentuale: 25%). I quartili dividono la popolazione in quattro parti: 25%, 50%, 75% e 100%. La differenza interquartilica è la distanza del valore posizionato sul 75% della distribuzione dal valore posizionato sul 25% della distribuzione. Consente di escludere i valori che si posizionano agli estremi della distribuzione di frequenza che possono essere significativamente differenti dal resto della distribuzione, perciò risulta spesso più efficace del campo di variazione.

DIFFERENZA INTERQUARTILICA 2/2 ES1. 33,3+ 5,5 =PC N. Di studenti Voto Percentuale Percentuale cumulata 30 21 33,3% primo quartile 5 25 5,5% 38,8% 35 27 38.8% 77,6% Terzo quartile 29 83,1% 15 16,6% 99,7% TOT: 90 ~100% Distanza tra valore posizionato sul 75% della distribuzione e valore posizionato sul 25% . Quindi la differenza tra 27 e 21 è 6

DEVIAZIONE STANDARD 1/2 è la radice della somma delle differenze di ciascun valore rispetto alla media elevato al quadrato e rapportato al numero di casi. Questo indice è in grado di indicare lo scostamento medio dei soggetti dalla media, ovvero il grado di eterogeneità o omogeneità delle risposte (quanto, mediamente, i punteggi/valori si discostano dalla media complessiva). Viene chiamata varianza quando non viene riportata sotto radice. ES1. N. Di studenti Voto 30 21 5 25 35 27 29 15 TOT: 90 MEDIA= [ (21*30)+(25*5)+(27*35)+(29*5)+(30*15) ]/ 90= (630+125+945+145+450) /90= 2295/90= 25,5

DEVIAZIONE STANDARD 2/2 VARIANZA ES1. MEDIA=25, 5 N. Di studenti Voto 30 21 5 25 35 27 29 15 TOT: 90 MEDIA=25, 5 VARIANZA è uguale alla deviazione standard, senza la radice ∂= √{ [(21- 25,5)² *30] + [(25- 25,5)²*5] + [(27- 25,5)² *35]+ [(29- 25,5)² *5 ]+ [(30- 25,5)² *15 ] /90 }= √ [(20,25*30) + ( 0,25* 5) + (2,25*35)+ (12,25*5)+(20,25*15)/ 90]= √ [(607,5+1,25+ 78,75+ 61,25+ 303,75)/ 90 ] = √ (1052,5/90) = √11,69= 3,42

ATTENZIONE!!! Lo SQUILIBRIO Vale solo per variabili cardinali e categoriali. Il CAMPO DI VARIAZIONE Vale solo per le variabili categoriali, cardinali e ordinate. La DIFFERENZA INTERQUARTILICA E’ possibile solo per le variabili categoriali ordinate e cardinali La DEVIAZIONE STANDARDVale solo per le variabili cardinali

La statistica bivariata Per verificare se una relazione tra variabili è significativa si può utilizzare il test del Chi quadro (χ2) Individua la relazione tra due variabili. Una volta individuata la presenza di una relazione occorre precisarne la natura e quindi: che direzione assume la relazione; se si tratta di relazione positiva (ovvero se al crescere di x cresce anche y); se si tratti, invece, di relazione negativa (opposta alla precedente); se si tratta di relazione simmetrica o asimmetrica; l'intensità e la forza della relazione che viene misurata attraverso specifici indici che misurano come si combina e con quale forza la variazione dei fenomeni che stiamo esaminando. 24

CHI QUADRO è dato dalla somma delle frequenze osservate nella realtà alle quali vengono sottratte le frequenze teoriche al quadrato e rapportate alle frequenze teoriche. Le frequenze teoriche si ottengono con i totali marginali di riga e di colonna. Per calcolarle si effettua una moltiplicazione e una divisione per ogni cella: si moltiplicano i due totali marginali corrispondenti e si divide per N (numero totale dei casi).

CHI QUADRO ES1. Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2 N. Di esami sostenuti Votazione media conseguita 21 25 27 30 TOT. riga Studenti scienze educazione 2 3 4 11 Studenti STPPM 1 9 TOT. COLONNA 6 5 N= 20 Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2 11*5/ 20=2,75 9*6/ 20=2,7 9*4/ 20=1,8 9*5/ 20=2,25

CHI QUADRO ES1. 2 3 4 1 Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2 N. Di esami sostenuti Votazione media conseguita 21 25 27 30 TOT. COLONNA Studenti scienze educazione 2 3 4 11 Studenti STPPM 1 9 TOT. RIGA 6 5 N= 20 ES1. Frequenze teoriche= 11*6/ 20=3,3 11*4/ 20=2,2 11*5/ 20=2,75 9*6/ 20=2,7 9*4/ 20=1,8 9*5/ 20=2,25 Si sottraggono alle frequenze osservate le frequenze teoriche e si elevano al quadrato, dividendo poi il risultato per le frequenze teoriche. (2-3,3) ²= 1,69 (4-2,7) ²= 1,69 (3-2,2) ²= 0,64 (1-1,8) ²= 0,64 (2-2,75) ²= 0,56 (3-2.25) ²=0,56 (4-2,75) ²=1,56 (1-2.25) ²= 1,56

CHI QUADRO χ2 ES1. =0,51+0,62+0,29+0,35+0,21+0,25+0,57+0,69= 3,49 (2-3,3) ²= 1,69 / 3,3 =0,51 (4-2,7) ²= 1,69 /2,7= 0,62 (3-2,2) ²= 0,64 /2,2=0,29 (1-1,8) ²= 0,64/ 1,8= 0,35 (2-2,75) ²= 0,56/ 2,75=0,21 (3-2.25) ²=0,56/ 2.25=0,25 (4-2,75) ²=1,56/ 2,75=0,57 (1-2.25) ²= 1,56/ 2.25=0,69 χ2 =0,51+0,62+0,29+0,35+0,21+0,25+0,57+0,69= 3,49 Un χ2 superiore a zero esclude l'ipotesi nulla, ma questo non ha molto significato in quanto esiste quasi sempre (o molto spesso) una qualche differenza tra le frequenze teoriche e le frequenze assegnate.

CHI QUADRO ES1. Per vedere se il nostro chi quadro identifichi o meno una relazione significativa occorre calcolare i gradi di libertà che dipendono dal numero di celle contenute in una tabella. g.d.l.= (r-1) (c-1) dove g = n dei gradi di libertà r = n delle righe C = n delle colonne N. Di esami sostenuti Votazione media conseguita 21 25 27 30 TOT. RIGA Studenti scienze educazione 2 3 4 11 Studenti STPPM 1 9 TOT. COLONNA 6 5 N= 20 Nel nostro caso si avrà allora: g.d.l.= (2-1) * (4-1) =3

CHI QUADRO Dobbiamo adesso andare a vedere le tavole del χ2 Il livello di significatività viene solitamente stabilito a 0,05. Dobbiamo adesso andare a vedere le tavole del χ2 considerando che i nostri g.d.l. sono 3

CHI QUADRO

CHI QUADRO Con 3 gradi di libertà, il valore di 3,49 è inferiore al valore-limite previsto di 7,815 e dunque la relazione non è statisticamente significativa avendo, appunto, un χ2 non significativo.