Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
Analisi dei dati Statistica descrittiva – Misure di tendenza centrale e di dispersione. – Frequenze/occorrenze/percentuali. Statistica inferenziale – Applicazione test statistico – Interpretazione dei risultati
Frequenza Cosa è? Numero di occorrenze di un certo evento nel campione. Prendiamo il foglio data_scrittura.xls
Frequenza cumulativa
somma della frequenza delle osservazioni con valore inferiore o uguale al valore considerato.
Pensare in termini di frequenze Per es. Quante volte vengono commessi 2, 3, …, 10 errori nel dettato nel data-set seconda elementare?
Distribuzione di Frequenza Partendo dalla frequenza… Una distribuzione di frequenza è un insieme di dati raccolti in un campione (Es. occorrenze di errori in seconda elementare). Una distribuzione può essere rappresentata sinteticamente mediante “numeri” (statistiche o parametri).
Come descriviamo una distribuzione di frequenza? Tendenza centrale Forma della distribuzione Dispersione
Misure di tendenza centrale Ci permettono di calcolare dove si colloca il centro di una distribuzione di frequenza.
Tipi di misure di tendenza centrale: Media Mediana Moda Quartili
La media M La somma di tutti i punteggi diviso per il numero totale delle osservazioni. È il modello statistico più semplice. Può essere influenzata dai dati più estremi di una distribuzione. Slide 11
Perchè? Mi dite quanti amici avete su FB?
Media come modello matematico Statistica ricorre a modelli matematici per rappresentare i nostri dati. La media è un valore ipotetico (i.e. può anche essere un valore che non esiste nel data-set). Ergo… Media è il più semplice modello statistico che possiamo applicare ai nostri dati.
Mediana Quel valore che, nella serie ordinata dei dati, si lascia alla destra il 50% delle osservazioni e alla sinistra il 50% delle osservazioni.
Se l’ampiezza del campione è un numero dispari, la mediana coincide con l’osservazione che occupa la posizione (n+1)/2 nella serie ordinata delle osservazioni. Se l’ampiezza del campione è un numero pari, la mediana coincide con la media dei valori corrispondenti alle due osservazioni centrali.
Un po’ di pratica…
Corrisponde alla media tra l’osservazione in posizione N/2 e l’osservazione in posizione [(N/2)+1] MEDIANA – numero osservazioni pari (65+65)/2= N = 40
MEDIANA Individuiamo osservazione in posizione N/2 e quella in posizione (N/2)+1 Cacoliamo media ( )/2=114,
Moda La moda è il valore più frequente in un insieme di dati. Ma… un insieme di dati può non avere moda, se nessun valore è “più tipico”.
Quartili quartili sono misure che dividono i dati ordinati in quattro parti. Q 1 : valore tale che 25% osservazioni è più piccolo di Q 1, 75% delle osservazioni è più grande di Q 1. Q 3 : valore tale che 75% osservazioni è più piccolo di Q 3, 25% delle osservazioni è più grande di Q 3.
Misure esplorative di una distribuzione x min Q1 Mediana Q3 x max Come si distribuiscono i nostri «dati_scrittura.xls»?
Il box plot
Boxplot Mediana 25 %centile (primo quartile) 75 %centile (terzo quartile) Valore più alto Valore più basso
Forma della distribuzione Confrontiamo la media con la mediana. Se media = mediana distribuzione simmetrica. Se media < mediana asimmetria negativa (negatively skewed) media > mediana: asimmetria positiva (positively skewed)
Nozioni da ricordare Skewness: asimmetria dei valori rispetto alla media. Kurtosis: quanto è «a punta»/ appiattita una distribuzione? Se a punta -> curtosi positiva Se appiattita -> curtosi negativa
Forma della distribuzione: skewness
Forma della distribuzione: kurtosis
Quando ci può servire?
Item analysis Come si distribuiscono le risposte in un item di un test/esperimento. Number missing: quante persone saltano quell’item; Skewness Kurtosis
Tutto chiaro? Facciamo una prova…
Com’è questa distribuzione?
E questa?
Indici di dispersione
Varianza sintetizza la dispersione dei valori osservati attorno alla media.
Varianza: in questo caso? 6 osservazioni (5, 5, 5, 5, 5) Quanto sarà la media? E la varianza?
Varianza = 0 Caso di «Fit» perfetto: La media cattura (rappresenta) perfettamente la variabilità dei dati.
E qui?
Deviazione Standard (DS) Altrimenti definita scarto quadratico medio Radice della varianza. Radice dello «Scarto» di ogni punto dalla media/numero totale di osservazioni
A che serve la DS? ci aiuta a stabilire se e quanto i dati sono concentrati o dispersi intorno alla loro media. Nota bene: In alcune distribuzioni, la maggior parte dei valori osservati si trovano nell’intervallo dalla media a ± 1 DS.
Cosa vuol dire? Come si distribuiscono i valori osservati in termini di DS?
Dipende dalla distribuzione…
È chiara questa nozione?
Stessa media, diversa DS
Gamma Gamma (range): misura della distanza fra il valore più alto e il più basso nella distribuzione. Gamma (range) interquartile: la differenza tra il terzo e il primo quartile in un insieme di dati.
un limite della gamma consiste nel fatto che non tiene conto di come i dati si distribuiscono effettivamente. Per es. osservazioni estreme.
Cosa ci dicono le misure di dispersione? Quanto maggiori sono questi indici, tanto più sono dispersi i valori osservati; Quanto minori, tanto più sarà concentrata e omogenea la distribuzione dei valori osservati. Quindi….
DS ci dice quanto bene la media rappresenta la distribuzione dei nostri dati. Una DS ampia implica una situazione in cui i dati sono molto distanti dalla media. La media non è così rappresentativa della distribuzione dei nostri dati.
Nota bene Finora ci siamo riferiti a parametri propri di un campione; Parametri di una popolazione sono indicati con lettere greche.
= Media della popolazione; = Varianza;
Attenzione! Ulteriore misura di varianza è STANDARD ERROR ≠ Deviazione standard.
Distribuzione campionaria = 10 M = 8 M = 10 M = 9 M = 11 M = 12 M = 11 M = 9 M = 10 = 10
Distribuzione campionaria Frequenza con cui si distribuiscono le medie dei campioni estratti da una stessa popolazione.
Come si distribuiscono? Frequenza Medie dei campioni
Standard Error Lo «scarto» (la deviazione standard) che c’è tra la media di ogni singolo campione e la media della popolazione. È una misura di quanto è rappresentativo un campione della popolazione.
Standard Error Deviazione standard di una distribuzione campionaria.
EXCEL: Principali funzioni statistiche MEDIA (num1, num2,…) MEDIANA (num1, num2,…) MODA (num1, num2,…) DEV.ST (num1, num2,…) FREQUENZA(matrice_dati; matrice_classi) VAR (num1, num2,…) MAX (num1, num2,…) MIN (num1, num2,…)
Frequenza Frequenza cumulativa Rappresentazione grafica distribuzione di frequenza (istogrammi) Misure di Tendenza centrale Misure di Dispersione ESERCIZI - Statistica descrittiva
Bard