La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva

Presentazioni simili


Presentazione sul tema: "Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva"— Transcript della presentazione:

1 Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva mirta.vernice@unimib.it

2 Analisi dei dati Statistica descrittiva – Misure di tendenza centrale e di dispersione. – Frequenze/occorrenze/percentuali. Statistica inferenziale – Applicazione test statistico – Interpretazione dei risultati

3 Frequenza Cosa è? Numero di occorrenze di un certo evento nel campione. Prendiamo il foglio data_scrittura.xls

4 Frequenza cumulativa

5 somma della frequenza delle osservazioni con valore inferiore o uguale al valore considerato.

6 Pensare in termini di frequenze Per es. Quante volte vengono commessi 2, 3, …, 10 errori nel dettato nel data-set seconda elementare?

7 Distribuzione di Frequenza Partendo dalla frequenza… Una distribuzione di frequenza è un insieme di dati raccolti in un campione (Es. occorrenze di errori in seconda elementare). Una distribuzione può essere rappresentata sinteticamente mediante “numeri” (statistiche o parametri).

8 Come descriviamo una distribuzione di frequenza? Tendenza centrale Forma della distribuzione Dispersione

9 Misure di tendenza centrale Ci permettono di calcolare dove si colloca il centro di una distribuzione di frequenza.

10 Tipi di misure di tendenza centrale: Media Mediana Moda Quartili

11 La media M La somma di tutti i punteggi diviso per il numero totale delle osservazioni. È il modello statistico più semplice. Può essere influenzata dai dati più estremi di una distribuzione. Slide 11

12 Perchè? Mi dite quanti amici avete su FB?

13 Media come modello matematico Statistica ricorre a modelli matematici per rappresentare i nostri dati. La media è un valore ipotetico (i.e. può anche essere un valore che non esiste nel data-set). Ergo… Media è il più semplice modello statistico che possiamo applicare ai nostri dati.

14 Mediana Quel valore che, nella serie ordinata dei dati, si lascia alla destra il 50% delle osservazioni e alla sinistra il 50% delle osservazioni.

15 Se l’ampiezza del campione è un numero dispari, la mediana coincide con l’osservazione che occupa la posizione (n+1)/2 nella serie ordinata delle osservazioni. Se l’ampiezza del campione è un numero pari, la mediana coincide con la media dei valori corrispondenti alle due osservazioni centrali.

16 Un po’ di pratica…

17 Corrisponde alla media tra l’osservazione in posizione N/2 e l’osservazione in posizione [(N/2)+1] MEDIANA – numero osservazioni pari 38506570 40546571 41566671 42576672 42576873 43616873 44636973 45646974 45647077 48657078 (65+65)/2=65 20 21 N = 40

18 MEDIANA 87105115126 87106116127 89106117130 89108119132 93109120134 95111122135 97113123140 98114125144 Individuiamo osservazione in posizione N/2 e quella in posizione (N/2)+1 Cacoliamo media (114+115)/2=114,5 16 17

19 Moda La moda è il valore più frequente in un insieme di dati. Ma… un insieme di dati può non avere moda, se nessun valore è “più tipico”.

20 Quartili quartili sono misure che dividono i dati ordinati in quattro parti. Q 1 : valore tale che 25% osservazioni è più piccolo di Q 1, 75% delle osservazioni è più grande di Q 1. Q 3 : valore tale che 75% osservazioni è più piccolo di Q 3, 25% delle osservazioni è più grande di Q 3.

21 Misure esplorative di una distribuzione x min Q1 Mediana Q3 x max Come si distribuiscono i nostri «dati_scrittura.xls»?

22 Il box plot

23 Boxplot ‏ Mediana 25 %centile (primo quartile)‏ 75 %centile (terzo quartile)‏ Valore più alto Valore più basso

24 Forma della distribuzione Confrontiamo la media con la mediana. Se media = mediana distribuzione simmetrica. Se media < mediana asimmetria negativa (negatively skewed) media > mediana: asimmetria positiva (positively skewed)

25 Nozioni da ricordare Skewness: asimmetria dei valori rispetto alla media. Kurtosis: quanto è «a punta»/ appiattita una distribuzione? Se a punta -> curtosi positiva Se appiattita -> curtosi negativa

26 Forma della distribuzione: skewness

27 Forma della distribuzione: kurtosis

28 Quando ci può servire?

29 Item analysis Come si distribuiscono le risposte in un item di un test/esperimento. Number missing: quante persone saltano quell’item; Skewness Kurtosis

30 Tutto chiaro? Facciamo una prova…

31 Com’è questa distribuzione?

32 E questa?

33

34 Indici di dispersione

35 Varianza sintetizza la dispersione dei valori osservati attorno alla media.

36 Varianza: in questo caso? 6 osservazioni (5, 5, 5, 5, 5) Quanto sarà la media? E la varianza?

37 Varianza = 0 Caso di «Fit» perfetto: La media cattura (rappresenta) perfettamente la variabilità dei dati.

38 E qui?

39 Deviazione Standard (DS) Altrimenti definita scarto quadratico medio Radice della varianza. Radice dello «Scarto» di ogni punto dalla media/numero totale di osservazioni

40 A che serve la DS? ci aiuta a stabilire se e quanto i dati sono concentrati o dispersi intorno alla loro media. Nota bene: In alcune distribuzioni, la maggior parte dei valori osservati si trovano nell’intervallo dalla media a ± 1 DS.

41 Cosa vuol dire? Come si distribuiscono i valori osservati in termini di DS?

42 Dipende dalla distribuzione…

43 È chiara questa nozione?

44 Stessa media, diversa DS

45 Gamma Gamma (range): misura della distanza fra il valore più alto e il più basso nella distribuzione. Gamma (range) interquartile: la differenza tra il terzo e il primo quartile in un insieme di dati.

46 un limite della gamma consiste nel fatto che non tiene conto di come i dati si distribuiscono effettivamente. Per es. osservazioni estreme.

47 Cosa ci dicono le misure di dispersione? Quanto maggiori sono questi indici, tanto più sono dispersi i valori osservati; Quanto minori, tanto più sarà concentrata e omogenea la distribuzione dei valori osservati. Quindi….

48 DS ci dice quanto bene la media rappresenta la distribuzione dei nostri dati. Una DS ampia implica una situazione in cui i dati sono molto distanti dalla media. La media non è così rappresentativa della distribuzione dei nostri dati.

49 Nota bene Finora ci siamo riferiti a parametri propri di un campione; Parametri di una popolazione sono indicati con lettere greche.

50 = Media della popolazione; = Varianza;

51 Attenzione! Ulteriore misura di varianza è STANDARD ERROR ≠ Deviazione standard.

52 Distribuzione campionaria  = 10 M = 8 M = 10 M = 9 M = 11 M = 12 M = 11 M = 9 M = 10 = 10

53 Distribuzione campionaria Frequenza con cui si distribuiscono le medie dei campioni estratti da una stessa popolazione.

54 Come si distribuiscono? Frequenza Medie dei campioni

55 Standard Error Lo «scarto» (la deviazione standard) che c’è tra la media di ogni singolo campione e la media della popolazione. È una misura di quanto è rappresentativo un campione della popolazione.

56 Standard Error Deviazione standard di una distribuzione campionaria.

57 EXCEL: Principali funzioni statistiche MEDIA (num1, num2,…)‏ MEDIANA (num1, num2,…)‏ MODA (num1, num2,…)‏ DEV.ST (num1, num2,…)‏ FREQUENZA(matrice_dati; matrice_classi)‏ VAR (num1, num2,…)‏ MAX (num1, num2,…)‏ MIN (num1, num2,…)‏

58 Frequenza Frequenza cumulativa Rappresentazione grafica distribuzione di frequenza (istogrammi) Misure di Tendenza centrale Misure di Dispersione ESERCIZI - Statistica descrittiva

59 Bard


Scaricare ppt "Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva"

Presentazioni simili


Annunci Google