La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello.

Presentazioni simili


Presentazione sul tema: "Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello."— Transcript della presentazione:

1 Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello empirico è analizzabile anche tramite specifici indici. Tra questi i più usati riguardano lasimmetria della distribuzione (Skewness) e lo schiacciamento della stessa (Curtosi). Skewness Rappresenta lo spostamento del vertice della distribuzione dallasse centrale: verso sinistra per valori di Skewness positivi e verso destra in concomitanza di valori negativi. Si considera una distribuzione come perfettamente normale quando presenta un valore di 0 relativamente alla Skewness; nonostante questo alcuni autori, data la potenza dei test utilizzati per calcolarla, suggeriscono di considerare accettabili valori di asimmetria compresi tra 0,5 e -0,5 per una buona normalità e tra 1 e -1 per una quasi normalità. Curtosi La curtosi rappresenta invece lo schiacciamento della campana della distribuzione, in generale un valori di curtosi negativo indica una distribuzione più schiacciata verso il basso rispetto alla normale, che viene definita platicurtica. Un valore di curtosi positivo invece indica una distribuzione più appuntita rispetto alla normale, che viene definita leptocurtica. Indice di asimmetria di Pearson Indice di curtosi di Pearson

2 Pre Processing dei dati Modulo 1.2 D – Indici complessivi di Normalità - Fonti bibliografiche Esistono infine alcuni test statistici che consentono di valutare se la distribuzione è normale. Tra questi di particolare rilievo, anche perché proposti nei più diffusi software statistici, sono il test di Kolmogorov Smirnov ed il test di Shapiro-Wilk. Se il test statistico che viene condotto su tali indici risulta significativo si deve rifiutare lipotesi nulla che la distribuzione in oggetto sia normale.

3 Pre Processing dei dati Modulo 1.2 I quattro step precedentemente illustrati sono implementati su SPSS e raggiungibili attraverso la voce analyze della barra degli strumenti. Esempio di calcolo degli indicatori di normalità su alcune variabili relative ai punteggi ottenuti alle scale cliniche del MMPI-II, da un campione di soggetti sani. Analisi della Distribuzione Univariata - Fonti bibliografiche

4

5

6

7 Scala L

8 Scala F

9 Scala K

10 Indici di Asimmetria, Curtosi e Normalità Univariata

11 Pre Processing dei dati Modulo 1.2 I valori anomali, o Outlier, sono quei casi che in una presentano valori estremamente elevati o estremamente bassi rispetto al resto della distribuzione. Per individuare tali outlier univariati è possibile standardizzare i punteggi relativi ala variabile in esame e calcolare una distribuzione delle frequenze, solitamente si considerano come valori anomali quei punteggi che corrispondono ad un punteggio Z maggiore di 3 in valore assoluto (Tabachnick e Fidell, 1989). In ogni caso è sempre necessario considerare la distribuzione nella sua interezza, anche perchè dati infrequenti non sempre sono anche anomali. Per concludere, i valori anomali sono in grado di influenzare molti indicatori, come la media, la deviazione standard, lasimmetria e la curtosi. Essi sono in grado quindi di influenzare anche gli indici di associazione tra variabili come avviene con il coefficiente di correlazione di Pearson. Outlier Univariati - Fonti bibliografiche

12 Pre Processing dei dati Modulo 1.2 In presenza di casi anomali univariati che influenzano i risultati delle analisi è possibile utilizzare degli estimatori dei parametri che risultano meno influenzati dalla presenza ditali valori. Ad esempio, la mediana e la moda spesso possono risultare più affidabili della media. Sono inoltre disponibili alcune statistiche che risultano robuste alla presenza di tali valori, come ad esempio la media trimmed che viene calcolata eliminando il 5% dei casi con punteggi più elevati e più bassi. Outlier Univariati - Fonti bibliografiche

13 Pre Processing dei dati Modulo 1.2 Nel nostro esempio risulta opportuno, almeno per le variabili relative alla scala L ed alla scala F che non raggiungono i requisiti di normalità, esaminare in prima istanza la presenza di outlier univariati. Sebbene esista la possibilità di visualizzare i valori estremi, uno degli strumenti più funzionali a questo scopo risulta il Box Plot fornito da SPSS Visualizzazione dei valori anomali Relativamente a tre variabili Ottenute dalle scale di controllo DellMMPI-II Outlier univariati - Fonti bibliografiche

14

15

16 Analisi dei Box Plot per lindividuazione degli Outlier

17 Pre Processing dei dati Modulo 1.2 Un primo passo per raggiungere una distribuzione adeguatamente normale nei propri dati, requisito necessario alle successive analisi, risulta quello di considerare i dati anomali come errori di misurazione e/o campionamento. In questo senso, quando questi sono pochi, può essere opportuno eliminarli dallanalisi e ricalcolare gli indici di normalità. Outlier univariati - Fonti bibliografiche Eliminazione dei casi anomali individuati e confronto degli indici di normalità prima e dopo tale resezione.

18 Analisi dei Box Plot per lindividuazione degli Outlier Outlier eliminati 2 Outlier eliminati 5

19 Pre Processing dei dati Modulo Trasformazioni sui dati (Normalizzazione) - Fonti bibliografiche Al fine di rendere normale la distribuzione di una variabile, oltre alleliminazione quando possibili dei valori anomali, sono state proposte diverse tecniche. Alcune di esse agiscono senza alterare le proprietà metriche (es., il livello di misurazione) delle variabili originali, altre invece portano a modificazioni più consistenti di tali proprietà. Le prime risultano più adeguate in condizioni di Non-normalità Moderata (Valori di asimmetria e curtosi compresi tra |.5| e |1|.) Le seconde sono spesso necessarie nei casi di forte violazione della normalità (Valori di asimmetria e curtosi maggiori di |1|.)

20 Pre Processing dei dati Modulo Trasformazioni sui dati (Normalizzazione) *: Nelleffettuare le trasformazioni in caso di asimmetria negativa è necessario utilizzare una costante (k) di solito uguale a 1 + il valore più elevato presente nella distribuzione originale. Lasimmetria o semilimitazione laterale della distribuzione del carattere statistico sotto esame può essere ridotta tramite opportune trasformazioni operate direttamente sui dati. Si distinguono generalmente quattro condizioni: Asimmetria Positiva Asimmetria Negativa ModerataElevataModerataElevata Trasformazione in Reciproco X*= Nuova variabile Trasformazione Logaritmica o Radice Quadrata Trasformazione in Reciproco Trasformazione Logaritmica o Radice Quadrata

21 Pre Processing dei dati Modulo 1.2 Trasformazione logaritmica sui dati grezzi di un carattere statistico distribuito in maniera quesi-normale, presentando una non-normalità moderata ed una semilimitazione a sinistra. Esempio di trasformazione dei dati Da esempio precedente per Scale L e F Riduzione di una asimmetria moderata positiva Trasformazioni sui dati - Fonti bibliografiche

22

23

24

25

26

27 Distribuzioni Grezze, con valori anomali e dati non trasformati Distribuzioni dopo eliminazione dei dati anomali e trasformazione logaritmica del punteggio. Asimmetria positiva Moderata Outliers Outliers

28 Pre Processing dei dati Modulo Analisi della Linearità della relazione - Fonti bibliografiche Molte analisi statistiche richiedono, oltre alla normalità della distribuzione del carattere statistico sotto indagine, che le relazione tra i punteggi siano di tipo lineare. Se la relazione tra due variabili X e Y è lineare, allora la variazione nei punteggi in Y attesa in concomitantanza di una variazione nei punteggi di X è costante per tutti i valori di X. Spesso la non linearità della relazione tra due variabili e la non normalità delle distribuzioni delle stesse sono fenomeni collegati. Spesso i tentativi di normalizzare la distribuzione di un carattere statistico sotto esame tendono a provocare una linearizzazione delle relazioni che il carattere ha con le altre variabili. La linearità può essere rilevata tramite il diagramma di dispersione (Scatterplot) che rappresenta le distribuzioni congiunte delle due variabili.

29 Pre Processing dei dati Modulo 1.2 Esempio di analisi della linearità della relazione tra due variabili, produzione dello Scatterplot Creazione ed analisi dello Scatterplot - Fonti bibliografiche

30

31

32

33

34 Pre Processing dei dati Modulo 1.2 La distribuzione normale multivariata rappresenta una generalizzazione della normale univariata quando il numero di variabili che vengono prese in considerazione è maggiore di 1. Considerando il caso di due variabili X e Y, se le distribuzioni dei valori di Y per ogni valore dato di X sono di forma normale, e si verifica anche il contrario, allora la distribuzione congiunta di X e Y viene definita normale bivariata. La distribuzione normale bivariata risulta essere una condizione particolarmente desiderabile almeno per due motivi: A- Questa distribuzione ha la proprietà di rendere la regressione di Y su X lineare. B- Essa determina che gli scarti quadratici delle Y per ciascuna X siano effettivamente identici (Omoschedasticità). Normalità Multivariata - Fonti bibliografiche

35 Pre Processing dei dati Modulo 1.2 Se abbiamo più di due variabili, luniverso determinato dalle loro distribuzioni congiunte rappresenterà una situazione più complicata, e difficilmente rappresentabile a livello grafico. Si parlerà in questo caso di Normalità Multivariata in riferimento alla assunzione che riguarda linsieme delle variabili che vengono considerate in analisi. Se consideriamo un insieme di p variabili, la distribuzione multivariata delle p variabili è normale se: -Tutte le distribuzioni univariate sono normali, -Le distribuzioni congiunte di tutte le coppie di variabili sono normali, -Tutte le combinazioni lineari delle variabili sono normali. La normalità multivariata è una proprietà particolarmente rilevante. Infatti se essa viene rispettata le relazioni tra le variabili considerate sono sicuramente lineari, ed i modelli di analisi preposti a valutare gli indici di associazione, di conseguenza, affidabili. Normalità Multivariata - Fonti bibliografiche

36 Pre Processing dei dati Modulo 1.2 Si definisce innanzi tutto la distanza generalizzata o distanza di Mahalanobis (D i 2 ) come la distanza del vettore dei punteggi di un soggetto (X i ) dal centroide del campione (X m ), ponderata per la covarianza tra le varibili. Normalità Multivariata - Fonti bibliografiche La distanza di Mahalanobis può essere utilizzata per diagnosticare la presenza di outlier, o valori anomali, multivariati. Questi rappresentano combinazioni di punteggi delle singole variabili che risultano particolarmente strani, appunto anomali rispetto al resto dei valori delle variabili. Non si tratta quindi di casi che necessariamente presentano valori estremi su una o più variabili. Distanza di Mahalanobis

37 Se la distribuzione delle variabili è normale multivariata e il numero dei casi meno il numero delle variabili è maggiore di 25, allora i valori della distanza generalizzata seguono la distribuzione del chi quadrato. Di fatto si può sfruttare questa proprietà per costruire un test di normalità multivariata nel modo seguente: A- Si ordinano i valori D i 2 per ogni soggetto dal più basso al più alto. B- Si calcola per ogni D i 2 il corrispondente punteggio percentile nella distribuzione χ 2. C- Si costruisce il grafico dei due valori di punteggi D i 2 e χ 2 (Q-Q Plot), se la distribuzione è normale multivariata le due serie di punteggi formano un grafico che ha un andamento lineare. Pre Processing dei dati Modulo 1.2 Normalità Multivariata - Fonti bibliografiche Q-Q Plot

38 Per esaminare lipotesi di normalità multivariata Mardia (1970) ha sviluppato dei coefficienti di curtosi e di asimmetria multivariata. Se la distribuzione delle p variabili è normale multivariata, e se il campione è sufficientemente ampio (almeno 50 soggetti*) il coefficiente di curtosi multivariata di Mardia dovrebbe essere minore o uguale a p(p+2). Tramite i valori della distanza di Mahalanobis è possibile calcolare questo coefficiente nel modo seguente: Pre Processing dei dati Modulo 1.2 Normalità Multivariata - Seber, 1984 Coefficinte di Curtosi Multivariata di Mardia

39 Pre Processing dei dati Modulo 1.2 Calcolo delle distanze di Mahalanobis e produzione del Q-Q plot per il test di normalità multivariata. Calcolo del coefficiente di curtosi di Mardia. Normalità Multivariata - Fonti bibliografiche Dopo aver in precedenza testato la normalità delle distribuzioni delle scala L, F e K, si testa lipotesi di normalità multivariata della distribuzione congiunta delle tre variabili.

40

41

42

43 Pre Processing dei dati Modulo Il Q-Q plot per la verifica della normalità bivariata - Fonti bibliografiche

44 Pre Processing dei dati Modulo Il Q-Q plot per la verifica della normalità bivariata - Fonti bibliografiche

45 Pre Processing dei dati Modulo 1.2 Rif. Outliers multivariati - Outliers Multivariati - Fonti bibliografiche

46 Pre Processing dei dati Modulo Outliers Multivariati - Fonti bibliografiche

47 Pre Processing dei dati Modulo Multicollinearità - Fonti bibliografiche

48 Pre Processing dei dati Modulo Multicollinearità - Fonti bibliografiche

49


Scaricare ppt "Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi - Fonti bibliografiche La forma della distribuzione di frequenza ottenuta a livello."

Presentazioni simili


Annunci Google