C – Indici di Asimmetria e Curtosi

Slides:

Advertisements

Presentazioni simili

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Advertisements

Il senso dei dati: Elaborazione e Interpretazione.

LA VARIABILITA’ IV lezione di Statistica Medica.

Distribuzione Normale o Curva di Gauss

Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.

Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.

Variabilità Variabilità: inevitabile fluttuazione dei fenomeni naturali, fisici, sociali ecc le indicazioni fornite dalle misure di tendenza centrale (media.

Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.

Lez. 3 - Gli Indici di VARIABILITA’

Analisi preliminari dei dati

Descrizione dei dati Metodi di descrizione dei dati

Progetto Pilota 2 Lettura e interpretazione dei risultati

Metodi Quantitativi per Economia, Finanza e Management Lezione n°5

Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.

Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.

Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)

DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)

COSA VUOL DIRE FARE STATISTICA

Processi Aleatori : Introduzione – Parte I

CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.

Analisi delle corrispondenze

Analisi dei gruppi – Cluster Analisys

Parte I (introduzione) Taratura degli strumenti (cfr: UNI 4546) Si parla di taratura in regime statico se lo strumento verrà utilizzato soltanto per misurare.

Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5

Pedagogia sperimentale

Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.

Le distribuzioni campionarie

Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.

Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.

Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,

Simone Mosca & Daniele Zucchini 4Bi.

INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA

La Variabilità e La Concentrazione

LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4

Gli indici di dispersione

La regressione II Cristina Zogmaister.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.

COSA VUOL DIRE FARE STATISTICA

La verifica d’ipotesi Docente Dott. Nappo Daniela

Accenni di analisi monovariata e bivariata

Strumenti statistici in Excell

Il residuo nella predizione

Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a

Analisi discriminante lineare - contesto

Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4

Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva

Elaborazione statistica di dati

Corso di Laurea in Scienze e tecniche psicologiche

Accenni di analisi monovariata e bivariata

ANALISI E INTERPRETAZIONE DATI

STATISTICHE DESCRITTIVE

TRATTAMENTO STATISTICO DEI DATI ANALITICI

 In questa parte del nostro lavoro andremo ad analizzare i dati relativi ai consumi delle famiglie presenti nel sito ISTAT. I comportamenti di consumo.

EPG di Metodologia della ricerca e Tecniche Multivariate dei dati A.A

STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.

L’analisi di regressione e correlazione Prof. Luigi Piemontese.

1 Cosa vuol dire fare statistica ? La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di fenomeni collettivi. “il profitto.

1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribuzione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.

INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.

Analisi delle osservazioni

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Gli Indici di VARIABILITA’

1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.

Transcript della presentazione:

C – Indici di Asimmetria e Curtosi Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi La forma della distribuzione di frequenza ottenuta a livello empirico è analizzabile anche tramite specifici indici. Tra questi i più usati riguardano l’asimmetria della distribuzione (Skewness) e lo schiacciamento della stessa (Curtosi). Skewness Rappresenta lo spostamento del vertice della distribuzione dall’asse centrale: verso sinistra per valori di Skewness positivi e verso destra in concomitanza di valori negativi. Si considera una distribuzione come perfettamente normale quando presenta un valore di 0 relativamente alla Skewness; nonostante questo alcuni autori, data la potenza dei test utilizzati per calcolarla, suggeriscono di considerare accettabili valori di asimmetria compresi tra 0,5 e -0,5 per una buona normalità e tra 1 e -1 per una quasi normalità. Curtosi La curtosi rappresenta invece lo schiacciamento della campana della distribuzione, in generale un valori di curtosi negativo indica una distribuzione “più schiacciata” verso il basso rispetto alla normale, che viene definita platicurtica. Un valore di curtosi positivo invece indica una distribuzione “più appuntita” rispetto alla normale, che viene definita leptocurtica. Indice di curtosi di Pearson Indice di asimmetria di Pearson - Fonti bibliografiche

D – Indici complessivi di Normalità Pre Processing dei dati Modulo 1.2 D – Indici complessivi di Normalità Esistono infine alcuni test statistici che consentono di valutare se la distribuzione è normale. Tra questi di particolare rilievo, anche perché proposti nei più diffusi software statistici, sono il test di Kolmogorov Smirnov ed il test di Shapiro-Wilk. Se il test statistico che viene condotto su tali indici risulta significativo si deve rifiutare l’ipotesi nulla che la distribuzione in oggetto sia normale. - Fonti bibliografiche

Analisi della Distribuzione Univariata Pre Processing dei dati Modulo 1.2 Analisi della Distribuzione Univariata I quattro step precedentemente illustrati sono implementati su SPSS e raggiungibili attraverso la voce analyze della barra degli strumenti. Esempio di calcolo degli indicatori di normalità su alcune variabili relative ai punteggi ottenuti alle scale cliniche del MMPI-II, da un campione di soggetti sani. - Fonti bibliografiche

Scala L

Scala F

Scala K

Indici di Asimmetria, Curtosi e Normalità Univariata

Pre Processing dei dati Modulo 1.2 Outlier Univariati I valori anomali, o Outlier, sono quei casi che in una presentano valori estremamente elevati o estremamente bassi rispetto al resto della distribuzione. Per individuare tali outlier univariati è possibile standardizzare i punteggi relativi ala variabile in esame e calcolare una distribuzione delle frequenze, solitamente si considerano come valori anomali quei punteggi che corrispondono ad un punteggio Z maggiore di 3 in valore assoluto (Tabachnick e Fidell, 1989). In ogni caso è sempre necessario considerare la distribuzione nella sua interezza, anche perchè dati infrequenti non sempre sono anche “anomali”. Per concludere, i valori anomali sono in grado di influenzare molti indicatori, come la media, la deviazione standard, l’asimmetria e la curtosi. Essi sono in grado quindi di influenzare anche gli indici di associazione tra variabili come avviene con il coefficiente di correlazione di Pearson. - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Outlier Univariati In presenza di casi anomali univariati che influenzano i risultati delle analisi è possibile utilizzare degli estimatori dei parametri che risultano meno influenzati dalla presenza ditali valori. Ad esempio, la mediana e la moda spesso possono risultare più affidabili della media. Sono inoltre disponibili alcune statistiche che risultano “robuste” alla presenza di tali valori, come ad esempio la media trimmed che viene calcolata eliminando il 5% dei casi con punteggi più elevati e più bassi. - Fonti bibliografiche

Visualizzazione dei valori anomali Relativamente a tre variabili Pre Processing dei dati Modulo 1.2 Outlier univariati Nel nostro esempio risulta opportuno, almeno per le variabili relative alla scala L ed alla scala F che non raggiungono i requisiti di normalità, esaminare in prima istanza la presenza di outlier univariati. Sebbene esista la possibilità di visualizzare i valori estremi, uno degli strumenti più funzionali a questo scopo risulta il Box Plot fornito da SPSS Visualizzazione dei valori anomali Relativamente a tre variabili Ottenute dalle scale di controllo Dell’MMPI-II - Fonti bibliografiche

Analisi dei Box Plot per l’individuazione degli Outlier

Pre Processing dei dati Modulo 1.2 Outlier univariati Un primo passo per raggiungere una distribuzione adeguatamente normale nei propri dati, requisito necessario alle successive analisi, risulta quello di considerare i dati anomali come errori di misurazione e/o campionamento. In questo senso, quando questi sono pochi, può essere opportuno eliminarli dall’analisi e ricalcolare gli indici di normalità. Eliminazione dei casi anomali individuati e confronto degli indici di normalità prima e dopo tale resezione. - Fonti bibliografiche

Analisi dei Box Plot per l’individuazione degli Outlier Outlier eliminati 2 Outlier eliminati 5

Trasformazioni sui dati (Normalizzazione) Pre Processing dei dati Modulo 1.2 Trasformazioni sui dati (Normalizzazione) Al fine di rendere normale la distribuzione di una variabile, oltre all’eliminazione quando possibili dei valori anomali, sono state proposte diverse tecniche. Alcune di esse agiscono senza alterare le proprietà metriche (es., il livello di misurazione) delle variabili originali, altre invece portano a modificazioni più consistenti di tali proprietà. Le prime risultano più adeguate in condizioni di Non-normalità “Moderata” (Valori di asimmetria e curtosi compresi tra |.5| e |1|.) Le seconde sono spesso necessarie nei casi di forte violazione della normalità (Valori di asimmetria e curtosi maggiori di |1|.) - - Fonti bibliografiche

Trasformazioni sui dati (Normalizzazione) Pre Processing dei dati Modulo 1.2 Trasformazioni sui dati (Normalizzazione) L’asimmetria o semilimitazione laterale della distribuzione del carattere statistico sotto esame può essere ridotta tramite opportune trasformazioni operate direttamente sui dati. Si distinguono generalmente quattro condizioni: - Asimmetria Positiva Asimmetria Negativa Moderata Elevata Moderata Elevata Trasformazione Logaritmica o Radice Quadrata Trasformazione Logaritmica o Radice Quadrata Trasformazione in Reciproco Trasformazione in Reciproco X*= Nuova variabile *: Nell’effettuare le trasformazioni in caso di asimmetria negativa è necessario utilizzare una costante (k) di solito uguale a 1 + il valore più elevato presente nella distribuzione originale.

Trasformazioni sui dati Pre Processing dei dati Modulo 1.2 Trasformazioni sui dati Trasformazione logaritmica sui dati grezzi di un carattere statistico distribuito in maniera quesi-normale, presentando una non-normalità moderata ed una semilimitazione a sinistra. Esempio di trasformazione dei dati Da esempio precedente per Scale L e F Riduzione di una asimmetria moderata positiva - Fonti bibliografiche

Distribuzioni Grezze, con valori anomali e dati non trasformati Asimmetria positiva Moderata Asimmetria positiva Moderata Outliers Outliers Distribuzioni dopo eliminazione dei dati anomali e trasformazione logaritmica del punteggio.

Analisi della “Linearità della relazione” Pre Processing dei dati Modulo 1.2 Analisi della “Linearità della relazione” Molte analisi statistiche richiedono, oltre alla normalità della distribuzione del carattere statistico sotto indagine, che le relazione tra i punteggi siano di tipo lineare. Se la relazione tra due variabili X e Y è lineare, allora la variazione nei punteggi in Y attesa in concomitantanza di una variazione nei punteggi di X è costante per tutti i valori di X. Spesso la non linearità della relazione tra due variabili e la non normalità delle distribuzioni delle stesse sono fenomeni collegati. Spesso i tentativi di “normalizzare” la distribuzione di un carattere statistico sotto esame tendono a provocare una “linearizzazione” delle relazioni che il carattere ha con le altre variabili. La linearità può essere rilevata tramite il diagramma di dispersione (Scatterplot) che rappresenta le distribuzioni congiunte delle due variabili. - - Fonti bibliografiche

Creazione ed analisi dello Scatterplot Pre Processing dei dati Modulo 1.2 Creazione ed analisi dello Scatterplot Esempio di analisi della linearità della relazione tra due variabili, produzione dello Scatterplot - Fonti bibliografiche

Normalità Multivariata Pre Processing dei dati Modulo 1.2 Normalità Multivariata La distribuzione normale multivariata rappresenta una generalizzazione della normale univariata quando il numero di variabili che vengono prese in considerazione è maggiore di 1. Considerando il caso di due variabili X e Y, se le distribuzioni dei valori di Y per ogni valore dato di X sono di forma normale, e si verifica anche il contrario, allora la distribuzione congiunta di X e Y viene definita normale bivariata. La distribuzione normale bivariata risulta essere una condizione particolarmente desiderabile almeno per due motivi: A- Questa distribuzione ha la proprietà di rendere la regressione di Y su X lineare. B- Essa determina che gli scarti quadratici delle Y per ciascuna X siano effettivamente identici (Omoschedasticità). - Fonti bibliografiche

Normalità Multivariata Pre Processing dei dati Modulo 1.2 Normalità Multivariata Se abbiamo più di due variabili, l’universo determinato dalle loro distribuzioni congiunte rappresenterà una situazione più complicata, e difficilmente rappresentabile a livello grafico. Si parlerà in questo caso di Normalità Multivariata in riferimento alla assunzione che riguarda l’insieme delle variabili che vengono considerate in analisi. Se consideriamo un insieme di p variabili, la distribuzione multivariata delle p variabili è normale se: Tutte le distribuzioni univariate sono normali, Le distribuzioni congiunte di tutte le coppie di variabili sono normali, Tutte le combinazioni lineari delle variabili sono normali. La normalità multivariata è una proprietà particolarmente rilevante. Infatti se essa viene rispettata le relazioni tra le variabili considerate sono sicuramente lineari, ed i modelli di analisi preposti a valutare gli indici di associazione, di conseguenza, affidabili. - Fonti bibliografiche

Normalità Multivariata Pre Processing dei dati Modulo 1.2 Normalità Multivariata Distanza di Mahalanobis Si definisce innanzi tutto la distanza generalizzata o distanza di Mahalanobis (Di2) come la distanza del vettore dei punteggi di un soggetto (Xi) dal centroide del campione (Xm), ponderata per la covarianza tra le varibili. La distanza di Mahalanobis può essere utilizzata per diagnosticare la presenza di outlier, o valori anomali, multivariati. Questi rappresentano combinazioni di punteggi delle singole variabili che risultano particolarmente “strani”, appunto “anomali” rispetto al resto dei valori delle variabili. Non si tratta quindi di casi che necessariamente presentano valori estremi su una o più variabili. - Fonti bibliografiche

Normalità Multivariata Pre Processing dei dati Modulo 1.2 Normalità Multivariata Q-Q Plot Se la distribuzione delle variabili è normale multivariata e il numero dei casi meno il numero delle variabili è maggiore di 25, allora i valori della distanza generalizzata seguono la distribuzione del chi quadrato. Di fatto si può sfruttare questa proprietà per costruire un test di normalità multivariata nel modo seguente: A- Si ordinano i valori Di2 per ogni soggetto dal più basso al più alto. B- Si calcola per ogni Di2 il corrispondente punteggio percentile nella distribuzione χ2. C- Si costruisce il grafico dei due valori di punteggi Di2 e χ2 (Q-Q Plot), se la distribuzione è normale multivariata le due serie di punteggi formano un grafico che ha un andamento lineare. - Fonti bibliografiche

Normalità Multivariata Pre Processing dei dati Modulo 1.2 Normalità Multivariata Coefficinte di Curtosi Multivariata di Mardia Per esaminare l’ipotesi di normalità multivariata Mardia (1970) ha sviluppato dei coefficienti di curtosi e di asimmetria multivariata. Se la distribuzione delle p variabili è normale multivariata, e se il campione è sufficientemente ampio (almeno 50 soggetti*) il coefficiente di curtosi multivariata di Mardia dovrebbe essere minore o uguale a p(p+2). Tramite i valori della distanza di Mahalanobis è possibile calcolare questo coefficiente nel modo seguente: - Seber, 1984

Normalità Multivariata Calcolo del coefficiente di curtosi di Mardia. Pre Processing dei dati Modulo 1.2 Normalità Multivariata Calcolo delle distanze di Mahalanobis e produzione del Q-Q plot per il test di normalità multivariata. Calcolo del coefficiente di curtosi di Mardia. Dopo aver in precedenza testato la normalità delle distribuzioni delle scala L, F e K, si testa l’ipotesi di normalità multivariata della distribuzione congiunta delle tre variabili. - Fonti bibliografiche

Il Q-Q plot per la verifica della normalità bivariata Pre Processing dei dati Modulo 1.2 Il Q-Q plot per la verifica della normalità bivariata - - Fonti bibliografiche

Il Q-Q plot per la verifica della normalità bivariata Pre Processing dei dati Modulo 1.2 Il Q-Q plot per la verifica della normalità bivariata - - - - Fonti bibliografiche

Outliers Multivariati Pre Processing dei dati Modulo 1.2 Outliers Multivariati Rif. Outliers multivariati - - Fonti bibliografiche

Outliers Multivariati Pre Processing dei dati Modulo 1.2 Outliers Multivariati - - - - Fonti bibliografiche

Multicollinearità - Pre Processing dei dati Modulo 1.2 - Fonti bibliografiche

- Multicollinearità - - Pre Processing dei dati Modulo 1.2 - Fonti bibliografiche