Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Il senso dei dati: Elaborazione e Interpretazione.
____________________
QUANTILI.
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
STATISTICA DESCRITTIVA
“Teoria e metodi della ricerca sociale e organizzativa”
Le misure di tendenza centrale informano sul centro della distribuzione 4 - Le medie a.a Le medie a.a
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
Analisi preliminari dei dati
Descrizione dei dati Metodi di descrizione dei dati
Progetto Pilota 2 Lettura e interpretazione dei risultati
Elementi di STATISTICA DESCRITTIVA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Analisi Univariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°3.
Questionario - Analisi Univariata e Bivariata
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
Statistica descrittiva
STATISTICA DESCRITTIVA
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Introduzione alla statistica per la ricerca Lezione I
COSA VUOL DIRE FARE STATISTICA
Misure di posizione Gli indici di posizione servono per individuare la tendenza centrale del fenomeno studiato. I più utilizzati sono: Moda Mediana Quartili,
Statistica sociale Modulo A
LEZIONI DI STATISTICA MEDICA
Misurazione Le osservazioni si esprimono in forma di misurazioni
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Pedagogia sperimentale
Statistica descrittiva
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
Esercizi riepilogativi Analisi Univariata e Bivariata Analisi Fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Simone Mosca & Daniele Zucchini 4Bi.
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
Lez. 3 - Gli Indici di VARIABILITA’
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Statistica La statistica è
Analisi Univariata & Esercizi
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Gli indici di dispersione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
COSA VUOL DIRE FARE STATISTICA
Accenni di analisi monovariata e bivariata
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi Univariata.
Elementi di statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
A.A STATISTICA E CALCOLO DELLE PROBABILITA’ Docenti: Stefania Mignani Maurizio Brizzi.
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
STATISTICA ASSISTITA Esercitazione dott.ssa Clelia Cascella.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
RAPPRESENTAZIONE DATI LA RAPPRESENTAZIONE PUÒ ESSERE UTILIZZATA A SCOPO DI ANALISI, INTERPRETAZIONI E COMUNICAZIONI. PER RAGGIUNGERE QUESTI OBIETTIVI È.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Analisi delle osservazioni
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Quantitative Market Research Set-up Protocol
Quantitative Market Research Set-up Protocol
Analisi Univariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°3.
Transcript della presentazione:

Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate

Metodi Quantitativi per Economia, Finanza e Management SUDDIVISIONE PER ESERCITAZIONI Venerdì ore 08.30 Economia e direzione d'impresa, Marketing. Venerdì ore 11.00 Amministrazione aziendale e libera professione, Banche mercati e finanza d'impresa, Management delle risorse umane.

Percorso di Analisi

Matrice dei dati

Esempio di matrice dei dati Popolazione di 20 individui N=20 Variabili rilevate su ogni unità statistica Tipologia di variabili: NUMERO DI FIGLI variabile quantitativa discreta ALTEZZA variabile quantitativa continua SESSO variabile qualitativa nominale TITOLO DI STUDIO variabile qualitativa ordinale

Statistica descrittiva univariata La statistica descrittiva univariata ha come obiettivo lo studio della distribuzione di ogni variabile, singolarmente considerata, all’interno della popolazione. Fornisce strumenti per la lettura dei fenomeni osservati di rapida ed immediata interpretazione. Distribuzioni di frequenza Misure di sintesi Misure di posizione Misure di dispersione Misure della forma della distribuzione Data Audit Errori di imputazione Dati mancanti (missing) Valori anomali (outliers) Analisi preliminari

Le distribuzioni di frequenza Per variabili qualitative e quantitative discrete Lista dei dati La distribuzione di frequenza è in grado di «compattare» la lista di dati dando un’immagine immediata e di facile lettura della distribuzione della variabile.

Le distribuzioni di frequenza Frequenza assoluta: è un primo livello di sintesi dei dati, consiste nell’associare a ciascuna categoria, o modalità, il numero di volte in cui compare nei dati Distribuzione di frequenza: insieme delle modalità e delle loro frequenze Frequenza relativa: rapporto tra la frequenza assoluta ed il numero complessivo delle osservazioni effettuate. I due tipi di frequenze vengono usati con dati qualitativi (nominali e ordinali) e quantitativi discreti. pi= ni/ N

Le distribuzioni di frequenza Rappresentazione grafica variabili qualitative: Diagr. a barre: nell’asse delle ascisse ci sono le categorie, senza un ordine preciso; in quello delle ordinate le frequenze assolute/relative corrispondenti alle diverse modalità Diagr. a torta: la circonferenza è divisa proporzionalmente alle frequenze Diagramma a barre – titolo di studio Diagramma a torta - sesso

Le distribuzioni di frequenza Rappresentazione grafica var.quantitative discrete: Diagr. delle frequenze: nell’asse delle ascisse ci sono i valori assunti dalla var. discreta (quindi ha un significato quantitativo); l’altezza delle barre è proporzionale alle frequenze relative o assolute del valore stesso Istogramma: nell’asse delle ascisse ci sono le classi degli intervalli considerati; l’asse delle ordinate rappresenta la densità di frequenza; l’area del rettangolo corrisponde alla frequenza della classe stessa. Diagramma delle frequenze – numero di figli

Le distribuzioni di frequenza esempi

Misure di sintesi Misure di posizione: Misure di dispersione: Misure di tendenza centrale: Media aritmetica Mediana Moda Misure di tendenza non centrale: Quantili di ordine p (percentili, quartili) Misure di dispersione: Campo di variazione Differenza interquantile Varianza Scarto quadratico medio Coefficiente di variazione Misure di forma della distribuzione: Skewness Kurtosis

Misure di sintesi Misure di posizione: Misure di dispersione: Misure di tendenza centrale: Media aritmetica Mediana Moda Misure di tendenza non centrale: Quantili di ordine p (percentili, quartili) Misure di dispersione: Campo di variazione Differenza interquantile Varianza Scarto quadratico medio Coefficiente di variazione Misure di forma della distribuzione: Skewness Kurtosis

Misure di Tendenza Centrale Media Mediana Moda Media Aritmetica Valore centrale delle osservazioni ordinate Valore più frequente

Media Aritmetica Media = 3 Media = 4 E’ è quel valore (non necessariamente una modalità osservata) che rileva la tendenza centrale della distribuzione E’ la misura di tendenza centrale più comune Media = somma dei valori diviso il numero di valori Influenzata da valori estremi (outlier) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Media = 3 Media = 4

Media Aritmetica

Mediana Mediana = 3 Mediana = 3 In una lista ordinata, la mediana è il valore “centrale” (50% sopra, 50% sotto) Non influenzata da valori estremi 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Mediana = 3 Mediana = 3

Moda Valore che occorre più frequentemente, cioè quella modalità della distribuzione di frequenza alla quale è associata la frequenza assoluta (o relativa) maggiore Non influenzata da valori estremi Usata sia per dati numerici che categorici Può non esserci una moda Ci può essere più di una moda 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 No Moda Moda = 9

Moda Quale è la moda della variabile “Titolo di Studio”? Quale è la moda della variabile “Sesso”?

Media, Moda & Mediana 1 2 3 4 La moda è pari a 1, è il valore che occorre più frequentemente In una lista ordinata, la mediana è il valore “centrale”, è pari a 2 1 1 1 2 2 3 4 1 2 3 4 Media = somma dei valori diviso il numero di valori = 2 (1+1+1+2+2+3+4)/7 = (1*3 + 2*2 + 3*1 + 4*1)/7 = 14/7 = 2

Misure di Tendenza Non Centrale I quantili di ordine p Il quantile di ordine p (p ∈(0,1)) è quella modalità della distribuzione che lascia prima di sé almeno il p% delle n unità statistiche indagate e dopo di sé almeno il restante (1-p)%. Quantile è il termine generico che individua una famiglia di indici di posizione, ad esempio si parla di: percentili quando p assume un valore dell’insieme {0.01;0.02;…;0.99} quartili quando p assume uno dei seguenti valori {0.25;0.50;0.75}. Si noti che la mediana (il quantile più famoso) coincide con il 50° percentile o il 2° quartile.

Misure di Tendenza Non Centrale I Quartili I Quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori 25% 25% 25% 25% Q1 Q2 Q3 Il primo quartile, Q1, è il valore per il quale 25% delle osservazioni sono minori e 75% sono maggiori di esso Q2 coincide con la mediana (50% sono minori, 50% sono maggiori) Solo 25% delle osservazioni sono maggiori del terzo quartile

Misure di Tendenza Non Centrale ESEMPIO PRINCIPALI QUANTILI: MATRICE DEI DATI: Il primo quartile, Q1, è 167, cosa significa? Il 25% delle unità statistiche che compongono il campione hanno un’altezza minore di 167 cm e il 75% un’altezza maggiore

Differenza Interquartile Box Plot Mediana (Q2) X X Q1 Q3 massimo minimo 25% 25% 25% 25% 12 30 45 57 70 Differenza Interquartile 57 – 30 = 27 INDICE DI DISPERSIONE OUTLIERS: Q1 - 1,5 * Differenza interquartile Q3 + 1,5 * Differenza interquartile

Misure di sintesi Misure di posizione: Misure di dispersione: Misure di tendenza centrale: Media aritmetica Mediana Moda Misure di tendenza non centrale: Quantili di ordine p (percentili, quartili) Misure di dispersione: Campo di variazione Differenza interquantile Varianza Scarto quadratico medio Coefficiente di variazione Misure di forma della distribuzione: Skewness Kurtosis

Misure di Variabilità Variabilità Campo di Variazione Differenza Interquartile Varianza Scarto Quadratico Medio Coefficiente di Variazione Le misure di variabilità forniscono informazioni sulla dispersione o variabilità dei valori. Stesso centro, diversa variabilità

Campo di variazione = Xmassimo – Xminimo La più semplice misura di variabilità Differenza tra il massimo e il minimo dei valori osservati: Campo di variazione = Xmassimo – Xminimo Esempio: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Campo di Variazione = 14 - 1 = 13

Campo di Variazione Ignora il modo in cui i dati sono distribuiti Sensibile agli outlier 7 8 9 10 11 12 7 8 9 10 11 12 Campo di Var. = 12 - 7 = 5 Campo di Var. = 12 - 7 = 5 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5 Campo di Var. = 5 - 1 = 4 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120 Campo di Var = 120 - 1 = 119

Differenza Interquartile Possiamo eliminare il problema degli outlier usando la differenza interquartile Elimina i valori osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati Differenza Interquartile = 3o quartile – 1o quartile IQR = Q3 – Q1

Varianza Media dei quadrati delle differenze fra ciascuna osservazione e la media Varianza della Popolazione: dove = media della popolazione N = dimensione della popolazione xi = iimo valore della variabile X

Scarto Quadratico Medio Misura di variabilità comunemente usata Mostra la variabilità rispetto alla media Ha la stessa unità di misura dei dati originali Assume valori maggiori o uguali a 0; il caso particolare SQM=0 si verifica solamente in caso di assenza di variabilità Scarto Quadratico Medio della Popolazione:

Scarto Quadratico Medio Scarto quadratico medio piccolo Scarto quadratico medio grande

Scarto Quadratico Medio Dati A Media = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 21 Dati B Media = 15.5 s = 0.926 11 12 13 14 15 16 17 18 19 20 21 Dati C Media = 15.5 s = 4.570 11 12 13 14 15 16 17 18 19 20 21

Scarto Quadratico Medio Viene calcolato usando tutti i valori nel set di dati Valori lontani dalla media hanno più peso (poichè si usa il quadrato delle deviazioni dalla media) Le stesse considerazioni valgono anche per il calcolo della Varianza

Coefficiente di Variazione Misura la variabilità relativa Sempre in percentuale (%) Mostra la variabilità relativa rispetto alla media Può essere usato per confrontare due o più set di dati misurati con unità di misura diversa Assume valori maggiori di 0 e crescenti al crescere della variabilità; ancora una volta, si avrà che CV=0 in assenza di variabilità.

Coefficiente di Variazione Azione A: Prezzo medio scorso anno = $50 Scarto Quadratico Medio = $5 Azione B: Prezzo medio scorso anno = $100 Entrambe le azioni hanno lo stesso scarto quadratico medio, ma l’azione B è meno variabile rispetto al suo prezzo

Misure di sintesi Misure di posizione: Misure di dispersione: Misure di tendenza centrale: Media aritmetica Mediana Moda Misure di tendenza non centrale: Quantili di ordine p (percentili, quartili) Misure di dispersione: Campo di variazione Differenza interquantile Varianza Scarto quadratico medio Coefficiente di variazione Misure di forma della distribuzione: Skewness Kurtosis

Forma della Distribuzione La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate, o distribuite in modo approssimativamente regolare attorno al centro.

Forma della Distribuzione La forma della distribuzione è detta asimmetrica se le osservazioni non sono distribuite in modo simmetrico rispetto al centro. Una distribuzione con asimmetria positiva (obliqua a destra) ha una coda che si estende a destra, nella direzione dei valori positivi. Una distribuzione con asimmetria negativa (obliqua a sinistra) ha una coda che si estende a sinistra, nella direzione dei valori negativi.

Misure di Forma della Distribuzione Descrive come i dati sono distribuiti Misure della forma Simmetrica o asimmetrica Obliqua a sinistra Simmetrica Obliqua a destra Media < Mediana Media = Mediana Mediana < Media

Misure di Forma della Distribuzione Skewness: indice che informa circa il grado di simmetria o asimmetria di una distribuzione. γ=0 ditribuzione simmetrica; γ<0 asimmetria negativa (mediana>media); γ>0 asimmetria positiva (mediana<media). Kurtosis: indice che permette di verificare se i dati seguono una distribuzione di tipo Normale (simmetrica). β=3 se la distribuzione è “Normale”; β<3 se la distribuzione è iponormale (rispetto alla distribuzione di una Normale ha densità di frequenza minore per valori molto distanti dalla media); β>3 se la distribuzione è ipernormale (rispetto alla distribuzione di una Normale ha densità di frequenza maggiore per i valori molto distanti dalla media).

altezza The mode displayed is the smallest of 3 modes with a count of 3.

Univariate Analysis Frequency distribution Synthesis measures Measures of location Measures of spread Measures of shape Data Audit Input errors Outliers Missing values Basic insights …

Analisi di Concentrazione Caratteri quantitativi trasferibili Un carattere è trasferibile se possiamo immaginare che un’unità possa cedere parte del carattere che possiede ad un’altra unità. Sono esempi di carattere trasferibile: reddito, fatturato, numero addetti, audience televisiva, clienti. Sono esempi di carattere non trasferibile: altezza e peso.

Analisi di Concentrazione Caratteri quantitativi trasferibili Si rilevi il reddito delle famiglie di un campione. L’analisi di concentrazione ci aiuta a ripondere alla seguente domanda: Il reddito complessivo è equidistribuito tra le famiglie oppure la maggior parte dell’ammontare complessivo del reddito è posseduto da un numero esiguo di famiglie? Vogliamo misurare il grado di concentrazione del carattere nella nostra popolazione.

Analisi di Concentrazione Per caratteri quantitativi trasferibili Equidistribuzione: Max concentrazione: Se tutte le famiglie hanno lo stesso reddito, si parla di equidistribuzione; Nel caso in cui tutto il reddito sia posseduto da una sola famiglia mentre tutte le altre hanno zero reddito, si parla di massima concentrazione.

Analisi di Concentrazione 1. Ordinare le osservazioni le unità sono ordinate dalla più povera alla più ricca 2. Calcolare le quantità: Dove Fi è la frazione, sul totale delle unità, delle i unità più povere e Qi è la frazione di ammontare del carattere, sull’ammontare complessivo, posseduto dalle i unità più povere.

20% 50% 60% 90% Analisi di Concentrazione CURVA DI CONCENTRAZIONE REDD. >=0 QI 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 FI 20% 50% 60% 90% 1