La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Analisi monovariata: valori caratteristici Spesso, per motivi di tempo o per convenienza, non si ha la possibilità di confrontare le distribuzioni di frequenze.

Presentazioni simili


Presentazione sul tema: "Analisi monovariata: valori caratteristici Spesso, per motivi di tempo o per convenienza, non si ha la possibilità di confrontare le distribuzioni di frequenze."— Transcript della presentazione:

1 Analisi monovariata: valori caratteristici Spesso, per motivi di tempo o per convenienza, non si ha la possibilità di confrontare le distribuzioni di frequenze. Per questo motivo è spesso più conveniente confrontare alcuni elementi informatici sintetici, che sintetizzano appunto alcuni aspetti della distribuzione. le caratteristiche fondamentali di una distribuzione di frequenza sono due: la tendenza centrale e la variabilità la tendenza centrale indica, genericamente, verso quale modalità della variabile i valori tendono a concentrarsi la variabilità, invece, ci informa su come i valori della variabile tendono a disperdersi lontano dai valori di tendenza centrale Per conoscere con correttezza la distribuzione di una variabile è necessario conoscere il comportamento sia della tendenza centrale sia della variabilità, altrimenti si rischia di fare degli errori di interpretazione.

2 Analisi monovariata: tendenza centrale Come già visto in precedenza, anche le misure di tendenza centrale dipendono dal tipo di variabile che si ha a disposizione Variabile nominale = moda La moda è la modalità della variabile alla quale è associata la maggiore frequenza Moda è un valore molto povero, poiché ci dice solo la modalità con la più alta frequenza e nulla più è possibile che oltre alla moda si possano individuare delle sottomode, ossia modalità diverse dalla moda ma con frequenze relativamente alte (es. modalità protestante) se è possibile individuare una sola moda, la distribuzione si definisce unimodale; se è presente una sottomoda, si definisce bimodale e così via

3 Analisi monovariata: tendenza centrale - 2 Oltre alla moda, per le variabili ordinali è possibile rilevare un altro valore caratteristico: Variabile ordinale = mediana La mediana è la modalità del caso che occupa il posto «di mezzo» nella distribuzione ordinata dei casi secondo quella variabile Se N è dispari, c’è un solo caso centrale (N+1 /2). Se N è pari, i casi centrali sono due: N/2 e N/2+1. Se entrambi i casi presentano la stessa modalità, la variabile ha una sola mediana; altrimenti le mediane sono due (se la variabile è cardinale, la mediana è uguale alla media dei valori assunti dai due casi) Se sono disponibili le frequenze cumulate, la mediana corrisponde alla modalità in corrispondenza della quale le frequenze cumulate superano la soglia del 50% Titolo di studio Freq.% % cum. Nessun titolo302,5 Lic. Elementare 50942,444,7 Lic. Media34228,573,4 Diploma26422,095,4 Laurea554,6100,0 Totale ,0 mediana

4 Analisi monovariata: tendenza centrale - 3 Oltre alla moda ed alla mediana, per le variabili cardinali è possibile rilevare un altro valore caratteristico, molto conosciuto: Variabile cardinale = media aritmetica La media è data dalla somma dei valori assunti dalla variabile su tutti i casi, divisa per il numero di casi La formula a sx è la definizione formale di media aritmetica e si legge «sommatoria di X con i, per i che va da 1 a N, fratto N» è possibile calcolare la media anche se abbiamo a disposizione solo la rappresentazione tabulare con le frequenze assolute. La formula diventa:  X i × f i N X = X 1 + X 2 +…+ X n =  X i N N N i =1 N poiché per calcolare la media sono necessarie operazioni di addizione, moltiplicazione e divisione, è possibile calcolare la media solo per le variabili cardinali

5 Analisi monovariata: tendenza centrale - 5 Esercizio 1: Ripartizione geografica% Italia Nord-occidentale22,9 Italia Nord-orientale22,5 Italia Centrale18,7 Italia Meridionale26,6 Italia Insulare9,3 Totale100,0 (N=60.000) Tipo di comune% Comuni fino a ab.12,4 Comuni con – ab.34,7 Comuni con – ab30,9 Comuni con oltre ab.22,0 Totale100,0 (N=48.664) Che tipo di variabili sono e che valori caratteristici di tendenza centrale posso calcolare?

6 Analisi monovariata: tendenza centrale - 6 Esercizio 2: N. di furti subìti% 150,0 225,0 3 Totale100,0 (N=200) Settore economico intervistato% cum. Agricoltura8,7 Attività manifatturiere27,336,0 Servizi – terziario38,774,7 Pubblica amministrazione e istruzione25,3100,0 Totale100,0 (N=46.349) Che tipo di variabili sono e che valori caratteristici di tendenza centrale posso calcolare?

7 Analisi monovariata: tendenza centrale - 4 Ricapitolando: variabili nominali = moda variabili ordinali = moda, mediana variabili cardinali = moda, mediana, media aritmetica Nel caso sia possibili calcolare tutti i valori di tendenza centrale, non è detto che questi coincidano tra loro. In genere è più opportuno utilizzare la media, poiché riflette il comportamento di tutti i valori della variabile La media, tuttavia, risente molto dei valori estremi; quindi, in caso di variabili cardinali che assumono valori molto alti o bassi rispetto alla media, è più opportuno utilizzare la mediana

8 Analisi monovariata: variabilità - 1 I valori caratteristici di tendenza centrale ci indicano il “baricentro” della distribuzione, ma non ci dicono nulla sul modo di collocarsi delle altre modalità intorno a questo baricentro XiXi YiYi X i = 21Y i = 21 Se osserviamo, ad esempio, le due distribuzioni della variabile “età” a lato, possiamo notare che esse hanno la stessa media, pari a 21, ma anche con uno sguardo “rapido” possiamo notare che le modalità sono estremamente differenti. Questa differenza viene computata attraverso i valori caratteristici di variabilità. Come per la tendenza centrale, i valori caratteristici di variabilità si differenziano a seconda del tipo di variabile sottoposta ad analisi.

9 Analisi monovariata: variabilità - 2 VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI Per una variabile nominale possiamo ipotizzare due condizioni: 1.Se tutti i casi si addensano in una sola modalità (che sarà la moda di quella variabile), avremo una situazione di scarsa variabilità, ossia di massima omogeneità (o squilibrio, o concentrazione) 2.Se tutti i casi sono, invece, equidistribuiti fra le modalità, ossia quando ogni modalità raccoglie lo stesso numero di casi, si ha una situazione di forte variabilità, quindi massima eterogeneità (o equilibrio, o dispersione) ModalitàOmogeneitàEterogeneità Ateo025 Cattolico10025 Protestante025 Buddista025 Totale100 E’ quindi necessario individuare un indice che possa sintetizzare la variabilità della distribuzione di una variabile nominale.

10 Analisi monovariata: variabilità - 3 VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI Il valore caratteristico di variabilità per le nominali è l’indice di omogeneità (O) O = p p … + p 2 k =  p 2 i i =1 k L’indice di omogeneità è dato dalla somma dei quadrati delle frequenze proporzionali (o proporzioni) L’indice assume valore massimo quando una sola proporzione assume valore 1 (ossia tutti i casi si concentrano in quella modalità) e tutte le altre hanno valore 0 (ossia nessun caso si concentra in queste modalità). Per tali motivi il valore massimo dell’indice sarà 1 Il valore minimo dell’indice dipende, invece, dal numero di modalità, ed è pari a 1/k (dove k è il numero di modalità della variabile)

11 Analisi monovariata: variabilità - 4 VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI ModalitàProp. 1Prop. 2Prop. 3 Ateo0,2500,33 Cattolico0,2510,33 Protestante0,2500,33 Buddista0,2501 Totale11 Ind. omogeneità0, , , ,25 2 = 0, = 10, , ,33 2 = 0,33 Se si confrontano le distribuzioni in colonna 1 e 3 si noterà che entrambe sono completamente omogenee (ad ogni modalità è assegnato lo stesso numero di casi), ma il risultato dell’indice di omogeneità sarà diverso: nel primo caso è uguale a 0,25 (1/4 modalità), nel secondo è pari a 0,33 (1/3 modalità). Questo perché, come abbiamo già detto, il valore minimo assunto dall’indice dipende dal numero di modalità della variabile. E’ quindi opportuno modificare l’indice affinché il suo campo di variazione sia uguale per tutte le variabili, indipendentemente dalle modalità. O – 1/k 1 – 1/k Indice di omogeneità relativa O rel Campo di variazione: 0 ÷ 1 X – V min V max - V min

12 Contatti Domingo Scisci Università di Milano-Bicocca Via Bicocca degli Arcimboldi Milano Edificio U7/II Piano Stanza 207 Telefono: Mail: Quest'opera è stata rilasciata sotto la licenza Creative Commons Attribuzione-Non commerciale-Condividi allo stesso modo 2.5 Italia. Per leggere una copia della licenza visita il sito web o spedisci una lettera a Creative Commons, 171 Second Street, Suite 300, San Francisco, California, 94105, USA.


Scaricare ppt "Analisi monovariata: valori caratteristici Spesso, per motivi di tempo o per convenienza, non si ha la possibilità di confrontare le distribuzioni di frequenze."

Presentazioni simili


Annunci Google