Questionario - Analisi Univariata e Bivariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°3
Questionario Per redigere un questionario è necessario tener presenti i seguenti punti: ogni questionario somministrato deve avere un codice identificativo univoco solo domande chiuse (cioè con un insieme di modalità definite) sono ammesse le domande a risposta multipla raccogliere informazioni di carattere quantitativo (necessario per costruire modelli statistici consistenti) tipologia dei dati strutturali (che descrivono l’intervistato, ad esempio l’età) di indagine
Questionario - Step La raccolta -tramite questionario- di dati utili per effettuare analisi statistiche procede attraverso i seguenti step: Predisporre il questionario Sottoporre i questionari agli intervistati (NB: ad ogni intervistato deve corrispondere un codice univoco che identifica il questionario da lui compilatotenere traccia di questi codici!) Per ogni domanda definire un’opportuna (qualitativa o quantitativa) variabile statistica, che assume come valori le possibili risposte alla domanda Inserire in un foglio excel i dati raccolti: ogni riga corrisponde ad un singolo intervistato/questionario compilato e ci saranno una (nel caso di domande a risposta singola) o più (nel caso di domande a risposta multipla) colonne che corrispondono alle singole domande del questionario. Nella generica cella corrispondente all’incrocio della riga “i” e della colona “j” ci sarà dunque il “valore” della risposta dell’individuo “i” alla domanda “j”.
Dal questionario al Data Set Costruire la variabile n_questionario che associa un codice univoco ad ogni intervistato. Identificare ogni variabile con un nome facilmente riconducibile alla domanda corrispondente (ad esempio la domanda n°1 corrisponde alla variabile D_1). Nel caso di domande a risposte multiple andranno create un numero di variabili dicotomiche (0/1) pari al numero di modalità definite nella risposta. Data Entry: controllo correttezza dei dati inseriti e analisi delle distribuzioni delle variabili (con valenza di controllo e valenza interpretativa).
Esempio domanda – variabile qualitativa ordinale Su una scala da 1 a 9 (con 1 = per nulla e 9 = moltissimo) quanto ritiene importante comunicare e relazionarsi con le altre persone nella sua vita quotidiana? R: 8 n_questionario … D_1 125 …. 8
Esempio domanda – variabile quantitativa 2. Mediamente, quante ore al giorno utilizza il cellulare? 1) 15 minuti 2) 30 minuti 3) 1 ora 4) 2 ore 5) 3 ore 6) 4 ore 7) 5 ore 8) 6 ore 9) … R: 3 ore ; R: 10 ore n_questionario … D_1 D_2 125 …. 8 3 34 10
Esempio domanda – variabile qualitativa nominale 10. Perché non utilizza un telefono cellulare? 1) Non mi interessano i telefoni cellulari NO INTERESSE 2) Possiedo altri mezzi di comunicazione e sono già soddisfatto così ALTRI MEZZI 3) Mi piacerebbe ma sento che lo troverei difficile da utilizzareDIFFICILE 4) Sarei interessato, ma non abbastanza da sostenere il costo d’acquisto COSTO 5) Altro ALTRO R: 1 ; R: 4 n_questionario … D_1 D_2 D_10 125 …. 8 3 NO INTERESSE 34 10 COSTO
Esempio domanda – variabile qualitativa nominale 12. Qual è la tecnologia del suo telefono cellulare principale? (possibile fornire 1 sola risposta) 1) Gsm 2) Umts 3) Palmare 4) Non so R: Gsm n_questionario … D_1 D_2 D_12 125 …. 8 3 Gsm 34 10
Esempio domanda – variabile quantitativa 14. Ogni quanto cambia il suo telefono cellulare? (esprimere la risposta in mesi) R: 18 n_questionario … D_1 D_2 D_12 D_14 125 …. 8 3 Gsm 18 34 10
Domande a risposte multiple 17. Per quale motivo utilizza il telefono cellulare? (possibile fornire massimo 3 risposte) 1) Lavoro 2) Studio 3) Comunicare con famigliari 4) Comunicare con il partner 5) Piacere/tempo libero 6) Altro D_17_1 D_17_2 D_17_3 D_17_4 D_17_5 D_17_6 n_questionario … D_17_1 D_17_2 D_17_3 D_17_4 D_17_5 D_17_6 45 …. 1
Domande a risposte multiple 9. In quale momento della giornata comunica maggiormente? (distribuisca 100 punti % tra le possibili risposte) 1) Mattino (7.00-13.00) 2) Pomeriggio (13.00-19.00) 3) Sera (19.00-24.00) 4) Notte (24.00-7.00) R: 30% - 40% - 10% - 20% n_questionario … D_9_1 D_9_2 D_9_3 D_9_4 250 …. 30 40 10 20
Analisi Univariata
PROC UNIVARIATE - Descrizione La PROC UNIVARIATE permette di calcolare distribuzioni di frequenza univariate per variabili quantitative continue misure di sintesi di posizione, variabilità, forma per variabili quantitative continue
PROC UNIVARIATE – Sintassi Distribuzione di frequenza univariata proc univariate data= dataset option(s); var variabile; run; OPTIONS: noprint non mostra i risultati nella finestra di output
PROC UNIVARIATE – Esempio 1 Misure di sintesi della variabile quantitativa discreta numero medio sms inviati al giorno proc univariate data=corso.telefonia; var num_sms_e; run;
Output PROC UNIVARIATE (1/2) Misure di Variabilità Scarto Quadratico Medio [Std Deviation]: mostra la variabilità rispetto alla media Varianza [Variance]: media dei quadrati delle differenze fra ciascuna osservazione e la media Campo di Variazione [Range]: differenza tra il massimo e il minimo dei valori osservati Differenza Interquartile [Interquartile Range]: 3° quartile – 1° quartile 25.00000 Interquartile Range 100.00000 Range 10.00000 Mode 810.07147 Variance Median 28.46175 Std Deviation 24.31356 Mean Variability Location Basic Statistical Measures
Output PROC UNIVARIATE (2/2) Coeff di variazione [Coeff Variation]: misura la variabilità relativa rispetto alla media (%) 1.85270242 Std Error Mean 117.061242 Coeff Variation 190366.797 Corrected SS 329878 Uncorrected SS 1.44200254 Kurtosis 1.59619131 Skewness 810.071475 Variance 28.4617546 Std Deviation 5738 Sum Observations 24.3135593 Mean 236 Sum Weights N Moments
Output PROC UNIVARIATE (2/2) Misure di Forma della Distribuzione Skewness: indice che informa circa il grado di simmetria o asimmetria di una distribuzione γ=0 distribuzione simmetrica; γ<0 asimmetria negativa (mediana>media); γ>0 asimmetria positiva (mediana<media). Kurtosis: indice che permette di verificare se i dati seguono una distribuzione di tipo Normale (simmetrica) β=3 se la distribuzione è “Normale”; β<3 se la distribuzione è iponormale; β>3 se la distribuzione è ipernormale. 1.85270242 Std Error Mean 117.061242 Coeff Variation 190366.797 Corrected SS 329878 Uncorrected SS 1.44200254 Kurtosis 1.59619131 Skewness 810.071475 Variance 28.4617546 Std Deviation 5738 Sum Observations 24.3135593 Mean 236 Sum Weights N Moments
Analisi di Concentrazione Per caratteri quantitativi trasferibili Equidistribuzione: Max concentrazione: 1. Ordinare le osservazioni 2. Calcolare le quantità:
Analisi di Concentrazione 10% 45%
Analisi Bivariata
PROC FREQ - Descrizione La PROC FREQ permette di calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete
PROC FREQ – Sintassi generale 1/2 Distribuzione di frequenza bivariata proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: noprint non mostra i risultati nella finestra di output /missing considera anche i missing nel calcolo delle frequenze
PROC FREQ: Esempio Variabili qualitative: sesso e operatore telefonico proc freq data=corso.telefonia; table sesso * operatore; run;
Output PROC FREQ: Esempio Distribuzioni marginali: frequenze marginali assolute e relative Frequenze congiunte assolute e relative Frequency Percent Row Pct Col Pct 236 100.00 15 6.36 154 65.25 55 23.31 12 5.08 Total 136 57.63 12 5.08 8.82 80.00 91 38.56 66.91 59.09 28 11.86 20.59 50.91 5 2.12 3.68 41.67 M 100 42.37 3 1.27 3.00 20.00 63 26.69 63.00 40.91 27 11.44 27.00 49.09 7 2.97 7.00 58.33 F Wind Vodafone Tim 3 operatore sesso Table of sesso by operatore Frequenze subordinate
Output PROC FREQ: Esempio freq. congiunta relativa =(7/236)*100 freq. marginale assoluta=7+27+63+3 Frequency Percent Row Pct Col Pct 236 100.00 15 6.36 154 65.25 55 23.31 12 5.08 Total 136 57.63 12 5.08 8.82 80.00 91 38.56 66.91 59.09 28 11.86 20.59 50.91 5 2.12 3.68 41.67 M 100 42.37 3 1.27 3.00 20.00 63 26.69 63.00 40.91 27 11.44 27.00 49.09 7 2.97 7.00 58.33 F Wind Vodafone Tim 3 operatore sesso Table of sesso by operatore freq. marginale relativa=(7+27+63+3)/236*100 freq. subordinate: % di riga=5/136*100 % di col=5/12*100