Analisi Bivariata & Esercizi Analisi Univariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°4
Analisi Bivariata
PROC FREQ - Descrizione La PROC FREQ permette di calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete
PROC FREQ – Sintassi generale Distribuzione di frequenza bivariata proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: noprint non mostra i risultati nella finestra di output /missing considera anche i missing nel calcolo delle frequenze
PROC FREQ - Esempio Variabili qualitative: sesso e operatore telefonico proc freq data=corso.telefonia; table sesso * operatore; run;
Output PROC FREQ - Esempio Distribuzioni marginali: frequenze marginali assolute e relative Frequenze congiunte assolute e relative Frequency Percent Row Pct Col Pct 236 100.00 15 6.36 154 65.25 55 23.31 12 5.08 Total 136 57.63 12 5.08 8.82 80.00 91 38.56 66.91 59.09 28 11.86 20.59 50.91 5 2.12 3.68 41.67 M 100 42.37 3 1.27 3.00 20.00 63 26.69 63.00 40.91 27 11.44 27.00 49.09 7 2.97 7.00 58.33 F Wind Vodafone Tim Tre operatore sesso Table of sesso by operatore Frequenze subordinate
Output PROC FREQ - Esempio freq. congiunta relativa =(7/236)*100 freq. marginale assoluta=7+27+63+3 Frequency Percent Row Pct Col Pct 236 100.00 15 6.36 154 65.25 55 23.31 12 5.08 Total 136 57.63 12 5.08 8.82 80.00 91 38.56 66.91 59.09 28 11.86 20.59 50.91 5 2.12 3.68 41.67 M 100 42.37 3 1.27 3.00 20.00 63 26.69 63.00 40.91 27 11.44 27.00 49.09 7 2.97 7.00 58.33 F Wind Vodafone Tim Tre operatore sesso Table of sesso by operatore freq. marginale relativa=(7+27+63+3)/236*100 freq. subordinate: % di riga=5/136*100 % di col=5/12*100
PROC CORR - Descrizione La PROC CORR permette di calcolare la correlazione tra due o più variabili quantitative
PROC CORR – Sintassi generale Correlazione tra due o più variabili proc corr data= dataset; var variabile1 variabile2 … variabilen; run;
PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proc corr data=corso.telefonia; var cell_h fisso_h; run;
Output PROC CORR - Esempio Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare.
PROC CORR - Esempio Correlazione tra la durata media delle chiamate effettuate [durata_chiamate_e] e: durata media delle chiamate ricevute [durata_chiamate_r] numero medio di ore di utilizzo del telefono cellulare al giorno [cell_h] numero medio di ore di utilizzo del telefono fisso al giorno [fisso_h] proc corr data=corso.telefonia; var durata_chiamate_e durata_chiamate_r cell_h fisso_h; run;
Output PROC CORR - Esempio
Esercizi Analisi Univariata
Dataset Il dataset DENTI contiene dati sul consumo di dentifricio (di marca A e di marca B). Le variabili sono:
Esercizi Analisi univariata Svolgere i seguenti esercizi utilizzando il dataset DENTI: Allocare la libreria CORSO (che punta alla cartella che contiene il file DENTI.XLS) Importare in formato SAS la tabella excel DENTI.XLS e chiamarla DENTI_NEW Utilizzando la procedura più opportuna calcolare la distribuzione delle variabili - AREA - CONSTOT
Esercizi Analisi univariata Si può affermare che l’insieme degli intervistati è costituito principalmente da donne? Determinare l’accumulo medio di dentifrici della marca A Determinare la percentuale di clienti che hanno ricevuto meno di 11 contatti pubblicitari Verificare se i clienti abituali della marca B si distribuiscono in modo differente nelle diverse aree geografiche Verificare se il consumo medio totale differisce tra uomini e donne
Analisi preliminari – Analisi univariata Verificare se ci sono missing nella variabile ETACLASS Calcolare la distribuzione condizionata della variabile ALTOCON utilizzando come variabile di classificazione prima TRATTOT e poi AREA Verificare simmetria e normalità della variabile TATTI_A e disegnarne il boxplot