Analisi Bivariata & Esercizi Analisi Univariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°4
Analisi Bivariata
PROC FREQ - Descrizione La PROC FREQ permette di calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete
PROC FREQ – Sintassi generale proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; Distribuzione di frequenza bivariata OPTIONS: noprint non mostra i risultati nella finestra di output /missing considera anche i missing nel calcolo delle frequenze
PROC FREQ - Esempio Variabili qualitative: sesso e operatore telefonico proc freq data=corso.telefonia; table sesso * operatore; run;
Output PROC FREQ - Esempio Frequency Percent Row Pct Col Pct Total M F WindVodafoneTimTre Totaloperatoresesso Table of sesso by operatore Frequenze congiunte assolute e relative Distribuzioni marginali: frequenze marginali assolute e relative Frequenze subordinate
Output PROC FREQ - Esempio Frequency Percent Row Pct Col Pct Total M F WindVodafoneTimTre Totaloperatoresesso Table of sesso by operatore freq. marginale assoluta= freq. marginale relativa=( )/236*100 freq. subordinate: % di riga=5/136*100 % di col=5/12*100 freq. congiunta relativa =(7/236)*100
PROC CORR - Descrizione La PROC CORR permette di calcolare la correlazione tra due o più variabili quantitative
PROC CORR – Sintassi generale proc corr data= dataset; var variabile1 variabile2 … variabilen; run; Correlazione tra due o più variabili
PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proc corr data=corso.telefonia; var cell_h fisso_h; run;
Output PROC CORR - Esempio Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non cè relazione lineare.
PROC CORR - Esempio Correlazione tra la durata media delle chiamate effettuate [durata_chiamate_e] e: durata media delle chiamate ricevute [durata_chiamate_r] numero medio di ore di utilizzo del telefono cellulare al giorno [cell_h] numero medio di ore di utilizzo del telefono fisso al giorno [fisso_h] proc corr data=corso.telefonia; var durata_chiamate_e durata_chiamate_r cell_h fisso_h; run;
Output PROC CORR - Esempio
Esercizi Analisi Univariata
Dataset Il dataset DENTI contiene dati sul consumo di dentifricio (di marca A e di marca B). Le variabili sono:
Esercizi Analisi univariata 1.Allocare la libreria CORSO (che punta alla cartella che contiene il file DENTI.XLS) 2.Importare in formato SAS la tabella excel DENTI.XLS e chiamarla DENTI_NEW 3.Utilizzando la procedura più opportuna calcolare la distribuzione delle variabili - AREA - CONSTOT Svolgere i seguenti esercizi utilizzando il dataset DENTI:
4.Calcolare la distribuzione e le statistiche di sintesi (quando possibile) moda – mediana – q1 – q3 – media – varianza – max – min per le seguenti variabili (attenzione alla distinzione tra variabili qualitative nominali - qualitative ordinali - quantitative) - TATTITOT - ACQ_A - CITYSIZE - REGIONE 5.Verificare se i clienti abituali della marca B si distribuiscono in modo differente nelle diverse aree geografiche 6.Verificare se il consumo medio totale differisce tra uomini e donne Esercizi Analisi univariata
Analisi preliminari – Analisi univariata 7.Verificare se ci sono missing nella variabile ETACLASS 8.Calcolare la distribuzione condizionata della variabile ALTOCON utilizzando come variabile di classificazione prima TRATTOT e poi AREA 9.Verificare simmetria e normalità della variabile TATTI_A e disegnarne il boxplot