Analisi Bivariata e Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5
Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate: Variabili qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata) Variabili quantitative: analisi di correlazione lineare una var. qualitativa e una quantitativa: confronto tra le medie
Test per lo studio dell’associazione tra variabili Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno ò più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione. Obiettivo dei test: come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario. Esistono due ipotesi: H0 l’ipotesi nulla, cioè l’ipotesi che deve essere verificata H1 l’ipotesi alternativa la quale rappresenta, di fatto, l’ipotesi che il ricercatore sta cercando di dimostrare.
Test per lo studio dell’associazione tra variabili Si può incorrere in due tipologie di errore: Stato di Natura Decisione Non Rifiutare H No errore (1 - ) a Errore Secondo Tipo ( β ) Errore Primo Tipo ( ) Possibili Risultati Verifica di Ipotesi H0 Falsa H0 Vera No Errore ( 1 - β ) Legenda: Risultato (Probabilità)
Test per lo studio dell’associazione tra variabili Errore di Primo Tipo Rifiutare un’ipotesi nulla vera Considerato un tipo di errore molto serio Chiamato livello si significatività del test Fissato a priori dal ricercatore (i valori comuni sono 0.01, 0.05, 0.10) Errore di Secondo Tipo Non rifiutare un’ipotesi nulla falsa (1 – β) è definito come la potenza del test La probabilità dell’errore di primo tipo è La probabilità dell’errore di secondo tipo è β Potenza = 1 – β = probabilità che un’ipotesi nulla falsa venga rifiutata
Lettura di un test statistico (1) Esempio: almeno un bi≠0 1) Ipotesi b1= b2 = ....=bk = 0 H0: H1: 2) Statistica test Statistica F 3) p-value Rappresenta la probabilità di commettere l’errore di prima specie. Può essere interpretato come la probabilità che H0 sia “vera” in base al valore osservato della statistica test 1
Lettura di un test statistico (2) Fissato un livello di significatività : Se p-value piccolo (< ) RIFIUTO H0 Altrimenti (>= ) ACCETTO H0 Il p-value è il più piccolo valore di per il quale H0 può essere rifiutata 1
PROC FREQ - Descrizione La PROC FREQ permette di calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete calcolare indici di dipendenza relativi a tabelle di contingenza
PROC FREQ – Sintassi generale Distribuzione di frequenza bivariata proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: noprint non mostra i risultati nella finestra di output /missing considera anche i missing nel calcolo delle frequenze
PROC FREQ - Esempio Variabili qualitative: sesso e operatore telefonico proc freq data=corso.telefonia; table sesso * operatore; run;
Output PROC FREQ - Esempio Distribuzioni marginali: frequenze marginali assolute e relative Frequenze congiunte assolute e relative Frequency Percent Row Pct Col Pct 236 100.00 15 6.36 154 65.25 55 23.31 12 5.08 Total 136 57.63 12 5.08 8.82 80.00 91 38.56 66.91 59.09 28 11.86 20.59 50.91 5 2.12 3.68 41.67 M 100 42.37 3 1.27 3.00 20.00 63 26.69 63.00 40.91 27 11.44 27.00 49.09 7 2.97 7.00 58.33 F Wind Vodafone Tim 3 operatore sesso Table of sesso by operatore Frequenze subordinate
Output PROC FREQ - Esempio freq. congiunta relativa =(7/236)*100 freq. marginale assoluta=7+27+63+3 Frequency Percent Row Pct Col Pct 236 100.00 15 6.36 154 65.25 55 23.31 12 5.08 Total 136 57.63 12 5.08 8.82 80.00 91 38.56 66.91 59.09 28 11.86 20.59 50.91 5 2.12 3.68 41.67 M 100 42.37 3 1.27 3.00 20.00 63 26.69 63.00 40.91 27 11.44 27.00 49.09 7 2.97 7.00 58.33 F Wind Vodafone Tim 3 operatore sesso Table of sesso by operatore freq. marginale relativa=(7+27+63+3)/236*100 freq. subordinate: % di riga=5/136*100 % di col=5/12*100
PROC FREQ - Descrizione La PROC FREQ permette di calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete calcolare indici di dipendenza relativi a tabelle di contingenza
Test chi-quadro – Indipendenza statistica Si applica alle tabelle di contingenza a due dimensioni Per testare l’hp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa) Si calcola con la PROC FREQ (opzione CHISQ)
PROC FREQ – Sintassi generale Calcolo dell’indice chi-quadro proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: noprint non mostra i risultati nella finestra di output /missing considera anche i missing nel calcolo delle frequenze /chisq calcola l’indice chi-quadro e altre misure di associazione basate sul chi-quadro
Esempio n°1- Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)? proc freq data=corso.telefonia; table sesso * computer /chisq; run;
Esempio n°1- Test chi-quadro – Indipendenza statistica Le frequenze della variabile COMPUTER subordinata a SESSO: Cosa sono le frequenze subordinate? Le frequenze della variabile di SESSO subordinata a COMPUTER:
Esempio n°1- Test chi-quadro – Indipendenza statistica Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diversedenota influenza di ognuna delle due variabili sulla distribuzione dell’altra (=dipendenza statistica)
Esempio n°1- Test chi-quadro – Indipendenza statistica Possiamo concludere che le due variabili sono statisticamente dipendenti? Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui: H0 : indipendenza statistica tra X e Y H1 : dipendenza statistica tra X e Y Il p-value del test chi-quadro è basso (<0.05) rifiuto l’hp nulla di indipendenza statistica le due variabili sono statisticamente dipendenti
Esempio n°2 - Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili SESSO e MARCA? proc freq data=corso.telefonia; table sesso * marca /chisq; run;
Esempio n°2 - Test chi-quadro – Indipendenza statistica Attenzione: molte celle con frequenze congiunte assolute molto bassetest non molto affidabile
Esempio n°2 - Test chi-quadro – Indipendenza statistica Il p-value del test chi-quadro è alto accetto l’hp di indipendenza statistica le due variabili sono statisticamente indipendenti
Test t – Indipendenza lineare Si applica a variabili quantitative Per testare l’hp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo) Si calcola con la PROC CORR
PROC CORR - Descrizione La PROC CORR permette di calcolare la correlazione tra due o più variabili quantitative
PROC CORR – Sintassi generale Correlazione tra due o più variabili proc corr data= dataset; var variabile1 variabile2 … variabilen; run;
PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proc corr data=corso.telefonia; var cell_h fisso_h; run; 26
Output PROC CORR - Esempio Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare. 27
Esempio n°1 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)? proc corr data=corso.telefonia; var cell_h fisso_h; run;
Esempio n°1 - Test t – Indipendenza lineare Il p-value del test t è basso rifiuto l’hp di indipendenza lineare esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato)
Esempio n°2 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di email inviate al giorno (EMAIL_H)? proc corr data=corso.telefonia; var fisso_h email_h; run;
Esempio n°2 - Test t – Indipendenza lineare Il p-value del test t è alto accetto l’hp di indipendenza lineare non esiste una relazione lineare tra le due variabili
Esercizi Testare se le variabili area geografica e sesso del data set DENTI sono statisticamente indipendenti Testare l’ipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI