La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.

Presentazioni simili


Presentazione sul tema: "Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5."— Transcript della presentazione:

1 Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

2 Riferimenti Mail di riferimento: Alberto Saccardi
orario ricevimento lunedì Elena Pallini venerdì Federica Calabretti

3 Lavoro di gruppo Inviare il questionario via mail a e Attendere la validazione del questionario e procedere alla somministrazione dello stesso Argomenti da trattare nel lavoro di gruppo: Analisi univariata Analisi bivariata Test statistici Analisi fattoriale Regressione lineare utilizzando come regressori i fattori

4 Test per lo studio dell’associazione tra variabili
Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno o più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione. Obiettivo dei test: come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario. Esistono due ipotesi: H0 l’ipotesi nulla, cioè l’ipotesi che deve essere verificata H1 l’ipotesi alternativa la quale rappresenta, di fatto, l’ipotesi che il ricercatore sta cercando di dimostrare.

5 Test per lo studio dell’associazione tra variabili
Si può incorrere in due tipologie di errore: Stato di Natura Decisione Non Rifiutare H No errore ( ) a Errore Secondo Tipo ( β ) Errore Primo Tipo ( ) Possibili Risultati Verifica di Ipotesi H0 Falsa H0 Vera No Errore ( 1 - β ) Legenda: Risultato (Probabilità)

6 Test per lo studio dell’associazione tra variabili
Errore di Primo Tipo Rifiutare un’ipotesi nulla vera Considerato un tipo di errore molto serio Chiamato livello si significatività del test Fissato a priori dal ricercatore (i valori comuni sono 0.01, 0.05, 0.10) Errore di Secondo Tipo Non rifiutare un’ipotesi nulla falsa (1 – β) è definito come la potenza del test La probabilità dell’errore di primo tipo è  La probabilità dell’errore di secondo tipo è β Potenza = 1 – β = probabilità che un’ipotesi nulla falsa venga rifiutata

7 Lettura di un test statistico (1)
Esempio: almeno un bi≠0 1) Ipotesi b1= b2 = ....=bk = 0 H0: H1: 2) Statistica test Statistica F 3) p-value Rappresenta la probabilità di commettere l’errore di prima specie. Può essere interpretato come la probabilità che H0 sia “vera” in base al valore osservato della statistica test 1

8 Lettura di un test statistico (2)
Fissato un livello di significatività : Se p-value piccolo (< ) RIFIUTO H0 Altrimenti (>= ) ACCETTO H0 Il p-value è il più piccolo valore di  per il quale H0 può essere rifiutata 1

9 PROC FREQ - Descrizione
La PROC FREQ permette di calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete calcolare indici di dipendenza relativi a tabelle di contingenza

10 Test chi-quadro – Indipendenza statistica
Si applica alle tabelle di contingenza a due dimensioni Per testare l’hp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa) Si calcola con la PROC FREQ (opzione CHISQ)

11 PROC FREQ – Sintassi generale
Calcolo dell’indice chi-quadro proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: noprint non mostra i risultati nella finestra di output /missing considera anche i missing nel calcolo delle frequenze /chisq calcola l’indice chi-quadro e altre misure di associazione basate sul chi-quadro

12 Esempio n°1- Test chi-quadro – Indipendenza statistica
C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)? proc freq data=corso.telefonia; table sesso * computer /chisq; run;

13 Esempio n°1- Test chi-quadro – Indipendenza statistica
Le frequenze della variabile COMPUTER subordinata a SESSO: Cosa sono le frequenze subordinate? Le frequenze della variabile di SESSO subordinata a COMPUTER:

14 Esempio n°1- Test chi-quadro – Indipendenza statistica
Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diversedenota influenza di ognuna delle due variabili sulla distribuzione dell’altra (=dipendenza statistica)

15 Esempio n°1- Test chi-quadro – Indipendenza statistica
Possiamo concludere che le due variabili sono statisticamente dipendenti? Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui: H0 : indipendenza statistica tra X e Y H1 : dipendenza statistica tra X e Y Il p-value del test chi-quadro è basso (<0.05) rifiuto l’hp nulla di indipendenza statistica  le due variabili sono statisticamente dipendenti

16 Esempio n°2 - Test chi-quadro – Indipendenza statistica
C’è indipendenza statistica tra le variabili SESSO e MARCA? proc freq data=corso.telefonia; table sesso * marca /chisq; run;

17 Esempio n°2 - Test chi-quadro – Indipendenza statistica
Attenzione: molte celle con frequenze congiunte assolute molto bassetest non molto affidabile

18 Esempio n°2 - Test chi-quadro – Indipendenza statistica
Il p-value del test chi-quadro è alto accetto l’hp di indipendenza statistica  le due variabili sono statisticamente indipendenti

19 Test t – Indipendenza lineare
Si applica a variabili quantitative Per testare l’hp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo) Si calcola con la PROC CORR

20 PROC CORR - Descrizione
La PROC CORR permette di calcolare la correlazione tra due o più variabili quantitative

21 PROC CORR – Sintassi generale
Correlazione tra due o più variabili proc corr data= dataset; var variabile1 variabile2 … variabilen; run;

22 PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proc corr data=corso.telefonia; var cell_h fisso_h; run; 22

23 Output PROC CORR - Esempio
Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare. 23

24 PROC CORR - Esempio Correlazione tra la durata media delle chiamate effettuate [durata_chiamate_e] e: durata media delle chiamate ricevute [durata_chiamate_r] numero medio di ore di utilizzo del telefono cellulare al giorno [cell_h] numero medio di ore di utilizzo del telefono fisso al giorno [fisso_h] proc corr data=corso.telefonia; var durata_chiamate_e durata_chiamate_r cell_h fisso_h; run; 24

25 Output PROC CORR - Esempio
25

26 Esempio n°1 - Test t – Indipendenza lineare
C’è indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)? proc corr data=corso.telefonia; var cell_h fisso_h; run;

27 Esempio n°1 - Test t – Indipendenza lineare
Il p-value del test t è basso rifiuto l’hp di indipendenza lineare  esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato)

28 Esempio n°2 - Test t – Indipendenza lineare
C’è indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di inviate al giorno ( _H)? proc corr data=corso.telefonia; var fisso_h _h; run;

29 Esempio n°2 - Test t – Indipendenza lineare
Il p-value del test t è alto accetto l’hp di indipendenza lineare  non esiste una relazione lineare tra le due variabili

30 Test F – Indipendenza in media
test per indagare la relazione esistente tra una variabile quantitativa Y e una variabile qualitativa X, confrontando le distribuzioni di Y condizionate ai valori assunti dalla variabile X la metodologia consiste nel verificare la significatività delle differenze tra le medie aritmetiche della variabile continua dei gruppi di osservazioni generati dalle modalità assunte dalla variabile qualitativa (ANOVA : ANalysis Of Variance) il confronto tra le medie avviene tramite il test F, basato sulla scomposizione della varianza H0: μ1 = μ2 = … = μk (le medie sono tutte uguali tra loro ) H1: le μi non sono tutte uguali (esistono almeno due medie diverse tra loro)

31 Test F – Indipendenza in media
Devianza Totale somma dei quadrati degli scarti di ogni valore dalla media generale gdl = n (n = num. dati) Devianza tra i gruppi somma dei quadrati degli scarti di ogni media di gruppo dalla media generale gdl = p (p= num. gruppi) Varianza tra Devianza interna ai gruppi (o entro i gruppi ) somma degli scarti al quadrato di ogni valore dalla media del suo gruppo gdl = n-p Varianza nei (o entro) F= VarTRA/ VarNEI Significatività del test p-value : - se il p-value del test F è basso (<α) le differenze riscontrate tra le medie sono significativerifiuto l’ipotesi nullaposso affermare l’esistenza di una relazione tra la variabile Y e la variabile X.

32 PROC ANOVA – Sintassi generale
Sia Y una variabile quantitativa e X una variabile qualitativa PROC ANOVA DATA=dataset; CLASS X; MODEL Y=X; MEANS X; RUN;

33 Esempio (1/2) C’è relazione tra la soddisfazione del cliente (SODDISFAZIONE_GLOBALE) e l’operatore telefonico da lui scelto (OPERATORE)? PROC ANOVA DATA =corso.telefonia; CLASS operatore; MODEL soddisfazione_globale=operatore; MEANS operatore; RUN;

34 soddisfazione_globale Mean soddisfazione_globale
Esempio (2/2) Output proc anova: Devianza Varianza Source DF Sum of Squares Mean Square F Value Pr > F Model 3 1.61 0.1884 Error 231 Corrected Total 234 Tra Nei (Entro) R-Square Coeff Var Root MSE soddisfazione_globale Mean eta quadro Level of N soddisfazione_globale operatore Mean Std Dev Tim 55 Tre 12 Vodafone 153 Wind 15 6.4 Il p-value del test F è alto (>α)accetto l’hp nulla di indipendenza in media non esiste una relazione di dipendenza in media tra le due variabili

35 Esercizi Testare se le variabili area geografica e sesso del data set DENTI sono statisticamente indipendenti Testare l’ipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI Testare l’ipotesi di indipendenza in media tra la variabile consumo di dentifrici della marca A e area geografica e confrontarla con quella tra consumo di dentifrici della marca A e dimensione della città di residenza.


Scaricare ppt "Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5."

Presentazioni simili


Annunci Google