La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Analisi Bivariata e Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.

Presentazioni simili


Presentazione sul tema: "Analisi Bivariata e Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5."— Transcript della presentazione:

1 Analisi Bivariata e Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

2 Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate: var. qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata) var. quantitative: analisi di correlazione lineare una var. qualitativa e una quantitativa: confronto tra le medie

3 Test per lo studio dellassociazione tra variabili Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno ò più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione. Obiettivo dei test:Obiettivo dei test: come decidere se accettare o rifiutare unipotesi statistica alla luce di un risultato campionario. Esistono due ipotesi: –H 0 –H 0 lipotesi nulla, cioè lipotesi che deve essere verificata –H 1 –H 1 lipotesi alternativa la quale rappresenta, di fatto, lipotesi che il ricercatore sta cercando di dimostrare.

4 Test per lo studio dellassociazione tra variabili Si può incorrere in due tipologie di errore: Stato di Natura Decisione Non Rifiutare H 0 No errore Errore Secondo Tipo Rifiutare H 0 Errore Primo Tipo Possibili Risultati Verifica di Ipotesi H 0 Falsa H 0 Vera No Errore

5 Errore di Primo Tipo –Rifiutare unipotesi nulla vera –Considerato un tipo di errore molto serio La probabilità dellerrore di primo tipo è Chiamato livello si significatività del test Fissato a priori dal ricercatore (i valori comuni sono 0.01, 0.05, 0.10) Test per lo studio dellassociazione tra variabili

6 Errore di Secondo Tipo –Non rifiutare unipotesi nulla falsa La probabilità dellerrore di secondo tipo è β Test per lo studio dellassociazione tra variabili

7 Stato di Natura Decisione Non Rifiutare H 0 No errore (1 - ) Errore Secondo Tipo ( β ) Rifiutare H 0 Errore Primo Tipo ( ) Possibili Risultati Verifica di Ipotesi H 0 Falsa H 0 Vera Legenda: Risultato (Probabilità) No Errore ( 1 - β ) Test per lo studio dellassociazione tra variabili

8 Errore di primo tipo ed errore di secondo tipo non si posso verificare contemporanemente Errore di primo tipo può occorrere solo se H 0 è vera Errore di secondo tipo può occorrere solo se H 0 è falsa Se la probabilità dellerrore di primo tipo ( ), allora la probabilità dellerrore di secondo tipo ( β ) Test per lo studio dellassociazione tra variabili

9 Lettura di un test statistico (1) Esempio: almeno un b i 0 1) Ipotesi b 1 = b 2 =....=b k = 0H0:H0: H1:H1: 2) Statistica test Statistica F 3) p-value Rappresenta la probabilità di commettere lerrore di prima specie. Può essere interpretato come la probabilità che H 0 sia vera in base al valore osservato della statistica test

10 Lettura di un test statistico (2) Se p-value piccolo (< ) RIFIUTO H 0 Altrimenti (>= ) ACCETTO H 0 Il p-value è il più piccolo valore di per il quale H 0 può essere rifiutata Fissato un livello di significatività :

11 Test χ² per lindipendenza statistica Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui: H 0 :indipendenza statistica tra X e Y H 1 : dipendenza statistica tra X e Y La regione di rifiuto cade nella coda di destra della distribuzione Regione di rifiuto La regione di rifiuto è caratterizzata da valori relativamente elevati di χ²; se il livello di significatività è al 5%, si rifiuta per χ²> χ² 0.95

12 Test χ² per lindipendenza statistica p-value=0.140 > =0.05 accetto lipotesi di indipendenza statistica p-value=0.001 < =0.05 rifiuto lipotesi di indipendenza statistica

13 Test t per lindipendenza lineare Questo test verifica lipotesi di indipendenza lineare tra due variabili, partendo dallindice di correlazione lineare ρ. Si ha: H 0 : indipendenza lineare tra X e Y (ρ popolaz =0) H 1 : dipendenza lineare tra X e Y (ρ popolaz 0) La statistica test è distribuita come una t di Student con n-2 gradi di libertà, e tende a crescere allaumentare dellampiezza campionaria t= ρ (n-2)/ (1- ρ²)

14 Regione di rifiuto La regione di rifiuto è caratterizzata da valori relativamente elevati di t in modulo; se il livello di significatività è al 5%, si rifiuta per |t| >t 0,975 Test t per lindipendenza lineare

15 p-value=0.657 > =0.05 accetto lipotesi di indipendenza lineare tra le variabili leggerezza e sapore/gusto

16 Test F per la verifica di ipotesi sulla differenza tra medie Si considerino le medie di una variabile quantitativa calcolate per ognuna delle modalità di una variabile categorica (ad esempio reddito medio per area geografica=nord, per area geografica=centro e per area geografica=sud). H 0 : le medie sono tutte uguali tra loro H 1 : esistono almeno due medie diverse tra loro La statistica test da utilizzare, sotto lipotesi H 0, si distribuisce come una F di Fisher con (c-1,n-1) gradi di libertà. Tende a crescere allaumentare della varianza tra medie e al diminuire della variabilità interna alle categorie. Cresce inoltre allaumentare dellampiezza campionaria.

17 La regione di rifiuto cade nella coda di destra della distribuzione, cioè è caratterizzata da valori relativamente elevati di F; se il livello di significatività è 5%, si rifiuta per F> F 0, Regione di rifiuto Test F per la verifica di ipotesi sulla differenza tra medie

18 p-value=0.045 < =0.05 rifiuto lipotesi di uguaglianza tra medie

19 p-value=0.191 > =0.05 accetto lipotesi di uguaglianza tra medie

20 PROC FREQ - Descrizione La PROC FREQ permette di calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete calcolare indici di dipendenza relativi a tabelle di contingenza

21 PROC FREQ – Sintassi generale proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; Distribuzione di frequenza bivariata OPTIONS: noprint non mostra i risultati nella finestra di output /missing considera anche i missing nel calcolo delle frequenze

22 PROC FREQ - Esempio Variabili qualitative: sesso e operatore telefonico proc freq data=corso.telefonia; table sesso * operatore; run;

23 Output PROC FREQ - Esempio Frequency Percent Row Pct Col Pct Total M F WindVodafoneTim3 Totaloperatoresesso Table of sesso by operatore Frequenze congiunte assolute e relative Distribuzioni marginali: frequenze marginali assolute e relative Frequenze subordinate

24 Output PROC FREQ - Esempio Frequency Percent Row Pct Col Pct Total M F WindVodafoneTim3 Totaloperatoresesso Table of sesso by operatore freq. marginale assoluta= freq. marginale relativa=( )/236*100 freq. subordinate: % di riga=5/136*100 % di col=5/12*100 freq. congiunta relativa =(7/236)*100

25 PROC FREQ - Descrizione La PROC FREQ permette di calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete calcolare indici di dipendenza relativi a tabelle di contingenza

26 Test chi-quadro – Indipendenza statistica Si applica alle tabelle di contingenza a due dimensioni Per testare lhp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa) Si calcola con la PROC FREQ (opzione CHISQ)

27 PROC FREQ – Sintassi generale proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; Calcolo dellindice chi-quadro OPTIONS: noprint non mostra i risultati nella finestra di output /missing considera anche i missing nel calcolo delle frequenze /chisq calcola lindice chi-quadro e altre misure di associazione basate sul chi-quadro

28 Esempio n°1- Test chi-quadro – Indipendenza statistica proc freq data=corso.telefonia; table sesso * computer /chisq; run; Cè indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)?

29 Le frequenze della variabile COMPUTER subordinata a SESSO: Esempio n°1- Test chi-quadro – Indipendenza statistica Le frequenze della variabile di SESSO subordinata a COMPUTER: Cosa sono le frequenze subordinate?

30 Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diverse denota influenza di ognuna delle due variabili sulla distribuzione dellaltra (=dipendenza statistica) Esempio n°1- Test chi-quadro – Indipendenza statistica

31 Il p-value del test chi-quadro è basso (<0.05) rifiuto lhp di indipendenza statistica le due variabili sono statisticamente dipendenti Possiamo concludere che le due variabili sono statisticamente dipendenti?

32 proc freq data=corso.telefonia; table sesso * marca /chisq; run; Cè indipendenza statistica tra le variabili SESSO e MARCA? Esempio n°2 - Test chi-quadro – Indipendenza statistica

33 Attenzione: molte celle con frequenze congiunte assolute molto basse test non molto affidabile

34 Esempio n°2 - Test chi-quadro – Indipendenza statistica Il p-value del test chi-quadro è alto accetto lhp di indipendenza statistica le due variabili sono statisticamente indipendenti

35 Test t – Indipendenza lineare Si applica a variabili quantitative Per testare lhp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo) Si calcola con la PROC CORR

36 PROC CORR - Descrizione La PROC CORR permette di calcolare la correlazione tra due o più variabili quantitative

37 PROC CORR – Sintassi generale proc corr data= dataset; var variabile1; with variabile2; run; Correlazione tra due variabili

38 PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proc corr data=corso.telefonia; var cell_h; with fisso_h; run;

39 Output PROC CORR - Esempio Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non cè relazione lineare.

40 PROC CORR – Sintassi generale proc corr data= dataset; var variabile1; with variabile2 variabile3 variabile4; run; Correlazione tra più variabili proc corr data= dataset; var variabile1 variabile2 variabile3 variabile4; run;

41 PROC CORR - Esempio Correlazione tra la durata media delle chiamate effettuate e: durata media delle chiamate ricevute, numero medio di ore di utilizzo del telefono cellulare al giorno, numero medio di ore di utilizzo del telefono fisso al giorno. proc corr data=corso.telefonia; var durata_chiamate_e; with durata_chiamate_r cell_h fisso_h; run;

42 Output PROC CORR - Esempio

43 Esempio n°1 - Test t – Indipendenza lineare Cè indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)? proc corr data=corso.telefonia; var cell_h; with fisso_h; run;

44 Esempio n°1 - Test t – Indipendenza lineare Il p-value del test t è basso rifiuto lhp di indipendenza lineare esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato)

45 Esempio n°2 - Test t – Indipendenza lineare Cè indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di inviate al giorno ( _H)? proc corr data=corso.telefonia; var fisso_h; with _h; run;

46 Esempio n°2 - Test t – Indipendenza lineare Il p-value del test t è alto accetto lhp di indipendenza lineare non esiste una relazione lineare tra le due variabili

47 Test F – Indipendenza in media Si applica a variabili quantitative Per testare lhp di indipendenza in media tra due variabili, di cui una categorica (ossia, se X è categorica, le medie di Y calcolate per ogni categoria di X sono uguali tra di loro e uguali alla media globale di Y) Si calcola con la PROC REG (la vedremo quando parleremo di modelli di regressione lineare)

48 Esercizi 1.Testare se le variabili area geografica e sesso del data set DENTI sono statisticamente indipendenti 2.Testare lipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI


Scaricare ppt "Analisi Bivariata e Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5."

Presentazioni simili


Annunci Google