La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Analisi Bivariata e Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.

Presentazioni simili


Presentazione sul tema: "Analisi Bivariata e Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5."— Transcript della presentazione:

1 Analisi Bivariata e Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

2 Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate: Variabili qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata) Variabili quantitative: analisi di correlazione lineare una var. qualitativa e una quantitativa: confronto tra le medie

3 Test per lo studio dellassociazione tra variabili Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno ò più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione. Obiettivo dei test:Obiettivo dei test: come decidere se accettare o rifiutare unipotesi statistica alla luce di un risultato campionario. Esistono due ipotesi: –H 0 –H 0 lipotesi nulla, cioè lipotesi che deve essere verificata –H 1 –H 1 lipotesi alternativa la quale rappresenta, di fatto, lipotesi che il ricercatore sta cercando di dimostrare.

4 Legenda: Risultato (Probabilità) Stato di Natura Decisione Non Rifiutare H 0 No errore (1 - ) Errore Secondo Tipo ( β ) Rifiutare H 0 Errore Primo Tipo ( ) Possibili Risultati Verifica di Ipotesi H 0 Falsa H 0 Vera No Errore ( 1 - β ) Test per lo studio dellassociazione tra variabili Si può incorrere in due tipologie di errore:

5 Errore di Primo Tipo –Rifiutare unipotesi nulla vera –Considerato un tipo di errore molto serio Chiamato livello si significatività del test Fissato a priori dal ricercatore (i valori comuni sono 0.01, 0.05, 0.10) Errore di Secondo Tipo –Non rifiutare unipotesi nulla falsa (1 – β) è definito come la potenza del test Test per lo studio dellassociazione tra variabili La probabilità dellerrore di secondo tipo è β La probabilità dellerrore di primo tipo è Potenza = 1 – β = probabilità che unipotesi nulla falsa venga rifiutata

6 Lettura di un test statistico (1) Esempio: almeno un b i 0 1) Ipotesi b 1 = b 2 =....=b k = 0H0:H0: H1:H1: 2) Statistica test Statistica F 3) p-value Rappresenta la probabilità di commettere lerrore di prima specie. Può essere interpretato come la probabilità che H 0 sia vera in base al valore osservato della statistica test

7 Lettura di un test statistico (2) Se p-value piccolo (< ) RIFIUTO H 0 Altrimenti (>= ) ACCETTO H 0 Il p-value è il più piccolo valore di per il quale H 0 può essere rifiutata Fissato un livello di significatività :

8 PROC FREQ - Descrizione La PROC FREQ permette di calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete calcolare indici di dipendenza relativi a tabelle di contingenza

9 PROC FREQ – Sintassi generale proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; Distribuzione di frequenza bivariata OPTIONS: noprint non mostra i risultati nella finestra di output /missing considera anche i missing nel calcolo delle frequenze

10 PROC FREQ - Esempio Variabili qualitative: sesso e operatore telefonico proc freq data=corso.telefonia; table sesso * operatore; run;

11 Output PROC FREQ - Esempio Frequency Percent Row Pct Col Pct Total M F WindVodafoneTim3 Totaloperatoresesso Table of sesso by operatore Frequenze congiunte assolute e relative Distribuzioni marginali: frequenze marginali assolute e relative Frequenze subordinate

12 Output PROC FREQ - Esempio Frequency Percent Row Pct Col Pct Total M F WindVodafoneTim3 Totaloperatoresesso Table of sesso by operatore freq. marginale assoluta= freq. marginale relativa=( )/236*100 freq. subordinate: % di riga=5/136*100 % di col=5/12*100 freq. congiunta relativa =(7/236)*100

13 PROC FREQ - Descrizione La PROC FREQ permette di calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete calcolare indici di dipendenza relativi a tabelle di contingenza

14 Test chi-quadro – Indipendenza statistica Si applica alle tabelle di contingenza a due dimensioni Per testare lhp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa) Si calcola con la PROC FREQ (opzione CHISQ)

15 PROC FREQ – Sintassi generale proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; Calcolo dellindice chi-quadro OPTIONS: noprint non mostra i risultati nella finestra di output /missing considera anche i missing nel calcolo delle frequenze /chisq calcola lindice chi-quadro e altre misure di associazione basate sul chi-quadro

16 Esempio n°1- Test chi-quadro – Indipendenza statistica proc freq data=corso.telefonia; table sesso * computer /chisq; run; Cè indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)?

17 Le frequenze della variabile COMPUTER subordinata a SESSO: Esempio n°1- Test chi-quadro – Indipendenza statistica Le frequenze della variabile di SESSO subordinata a COMPUTER: Cosa sono le frequenze subordinate?

18 Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diverse denota influenza di ognuna delle due variabili sulla distribuzione dellaltra (=dipendenza statistica) Esempio n°1- Test chi-quadro – Indipendenza statistica

19 Il p-value del test chi-quadro è basso (<0.05) rifiuto lhp nulla di indipendenza statistica le due variabili sono statisticamente dipendenti Possiamo concludere che le due variabili sono statisticamente dipendenti? Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui: H0 : indipendenza statistica tra X e Y H1 : dipendenza statistica tra X e Y

20 proc freq data=corso.telefonia; table sesso * marca /chisq; run; Cè indipendenza statistica tra le variabili SESSO e MARCA? Esempio n°2 - Test chi-quadro – Indipendenza statistica

21 Attenzione: molte celle con frequenze congiunte assolute molto basse test non molto affidabile

22 Esempio n°2 - Test chi-quadro – Indipendenza statistica Il p-value del test chi-quadro è alto accetto lhp di indipendenza statistica le due variabili sono statisticamente indipendenti

23 Test t – Indipendenza lineare Si applica a variabili quantitative Per testare lhp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo) Si calcola con la PROC CORR

24 PROC CORR - Descrizione La PROC CORR permette di calcolare la correlazione tra due o più variabili quantitative

25 PROC CORR – Sintassi generale proc corr data= dataset; var variabile1 variabile2 … variabilen; run; Correlazione tra due o più variabili

26 PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proc corr data=corso.telefonia; var cell_h fisso_h; run;

27 Output PROC CORR - Esempio Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non cè relazione lineare.

28 Esempio n°1 - Test t – Indipendenza lineare Cè indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)? proc corr data=corso.telefonia; var cell_h fisso_h; run;

29 Esempio n°1 - Test t – Indipendenza lineare Il p-value del test t è basso rifiuto lhp di indipendenza lineare esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato)

30 Esempio n°2 - Test t – Indipendenza lineare Cè indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di inviate al giorno ( _H)? proc corr data=corso.telefonia; var fisso_h _h; run;

31 Esempio n°2 - Test t – Indipendenza lineare Il p-value del test t è alto accetto lhp di indipendenza lineare non esiste una relazione lineare tra le due variabili

32 Esercizi 1.Testare se le variabili area geografica e sesso del data set DENTI sono statisticamente indipendenti 2.Testare lipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI


Scaricare ppt "Analisi Bivariata e Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5."

Presentazioni simili


Annunci Google