Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.

Slides:



Advertisements
Presentazioni simili
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica
Regressione lineare Esercitazione 24/01/04.
Analisi Bivariata e Test Statistici
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Analisi Bivariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°4.
Analisi fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Analisi Bivariata & Esercizi Analisi Univariata
redditività var. continua classi di redditività ( < 0 ; >= 0)
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°7.
Analisi Bivariata & Esercizi Analisi Univariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°4.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ripasso (dallanalisi univariata allanalisi fattoriale) Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°7.
Questionario e Analisi Univariata
Questionario - Analisi Univariata e Bivariata
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Esercitazione su test d’ipotesi
Analisi della varianza (a una via)
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 7-2: Test di significatività
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a LA STATISTICA INFERENZIALE
di cosa si occupa la statistica inferenziale?
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Il test di ipotesi Cuore della statistica inferenziale!
Dall’analisi Fattoriale alla regressione lineare
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°6.
Analisi Univariata e bivariata Esercizi
Le distribuzioni campionarie
Esercizi riepilogativi Analisi Univariata e Bivariata Analisi Fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Distribuzioni di Frequenza & Esercizi Distribuzioni di Frequenza & Esercizi Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°2.
Analisi Bivariata: Test Statistici
Dall’Analisi Fattoriale alla Regressione Lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n° 11.
Esercizi riepilogativi Analisi Univariata e Bivariata
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Analisi Bivariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°4.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Strumenti statistici in Excell
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Regressione lineare - Esercizi
Regressione logistica Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Regressione lineare - Esercizi Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°9.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Corso di Laurea in Scienze e tecniche psicologiche
Accenni di analisi monovariata e bivariata
Correlazione e regressione lineare
Accademia europea dei pazienti sull'innovazione terapeutica Lo scopo e i fondamenti della statistica negli studi clinici.
Accenni di analisi monovariata e bivariata. ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle.
1111 Università di Napoli Federico II, Dipartimento di Scienze Economiche e Statistiche S. BalbiI test non parametrici.
Transcript della presentazione:

Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Riferimenti Mail di riferimento: Alberto Saccardi alberto.saccardi@nunatac.it orario ricevimento lunedì 16.30-17.30 Elena Pallini epallini@liuc.it venerdì 10.30-11.30 Federica Calabretti fcalabretti@liuc.it

Lavoro di gruppo Inviare il questionario via mail a epallini@liuc.it e fcalabretti@liuc.it Attendere la validazione del questionario e procedere alla somministrazione dello stesso Argomenti da trattare nel lavoro di gruppo: Analisi univariata Analisi bivariata Test statistici Analisi fattoriale Regressione lineare utilizzando come regressori i fattori

Test per lo studio dell’associazione tra variabili Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno o più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione. Obiettivo dei test: come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario. Esistono due ipotesi: H0 l’ipotesi nulla, cioè l’ipotesi che deve essere verificata H1 l’ipotesi alternativa la quale rappresenta, di fatto, l’ipotesi che il ricercatore sta cercando di dimostrare.

Test per lo studio dell’associazione tra variabili Si può incorrere in due tipologie di errore: Stato di Natura Decisione Non Rifiutare H No errore (1 - ) a Errore Secondo Tipo ( β ) Errore Primo Tipo ( ) Possibili Risultati Verifica di Ipotesi H0 Falsa H0 Vera No Errore ( 1 - β ) Legenda: Risultato (Probabilità)

Test per lo studio dell’associazione tra variabili Errore di Primo Tipo Rifiutare un’ipotesi nulla vera Considerato un tipo di errore molto serio Chiamato livello si significatività del test Fissato a priori dal ricercatore (i valori comuni sono 0.01, 0.05, 0.10) Errore di Secondo Tipo Non rifiutare un’ipotesi nulla falsa (1 – β) è definito come la potenza del test La probabilità dell’errore di primo tipo è  La probabilità dell’errore di secondo tipo è β Potenza = 1 – β = probabilità che un’ipotesi nulla falsa venga rifiutata

Lettura di un test statistico (1) Esempio: almeno un bi≠0 1) Ipotesi b1= b2 = ....=bk = 0 H0: H1: 2) Statistica test Statistica F 3) p-value Rappresenta la probabilità di commettere l’errore di prima specie. Può essere interpretato come la probabilità che H0 sia “vera” in base al valore osservato della statistica test 1

Lettura di un test statistico (2) Fissato un livello di significatività : Se p-value piccolo (< ) RIFIUTO H0 Altrimenti (>= ) ACCETTO H0 Il p-value è il più piccolo valore di  per il quale H0 può essere rifiutata 1

PROC FREQ - Descrizione La PROC FREQ permette di calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete calcolare indici di dipendenza relativi a tabelle di contingenza

Test chi-quadro – Indipendenza statistica Si applica alle tabelle di contingenza a due dimensioni Per testare l’hp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa) Si calcola con la PROC FREQ (opzione CHISQ)

PROC FREQ – Sintassi generale Calcolo dell’indice chi-quadro proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: noprint non mostra i risultati nella finestra di output /missing considera anche i missing nel calcolo delle frequenze /chisq calcola l’indice chi-quadro e altre misure di associazione basate sul chi-quadro

Esempio n°1- Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)? proc freq data=corso.telefonia; table sesso * computer /chisq; run;

Esempio n°1- Test chi-quadro – Indipendenza statistica Le frequenze della variabile COMPUTER subordinata a SESSO: Cosa sono le frequenze subordinate? Le frequenze della variabile di SESSO subordinata a COMPUTER:

Esempio n°1- Test chi-quadro – Indipendenza statistica Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diversedenota influenza di ognuna delle due variabili sulla distribuzione dell’altra (=dipendenza statistica)

Esempio n°1- Test chi-quadro – Indipendenza statistica Possiamo concludere che le due variabili sono statisticamente dipendenti? Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui: H0 : indipendenza statistica tra X e Y H1 : dipendenza statistica tra X e Y Il p-value del test chi-quadro è basso (<0.05) rifiuto l’hp nulla di indipendenza statistica  le due variabili sono statisticamente dipendenti

Esempio n°2 - Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili SESSO e MARCA? proc freq data=corso.telefonia; table sesso * marca /chisq; run;

Esempio n°2 - Test chi-quadro – Indipendenza statistica Attenzione: molte celle con frequenze congiunte assolute molto bassetest non molto affidabile

Esempio n°2 - Test chi-quadro – Indipendenza statistica Il p-value del test chi-quadro è alto accetto l’hp di indipendenza statistica  le due variabili sono statisticamente indipendenti

Test t – Indipendenza lineare Si applica a variabili quantitative Per testare l’hp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo) Si calcola con la PROC CORR

PROC CORR - Descrizione La PROC CORR permette di calcolare la correlazione tra due o più variabili quantitative

PROC CORR – Sintassi generale Correlazione tra due o più variabili proc corr data= dataset; var variabile1 variabile2 … variabilen; run;

PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proc corr data=corso.telefonia; var cell_h fisso_h; run; 22

Output PROC CORR - Esempio Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare. 23

PROC CORR - Esempio Correlazione tra la durata media delle chiamate effettuate [durata_chiamate_e] e: durata media delle chiamate ricevute [durata_chiamate_r] numero medio di ore di utilizzo del telefono cellulare al giorno [cell_h] numero medio di ore di utilizzo del telefono fisso al giorno [fisso_h] proc corr data=corso.telefonia; var durata_chiamate_e durata_chiamate_r cell_h fisso_h; run; 24

Output PROC CORR - Esempio 25

Esempio n°1 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)? proc corr data=corso.telefonia; var cell_h fisso_h; run;

Esempio n°1 - Test t – Indipendenza lineare Il p-value del test t è basso rifiuto l’hp di indipendenza lineare  esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato)

Esempio n°2 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di email inviate al giorno (EMAIL_H)? proc corr data=corso.telefonia; var fisso_h email_h; run;

Esempio n°2 - Test t – Indipendenza lineare Il p-value del test t è alto accetto l’hp di indipendenza lineare  non esiste una relazione lineare tra le due variabili

Test F – Indipendenza in media test per indagare la relazione esistente tra una variabile quantitativa Y e una variabile qualitativa X, confrontando le distribuzioni di Y condizionate ai valori assunti dalla variabile X la metodologia consiste nel verificare la significatività delle differenze tra le medie aritmetiche della variabile continua dei gruppi di osservazioni generati dalle modalità assunte dalla variabile qualitativa (ANOVA : ANalysis Of Variance) il confronto tra le medie avviene tramite il test F, basato sulla scomposizione della varianza H0: μ1 = μ2 = … = μk (le medie sono tutte uguali tra loro ) H1: le μi non sono tutte uguali (esistono almeno due medie diverse tra loro)

Test F – Indipendenza in media Devianza Totale somma dei quadrati degli scarti di ogni valore dalla media generale gdl = n-1 (n = num. dati)   Devianza tra i gruppi somma dei quadrati degli scarti di ogni media di gruppo dalla media generale gdl = p-1 (p= num. gruppi) Varianza tra Devianza interna ai gruppi (o entro i gruppi ) somma degli scarti al quadrato di ogni valore dalla media del suo gruppo gdl = n-p Varianza nei (o entro) F= VarTRA/ VarNEI Significatività del test p-value : - se il p-value del test F è basso (<α) le differenze riscontrate tra le medie sono significativerifiuto l’ipotesi nullaposso affermare l’esistenza di una relazione tra la variabile Y e la variabile X.

PROC ANOVA – Sintassi generale Sia Y una variabile quantitativa e X una variabile qualitativa PROC ANOVA DATA=dataset; CLASS X; MODEL Y=X; MEANS X; RUN;

Esempio (1/2) C’è relazione tra la soddisfazione del cliente (SODDISFAZIONE_GLOBALE) e l’operatore telefonico da lui scelto (OPERATORE)? PROC ANOVA DATA =corso.telefonia; CLASS operatore; MODEL soddisfazione_globale=operatore; MEANS operatore; RUN;

soddisfazione_globale Mean soddisfazione_globale Esempio (2/2) Output proc anova: Devianza Varianza Source DF Sum of Squares Mean Square F Value Pr > F Model 3 8.9317803 2.9772601 1.61 0.1884 Error 231 427.8086453 1.8519855   Corrected Total 234 436.7404255 Tra Nei (Entro) R-Square Coeff Var Root MSE soddisfazione_globale Mean 0.020451 20.9571 1.360877 6.493617 eta quadro Level of N soddisfazione_globale operatore Mean Std Dev Tim 55 6.16363636 1.33004645 Tre 12 6.41666667 1.31137217 Vodafone 153 6.62745098 1.29209313 Wind 15 6.4 2.06328448 Il p-value del test F è alto (>α)accetto l’hp nulla di indipendenza in media non esiste una relazione di dipendenza in media tra le due variabili

Esercizi Testare se le variabili area geografica e sesso del data set DENTI sono statisticamente indipendenti Testare l’ipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI Testare l’ipotesi di indipendenza in media tra la variabile consumo di dentifrici della marca A e area geografica e confrontarla con quella tra consumo di dentifrici della marca A e dimensione della città di residenza.