Analisi Bivariata e Test Statistici

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Il chi quadro indica la misura in cui le
Variabili casuali a più dimensioni
Analisi dei dati per i disegni ad un fattore
Analisi Bivariata e Test Statistici
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Analisi Bivariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°4.
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Analisi Bivariata & Esercizi Analisi Univariata
Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Analisi Bivariata & Esercizi Analisi Univariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°4.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Questionario e Analisi Univariata
Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Varianza campionaria Errore standard della varianza campionaria
Campionamento casuale semplice
ALBERI DECISIONALI terza parte
Analisi della varianza (a una via)
1 Introduzione alla statistica per la ricerca Lezione III Dr. Stefano Guidi Siena, 18 Ottobre 2012.
1 Perugia, 16 giugno 2005 ~ X Consumo nei due mesi ~ Spesa in euro: Avvertenza: i testi qui proposti sono, talvolta, modificati rispetto alla formulazione.
Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
Canale A. Prof.Ciapetti AA2003/04
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 7-2: Test di significatività
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a LA STATISTICA INFERENZIALE
di cosa si occupa la statistica inferenziale?
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Lezione 6 Inferenza statistica
Lezione 7 i Test statistici
Verifica delle ipotesi su due campioni di osservazioni
Esercizi riepilogativi Analisi Univariata e Bivariata Analisi Fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Un trucchetto di Moltiplicazione per il calcolo mentale
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
Corso di biomatematica lezione 7-3: Test di significatività
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Il test del Chi-quadrato
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Distribuzioni di Frequenza & Esercizi Distribuzioni di Frequenza & Esercizi Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°2.
Analisi Bivariata: Test Statistici
Esercizi riepilogativi Analisi Univariata e Bivariata
Analisi Bivariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°4.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Strumenti statistici in Excell
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Accenni di analisi monovariata e bivariata
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Accenni di analisi monovariata e bivariata. ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Transcript della presentazione:

Analisi Bivariata e Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate: var. qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata) var. quantitative: analisi di correlazione lineare una var. qualitativa e una quantitativa: confronto tra le medie

Test per lo studio dell’associazione tra variabili Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno ò più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione. Obiettivo dei test: come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario. Esistono due ipotesi: H0 l’ipotesi nulla, cioè l’ipotesi che deve essere verificata H1 l’ipotesi alternativa la quale rappresenta, di fatto, l’ipotesi che il ricercatore sta cercando di dimostrare.

Test per lo studio dell’associazione tra variabili Si può incorrere in due tipologie di errore: Possibili Risultati Verifica di Ipotesi Stato di Natura Decisione H0 Vera H0 Falsa Non Errore Secondo Tipo No errore Rifiutare H Errore Primo Tipo Rifiutare No Errore H

Test per lo studio dell’associazione tra variabili Errore di Primo Tipo Rifiutare un’ipotesi nulla vera Considerato un tipo di errore molto serio La probabilità dell’errore di primo tipo è  Chiamato livello si significatività del test Fissato a priori dal ricercatore (i valori comuni sono 0.01, 0.05, 0.10)

Test per lo studio dell’associazione tra variabili Errore di Secondo Tipo Non rifiutare un’ipotesi nulla falsa La probabilità dell’errore di secondo tipo è β

Test per lo studio dell’associazione tra variabili Possibili Risultati Verifica di Ipotesi Stato di Natura Decisione H0 Vera H0 Falsa Non Errore Secondo Tipo ( β ) No errore (1 - ) Rifiutare Legenda: Risultato (Probabilità) a H Errore Primo Tipo ( ) Rifiutare No Errore ( 1 - β ) H a

Test per lo studio dell’associazione tra variabili Errore di primo tipo ed errore di secondo tipo non si posso verificare contemporanemente Errore di primo tipo può occorrere solo se H0 è vera Errore di secondo tipo può occorrere solo se H0 è falsa Se la probabilità dell’errore di primo tipo (  ) , allora la probabilità dell’errore di secondo tipo ( β )

Lettura di un test statistico (1) Esempio: almeno un bi≠0 1) Ipotesi b1= b2 = ....=bk = 0 H0: H1: 2) Statistica test Statistica F 3) p-value Rappresenta la probabilità di commettere l’errore di prima specie. Può essere interpretato come la probabilità che H0 sia “vera” in base al valore osservato della statistica test 1

Lettura di un test statistico (2) Fissato un livello di significatività : Se p-value piccolo (< ) RIFIUTO H0 Altrimenti (>= ) ACCETTO H0 Il p-value è il più piccolo valore di  per il quale H0 può essere rifiutata 1

Test χ² per l’indipendenza statistica Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui: H0 :indipendenza statistica tra X e Y H1 : dipendenza statistica tra X e Y La regione di rifiuto cade nella coda di destra della distribuzione 0.2 0.15 0.1 0.05 La regione di rifiuto è caratterizzata da valori relativamente elevati di χ²; se il livello di significatività è al 5%, si rifiuta per χ²> χ²0.95 Regione di rifiuto 0 1.1 2.2 3.3 4.4 5.5 6.6 7.7 8.8 9.9 11

Test χ² per l’indipendenza statistica p-value=0.140 > =0.05  accetto l’ipotesi di indipendenza statistica p-value=0.001 < =0.05  rifiuto l’ipotesi di indipendenza statistica

Test t per l’indipendenza lineare Questo test verifica l’ipotesi di indipendenza lineare tra due variabili, partendo dall’indice di correlazione lineare ρ. Si ha: H0: indipendenza lineare tra X e Y (ρpopolaz=0) H1: dipendenza lineare tra X e Y (ρpopolaz ≠ 0) La statistica test è distribuita come una t di Student con n-2 gradi di libertà, e tende a crescere all’aumentare dell’ampiezza campionaria t= ρ √(n-2)/ (1- ρ²)

Test t per l’indipendenza lineare La regione di rifiuto è caratterizzata da valori relativamente elevati di t in modulo; se il livello di significatività è al 5%, si rifiuta per |t| >t0,975 Regione di rifiuto Regione di rifiuto

Test t per l’indipendenza lineare p-value=0.657 > =0.05  accetto l’ipotesi di indipendenza lineare tra le variabili leggerezza e sapore/gusto

Test F per la verifica di ipotesi sulla differenza tra medie Si considerino le medie di una variabile quantitativa calcolate per ognuna delle modalità di una variabile categorica (ad esempio reddito medio per area geografica=nord, per area geografica=centro e per area geografica=sud). H0: le medie sono tutte uguali tra loro H1: esistono almeno due medie diverse tra loro La statistica test da utilizzare, sotto l’ipotesi H0, si distribuisce come una F di Fisher con (c-1,n-1) gradi di libertà. Tende a crescere all’aumentare della varianza tra medie e al diminuire della variabilità interna alle categorie. Cresce inoltre all’aumentare dell’ampiezza campionaria.

Test F per la verifica di ipotesi sulla differenza tra medie La regione di rifiuto cade nella coda di destra della distribuzione, cioè è caratterizzata da valori relativamente elevati di F; se il livello di significatività è 5%, si rifiuta per F> F0,95 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Regione di rifiuto 0 0.7 1.4 2.1 2.8 3.5 4.2 4.9

Test F per la verifica di ipotesi sulla differenza tra medie p-value=0.045 < =0.05  rifiuto l’ipotesi di uguaglianza tra medie

p-value=0.191 > =0.05  accetto l’ipotesi di uguaglianza tra medie

PROC FREQ - Descrizione La PROC FREQ permette di calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete calcolare indici di dipendenza relativi a tabelle di contingenza

PROC FREQ – Sintassi generale Distribuzione di frequenza bivariata proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: noprint non mostra i risultati nella finestra di output /missing considera anche i missing nel calcolo delle frequenze

PROC FREQ - Esempio Variabili qualitative: sesso e operatore telefonico proc freq data=corso.telefonia; table sesso * operatore; run;

Output PROC FREQ - Esempio Distribuzioni marginali: frequenze marginali assolute e relative Frequenze congiunte assolute e relative Frequency Percent Row Pct Col Pct 236 100.00 15 6.36 154 65.25 55 23.31 12 5.08 Total 136 57.63     12 5.08 8.82 80.00 91 38.56 66.91 59.09 28 11.86 20.59 50.91 5 2.12 3.68 41.67 M 100 42.37     3 1.27 3.00 20.00 63 26.69 63.00 40.91 27 11.44 27.00 49.09 7 2.97 7.00 58.33 F Wind Vodafone Tim 3 operatore sesso Table of sesso by operatore Frequenze subordinate

Output PROC FREQ - Esempio freq. congiunta relativa =(7/236)*100 freq. marginale assoluta=7+27+63+3 Frequency Percent Row Pct Col Pct 236 100.00 15 6.36 154 65.25 55 23.31 12 5.08 Total 136 57.63     12 5.08 8.82 80.00 91 38.56 66.91 59.09 28 11.86 20.59 50.91 5 2.12 3.68 41.67 M 100 42.37     3 1.27 3.00 20.00 63 26.69 63.00 40.91 27 11.44 27.00 49.09 7 2.97 7.00 58.33 F Wind Vodafone Tim 3 operatore sesso Table of sesso by operatore freq. marginale relativa=(7+27+63+3)/236*100 freq. subordinate: % di riga=5/136*100 % di col=5/12*100

PROC FREQ - Descrizione La PROC FREQ permette di calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete calcolare indici di dipendenza relativi a tabelle di contingenza

Test chi-quadro – Indipendenza statistica Si applica alle tabelle di contingenza a due dimensioni Per testare l’hp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa) Si calcola con la PROC FREQ (opzione CHISQ)

PROC FREQ – Sintassi generale Calcolo dell’indice chi-quadro proc freq data= dataset option(s); tables variabile1 * variabile2 /option(s); run; OPTIONS: noprint non mostra i risultati nella finestra di output /missing considera anche i missing nel calcolo delle frequenze /chisq calcola l’indice chi-quadro e altre misure di associazione basate sul chi-quadro

Esempio n°1- Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)? proc freq data=corso.telefonia; table sesso * computer /chisq; run;

Esempio n°1- Test chi-quadro – Indipendenza statistica Le frequenze della variabile COMPUTER subordinata a SESSO: Cosa sono le frequenze subordinate? Le frequenze della variabile di SESSO subordinata a COMPUTER:

Esempio n°1- Test chi-quadro – Indipendenza statistica Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diversedenota influenza di ognuna delle due variabili sulla distribuzione dell’altra (=dipendenza statistica)

Esempio n°1- Test chi-quadro – Indipendenza statistica Possiamo concludere che le due variabili sono statisticamente dipendenti? Il p-value del test chi-quadro è basso (<0.05) rifiuto l’hp di indipendenza statistica  le due variabili sono statisticamente dipendenti

Esempio n°2 - Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili SESSO e MARCA? proc freq data=corso.telefonia; table sesso * marca /chisq; run;

Esempio n°2 - Test chi-quadro – Indipendenza statistica Attenzione: molte celle con frequenze congiunte assolute molto bassetest non molto affidabile

Esempio n°2 - Test chi-quadro – Indipendenza statistica Il p-value del test chi-quadro è alto accetto l’hp di indipendenza statistica  le due variabili sono statisticamente indipendenti

Test t – Indipendenza lineare Si applica a variabili quantitative Per testare l’hp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo) Si calcola con la PROC CORR

PROC CORR - Descrizione La PROC CORR permette di calcolare la correlazione tra due o più variabili quantitative

PROC CORR – Sintassi generale Correlazione tra due variabili proc corr data= dataset; var variabile1; with variabile2; run;

PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proc corr data=corso.telefonia; var cell_h; with fisso_h; run;

Output PROC CORR - Esempio Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare.

PROC CORR – Sintassi generale Correlazione tra più variabili proc corr data= dataset; var variabile1; with variabile2 variabile3 variabile4; run; proc corr data= dataset; var variabile1 variabile2 variabile3 variabile4; run;

PROC CORR - Esempio Correlazione tra la durata media delle chiamate effettuate e: durata media delle chiamate ricevute, numero medio di ore di utilizzo del telefono cellulare al giorno, numero medio di ore di utilizzo del telefono fisso al giorno. proc corr data=corso.telefonia; var durata_chiamate_e; with durata_chiamate_r cell_h fisso_h; run;

Output PROC CORR - Esempio

Esempio n°1 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)? proc corr data=corso.telefonia; var cell_h; with fisso_h; run;

Esempio n°1 - Test t – Indipendenza lineare Il p-value del test t è basso rifiuto l’hp di indipendenza lineare  esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato)

Esempio n°2 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di email inviate al giorno (EMAIL_H)? proc corr data=corso.telefonia; var fisso_h; with email_h; run;

Esempio n°2 - Test t – Indipendenza lineare Il p-value del test t è alto accetto l’hp di indipendenza lineare  non esiste una relazione lineare tra le due variabili

Test F – Indipendenza in media Si applica a variabili quantitative Per testare l’hp di indipendenza in media tra due variabili, di cui una categorica (ossia, se X è categorica, le medie di Y calcolate per ogni categoria di X sono uguali tra di loro e uguali alla media globale di Y) Si calcola con la PROC REG (la vedremo quando parleremo di modelli di regressione lineare)

Esercizi Testare se le variabili area geografica e sesso del data set DENTI sono statisticamente indipendenti Testare l’ipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI