Metodi Quantitativi per Economia, Finanza e Management Lezione n°7 Test d’Ipotesi, Analisi Bivariata: discussione di un lavoro di gruppo.

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7 Analisi Bivariata: discussione di un caso; Analisi Fattoriale: le ipotesi del modello.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
1 Principali analisi statistiche 1. Confronto fra medie (2 o piú campioni) 2. Correlazione e regressione 3. Analisi di tabelle di contigenza Variabile.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
Analisi della varianza
Corso di Analisi Statistica per le imprese
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Precorso di Statistica per le Lauree Magistrali
LA STATISTICA DESCRITTIVA
Precorso di Statistica
DALLA TABELLA DELLE OSSERVAZIONI ALLA TABELLA DELLE FREQUENZE
Precorso di Statistica per le Lauree Magistrali
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
RICHIAMI DI INFERENZA:
Università degli Studi di Teramo – Facoltà di Bioscienze e Tecnologie Agroalimentari ed Ambientali INDAGINE SULL’ACCETTABILITÀ DEL CONSUMATORE AD OTTENERE.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
L’analisi monovariata
Misure Meccaniche e Termiche - Università di Cassino
Metodi Quantitativi per Economia, Finanza e Management Lezione n°12 Regressione Logistica: Le ipotesi del modello, la stima del modello.
Confronto fra 2 popolazioni
DISTRIBUZIONI TEORICHE DI PROBABILITA’
PIANIFICAZIONE DEI TRASPORTI Regressione lineare
Analisi delle Traiettorie: Modelli di Crescita Latente (LGM)
Precorso di Statistica per le Lauree Magistrali
Corso di Laurea in Scienze e tecniche psicologiche
Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.
Precorso di Statistica
Accenni di analisi monovariata e bivariata
Precorso di Statistica per le Lauree Magistrali
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Statistica descrittiva bivariata
Corso di Analisi Statistica per le Imprese 2
L’indagine statistica
I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.
Intervalli di confidenza
Statistica descrittiva bivariata
Statistica descrittiva bivariata
Distribuzione per stato di occupazione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
Statistica inferenziale
Test per campioni appaiati
Esercizio La popolazione di adulti presenta una media di ansia pari a 4. Ad un campione di 35 soggetti con disturbo ossessivo compulsivo è stato somministrato.
Esercizio 2 Un gruppo di persone con DCA ha partecipato per tre mesi ad una psicoterapia di gruppo per aumentare la propria autostima. Verificare che la.
Precorso di Statistica per le Lauree Magistrali
Corso di Analisi Statistica per le imprese
Precorso di Statistica
RICHIAMI DI INFERENZA:
Esercizio 1 Si vuole studiare la mobilità di voto degli elettori di una certa circoscrizione. Da un sondaggio telefonico risulta che: Si calcolino le distribuzioni.
RICHIAMI DI INFERENZA:
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9
Associazione tra due variabili
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Corso di Analisi Statistica per le Imprese
Precorso di Statistica per le Lauree Magistrali
Test per campioni indipendenti
Associazione tra variabili qualitative
Corso di Analisi Statistica per le Imprese
Statistica e probabilità Università degli Studi di Sassari Facoltà di Medicina veterinaria Corso di Laurea in Medicina veterinaria Anno Accademico 2017/2018.
Statistica descrittiva bivariata
Analisi Univariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°3.
Correlazione e regressione
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
Transcript della presentazione:

Metodi Quantitativi per Economia, Finanza e Management Lezione n°7 Test d’Ipotesi, Analisi Bivariata: discussione di un lavoro di gruppo

Bivariate Analysis Objective To jointly describe the relationship between two variables. qualitative variables: Analysis of Connection quantitative variables: Analysis of Correlation mixed variables: Analysis of Variance

Test per lo studio dell’associazione tra variabili Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali Hp sono parametriche se riguardano il valore di uno ò più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione. Obiettivo dei test: come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario. Esistono due ipotesi: H0 e H 1, di cui la prima è l’ipotesi nulla, la seconda l’ipotesi alternativa la quale rappresenta, di fatto, l’ipotesi che il ricercatore sta cercando di dimostrare.

Test di Ipotesi Cosa è un’ipotesi statistica? Una affermazione/assunzione circa un parametro/caratteristica di una popolazione che si intende analizzare Esempio: In questa città, il costo medio della bolletta mensile per il cellulare è μ = $42 Esempio: In questa città, il costo medio della bolletta mensile per il cellulare è lo stesso sia per gli uomini che per le donne

Possibili Risultati Verifica di Ipotesi Test di Ipotesi Si può incorrere in due tipologie di errore: Possibili Risultati Verifica di Ipotesi Stato di Natura Decisione H0 Vera H0 Falsa Non Errore Secondo Tipo No errore Rifiutare H Errore Primo Tipo Rifiutare No Errore H

Test di Ipotesi Errore di Primo Tipo Rifiutare un’ipotesi nulla vera Considerato un tipo di errore molto serio La probabilità dell’errore di primo tipo è  Chiamato livello si significatività del test Fissato a priori dal ricercatore

Test di Ipotesi Errore di Secondo Tipo Non rifiutare un’ipotesi nulla falsa La probabilità dell’errore di secondo tipo è β

Possibili Risultati Verifica di Ipotesi Test di Ipotesi Possibili Risultati Verifica di Ipotesi Stato di Natura Decisione H0 Vera H0 Falsa Non Errore Secondo Tipo ( β ) No errore (1 - ) Rifiutare Legenda: Risultato (Probabilità) a H Errore Primo Tipo ( ) Rifiutare No Errore ( 1 - β ) H a

Test di Ipotesi Errore di primo tipo può occorrere solo se H0 è vera Errore di primo tipo ed errore di secondo tipo non si posso verificare contemporanemente Errore di primo tipo può occorrere solo se H0 è vera Errore di secondo tipo può occorrere solo se H0 è falsa Se la probabilità dell’errore di primo tipo (  ) , allora la probabilità dell’errore di secondo tipo ( β )

Lettura di un Test di Ipotesi (1) Esempio: 1) Ipotesi b1= b2 = ....=bk = 0 H0: H1: bi = 0 2) Statistica test Statistica F 3) p-value Rappresenta la probabilità di commettere l’errore di primo tipo. Può essere interpretato come la probabilità che H0 sia “vera” in base al valore osservato della statistica test 1

Lettura di un Test di Ipotesi (2) Il p-value: - è la probabilità che H0 sia “vera” in base al valore osservato della statistica test - è anche chiamato livello di significatività osservato - è il più piccolo valore di  per il quale H0 può essere rifiutata 1

Lettura di un Test di Ipotesi (3) Regola di Decisione: confrontare il p-value con  Se p-value piccolo ( < α ) RIFIUTO H0 Altrimenti ( >= α ) ACCETTO H0 1

Test χ² per l’indipendenza statistica Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui: H0 :indipendenza statistica tra X e Y H1 : dipendenza statistica tra X e Y La regione di rifiuto cade nella coda di destra della distribuzione 0.2 0.15 0.1 0.05 La regione di rifiuto è caratterizzata da valori relativamente elevati di χ²; se il livello di significatività è al 5%, si rifiuta per χ²> χ²0.95 Regione di rifiuto 0 1.1 2.2 3.3 4.4 5.5 6.6 7.7 8.8 9.9 11

Test χ² per l’indipendenza statistica

Test χ² per l’indipendenza statistica Esempio H0: assenza di associazione tra mano dominante e sesso (indipendenza statistica ) H1: mano dominante non è independente dal sesso (dipendenza statistica ) Sesso Mano dominante Sinistra Destra Femmina 12 108 120 Maschio 24 156 180 36 264 300 Se non c’è associazione, allora P(Mancino | Femmina) = P(Mancino | Maschio) =P(Mancino)= 36/300= 0.12 Quindi ci aspetteremmo che Il 12% delle 120 femmine e Il 12% dei 180 maschi siano mancini…

Test χ² per l’indipendenza statistica Esempio Se H0 è vera, allora la proporzione di donne mancine dovrebbe coincidere con la proporzione di uomini mancini Le due proporzioni precedenti dovrebbero coincidere con la proporzione generale di gente mancina Sesso Mano dominante Sinistra Destra Femmina Osservate = 12 Attese = 14.4 Osservate = 108 Attese = 105.6 120 Maschio Osservate = 24 Attese = 21.6 Osservate = 156 Attese = 158.4 180 36 264 300

confrontare il p-value con  Test χ² per l’indipendenza statistica Esempio La statistica test chi-quadrato è: Regola di Decisione: confrontare il p-value con  dove: Oij = frequenza osservate nella cella (i, j) Eij = frequenza attesa nella cella (i, j) r = numero di righe c = numero di colonne p-value = 0.32 > 0.05, quindi accettiamo H0 e concludiamo che sesso e mano dominante non sono associate

Test t per l’indipendenza lineare Questo test verifica l’ipotesi di indipendenza lineare tra due variabili, partendo dall’indice di correlazione lineare ρ. Si ha: H0: indipendenza lineare tra X e Y (ρpopolaz=0) H1: dipendenza lineare tra X e Y (ρpopolaz ≠ 0) La statistica test è distribuita come una t di Student con n-2 gradi di libertà, e tende a crescere all’aumentare dell’ampiezza campionaria t= ρ √(n-2)/ (1- ρ²)

Test t per l’indipendenza lineare La regione di rifiuto è caratterizzata da valori relativamente elevati di t in modulo; se il livello di significatività è al 5%, si rifiuta per |t| >t0,975 Regione di rifiuto Regione di rifiuto

Test t per l’indipendenza lineare

Test F per la verifica di ipotesi sulla differenza tra medie Si prende in considerazione la scomposizione della varianza; qui H0: le medie sono tutte uguali tra loro H1: esistono almeno due medie diverse tra loro La statistica test da utilizzare, sotto l’ipotesi H0, si distribuisce come una F di Fisher con (c-1,n-1) gradi di libertà. Tende a crescere all’aumentare della varianza tra medie e al diminuire della variabilità interna alle categorie. Cresce inoltre all’aumentare dell’ampiezza campionaria.

Test F per la verifica di ipotesi sulla differenza tra medie La regione di rifiuto cade nella coda di destra della distribuzione, cioè è caratterizzata da valori relativamente elevati di F; se il livello di significatività è 5%, si rifiuta per F> F0,95 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Regione di rifiuto 0 0.7 1.4 2.1 2.8 3.5 4.2 4.9

Test F per la verifica di ipotesi sulla differenza tra medie

Bivariate Analysis

Caso Caffè

TABELLA COMPAGNIA/DESCRIZIONE CONSUMO Università Carlo Cattaneo - Liuc 2010/2011 Università Carlo Cattaneo-LIUC 2010/2011 2.2. ANALISI BIVARIATA TABELLA COMPAGNIA/DESCRIZIONE CONSUMO Compagnia Descrizione consumo ABITUDINE BEVANDA ESIGENZA RITO Totale AMICI 51 9 14 24 98 24.52 4.33 6.73 11.54 47.12 52.04 9.18 14.29 24.49   53.13 36 41.18 45.28 COLLEGHI 6 3 2.88 1.44 37.5 25 12.5 9.38 17.65 5.66 FAMIGLIA 19 4 8 16 47 9.13 1.92 3.85 7.69 22.6 40.43 8.51 17.02 34.04 19.79 23.53 30.19 SOLO 17 10 39 8.17 4.81 18.75 43.59 15.38 25.64 17.71 18.87 96 34 53 208 46.15 12.02 16.35 25.48 100 Considerando la relazione tra la compagnia con cui si preferisce consumare caffè e la concezione che si ha del momento di consumo è possibile avere un’idea più completa sull’immagine da trasmettere con la campagna pubblicitaria. Seguendo le analisi precedenti la maggior parte del campione considera il caffè un’abitudine e, secondariamente, un rito. Gruppo SYD: Bianchi, Colatore, Franchini, Lamberti, Prestigiacomo, Zanolla

Università Carlo Cattaneo - Liuc 2010/2011 Delle 96 persone che hanno scelto “abitudine” 51 preferisce berlo con gli AMICI, 19 con la FAMIGLIA, 17 da SOLO e 9 coi COLLEGHI. Delle 53 persone che hanno scelto “rito” 24 preferiscono berlo con gli AMICI, 16 con la FAMIGLIA, 10 da SOLO e 3 coi COLLEGHI. Risultati che indicano comunque come si preferisca consumare una tazzina di caffè con gli amici e, in secondo luogo, con la famiglia. Infatti in generale la distribuzione marginale della variabile “AMICI” è 98 su un totale di 208, seguita da un 47 della “FAMIGLIA”. Questo porta l’azienda a conoscere le preferenze del consumatore e quindi trasmettere l’immagine di un prodotto non solo vissuto come un’abitudine o un rito, ma da consumarsi circondato da amici o famigliari. La campagna pubblicitaria dovrebbe basarsi su questi elementi in modo da dare al consumatore ciò che vuole e colpire la sua attenzione. Gruppo SYD: Bianchi, Colatore, Franchini, Lamberti, Prestigiacomo, Zanolla

Università Carlo Cattaneo - Liuc 2010/2011 TEST CHI QUADRO Per testare l’ipotesi di indipendenza statistica tra le due variabili qualitative luogo di consumo e compagnia si deve fare il “test chi quadro”. Il “chi quadro” risulta essere 0,0001. Si considera un livello di significatività di 0,05 0,0001<<0,05  si rifiuta, quindi, l’ipotesi nulla di indipendenza statistica e si può affermare che le due variabili sono statisticamente dipendenti. L’azienda dovrebbe considerare questo aspetto, durante la campagna pubblicitaria, in modo da offrire un messaggio coerente (es. creare l’immagine di un bar insieme a degli amici). Statistic DF Value Prob Chi-Square 6 27.225 0.0001 Likelihood Ratio Chi-Square 26.893 0.0002 Mantel-Haenszel Chi-Square 1 5.088 0.0241 Phi Coefficient   0.361 Contingency Coefficient 0.340 Cramer's V 0.255 Gruppo SYD: Bianchi, Colatore, Franchini, Lamberti, Prestigiacomo, Zanolla

TABELLA LUOGO DI CONSUMO/COMPAGNIA Università Carlo Cattaneo - Liuc 2010/2011 Università Carlo Cattaneo-LIUC 2010/2011 TABELLA LUOGO DI CONSUMO/COMPAGNIA Luogo di consumo Compagnia AMICI COLLEGHI FAMIGLIA SOLO Totale BAR 45 7 9 68 21.63 3.37 4.33 32.69 66.18 10.29 13.24   45.92 29.17 14.89 23.08 CASA 29 5 19 82 13.94 2.4 9.13 39.42 35.37 6.1 23.17 29.59 20.83 61.7 48.72 DISTRIBUTORE 24 12 11 58 11.54 5.77 5.29 27.88 41.38 20.69 18.97 24.49 50 23.4 28.21 98 47 39 208 47.12 22.6 18.75 100 Anche da questa tabella risulta evidente che in qualsiasi luogo si beva il caffè prevale l’opzione AMICI. Solo a CASA è rilevante anche la compagnia della FAMIGLIA con una frequenza di 29 pari a quella degli amici. Quindi, dalle tabelle di contingenza analizzate, risulta come qualsiasi sia la concezione che si ha del momento del consumo di caffè e in qualsiasi luogo lo si beva, la compagnia preferita sia la stessa. Gruppo SYD: Bianchi, Colatore, Franchini, Lamberti, Prestigiacomo, Zanolla

Università Carlo Cattaneo - Liuc 2010/2011 ANALISI DI CORRELAZIONE TRA LA VARIABILE ETA` E LA VARIABILE NUMERO DI CAFFE` CONSUMATI L’analisi è svolta per capire se esiste una relazione tra le due variabili e se è di tipo positivo o negativo. In questo modo l’azienda, attraverso il risultato ottenuto, può concentrarsi su un’eventuale target di clienti divisi per fascia di età. Bisogna considerare il coefficiente di correlazione per capire che tipo di relazione intercorre tra le due variabili quantitative. In questo caso il suo valore è pari a 0.03451. E’ un coefficiente positivo, ma molto prossimo allo 0 e quindi si può affermare che non esiste relazione tra le due variabili. Pearson Correlation Coefficients, N = 208 Prob > |r| under H0: Rho=0   ETA' NUMERO CAFFE' 1 0.03451 0.6207 Come si può osservare nel grafico, non vi è una correlazione lineare, né tantomeno positiva, tra le variabili età e numero di caffè bevuti. MEDIA CAFFE’ ETA’ Gruppo SYD: Bianchi, Colatore, Franchini, Lamberti, Prestigiacomo, Zanolla

Università Carlo Cattaneo - Liuc 2010/2011 ANALISI DI CORRELAZIONE TRA LE VARIABILI QUANTITATIVE ETA` E PROPENSIONE ALL’ACQUISTO Questa analisi può essere utile per capire se la sensibilità al prezzo possa variare con il variare dell’età. Nel caso in questione il coefficiente di correlazione risulta essere -0.19727, valore negativo che ci porta a dire che esiste una relazione lineare negativa tra le due variabili: all’aumentare dell’età diminuisce la disponibilità a pagare. Coefficienti di correlazione di Pearson, N = 208 Prob > |r| con H0: Rho=0   ETA SPESABAR 1 -0.19727 0.0043 L’azienda può usare questi dati per capire in che modo l’età influisca sulla sensibilità al prezzo e, di conseguenza, decidere che strategie di prezzo assumere in base al target su cui ci si focalizzerà. Gruppo SYD: Bianchi, Colatore, Franchini, Lamberti, Prestigiacomo, Zanolla

Università Carlo Cattaneo - Liuc 2010/2011 TEST T Infatti, eseguendo il test t, considerando il valore 0.0043 e prendendo come livello di significatività il valore 0.05 risulta essere 0.0043<0,05. Si rifiuta quindi l’ipotesi nulla di indipendenza lineare. Le due variabili età e spesa al bar sono dipendenti. Coefficienti di correlazione di Pearson, N = 208 Prob > |r| con H0: Rho=0   ETA SPESABAR 1 -0.19727 0.0043 Gruppo SYD: Bianchi, Colatore, Franchini, Lamberti, Prestigiacomo, Zanolla

Università Carlo Cattaneo - Liuc 2010/2011 TEST F Col test F si può considerare la relazione tra variabili indicanti le caratteristiche del campione ( età, professione) e le abitudini di consumo del caffè. La professione potrebbe influenzare il numero di caffè bevuti giornalmente: per esempio una persona che svolge turni di notte potrebbe bere caffè per l’esigenza di mantenersi sveglio. Anche l’età è un fattore rilevante che potrebbe spingere le persone ad avere diverse abitudini e diverse preferenze. Col test F si può capire se sussiste realmente questa relazione accettando o rifiutando l’ipotesi nulla di uguaglianza tra medie. All’azienda è utile per avere idee chiare e prendere decisioni relative al consumatore target e alla comunicazione più idonea da farsi. Gruppo SYD: Bianchi, Colatore, Franchini, Lamberti, Prestigiacomo, Zanolla

Università Carlo Cattaneo - Liuc 2010/2011 Test F tra le variabile qualitativa professione e la variabile quantitativa numero di caffè bevuti in un giorno Possiamo constatare il valore di 0,0225. Valore che è minore del livello di significatività 0,05: 0,0225<0,05. Questo porta a rifiutare l’ipotesi nulla e ad affermare l’esistenza di una relazione di dipendenza in media tra le due variabili. Il valore di Eta quadro, 0.06, è positivo quindi indica dipendenza in media, ma risulta essere debole in quanto il dato è molto prossimo allo zero. Source DF Sum of Squares Mean Square F Value Pr > F Model 5 30.3848377 6.0769675 2.68 0.0225 Error 202 457.3026623 2.2638746   Corrected Total 207 487.6875 R-Square Coeff Var Root MSE NUMCAF Mean 0.062304 53.49752 1.504618 2.8125 Gruppo SYD: Bianchi, Colatore, Franchini, Lamberti, Prestigiacomo, Zanolla

Università Carlo Cattaneo - Liuc 2010/2011 Test F tra la variabile quantitativa età e la variabile qualitative marca preferita Possiamo constatare il valore di 0.3618. Valore che è maggiore del livello di significatività 0.05: 0.3618>0,05. Questo porta ad accettare l’ipotesi nulla e ad affermare l’inesistenza di una relazione di dipendenza in media tra le due variabili. Source DF Sum of Squares Mean Square F Value Pr > F Model 7 1673.44718 239.06388 1.1 0.3618 Error 200 43298.2259 216.49113   Corrected Total 207 44971.67308 R-Square Coeff Var Root MSE ETA Mean 0.037211 37.58827 14.71364 39.14423 Gruppo SYD: Bianchi, Colatore, Franchini, Lamberti, Prestigiacomo, Zanolla

Percorsi di Analisi