Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate: var. qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata) var. quantitative: analisi di correlazione lineare una var. qualitativa e una quantitativa: confronto tra le medie
Test per lo studio dellassociazione tra variabili Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali Ip sono parametriche se riguardano il valore di uno ò più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione. Obiettivo dei test: come decidere se accettare o rifiutare unipotesi statistica alla luce di un risultato campionario. Esistono due ipotesi: H 0 e H 1, di cui la prima è lipotesi nulla, la seconda lipotesi alternativa la quale rappresenta, di fatto, lipotesi che il ricercatore sta cercando di dimostrare.
Test per lo studio dellassociazione tra variabili Si può incorrere in due tipologie di errore: Stato di Natura Decisione Non Rifiutare H 0 No errore Errore Secondo Tipo Rifiutare H 0 Errore Primo Tipo Possibili Risultati Verifica di Ipotesi H 0 Falsa H 0 Vera No Errore
Errore di Primo Tipo –Rifiutare unipotesi nulla vera –Considerato un tipo di errore molto serio La probabilità dellerrore di primo tipo è Chiamato livello si significatività del test Fissato a priori dal ricercatore Test per lo studio dellassociazione tra variabili
Errore di Secondo Tipo –Non rifiutare unipotesi nulla falsa La probabilità dellerrore di secondo tipo è β Test per lo studio dellassociazione tra variabili
Stato di Natura Decisione Non Rifiutare H 0 No errore (1 - ) Errore Secondo Tipo ( β ) Rifiutare H 0 Errore Primo Tipo ( ) Possibili Risultati Verifica di Ipotesi H 0 Falsa H 0 Vera Legenda: Risultato (Probabilità) No Errore ( 1 - β ) Test per lo studio dellassociazione tra variabili
Errore di primo tipo ed errore di secondo tipo non si posso verificare contemporanemente Errore di primo tipo può occorrere solo se H 0 è vera Errore di secondo tipo può occorrere solo se H 0 è falsa Se la probabilità dellerrore di primo tipo ( ), allora la probabilità dellerrore di secondo tipo ( β ) Test per lo studio dellassociazione tra variabili
Lettura di un test statistico (1) Esempio: 1) Ipotesi b1= b2 =....=bk = 0H0:H0: H1:H1: bi = 0 2) Statistica test Statistica F 3) p-value Rappresenta la probabilità di commettere lerrore di prima specie. Può essere interpretato come la probabilità che H 0 sia vera in base al valore osservato della statistica test
Lettura di un test statistico (2) Se p-value piccolo RIFIUTO H 0 Altrimenti ACCETTO H 0
Test χ² per lindipendenza statistica Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui: H 0 :indipendenza statistica tra X e Y H 1 : dipendenza statistica tra X e Y La regione di rifiuto cade nella coda di destra della distribuzione Regione di rifiuto La regione di rifiuto è caratterizzata da valori relativamente elevati di χ²; se il livello di significatività è al 5%, si rifiuta per χ²> χ² 0.95
Test χ² per lindipendenza statistica
Test t per lindipendenza lineare Questo test verifica lipotesi di indipendenza lineare tra due variabili, partendo dallindice di correlazione lineare ρ. Si ha: H 0 : indipendenza lineare tra X e Y (ρ popolaz =0) H 1 : dipendenza lineare tra X e Y (ρ popolaz 0) La statistica test è distribuita come una t di Student con n-2 gradi di libertà, e tende a crescere allaumentare dellampiezza campionaria t= ρ (n-2)/ (1- ρ²)
Regione di rifiuto La regione di rifiuto è caratterizzata da valori relativamente elevati di t in modulo; se il livello di significatività è al 5%, si rifiuta per |t| >t 0,975 Test t per lindipendenza lineare
Test F per la verifica di ipotesi sulla differenza tra medie Si prende in considerazione la scomposizione della varianza; qui H 0 : le medie sono tutte uguali tra loro H 1 : esistono almeno due medie diverse tra loro La statistica test da utilizzare, sotto lipotesi H 0, si distribuisce come una F di Fisher con (c-1,n-1) gradi di libertà. Tende a crescere allaumentare della varianza tra medie e al diminuire della variabilità interna alle categorie. Cresce inoltre allaumentare dellampiezza campionaria.
La regione di rifiuto cade nella coda di destra della distribuzione, cioè è caratterizzata da valori relativamente elevati di F; se il livello di significatività è 5%, si rifiuta per F> F 0, Regione di rifiuto Test F per la verifica di ipotesi sulla differenza tra medie
Analisi fattoriale Quando le variabili considerate sono numerose spesso risultano tra loro correlate. Numerosità e correlazione tra variabili porta a difficoltà di analisi => ridurre il numero (semplificando lanalisi) evitando, però, di perdere informazioni rilevanti. LAnalisi Fattoriale E una tecnica statistica multivariata per lanalisi delle correlazioni esistenti tra variabili quantitative. A partire da una matrice di dati nxp con p variabili originarie, consente di sintetizzare linformazione in un set ridotto di variabili trasformate (i fattori latenti).
Analisi fattoriale Perché sintetizzare mediante limpiego della tecnica? Se linformazione è dispersa tra più variabili correlate tra loro, le singole variabili faticano da sole a spiegare il fenomeno oggetto di studio, mentre combinate tra loro risultano molto più esplicative. Esempio: lattrattività di una città da cosa è data? Dalle caratteristiche del contesto, dalla struttura demografica della popolazione, dalla qualità della vita, dalla disponibilità di fattori quali capitale, forza lavoro, know-how, spazi, energia, materie prime, infrastrutture, ecc. I fattori latenti sono concetti che abbiamo in mente ma che non possiamo misurare direttamente.
Analisi fattoriale Le ipotesi del Modello Fattoriale Variabili Quantitative x 1, x 2,......, x i, x p Info x i = Info condivisa + Info specifica Var x i = Communality + Var specifica x i = f(CF 1,....,CF k ) +UF i i = 1, , p k << p CF i = Common Factor i UF i = Unique Factor i Corr (UF i, UF j ) = 0 per i ^= j Corr (CF i, CF j ) = 0 per i ^= j Corr (CF i, UF j ) = 0 per ogni i,j
Analisi fattoriale Factor Loadings & Factor Score Coefficients x i = l i1 CF 1 + l i2 CF l ik CF k + UFi l i1, l i2, ,l ik factor loadings i = 1, , psignificato fattori CF j = s j1 x 1 + s j2 x s jp x p s j1, s j2, ,s jp factor score coeff. j = 1,....., k << pcostruzione fattori