Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Test F per la verifica di ipotesi sulla differenza tra medie Si prende in considerazione la scomposizione della varianza; qui H 0 : le medie sono tutte uguali tra loro H 1 : esistono almeno due medie diverse tra loro La statistica test da utilizzare, sotto lipotesi H 0, si distribuisce come una F di Fisher con (c-1,n-1) gradi di libertà. Tende a crescere allaumentare della varianza tra medie e al diminuire della variabilità interna alle categorie. Cresce inoltre allaumentare dellampiezza campionaria.
La regione di rifiuto cade nella coda di destra della distribuzione, cioè è caratterizzata da valori relativamente elevati di F; se il livello di significatività è 5%, si rifiuta per F> F 0, Regione di rifiuto Test F per la verifica di ipotesi sulla differenza tra medie
Univariate Analysis
Bivariate Analysis Objective To describe the relationship between two variables jointly. qualitative variables: Analysis of Connection quantitative variables: Analysis of Correlation mixed variables: Analysis of Variance
Bivariate Analysis
Modelling In our interpretation, we cannot make a straightforward connection between importance of brand of coffee bought for home consumption and expected frequency of visiting Starbucks. What we can infer is that there is some negative correlation with brand loyalty. In addition, the variable that incorporated the rating of the appeal of the atmosphere in Starbucks has the highest explanatory power of the variability in the dependent variable, which means that the atmosphere is one of the strong aspects of Starbucks to be leveraged in the Italian market. The other two factors that have significant explanatory power are actual spending per coffee and socialization, which are positively correlated with expected frequency of visiting Starbucks. The latter means that people who on average spend more per coffee expect to visit Starbucks more if given the opportunity, which is logical considering the higher level of prices there. People that score high on the socialization factor, meaning they like to sit and spend time with friends while drinking coffee, also expect higher frequency of visits. Starbucks can successfully apply its international established image of a place for meeting friends as a strategy for penetrating the Italian market. visiting_starbucks(Q25) = *starbucks_appeals_atmosphere – 0.281*characteristic_rate_brand *socialization factor *spend_actual
Multivariate Analysis Objective To describe the relation between more than two variables jointly, in terms of: Analysis of Dependence Y Quantitative, X Quantitative: Multiple Linear Regression Y Quantitative, X Qualitative: Conjoint Analysis Y Qualitative, X Quantitative: Discriminant Analysis Analysis of Inter-Dependence Classification, X Quantitative: Cluster Analysis Reduction of Dimensions, X Quantitative: Factor Analysis
Factor Analysis
If the information is spread among many correlated variables: we may have several different problems. Apparent information; Miss- understanding; Difficulties in the interpretation phase; Robustness of the results; Efficiency of the estimates; Degrees of freedom; ….. Factor Analysis
The high number and the correlation between variables lead to analysis problems: => its necessary to reduce their number, however making sure not to loose any valuable information. The Factor Analysis (FA) is a multivariate technique used to perform the analyses of correlation between quantitative variables. Considering a data matrix: X (nxp), with n observations and p original variables, the use of the FA allows to summarize the information within a restricted set of transformed variables (the so called Factors or latent factors).
Factor Analysis
Analisi fattoriale Quando le variabili considerate sono numerose spesso risultano tra loro correlate. Numerosità e correlazione tra variabili porta a difficoltà di analisi => ridurre il numero (semplificando lanalisi) evitando, però, di perdere informazioni rilevanti. LAnalisi Fattoriale E una tecnica statistica multivariata per lanalisi delle correlazioni esistenti tra variabili quantitative. A partire da una matrice di dati nxp con p variabili originarie, consente di sintetizzare linformazione in un set ridotto di variabili trasformate (i fattori latenti).
Analisi fattoriale Perché sintetizzare mediante limpiego della tecnica? Se linformazione è dispersa tra più variabili correlate tra loro, le singole variabili faticano da sole a spiegare il fenomeno oggetto di studio, mentre combinate tra loro risultano molto più esplicative. Esempio: lattrattività di una città da cosa è data? Dalle caratteristiche del contesto, dalla struttura demografica della popolazione, dalla qualità della vita, dalla disponibilità di fattori quali capitale, forza lavoro, know-how, spazi, energia, materie prime, infrastrutture, ecc. I fattori latenti sono concetti che abbiamo in mente ma che non possiamo misurare direttamente.
Analisi fattoriale Le ipotesi del Modello Fattoriale Variabili Quantitative x 1, x 2,......, x i, x p Info x i = Info condivisa + Info specifica Var x i = Communality + Var specifica x i = f(CF 1,....,CF k ) +UF i i = 1, , p k << p CF i = Common Factor i UF i = Unique Factor i Corr (UF i, UF j ) = 0 per i ^= j Corr (CF i, CF j ) = 0 per i ^= j Corr (CF i, UF j ) = 0 per ogni i,j
Analisi fattoriale Factor Loadings & Factor Score Coefficients x i = l i1 CF 1 + l i2 CF l ik CF k + UFi l i1, l i2, ,l ik factor loadings i = 1, , psignificato fattori CF j = s j1 x 1 + s j2 x s jp x p s j1, s j2, ,s jp factor score coeff. j = 1,....., k << pcostruzione fattori
Analisi fattoriale Metodo delle Componenti Principali Uno dei metodi di stima dei coefficienti (i LOADINGS) è il Metodo delle Componenti Principali. Utilizzare tale metodo significa ipotizzare che il patrimonio informativo specifico delle variabili manifeste sia minimo, mentre sia massimo quello condiviso, spiegabile dai fattori comuni. Per la stima dei loadings si ricorre agli autovalori e agli autovettori della matrice di correlazione R: di fatto i loadings coincidono con le correlazioni tra le variabili manifeste e le componenti principali.
I fattori calcolati mediante il metodo delle CP sono combinazioni lineari delle variabili originarie Sono tra loro ortogonali (non correlate) Complessivamente spiegano la variabilità delle p variabili originarie Sono elencate in ordine decrescente rispetto alla variabilità spiegata Analisi fattoriale Metodo delle Componenti Principali CP j = s j1 x 1 + s j2 x s jp x p
Il numero massimo di componenti principali è pari al numero delle variabili originarie (p). La prima componente principale è una combinazione lineare delle p variabili originarie ed è caratterizzata da varianza più elevata, e così via fino allultima componente, combinazione sempre delle p variabili originarie, ma a varianza minima. Se la correlazione tra le p variabili è elevata, un numero k<<p (k molto inferiore a p )di componenti principali è sufficiente rappresenta in modo adeguato i dati originari, perché riassume una quota elevata della varianza totale. Analisi fattoriale Metodo delle Componenti Principali