La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Test di associazione - Analisi fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.

Presentazioni simili


Presentazione sul tema: "Test di associazione - Analisi fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5."— Transcript della presentazione:

1 Test di associazione - Analisi fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5

2 Test di associazione

3 Test chi-quadro – Indipendenza statistica Si applica alle tabelle di contingenza a due dimensioni Per testare lhp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa) Si calcola con la PROC FREQ (opzione CHISQ)

4 Test chi-quadro – Indipendenza statistica proc freq data=corso.telefonia; table sesso * computer /chisq; run; Cè indipendenza statistica tra le variabili SESSO e COMPUTER (possesso del computer)?

5 Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diverse denota influenza di ognuna delle due variabili sulla distribuzione dellaltra (=dipendenza statistica) Test chi-quadro – Indipendenza statistica

6 Il p-value del test chi-quadro è basso rifiuto lhp di indipendenza statistica le due variabili sono statisticamente dipendenti

7 Test chi-quadro – Indipendenza statistica proc freq data=corso.telefonia; table sesso * marca /chisq; run; Cè indipendenza statistica tra le variabili SESSO e MARCA?

8 Test chi-quadro – Indipendenza statistica Attenzione: molte celle con frequenze congiunte assolute molto basse test non molto affidabile

9 Test chi-quadro – Indipendenza statistica Il p-value del test chi-quadro è alto accetto lhp di indipendenza statistica le due variabili sono statisticamente indipendenti

10 Test t – Indipendenza lineare Si applica a variabili quantitative Per testare lhp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo) Si calcola con la PROC CORR

11 Test t – Indipendenza lineare Cè indipendenza lineare tra le variabili CELL_H (numero medio ore utilizzo cellulare al giorno) e FISSO_H (numero medio ore utilizzo telefono fisso al giorno)? proc corr data=corso.telefonia; var cell_h; with fisso_h; run;

12 Test t – Indipendenza lineare Il p-value del test t è basso rifiuto lhp di indipendenza lineare esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato)

13 Test t – Indipendenza lineare Cè indipendenza lineare tra le variabili FISSO_H (numero medio ore utilizzo telefono fisso) e _H (numero medio di inviate al giorno)? proc corr data=corso.telefonia; var fisso_h; with _h; run;

14 Test t – Indipendenza lineare Il p-value del test t è alto accetto lhp di indipendenza lineare non esiste una relazione lineare tra le due variabili

15 Test F – Indipendenza in media Si applica a variabili quantitative Per testare lhp di indipendenza in media tra due variabili, di cui una categorica (ossia, se X è categorica, le medie di Y calcolate per ogni categoria di X sono uguali tra di loro e uguali alla media globale di Y) Si calcola con la PROC REG (la vedremo quando parleremo di modelli di regressione lineare)

16 Analisi Fattoriale

17 E una tecnica descrittiva/esplorativa per lanalisi delle relazioni lineari (correlazioni) esistenti tra variabili quantitative. Nelle applicazioni è usata anche con variabili qualitative ordinali che esprimono scale di preferenza numeriche (punteggi). A partire da una matrice di dati nxp con p variabili originarie, consente di sintetizzare linformazione in un set ridotto di variabili trasformate (le componenti/i fattori latenti). Perché sintetizzare? - se linformazione è condivisa tra più variabili correlate tra loro, è ridondante utilizzarle tutte; - la sintesi comporta una perdita di informazione non rilevante e semplifica le analisi successive.

18 Analisi Fattoriale: Introduzione Metodo delle Componenti Principali Per estrarre i fattori e quindi stimare dei coefficienti (i LOADINGS), uno dei metodi possibili è il Metodo delle Componenti Principali. Alla matrice dei dati X (nxp) possono essere associate p nuove variabili (componenti principali), ottenute come combinazioni lineari della variabili originali. PROPRIETA delle COMPONENTI hanno media nulla hanno varianza pari al proprio autovalore sono tra loro ortogonali (non correlate) Per la stima dei loadings si ricorre agli autovalori e agli autovettori della matrice di correlazione R: di fatto i loadings coincidono con le correlazioni tra le variabili manifeste e le componenti principali.

19 PROC FACTOR – Sintassi generale proc factor data= dataset option(s); var variabile1 … variabile2 variabilen; run; Analisi fattoriale con il metodo delle componenti principali.

20 Analisi Fattoriale - Esempio Gli intervistati hanno espresso, per ciascuna delle 21 caratteristiche del servizio tariffa telefonica, un giudizio sullimportanza utilizzando una scala da 1 a 9. VARIABILEDESCRIZIONE immagine_1l'immagine dell'operatore diffusione_1la diffusione dell'operatore copertura_1la copertura della rete dell'operatore assistenza_1il servizio di assistenza dell'operatore NoScattoRisp_1l'assenza di scatto alla risposta CostoSMS_1il costo degli SMS CostoMMS_1il costo degli MMS AccessoWeb_1il costo di accesso a internet NavigazioneWeb_1il costo di navigazione in internet ChiamateTuoOperatore_1la possibilità di effettuare chiamate a costi inferiori verso numeri dello stesso operatore SMSTuoOperatore_1la possibilità inviare SMS a costi inferiori verso numeri dello stesso operatore MMSTuoOperatore_1la possibilità inviare MMS a costi inferiori verso numeri dello stesso operatore vsPochiNumeri_1le agevolazioni verso uno o più numeri di telefono NumeriFissi_1le agevolazioni verso numeri fissi AltriOperatori_1i costi verso altri operatori Autoricarica_1la possibilità di autoricarica Promozioni_1la possibilità di attivare promozioni sulle tariffe ChiarezzaTariffe_1la chiarezza espositiva delle tariffe ComodatoUso_1la possibilità di rivecere un cellulare in comodato d'uso DurataMinContratto_1la presenza di una durata minima del contratto CambioTariffa_1la facilità di cambiamento della tariffa

21 PROC FACTOR - Esempio Analisi fattoriale con il metodo delle componenti principali. PROC FACTOR DATA=CORSO.TELEFONIA SCREE FUZZ=0.3; VAR immagine_1 diffusione_1 copertura_1 assistenza_1 NoScattoRisp_1 CostoSMS_1 CostoMMS_1 AccessoWeb_1 NavigazioneWeb_1 ChiamateTuoOperatore_1 SMSTuoOperatore_1 MMSTuoOperatore_1 vsPochiNumeri_1 NumeriFissi_1 AltriOperatori_1 Autoricarica_1 Promozioni_1 ChiarezzaTariffe_1 ComodatoUso_1 DurataMinContratto_1 CambioTariffa_1; RUN; Scree Plot: grafico di autovalore vs il numero di fattori Stampa solo |loadings| > valore indicato.

22 Quanti fattori considerare? la regola autovalori > 1 Prendiamo in considerazione tutte le componenti principali con varianza maggiore di 1 (autovalori maggiori di 1) tenendo sotto controllo la % cumulata di varianza spiegata dalle componenti. lettura dello SCREE PLOT (grafico di autovalore vs il numero di fattori) Se il grafico mostra un gomito è plausibile ipotizzare lesistenza di una struttura latente, se la forma è quasi rettilinea significa che i fattori sono solo una trasformazione delle variabili manifeste. I fattori rilevanti sono quelli al di sopra del gomito (a discrezione anche quello in corrispondenza del gomito). Se non ci sono fattori predominanti il criterio è inadatto.

23 Output PROC FACTOR Eigenvalues of the Correlation Matrix: Total = 21 Average = 1 EigenvalueDifferenceProportionCumulative La regola degli autovalori > 1 suggerisce di prendere in considerazione 5 fattori, che spiegano insieme il 56% della varianza totale.

24 Output PROC FACTOR Lo scree plot mostra un gomito netto in corrispondenza di 5 fattori e uno in corrispondenza di 8 fattori. % DI VARIANZA SPIEGATA: soluzione a 5 fattori: 56% soluzione a 8 fattori: 70%

25 PROC FACTOR - Esempio Confrontiamo la soluzione a 5 e a 8 fattori. PROC FACTOR DATA=CORSO.TELEFONIA SCREE FUZZ=0.35 N=8; VAR elenco variabili; RUN; N.B. Quando nella PROC FACTOR non viene indicato il numero di fattori con lopzione N = SAS adotta la regola degli autovalori >1 per scegliere il numero di fattori. Consente di specificare il numero di fattori che si vuole estrarre

26 Output PROC FACTOR Factor Pattern F1F2F3F4F5F6F7F8 immagine_ diffusione_ copertura_ assistenza_ NoScattoRisp_ CostoSMS_ CostoMMS_ AccessoWeb_ NavigazioneWeb_ ChiamateTuoOperatore_ SMSTuoOperatore_ MMSTuoOperatore_ vsPochiNumeri_ NumeriFissi_ AltriOperatori_ Autoricarica_ Promozioni_ ChiarezzaTariffe_ ComodatoUso_ DurataMinContratto_ CambioTariffa_ Values less than 0.3 are not printed. Analisi delle correlazioni tra fattori non ruotati e variabili (loadings)

27 Output PROC FACTOR COMUNALITA' FINALI Variabilen=5n=8 immagine_ diffusione_ copertura_ assistenza_ NoScattoRisp_ CostoSMS_ CostoMMS_ AccessoWeb_ NavigazioneWeb_ ChiamateTuoOperatore_ SMSTuoOperatore_ MMSTuoOperatore_ vsPochiNumeri_ NumeriFissi_ AltriOperatori_ Autoricarica_ Promozioni_ ChiarezzaTariffe_ ComodatoUso_ DurataMinContratto_ CambioTariffa_ Totale Analisi della % di varianza spiegata dai fattori (comunalità finali) Per ogni variabile si evidenziano le celle in corrispondenza delle quali la comunalità aumenta in maniera sostanziale per effetto dellestrazione di un ulteriori fattori (dalla soluzione a 5 fattori alla soluzione a 8 fattori).

28 Interpretazione Una volta estratti, i fattori vanno interpretati. Una rotazione ortogonale nello spazio dei fattori non influenza la validità del modello: sfruttiamo questa caratteristica per ottenere dei fattori più facilmente interpretabili! Dobbiamo fare in modo che ognuna delle variabili originali sia molto correlata con al massimo un fattore e poco correlata con gli altri.

29 Metodi di rotazione La rotazione opera sulla matrice dei loadings. Esistono diversi metodi, tra cui: 1. METODO VARIMAX: minimizza il numero di variabili che hanno correlazioni alte con un fattore 2. METODO QUARTIMAX: minimizza il numero di fattori che hanno correlazioni alte con una variabile 3. METODO EQUIMAX: è una combinazione dei due metodi precedenti IMPORTANTE: la % di varianza complessiva dei fattori ruotati rimane inalterata, mentre si modifica la % di varianza spiegata da ciascun fattore

30 PROC FACTOR - Esempio Operiamo una rotazione dei fattori con il metodo Varimax. PROC FACTOR DATA=CORSO.TELEFONIA N=8 FUZZ=0.35 OUT=FACTORS ROTATE=VARIMAX REORDER; VAR elenco variabili; RUN; Specifica che il criterio per la rotazione dei fattori Produce in output un data set che contiene le variabili originali e i fattori non ruotati Ordina le variabili in modo da facilitare la lettura dei loadings

31 Output PROC FACTOR Rotated Factor Pattern Factor1Factor2Factor3Factor4Factor5Factor6Factor7Factor8 CostoMMS_ MMSTuoOperatore_ AccessoWeb_ NavigazioneWeb_ ChiarezzaTariffe_ Promozioni_ Autoricarica_ NoScattoRisp_ AltriOperatori_ NumeriFissi_ ChiamateTuoOperatore_ CostoSMS_ SMSTuoOperatore_ DurataMinContratto_ ComodatoUso_ CambioTariffa_ copertura_ assistenza_ diffusione_ immagine_ vsPochiNumeri_ Values less than 0.35 are not printed.

32 Output PROC FACTOR Rotated Factor Pattern Factor1Factor2Factor3Factor4Factor5Factor6Factor7Factor8 CostoMMS_ MMSTuoOperatore_ AccessoWeb_ NavigazioneWeb_ ChiarezzaTariffe_ Promozioni_ Autoricarica_ NoScattoRisp_ AltriOperatori_ NumeriFissi_ ChiamateTuoOperatore_ CostoSMS_ SMSTuoOperatore_ DurataMinContratto_ ComodatoUso_ CambioTariffa_ copertura_ assistenza_ diffusione_ immagine_ vsPochiNumeri_ Values less than 0.35 are not printed. COSTI SECONDARI VANTAGGI COSTI CHIAMATE SMS CONDIZIONI CONTRATTUALI SERVIZI OPERATORE VALORE DEL BRAND VS POCHI NUMERI COSTI CHIAMATE SMS

33 Fattori Una volta scelta la soluzione ottimale, è possibile utilizzare i fattori ottenuti come nuove macro-variabili da inserire in ulteriori analisi sul fenomeno indagato, al posto delle variabili originarie; Nel file di dati si potranno aggiungere 8 nuove variabili: –Costi secondari, –Vantaggi, –Costi chiamate, –SMS, –Condizioni contrattuali, –Servizi Operatore, –Valore del Brand, –Vs pochi numeri. si tratta di variabili standardizzate (ovvero a media nulla e varianza unitaria),

34 PROC FACTOR – Opzioni PROC FACTOR DATA=CORSO.TELEFONIA N=8 FUZZ=0.35 SCREE OUT=FACTORS ROTATE=VARIMAX REORDER; VAR elenco variabili; RUN; OPZIONEDESCRIZIONE OUT =Produce in output un data set che contiene le variabili originali e i fattori non ruotati N=num Consente di specificare il numero di fattori che si vuole estrarre ROTATE=metodoSpecifica che il criterio per la rotazione dei fattori (VARIMAX, …) SCREEProduce scree plot REORDEROrdina le variabili in modo da facilitare la lettura dei loadings FUZZ=valoreStampa solo |loadings| > valore indicato.


Scaricare ppt "Test di associazione - Analisi fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5."

Presentazioni simili


Annunci Google