La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Analisi dei dati: Descrittiva, Bivariata

Presentazioni simili


Presentazione sul tema: "Analisi dei dati: Descrittiva, Bivariata"— Transcript della presentazione:

0 Analisi dei dati: file per esercitazione
Si consideri il file DATI_Analisi_DESCRITTIVA.sas7bdat Si tratta dei dati relativi ad un campione di clienti di un’azienda di abbigliamento importiamo i dati nel NUOVO flusso del progetto che chiamiamo “ANALISI DESCRITTIVA” Inseriamo un nodo “Programma” nel progetto e eseguiamo il comando options compress = char

1 Analisi dei dati: Descrittiva, Bivariata
Analisi Descrittiva: Analisi caratteristiche principali delle variabili del data set: analisi eventuali dati anomali analisi missing analisi tipologia di distribuzione delle frequenze calcolo dei principali indicatori di posizione e di variabilità Analisi Bivariata: Analisi di Connessione, indicatori di significatività Analisi di Correlazione, indicatori di significatività Analisi della varianza (Anova), indicatori di significatività

2 Analisi dei dati: Analisi descrittiva
Caratterizza Dati: Tutte le Variabili permette di ricavare una serie di informazioni per tutte le variabili inserite nel data set. Semplice ma poco significativo per data set con un elevato numero di variabili Statistiche di riepilogo: Variabili Continue Utile per individuare eventuali errori di importazione o variabili “costanti”, è possibile filtrare l’analisi on riferimento ad un sottoinsieme di dati sia in un’unica tabella che in tabelle separate, effettuare le analisi confrontando gruppi definiti da specifiche variabili categoria, limitare l’analisi a determinate variabili, è possibile calcolare gli indicatori di posizione e di variabilità di ciascuna variabile contenuta nel data set., Analisi della distribuzione: Variabili Continue è possibile analizzare la distribuzione di frequenza delle variabili continue sia globalmente che per sottoinsiemi, opportunamente definiti, del data set. Con l’opzione Variabile di classificazione è possibile ottenere un confronto “grafico” della variabile dipendente rispetto ad una specifica variabile categoria (l’opzione Raggruppa analisi per, semplicemente replica l’analisi rispetto alle modalità della variabile categoria selezionata) Frequenza ad una via: è possibile personalizzare l’analisi delle variabili in modo particolare con riferimento alle statistiche. Applicare su file esercitazione

3 Analisi dei dati: Analisi descrittiva
Indicatori di Posizione: Media, Moda, Mediana (percentili e decili) Quali differenze fra i diversi indicatori di Posizione? Indicatori di Dispersione: Varianza, Scarto quadratico medio, coefficiente di variazione Quali differenze fra i diversi indicatori di Dispersione? Attenzione una variabile DEVE essere definita come continua, il fatto che sia codificata come numero, esempio sesso 0,1, NON implica che lo sia. Qualunque sw statistico se richiesto calcola la media di tutte le variabile “numeriche”……..

4 Analisi dei dati: Analisi descrittiva
Selezionare da Processi:Descrivi: Statistiche di riepilogo (NON procedura guidata) Scegliere le variabili oggetto dell’analisi ed eventualmente le variabili di raggruppamento Definire le statistiche e i diagrammi Sono possibile una serie di opzioni

5 Analisi dei dati: Analisi descrittiva - esercitazione
Applicare su file esercitazione Statistiche di riepilogo Analizzare le variabili continue, quali osservazioni sulla variabile sellout? Ripetere l’analisi con un opportuno filtro sulla variabile sellout? Se ordiniamo il file per la variabile sellout possiamo avere un’idea della rilevanza del problema? Analisi Distribuzione Analizzate la distribuzione dell’eta rispetto al sesso con le due opzioni Raggruppa analisi per e variabili di Classificazione Quale delle due distribuzioni dell’età (Femmine /Maschio) è più simile ad una distribuzione normale? Filtrare le analisi considerando solo Gender NON missing o “.” Analizzate la distribuzione del sellout rispetto alla nazione, solo Italia, Francai, Giappone e USA, quali considerazioni possiamo cogliere? Frequenza ad una via Analizziamo la variabile classe di età Confrontando i risultati per sesso emergono delle differenze? Costruiamo una variabile che indichi l’anzianità di relazione con l’azienda (da quanto tempo è cliente)

6 Analisi dei dati: Analisi Bivariata
Precedentemente abbiamo visto come sia possibile ottenere degli indicatori/descrittori per ciascuna variabile sia globali che per sotto insiemi del data set. Tali metodologie però evidenziano solo eventuali differenze tra le variabili per sotto gruppi senza “misurare” queste differenze: CONCETTO DI DIFFERENZE STATISTICAMENTE SIGNIFICATIVE

7 Analisi dei dati: Analisi Bivariata - Connessione
Confrontare statisticamente due variabili significa verifica se esiste un legame/dipendenza tra le due variabili, vale a dire verificare se la distribuzione della variabile originaria mostra delle differenze STATISTICAMENTE SIGNIFICATIVE all’interno delle sub popolazioni del dataset individuate dall’altra variabile. Quando le variabili sono DISCRETE, è necessario effettuare un’analisi di CONNESSIONE, vale a dire analizzare se la distribuzione delle frequenze di una data variabile sull’intera popolazione mostra una distribuzione diversa all’interno delle sotto popolazioni individuate dalla variabile rispetto a quale si sta valutando l’eventuale connessione ANALISI TABELLA A DOPPIA ENTRATA – TEST DEL CHI QUADRO

8 Analisi dei dati: Analisi Bivariata - Connessione
Consideriamo il file Info_Farma, ove abbiamo una classificazione delle farmacie relativamente a 7 segmenti che si caratterizzano in funzione delle caratteristiche socio-demo e strutturali del proprio bacino di utenza

9 Analisi dei dati: Analisi Bivariata - Connessione
Come precedentemente visto operiamo con l’opzione join tabelle nel comando Costruttore di query per importare questa nuova variabile nel nostro data set ottenuto dalle 2 tabelle importate Apriamo Costruttore di query dal db Cluster, aggiungiamo la tabella QUERY DB FARMACIE_1, quella in cui si era costruita la variabile regione

10 Analisi dei dati: Analisi Bivariata - Connessione
Il sw identifica la variabili ID comune ai due dataset e la propone come chiave di unione

11 Analisi dei dati: Analisi Bivariata - Connessione
Selezionando il simbolo di insieme tra le due tabelle è possibile selezionare il criterio rispetto al quale le due tabelle devono essere unite Quali sono le differenze tra i criteri?

12 Analisi dei dati: Analisi Bivariata - Connessione
SAS_EGJoin Option Join Type Description Matching rows only given a condition Inner join The output rows include those for which the column in the first table matches the joining criterion of the column in the second table. Joins are inner joins by default. All rows from the left table given a condition Left join The output rows include all rows from the first table and the rows from the second table in which the joining criterion is met. All rows from the right table given a condition Right join The output rows include all rows from the second table and the rows from the first table in which the joining criterion is met. All rows from both tables given a condition Full outer join The output rows include all rows from both tables in which the joining criterion is met. The Cartesian product Cross join The output rows include each row from the first table combined with each row from the second table. The total number of output rows is the product of the number of rows in each table. For example, if Table A, which contains 9 rows, is combined with Table B, which contains 13 rows, then the number of output rows will be 9 * 13, or 117. Matching rows only with equal common columns Natural inner join The output rows include all rows in which the common columns in the two tables contain values that are equal. Common columns are those that have the same name and same data type. All rows from the left table with equal common columns Natural left join The output rows include all rows from the first table and the rows from the second table in which the common columns in the two tables contain values that are equal. Common columns are those that have the same name and same data type. All rows from the right table with equal common columns Natural right join The output rows include all rows from the second table and the rows from the first table in which the common columns in the two tables contain values that are equal. Common columns are those that have the same name and same data type. All rows from both tables with equal common columns Natural Full Outer Join The output rows include all rows from both tables. Rows that do not have a match are filled in with missing values.

13 Analisi dei dati: Analisi Bivariata - Connessione
Considerando che il nostro dataset principale è DB FARMACIE specificheremo come criterio TUTTE LE RIGHE DELLA TABELLA DI DESTRA DATA UNA CONDIZIONE (nel nostro caso nessuna)

14 Analisi dei dati: Analisi Bivariata - Connessione
Inseriamo tutte le variabili presenti nei due dataset ed eseguiamo il nodo: quante dovrebbero essere le osservazioni nella nuova tabella? Perché?

15 Analisi dei dati: Analisi Bivariata - Connessione
Da un punto statistico si può dire che la distribuzione dei cluster è differente per le regione Calabria, Piemonte e Lombardia? Costruiamo la tabella a doppia entrata: Selezioniamo da Processi, Descrivi, Analisi delle tabelle Specifichiamo le variabili che vogliamo Inserire Nella tabella: Cluster e Regione In Tabella specifichiamo le righe e le colonne In statistiche per cella specifichiamo % riga/colonna e % celle Eseguiamo il nodo

16 Analisi dei dati: Analisi Bivariata - Connessione
Analizziamo il risultato Confrontiamo la distribuzioni di frequenza totale della variabile Cluster rispetto alle distribuzione della stessa variabile all’interno delle regioni (… naturalmente si può ragionare anche all’inverso)

17 Analisi dei dati: Analisi Bivariata - Connessione
Modifichiamo il nodo Analisi delle tabelle specificando Test di Associazione Chi quadrato e Contributo cella al chi quadrato di Pearson nelle Statistiche per le celle

18 Analisi dei dati: Analisi Bivariata - Connessione
Analizziamo l’output Il valore del Chi_Square rappresenta il risultato del test omonimo verifica se l’ipotesi nulla e probabilisticamente compatibile con i dati In particolare l’ipotesi nulla è che i due campioni sono indipendenti cioè che la distribuzione delle farmacie per esempio nei cluster è la stessa nelle 3 regioni Il valore Prob evidenzia quale è la probabilità con cui è verificata l’ipotesi nulla, nel nostro caso RIFIUTIAMO l’ipotesi nulla quindi le due variabili NON sono indipendenti quindi sono dipendenti

19 Analisi dei dati: Analisi Bivariata - Connessione
La variabile così calcolata che confronta quindi le distribuzioni reali con quelle che teoricamente dovrebbero essere in caso di indipendenza, si distribuisce come una variabile causale con (g-1) gradi di liberta In questo modo, se il valore “” ottenuto è maggiore di quello riportato sulle tavole della distribuzione di frequenza, dato un certo valore di significatività, si può rifiutare l’ipotesi nulla di indipendenza

20 Analisi dei dati: Analisi Connessione - esercitazione
Applicare su file esercitazione La distribuzione dell’eta per sesso è statisticamente differente? Fra Austria, Francia, Germani, Grecia e Italia qual’è la nazione con i clienti più “giovani” Considerando le stesse nazioni qual è quella ove sembra esserci un maggiore interesse per la Categoria 3

21 Analisi dei dati: Analisi Bivariata - Correlazione
Nel caso in cui le variabili di cui vogliamo valutare il legame sono di natura continua è necessari valutarne la CORRELAZIONE Si ipotizzi che si voglia verificare se la spesa media in Sanità e in Personale Care risulti legata alla rilevanza nel bacino della farmacia di bambini di età inferiore ai 14 anni costruiamo il nuovo data set partendo dal database DB_farmacie inserendo le variabili utili all’analisi e calcolando la nuova variabile % di bambini di età inferiore ai 13 (perché la percentuale e non consideriamo semplicemente la numerosità di bambini inferiori a 13 anni)

22 Analisi dei dati: Analisi Bivariata - Correlazione
Sulla tabella derivata, Processi, Multivariata, Correlazione Specifichiamo le variabili di cui vogliamo analizzare il legame Selezioniamo il test di Pearson nelle opzioni Eseguiamo il nodo

23 Analisi dei dati: Analisi Bivariata - Correlazione
L’output evidenzia: l’intensità della correlazione La significatività della stessa. Anche in questo caso l’ipotesi nulla è che i campioni siano indipendenti, con Prob<=0,05 possiamo rifiutare l’ipotesi che i campioni siano indipendenti quindi esiste un legame tra spesa in sanità e in personal care e presenza di bambini nel bacino …… ma quale è l’intensità di tale correlazione ?

24 Analisi dei dati: Analisi Bivariata - Correlazione
L’indice di correlazione è ottenuto come il rapporto tra la Covarianza delle due variabili e il prodotto delle loro deviazioni standard La significatività è ottenuto attraverso  che si distribuisce come una T_Student con n-2 gradi di libertà. In questo modo, se il valore “T” ottenuto è maggiore di quello riportato sulle tavole della distribuzione di frequenza, dato un certo valore di significatività, si può rifiutare l’ipotesi nulla di indipendenza

25 Analisi dei dati: Analisi Bivariata - Correlazione
Proviamo a rappresentare graficamente il legame tra la variabile presenza bambini e spesa: Direttamente dall’output di della correlazione: Processi, Grafico, Grafico a Dispersione Inseriamo le due variabili Sanità e Perfinoa14anni

26 Analisi dei dati: Analisi Bivariata - Correlazione
Come analizziamo il grafico???

27 Analisi dei dati: Analisi Correlazione - esercitazione
Applicare su file esercitazione Calcoliamo la variabile anzianità di relazione ad oggi di ciascun cliente Esiste una relazione fra percentuale di acquisto della Categoria 3 e anzianità? I clienti da più tempo hanno una propensione ad acquistare a Natale maggiore o minore? Coloro che acquistano di più a Natale hanno uno scontrino medio più alto? (calcolare la variabile valore medio scontrino AVT)

28 Analisi dei dati: Analisi Bivariata - ANOVA
Come ultimo caso analizziamo l’eventualità che si voglia analizzare il legame tra una variabile CONTINUA ed una DISCRETA, in questo caso si ricorre all’analisi della varianza: ANOVA

29 Analisi dei dati: Analisi Bivariata - ANOVA
L‘analisi della varianza confronta la variabilità interna a due o più gruppi rispetto alla variabilità tra i gruppi Si voglia verificare se la spesa media per individuo in personale care (variabile continua) sia diversa nelle Regioni Costruiamo la nuova variabile:SPESA MEDIA INDIVIDUALE PER PERSONALE CARE Analizziamo la variabile con il Processo Statistiche di riepilogo

30 Analisi dei dati: Analisi Bivariata - ANOVA
Costruiamo la variabile Spesa pro capite in Personale Care Con il Processo Statistiche di riepilogo, calcoliamo la media e il suo intervallo al 95% per le Regioni e il numero di osservazioni

31 Analisi dei dati: Analisi Bivariata - ANOVA
Confrontiamo i dati per la Regione Lazio rispetto alle Regioni, Val D’Aosta e Liguria apparentemente diremo che la spesa in personale care nel Lazio è inferiore Consideriamo anche l’informazione relativa all’intervallo di confidenza

32 Analisi dei dati: Analisi Bivariata - ANOVA
L’area di sovrapposizione tra i dati del Lazio e quelli della Val D’Aosta è sensibilmente maggiore rispetto all’area “comune” Lazio e Liguria

33 Analisi dei dati: Analisi Bivariata - ANOVA
In generale quando si dispone di una variabile continua e si vuole valutare se il valore medio tra gruppi di osservazioni sia diverso statisticamente si ricorre all’analisi della Varianza, in particolare si verifica l’ipotesi nulla: solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa distribuzione e che le differenze osservate tra i gruppi siano dovute solo al caso. Il test comunemente utilizzato è il test F calcolato come Esiste, per ogni combinazione di gradi di libertà del numeratore e del denominatore, e per ogni livello di probabilità, una particolare curva statistica (distribuzione di F) che ci consente di stabilire se il rapporto ottenuto è superiore ad un certo valore soglia per cui è poco probabile (e noi dobbiamo scegliere il livello di probabilità che vogliamo tenere in considerazione, solitamente 5%-0,05) ottenere quei valori quando si considerino gruppi random di una stessa popolazione

34 Analisi dei dati: Analisi Bivariata - ANOVA
Proviamo a calcolare il test F –file confrontimedie.xls

35 Analisi dei dati: Analisi Bivariata - ANOVA
Calcoliamo il test F con SAS EG: Processo: Anova, Anova a una via Selezioniamo la variabile dipendente e quella indipendente Specifichiamo il Test Selezioniamo le statistiche per la variabile dipendente

36 Analisi dei dati: Analisi Bivariata - ANOVA
Il valore del Test F è 259,21 Possiamo rifiutare con una probabilità del 99% l’ipotesi che le medie siano uguali Media Intergruppo Media Intragruppo

37 Analisi dei dati: Analisi Bivariata - ANOVA
Un ulteriore risultato è dato dalla tabella delle medie e delle Deviazioni Standard per la variabile dipendente per ciascuna Regione Ma quale media è statisticamente significativa?

38 Analisi dei dati: Analisi Bivariata - Bonferroni
Per verificare quale coppia delle medie sia statisticamente significativa dovremmo analizzare ciascuna copia ma così facendo non consideriamo il problema della correzione per l'inflazione dell'errore complessivo. La logica è, se eseguo molti test sui medesimi dati (come nel caso dei confronti multipli tra medie di gruppi) l'errore a priori di ogni singolo test è 0.05 ma complessivamente cresce, Bonferroni dimostra mediante una disuguaglianza che utilizzando un livello alfa diviso per il numero di test garantisce di avere un errore che ha come limite superiore quello nominale (diciamo 0.05). In particolare se l’intervallo così definito NON contiene lo zero le medie si possono definire statisticamente diverse: Vale a dire, delta medie valore corretto * Deviazione Standard (Radice quadrata dell’errore quadratico medio) * rdq(1/osservazioni gruppo1 +1/osservazioni gruppo 2)

39 Analisi dei dati: Analisi Bivariata – Bonferroni
Analogamente a quanto visto per il test F calcoliamo l’intervallo di confidenza per il delta medie di Bonferroni - confrontimedie.xls

40 Analisi dei dati: Analisi Bivariata – Bonferroni SAS
Per poter identificare quale delle medie siano effettivamente statisticamente differenti si integra l’analisi del test F con il test di Bonferroni Specifichiamo Test di Bonferroni nella finestra Medie-Confronto, scegliendo il livello di confidenza Cosa cambia se lo variamo?

41 Analisi dei dati: Analisi Bivariata – Bonferroni SAS
Dato un livello di significatività pari a 0,05 il valore di riferimento  corretto è 3,649. La differenza tra la spesa media pro capite in Lombardia e quella in Liguria NON è significativa mentre è statisticamente diversa la meda della Lombardia rispetto a quella del Piemonte

42 Analisi dei dati: Analisi Bivariata – Test 
Quando i gruppi sono solo 2 è possibile utilizzare il Test  per campioni indipendenti. S è la deviazione standard media delle deviazioni standard dei due campioni, cioè la radice quadrata della varianza che si ottiene sommando le devianze dei due campioni e dividendo per la somma dei gradi di libertà.  Una volta trovato il valore  , esso va confrontato con quelli tabulati in apposite Tabelle, dal confronto fra il valore ottenuto e quello tabulato si potrà stabilire se la differenza fra le due medie è dovuta al caso o no. Se il valore calcolato è maggiore del valore tabulato si può rifiutare l’ipotesi che le medie siano uguali

43 Analisi dei dati: Analisi Bivariata – Test 
Calcoliamo il test analogamente a quanto visto precedentemente con - confrontimedie.xls

44 Analisi dei dati: Analisi Bivariata – Test  - SAS
Trattandosi di un test per 2 campioni è necessario filtrare il dataset con riferimento alla variabile categoria Regione così da selezionare solo 2 modalità Per esempio consideriamo di voler valutare la differenza tra la spesa media pro capite in personale care in TAA e in FVG Costruzione query per Filtro Processo – Anova - test t Due campioni Selezionare variabili categoria e di analisi

45 Analisi dei dati: Analisi Bivariata – Test  - SAS
La probabilità che le medie siano uguali è inferiore a 0,0001, quindi possiamo rifiutare l’ipotesi nulla di uguaglianza delle medie

46 Analisi dei dati: Analisi Bivariata – Test  - Bonferroni
Si commenti il seguente output

47 Analisi dei dati: Analisi Anova - esercitazione
Applicare su file esercitazione L’età è legata alla propensione all’acquisto della Categoria 3? Se si quali indicazioni si possono trarre? Il numero di item per scontrino fra Giappone, Stati Uniti e Italia è statisticamente differente? L’acquisto di prodotti di categoria 3 comporta un numero di item per scontrini maggiore? (test t) Il tempo fra primo e ultimo acquisto, per coloro che hanno fatto almeno 2 acquisti, è maggiore, in modo statisticamente valido, in quale fascia di età?


Scaricare ppt "Analisi dei dati: Descrittiva, Bivariata"

Presentazioni simili


Annunci Google