Analisi dei dati: Descrittiva, Bivariata

Analisi dei dati: file per esercitazione
Si consideri il file DATI_Analisi_DESCRITTIVA.sas7bdat Si tratta dei dati relativi ad un campione di clienti di un’azienda di abbigliamento importiamo i dati nel NUOVO flusso del progetto che chiamiamo “ANALISI DESCRITTIVA” Inseriamo un nodo “Programma” nel progetto e eseguiamo il comando options compress = char

Analisi dei dati: Descrittiva, Bivariata
Analisi Descrittiva: Analisi caratteristiche principali delle variabili del data set: analisi eventuali dati anomali analisi missing analisi tipologia di distribuzione delle frequenze calcolo dei principali indicatori di posizione e di variabilità Analisi Bivariata: Analisi di Connessione, indicatori di significatività Analisi di Correlazione, indicatori di significatività Analisi della varianza (Anova), indicatori di significatività

Analisi dei dati: Analisi descrittiva
Caratterizza Dati: Tutte le Variabili permette di ricavare una serie di informazioni per tutte le variabili inserite nel data set. Semplice ma poco significativo per data set con un elevato numero di variabili Statistiche di riepilogo: Variabili Continue Utile per individuare eventuali errori di importazione o variabili “costanti”, è possibile filtrare l’analisi on riferimento ad un sottoinsieme di dati sia in un’unica tabella che in tabelle separate, effettuare le analisi confrontando gruppi definiti da specifiche variabili categoria, limitare l’analisi a determinate variabili, è possibile calcolare gli indicatori di posizione e di variabilità di ciascuna variabile contenuta nel data set., Analisi della distribuzione: Variabili Continue è possibile analizzare la distribuzione di frequenza delle variabili continue sia globalmente che per sottoinsiemi, opportunamente definiti, del data set. Con l’opzione Variabile di classificazione è possibile ottenere un confronto “grafico” della variabile dipendente rispetto ad una specifica variabile categoria (l’opzione Raggruppa analisi per, semplicemente replica l’analisi rispetto alle modalità della variabile categoria selezionata) Frequenza ad una via: è possibile personalizzare l’analisi delle variabili in modo particolare con riferimento alle statistiche. Applicare su file esercitazione

Indicatori di Posizione: Media, Moda, Mediana (percentili e decili) Quali differenze fra i diversi indicatori di Posizione? Indicatori di Dispersione: Varianza, Scarto quadratico medio, coefficiente di variazione Quali differenze fra i diversi indicatori di Dispersione? Attenzione una variabile DEVE essere definita come continua, il fatto che sia codificata come numero, esempio sesso 0,1, NON implica che lo sia. Qualunque sw statistico se richiesto calcola la media di tutte le variabile “numeriche”……..

Selezionare da Processi:Descrivi: Statistiche di riepilogo (NON procedura guidata) Scegliere le variabili oggetto dell’analisi ed eventualmente le variabili di raggruppamento Definire le statistiche e i diagrammi Sono possibile una serie di opzioni

Analisi dei dati: Analisi descrittiva - esercitazione
Applicare su file esercitazione Statistiche di riepilogo Analizzare le variabili continue, quali osservazioni sulla variabile sellout? Ripetere l’analisi con un opportuno filtro sulla variabile sellout? Se ordiniamo il file per la variabile sellout possiamo avere un’idea della rilevanza del problema? Analisi Distribuzione Analizzate la distribuzione dell’eta rispetto al sesso con le due opzioni Raggruppa analisi per e variabili di Classificazione Quale delle due distribuzioni dell’età (Femmine /Maschio) è più simile ad una distribuzione normale? Filtrare le analisi considerando solo Gender NON missing o “.” Analizzate la distribuzione del sellout rispetto alla nazione, solo Italia, Francai, Giappone e USA, quali considerazioni possiamo cogliere? Frequenza ad una via Analizziamo la variabile classe di età Confrontando i risultati per sesso emergono delle differenze? Costruiamo una variabile che indichi l’anzianità di relazione con l’azienda (da quanto tempo è cliente)

Analisi dei dati: Analisi Bivariata
Precedentemente abbiamo visto come sia possibile ottenere degli indicatori/descrittori per ciascuna variabile sia globali che per sotto insiemi del data set. Tali metodologie però evidenziano solo eventuali differenze tra le variabili per sotto gruppi senza “misurare” queste differenze: CONCETTO DI DIFFERENZE STATISTICAMENTE SIGNIFICATIVE

Analisi dei dati: Analisi Bivariata - Connessione
Confrontare statisticamente due variabili significa verifica se esiste un legame/dipendenza tra le due variabili, vale a dire verificare se la distribuzione della variabile originaria mostra delle differenze STATISTICAMENTE SIGNIFICATIVE all’interno delle sub popolazioni del dataset individuate dall’altra variabile. Quando le variabili sono DISCRETE, è necessario effettuare un’analisi di CONNESSIONE, vale a dire analizzare se la distribuzione delle frequenze di una data variabile sull’intera popolazione mostra una distribuzione diversa all’interno delle sotto popolazioni individuate dalla variabile rispetto a quale si sta valutando l’eventuale connessione ANALISI TABELLA A DOPPIA ENTRATA – TEST DEL CHI QUADRO

Consideriamo il file Info_Farma, ove abbiamo una classificazione delle farmacie relativamente a 7 segmenti che si caratterizzano in funzione delle caratteristiche socio-demo e strutturali del proprio bacino di utenza

Come precedentemente visto operiamo con l’opzione join tabelle nel comando Costruttore di query per importare questa nuova variabile nel nostro data set ottenuto dalle 2 tabelle importate Apriamo Costruttore di query dal db Cluster, aggiungiamo la tabella QUERY DB FARMACIE_1, quella in cui si era costruita la variabile regione

Il sw identifica la variabili ID comune ai due dataset e la propone come chiave di unione

Selezionando il simbolo di insieme tra le due tabelle è possibile selezionare il criterio rispetto al quale le due tabelle devono essere unite Quali sono le differenze tra i criteri?

SAS_EGJoin Option Join Type Description Matching rows only given a condition Inner join The output rows include those for which the column in the first table matches the joining criterion of the column in the second table. Joins are inner joins by default. All rows from the left table given a condition Left join The output rows include all rows from the first table and the rows from the second table in which the joining criterion is met. All rows from the right table given a condition Right join The output rows include all rows from the second table and the rows from the first table in which the joining criterion is met. All rows from both tables given a condition Full outer join The output rows include all rows from both tables in which the joining criterion is met. The Cartesian product Cross join The output rows include each row from the first table combined with each row from the second table. The total number of output rows is the product of the number of rows in each table. For example, if Table A, which contains 9 rows, is combined with Table B, which contains 13 rows, then the number of output rows will be 9 * 13, or 117. Matching rows only with equal common columns Natural inner join The output rows include all rows in which the common columns in the two tables contain values that are equal. Common columns are those that have the same name and same data type. All rows from the left table with equal common columns Natural left join The output rows include all rows from the first table and the rows from the second table in which the common columns in the two tables contain values that are equal. Common columns are those that have the same name and same data type. All rows from the right table with equal common columns Natural right join The output rows include all rows from the second table and the rows from the first table in which the common columns in the two tables contain values that are equal. Common columns are those that have the same name and same data type. All rows from both tables with equal common columns Natural Full Outer Join The output rows include all rows from both tables. Rows that do not have a match are filled in with missing values.

Considerando che il nostro dataset principale è DB FARMACIE specificheremo come criterio TUTTE LE RIGHE DELLA TABELLA DI DESTRA DATA UNA CONDIZIONE (nel nostro caso nessuna)

Inseriamo tutte le variabili presenti nei due dataset ed eseguiamo il nodo: quante dovrebbero essere le osservazioni nella nuova tabella? Perché?

Da un punto statistico si può dire che la distribuzione dei cluster è differente per le regione Calabria, Piemonte e Lombardia? Costruiamo la tabella a doppia entrata: Selezioniamo da Processi, Descrivi, Analisi delle tabelle Specifichiamo le variabili che vogliamo Inserire Nella tabella: Cluster e Regione In Tabella specifichiamo le righe e le colonne In statistiche per cella specifichiamo % riga/colonna e % celle Eseguiamo il nodo

Analizziamo il risultato Confrontiamo la distribuzioni di frequenza totale della variabile Cluster rispetto alle distribuzione della stessa variabile all’interno delle regioni (… naturalmente si può ragionare anche all’inverso)

Modifichiamo il nodo Analisi delle tabelle specificando Test di Associazione Chi quadrato e Contributo cella al chi quadrato di Pearson nelle Statistiche per le celle

Analizziamo l’output Il valore del Chi_Square rappresenta il risultato del test omonimo verifica se l’ipotesi nulla e probabilisticamente compatibile con i dati In particolare l’ipotesi nulla è che i due campioni sono indipendenti cioè che la distribuzione delle farmacie per esempio nei cluster è la stessa nelle 3 regioni Il valore Prob evidenzia quale è la probabilità con cui è verificata l’ipotesi nulla, nel nostro caso RIFIUTIAMO l’ipotesi nulla quindi le due variabili NON sono indipendenti quindi sono dipendenti

La variabile così calcolata che confronta quindi le distribuzioni reali con quelle che teoricamente dovrebbero essere in caso di indipendenza, si distribuisce come una variabile causale con (g-1) gradi di liberta In questo modo, se il valore “” ottenuto è maggiore di quello riportato sulle tavole della distribuzione di frequenza, dato un certo valore di significatività, si può rifiutare l’ipotesi nulla di indipendenza

Analisi dei dati: Analisi Connessione - esercitazione
Applicare su file esercitazione La distribuzione dell’eta per sesso è statisticamente differente? Fra Austria, Francia, Germani, Grecia e Italia qual’è la nazione con i clienti più “giovani” Considerando le stesse nazioni qual è quella ove sembra esserci un maggiore interesse per la Categoria 3

Analisi dei dati: Analisi Bivariata - Correlazione
Nel caso in cui le variabili di cui vogliamo valutare il legame sono di natura continua è necessari valutarne la CORRELAZIONE Si ipotizzi che si voglia verificare se la spesa media in Sanità e in Personale Care risulti legata alla rilevanza nel bacino della farmacia di bambini di età inferiore ai 14 anni costruiamo il nuovo data set partendo dal database DB_farmacie inserendo le variabili utili all’analisi e calcolando la nuova variabile % di bambini di età inferiore ai 13 (perché la percentuale e non consideriamo semplicemente la numerosità di bambini inferiori a 13 anni)

Sulla tabella derivata, Processi, Multivariata, Correlazione Specifichiamo le variabili di cui vogliamo analizzare il legame Selezioniamo il test di Pearson nelle opzioni Eseguiamo il nodo

L’output evidenzia: l’intensità della correlazione La significatività della stessa. Anche in questo caso l’ipotesi nulla è che i campioni siano indipendenti, con Prob<=0,05 possiamo rifiutare l’ipotesi che i campioni siano indipendenti quindi esiste un legame tra spesa in sanità e in personal care e presenza di bambini nel bacino …… ma quale è l’intensità di tale correlazione ?

L’indice di correlazione è ottenuto come il rapporto tra la Covarianza delle due variabili e il prodotto delle loro deviazioni standard La significatività è ottenuto attraverso  che si distribuisce come una T_Student con n-2 gradi di libertà. In questo modo, se il valore “T” ottenuto è maggiore di quello riportato sulle tavole della distribuzione di frequenza, dato un certo valore di significatività, si può rifiutare l’ipotesi nulla di indipendenza

Proviamo a rappresentare graficamente il legame tra la variabile presenza bambini e spesa: Direttamente dall’output di della correlazione: Processi, Grafico, Grafico a Dispersione Inseriamo le due variabili Sanità e Perfinoa14anni

Come analizziamo il grafico???

Analisi dei dati: Analisi Correlazione - esercitazione
Applicare su file esercitazione Calcoliamo la variabile anzianità di relazione ad oggi di ciascun cliente Esiste una relazione fra percentuale di acquisto della Categoria 3 e anzianità? I clienti da più tempo hanno una propensione ad acquistare a Natale maggiore o minore? Coloro che acquistano di più a Natale hanno uno scontrino medio più alto? (calcolare la variabile valore medio scontrino AVT)

Analisi dei dati: Analisi Bivariata - ANOVA
Come ultimo caso analizziamo l’eventualità che si voglia analizzare il legame tra una variabile CONTINUA ed una DISCRETA, in questo caso si ricorre all’analisi della varianza: ANOVA

L‘analisi della varianza confronta la variabilità interna a due o più gruppi rispetto alla variabilità tra i gruppi Si voglia verificare se la spesa media per individuo in personale care (variabile continua) sia diversa nelle Regioni Costruiamo la nuova variabile:SPESA MEDIA INDIVIDUALE PER PERSONALE CARE Analizziamo la variabile con il Processo Statistiche di riepilogo

Costruiamo la variabile Spesa pro capite in Personale Care Con il Processo Statistiche di riepilogo, calcoliamo la media e il suo intervallo al 95% per le Regioni e il numero di osservazioni

Confrontiamo i dati per la Regione Lazio rispetto alle Regioni, Val D’Aosta e Liguria apparentemente diremo che la spesa in personale care nel Lazio è inferiore Consideriamo anche l’informazione relativa all’intervallo di confidenza

L’area di sovrapposizione tra i dati del Lazio e quelli della Val D’Aosta è sensibilmente maggiore rispetto all’area “comune” Lazio e Liguria

In generale quando si dispone di una variabile continua e si vuole valutare se il valore medio tra gruppi di osservazioni sia diverso statisticamente si ricorre all’analisi della Varianza, in particolare si verifica l’ipotesi nulla: solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa distribuzione e che le differenze osservate tra i gruppi siano dovute solo al caso. Il test comunemente utilizzato è il test F calcolato come Esiste, per ogni combinazione di gradi di libertà del numeratore e del denominatore, e per ogni livello di probabilità, una particolare curva statistica (distribuzione di F) che ci consente di stabilire se il rapporto ottenuto è superiore ad un certo valore soglia per cui è poco probabile (e noi dobbiamo scegliere il livello di probabilità che vogliamo tenere in considerazione, solitamente 5%-0,05) ottenere quei valori quando si considerino gruppi random di una stessa popolazione

Proviamo a calcolare il test F –file confrontimedie.xls

Calcoliamo il test F con SAS EG: Processo: Anova, Anova a una via Selezioniamo la variabile dipendente e quella indipendente Specifichiamo il Test Selezioniamo le statistiche per la variabile dipendente

Il valore del Test F è 259,21 Possiamo rifiutare con una probabilità del 99% l’ipotesi che le medie siano uguali Media Intergruppo Media Intragruppo

Un ulteriore risultato è dato dalla tabella delle medie e delle Deviazioni Standard per la variabile dipendente per ciascuna Regione Ma quale media è statisticamente significativa?

Analisi dei dati: Analisi Bivariata - Bonferroni
Per verificare quale coppia delle medie sia statisticamente significativa dovremmo analizzare ciascuna copia ma così facendo non consideriamo il problema della correzione per l'inflazione dell'errore complessivo. La logica è, se eseguo molti test sui medesimi dati (come nel caso dei confronti multipli tra medie di gruppi) l'errore a priori di ogni singolo test è 0.05 ma complessivamente cresce, Bonferroni dimostra mediante una disuguaglianza che utilizzando un livello alfa diviso per il numero di test garantisce di avere un errore che ha come limite superiore quello nominale (diciamo 0.05). In particolare se l’intervallo così definito NON contiene lo zero le medie si possono definire statisticamente diverse: Vale a dire, delta medie valore corretto * Deviazione Standard (Radice quadrata dell’errore quadratico medio) * rdq(1/osservazioni gruppo1 +1/osservazioni gruppo 2)

Analisi dei dati: Analisi Bivariata – Bonferroni
Analogamente a quanto visto per il test F calcoliamo l’intervallo di confidenza per il delta medie di Bonferroni - confrontimedie.xls

Analisi dei dati: Analisi Bivariata – Bonferroni SAS
Per poter identificare quale delle medie siano effettivamente statisticamente differenti si integra l’analisi del test F con il test di Bonferroni Specifichiamo Test di Bonferroni nella finestra Medie-Confronto, scegliendo il livello di confidenza Cosa cambia se lo variamo?

Analisi dei dati: Analisi Bivariata – Bonferroni SAS
Dato un livello di significatività pari a 0,05 il valore di riferimento  corretto è 3,649. La differenza tra la spesa media pro capite in Lombardia e quella in Liguria NON è significativa mentre è statisticamente diversa la meda della Lombardia rispetto a quella del Piemonte

Analisi dei dati: Analisi Bivariata – Test 
Quando i gruppi sono solo 2 è possibile utilizzare il Test  per campioni indipendenti. S è la deviazione standard media delle deviazioni standard dei due campioni, cioè la radice quadrata della varianza che si ottiene sommando le devianze dei due campioni e dividendo per la somma dei gradi di libertà. Una volta trovato il valore , esso va confrontato con quelli tabulati in apposite Tabelle, dal confronto fra il valore ottenuto e quello tabulato si potrà stabilire se la differenza fra le due medie è dovuta al caso o no. Se il valore calcolato è maggiore del valore tabulato si può rifiutare l’ipotesi che le medie siano uguali

Analisi dei dati: Analisi Bivariata – Test 
Calcoliamo il test analogamente a quanto visto precedentemente con - confrontimedie.xls

Analisi dei dati: Analisi Bivariata – Test  - SAS
Trattandosi di un test per 2 campioni è necessario filtrare il dataset con riferimento alla variabile categoria Regione così da selezionare solo 2 modalità Per esempio consideriamo di voler valutare la differenza tra la spesa media pro capite in personale care in TAA e in FVG Costruzione query per Filtro Processo – Anova - test t Due campioni Selezionare variabili categoria e di analisi

Analisi dei dati: Analisi Bivariata – Test  - SAS
La probabilità che le medie siano uguali è inferiore a 0,0001, quindi possiamo rifiutare l’ipotesi nulla di uguaglianza delle medie

Analisi dei dati: Analisi Bivariata – Test  - Bonferroni
Si commenti il seguente output

Analisi dei dati: Analisi Anova - esercitazione
Applicare su file esercitazione L’età è legata alla propensione all’acquisto della Categoria 3? Se si quali indicazioni si possono trarre? Il numero di item per scontrino fra Giappone, Stati Uniti e Italia è statisticamente differente? L’acquisto di prodotti di categoria 3 comporta un numero di item per scontrini maggiore? (test t) Il tempo fra primo e ultimo acquisto, per coloro che hanno fatto almeno 2 acquisti, è maggiore, in modo statisticamente valido, in quale fascia di età?

Analisi dei dati: Descrittiva, Bivariata

Presentazioni simili

Presentazione sul tema: "Analisi dei dati: Descrittiva, Bivariata"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Analisi dei dati: Descrittiva, Bivariata

Presentazioni simili

Presentazione sul tema: "Analisi dei dati: Descrittiva, Bivariata"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back