ANALISI DEI DATI STATISTICI ESERCITAZIONE CAPITOLI 8 E 9 ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI
ESERCIZIO 1 Considerata la seguente matrice dei dati avente 5 unità e 3 variabili: si calcolino la matrice delle distanze euclidee e quella della città a blocchi sugli scostamenti standardizzati;
ESERCIZIO 1 le variabili sono espresse in unità di misura diverse calcolo scostamenti standardizzati zi = (xi –M)/ s
ESERCIZIO 1 CALCOLO DISTANZA EUCLIDEA TRA MAGNUM E LIUK =2,254
ESERCIZIO 1
ESERCIZIO 1 CALCOLO DISTANZA CITY-BLOCK TRA MAGNUM E LIUK
ESERCIZIO 1
ESERCIZIO 1 si verifichi se tra le suddette matrici esiste una relazione monotona GRADI NELLE MATRICI IDENTICI ρ = 1
ESERCIZIO 2 Si è calcolata la matrice delle distanze della città a blocchi standardizzate tra 5 ipermercati con riferimento ai prezzi di 20 tipi di ortaggi e frutta.
ESERCIZIO 2 Si costruisca il corrispondente dendrogramma con il metodo del legame singolo Si proponga un opportuno “taglio” di tale dendrogramma, se ne illustrino le informazioni e si descrivano le ulteriori elaborazioni statistiche che occorrerebbero effettuare per poter valutare quali sono i gruppi di ipermercati più convenienti per il consumatore.
ESERCIZIO 2 ANALISI DEI GRUPPI METODO DI FORMAZIONE DEI GRUPPI: NON GERARCHICO K-MEDIE GERARCHICO forniscono una “famiglia” di partizioni partendo da quella banale in cui tutti gli elementi sono distinti (g=n) sino a quella in cui tutte unità sono riunite in un unico gruppo (g=1)
ESERCIZIO 2 I diversi metodi gerarchici differiscono per il CRITERIO DI CALCOLO DELLA DISTANZA TRA DUE GRUPPI Legame singolo (single linkage): Distanza = MINIMO delle distanze tra gli elementi di un gruppo e quelli dell’altro
ESERCIZIO 2 Si è calcolata la matrice delle distanze della città a blocchi standardizzate tra 5 ipermercati con riferimento ai prezzi di 20 tipi di ortaggi e frutta.
ESERCIZIO 2
ESERCIZIO 2 DENDROGRAMMA E’ un diagramma ad albero, verticale o orizzontale (SPSS), per la rappresentazione della successione di partizioni Le “radici” dell’albero sono le unità iniziali A livelli crescenti di distanza si uniscono i gruppi (elementi) tra loro In SPSS le distanze sono riscalate nell’intervallo 0 - 25 per rendere comparabili i dendrogrammi ottenuti con metodi diversi
ESERCIZIO 2 CLUSTER DI APPARTENENZA- SOLUZIONE CON 3 GRUPPI CALCOLO MEDIE DI GRUPPO PER CIASCUNA VARIABILE
ESERCIZIO 3 Si sono classificate 10 aziende in base a 4 indicatori di bilancio standardizzati, utilizzando il legame medio. Spss ha fornito il seguente “programma di agglomerazione” (1 Coca-cola; 2 Microsoft; 3 IBM; 4 Intel; 5 Nokia; 6 HP; 7 American Exp; 8 Sony; 9 Samsung; 10 Pepsi)- Si commenti il significato delle quantità che compaiono nella tabella. Si costruisca il corrispondente dendrogramma e se ne illustrino le informazioni.
ESERCIZIO 3
ESERCIZIO 3 Interpretazione del “programma di agglomerazione” di SPSS Stadio = passo della classificazione gerarchica Cluster accorpati = “gruppi” (elementi) che si uniscono Stadio di formazione del cluster: se =0 indica che il “gruppo” è costituito da una singola unità; se =1, 2, 3, …indica un gruppo di più elementi che si è formato in precedenza, al passo corrispondente Stadio successivo = indica il passo in cui il gruppo ottenuto si riunirà ad altri gruppi
ESERCIZIO 3 TRADE-OFF TRA OMOGENEITA’ INTERNA E SINTESI DELLA PARTIZIONE 2 SOLUZIONE RAGIONEVOLI: CON 3 GRUPPI (CON 4 GRUPPI) PRESENZA OUTLIER: AMERICAN EXPRESS
ESERCIZIO 4 Il dendrogramma riportato di seguito visualizza la classificazione di 7 notebook, ottenuta con il metodo del legame completo in base a 6 variabili standardizzate. Sapendo che il valore massimo delle distanze è uguale a 5,9, si ricostruisca la corrispondente tabella chiamata “Programma di agglomerazione” in Spss e si illustrino tutte le informazioni che essa fornisce.
DENDROGRAMMA
ESERCIZIO 4 DENDROGRAMMA CON LIVELLI DI DISTANZA RISCALATI NELL’INTERVALLO 0-25 CALCOLO LIVELLI ORIGINARI APPROSSIMATIVI TRAMITE PROPORZIONE ESEMPIO CALCOLO COFFICIENTE STADIO 5 5,9:25=X:18
ESERCIZIO 4
ESERCIZIO 5 – ACP e cluster Si è applicata l’analisi delle componenti principali a 260 regioni europee, considerando 16 indicatori di benessere su vari aspetti economici e sociali. Estraendo le prime due componenti principali si è ottenuto il relativo biplot: si commentino le informazioni da esso desumibili.
20% ESERCIZIO 5 37%
COMMENTO AL BIPLOT La percentuale di varianza totale delle 16 variabili spiegata dalle prime 2 CP estratte è pari al 57% e supera il valore soglia, che è uguale a 0,44. ANALISI COMPLESSIVAMENTE VALIDA
COMMENTO AL BIPLOT Poiché n>100, si è applicata l’analisi dei gruppi NON GERARCHICA, scegliendo K=5 e assegnando un simbolo diverso a ciascun cluster; Gruppi di regioni con benessere superiore alla media: quarto e secondo; Gruppi di regioni con benessere inferiore alla media: terzo e primo.