La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

ANALISI DEI DATI STATISTICI

Presentazioni simili


Presentazione sul tema: "ANALISI DEI DATI STATISTICI"— Transcript della presentazione:

1 ANALISI DEI DATI STATISTICI
ESERCITAZIONE CAPITOLI 8 E 9 ANALISI DEI DATI STATISTICI DOTT.SSA LARA BERZIERI

2 ESERCIZIO 1 Considerata la seguente matrice dei dati avente 5 unità e 3 variabili: si calcolino la matrice delle distanze euclidee e quella della città a blocchi sugli scostamenti standardizzati;

3 ESERCIZIO 1 le variabili sono espresse in unità di misura diverse calcolo scostamenti standardizzati zi = (xi –M)/ s

4 ESERCIZIO 1 CALCOLO DISTANZA EUCLIDEA TRA MAGNUM E LIUK =2,254

5 ESERCIZIO 1

6 ESERCIZIO 1 CALCOLO DISTANZA CITY-BLOCK TRA MAGNUM E LIUK

7 ESERCIZIO 1

8 ESERCIZIO 1 si verifichi se tra le suddette matrici esiste una relazione monotona GRADI NELLE MATRICI IDENTICI ρ = 1

9 ESERCIZIO 2 Si è calcolata la matrice delle distanze della città a blocchi standardizzate tra 5 ipermercati con riferimento ai prezzi di 20 tipi di ortaggi e frutta.

10 ESERCIZIO 2 Si costruisca il corrispondente dendrogramma con il metodo del legame singolo Si proponga un opportuno “taglio” di tale dendrogramma, se ne illustrino le informazioni e si descrivano le ulteriori elaborazioni statistiche che occorrerebbero effettuare per poter valutare quali sono i gruppi di ipermercati più convenienti per il consumatore.

11 ESERCIZIO 2 ANALISI DEI GRUPPI METODO DI FORMAZIONE DEI GRUPPI:
NON GERARCHICO K-MEDIE GERARCHICO forniscono una “famiglia” di partizioni partendo da quella banale in cui tutti gli elementi sono distinti (g=n) sino a quella in cui tutte unità sono riunite in un unico gruppo (g=1)

12 ESERCIZIO 2 I diversi metodi gerarchici differiscono per il CRITERIO DI CALCOLO DELLA DISTANZA TRA DUE GRUPPI Legame singolo (single linkage): Distanza = MINIMO delle distanze tra gli elementi di un gruppo e quelli dell’altro

13 ESERCIZIO 2 Si è calcolata la matrice delle distanze della città a blocchi standardizzate tra 5 ipermercati con riferimento ai prezzi di 20 tipi di ortaggi e frutta.

14 ESERCIZIO 2

15 ESERCIZIO 2 DENDROGRAMMA
E’ un diagramma ad albero, verticale o orizzontale (SPSS), per la rappresentazione della successione di partizioni Le “radici” dell’albero sono le unità iniziali A livelli crescenti di distanza si uniscono i gruppi (elementi) tra loro In SPSS le distanze sono riscalate nell’intervallo per rendere comparabili i dendrogrammi ottenuti con metodi diversi

16 ESERCIZIO 2 CLUSTER DI APPARTENENZA- SOLUZIONE CON 3 GRUPPI
CALCOLO MEDIE DI GRUPPO PER CIASCUNA VARIABILE

17 ESERCIZIO 3 Si sono classificate 10 aziende in base a 4 indicatori di bilancio standardizzati, utilizzando il legame medio. Spss ha fornito il seguente “programma di agglomerazione” (1 Coca-cola; 2 Microsoft; 3 IBM; 4 Intel; 5 Nokia; 6 HP; 7 American Exp; 8 Sony; 9 Samsung; 10 Pepsi)- Si commenti il significato delle quantità che compaiono nella tabella. Si costruisca il corrispondente dendrogramma e se ne illustrino le informazioni.

18 ESERCIZIO 3

19 ESERCIZIO 3 Interpretazione del “programma di agglomerazione” di SPSS
Stadio = passo della classificazione gerarchica Cluster accorpati = “gruppi” (elementi) che si uniscono Stadio di formazione del cluster: se =0 indica che il “gruppo” è costituito da una singola unità; se =1, 2, 3, …indica un gruppo di più elementi che si è formato in precedenza, al passo corrispondente Stadio successivo = indica il passo in cui il gruppo ottenuto si riunirà ad altri gruppi

20 ESERCIZIO 3 TRADE-OFF TRA OMOGENEITA’ INTERNA E SINTESI DELLA PARTIZIONE 2 SOLUZIONE RAGIONEVOLI: CON 3 GRUPPI (CON 4 GRUPPI) PRESENZA OUTLIER: AMERICAN EXPRESS

21 ESERCIZIO 4 Il dendrogramma riportato di seguito visualizza la classificazione di 7 notebook, ottenuta con il metodo del legame completo in base a 6 variabili standardizzate. Sapendo che il valore massimo delle distanze è uguale a 5,9, si ricostruisca la corrispondente tabella chiamata “Programma di agglomerazione” in Spss e si illustrino tutte le informazioni che essa fornisce.

22 DENDROGRAMMA

23 ESERCIZIO 4 DENDROGRAMMA CON LIVELLI DI DISTANZA RISCALATI NELL’INTERVALLO 0-25 CALCOLO LIVELLI ORIGINARI APPROSSIMATIVI TRAMITE PROPORZIONE ESEMPIO CALCOLO COFFICIENTE STADIO 5 5,9:25=X:18

24 ESERCIZIO 4

25 ESERCIZIO 5 – ACP e cluster
Si è applicata l’analisi delle componenti principali a 260 regioni europee, considerando 16 indicatori di benessere su vari aspetti economici e sociali. Estraendo le prime due componenti principali si è ottenuto il relativo biplot: si commentino le informazioni da esso desumibili.

26 20% ESERCIZIO 5 37%

27 COMMENTO AL BIPLOT La percentuale di varianza totale delle 16 variabili spiegata dalle prime 2 CP estratte è pari al 57% e supera il valore soglia, che è uguale a 0,44. ANALISI COMPLESSIVAMENTE VALIDA

28 COMMENTO AL BIPLOT Poiché n>100, si è applicata l’analisi dei gruppi NON GERARCHICA, scegliendo K=5 e assegnando un simbolo diverso a ciascun cluster; Gruppi di regioni con benessere superiore alla media: quarto e secondo; Gruppi di regioni con benessere inferiore alla media: terzo e primo.


Scaricare ppt "ANALISI DEI DATI STATISTICI"

Presentazioni simili


Annunci Google