La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Capitolo 3 e par. 5.1 La matrice.

Presentazioni simili


Presentazione sul tema: "1/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Capitolo 3 e par. 5.1 La matrice."— Transcript della presentazione:

1 1/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Capitolo 3 e par. 5.1 La matrice dei dati e le analisi preliminari I metodi di classificazione  La matrice dei dati  Qualità dei dati e mancate risposte parziali  Analisi sui profili di colonna  Analisi sui profili di riga  Analisi dei gruppi

2 2/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La matrice dei dati Tabella Tabella contenente le informazioni disponibili relativamente ad un insieme di unità statistiche  Ciascuna riga della matrice contiene le informazioni relative ad una determinata unità  Ciascuna colonna contiene le modalità assunte da un determinato carattere nelle diverse unità

3 3/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La matrice dei dati

4 4/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La matrice dei dati caratteri I caratteri che figurano nella matrice possono essere: - qualitativi (in scala nominale o in scala ordinale) - quantitativi (in scala ad intervalli o in scala di rapporti) Spesso la matrice contiene variabili miste, alcune qualitative e altre quantitative unità Le unità possono pure essere di varia natura. Esempi: - le singole imprese di un campione (caso di studio) - i singoli consumatori di un prodotto - i singoli prodotti o stabilimenti di una azienda

5 5/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La matrice dei dati La matrice dei dati può derivare da: - rilevazioni primarie (indagini campionarie) - fonti secondarie - interne (dati aziendali) - esterne (fonti statistiche ufficiali o non ufficiali) Principali problemi di qualità: errati - presenza di valori errati mancanti - valori mancanti

6 6/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas I valori errati segnalati Possono essere segnalati da: - valori fuori dominio (non appartenenti all ’ insieme dei valori ammissibili) - valori anomali o outliers (valori che si discostano molto da quelli assunti nella maggior parte delle altre unità) - valori incompatibili (contraddittori con altre risposte) individuati Possono essere individuati, rispettivamente, attraverso: - controlli di validità o di range - controlli per gli outlier - controlli di consistenza Una volta individuati, i valori errati possono essere - corretti attraverso una nuova rilevazione - considerati come valori mancanti

7 7/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Le mancate risposte parziali Mancanza di uno o più dati: - nelle indagini campionarie mancate risposte ad uno o più quesiti possibili soluzioni: Le possibili soluzioni: 1.Utilizzare soltanto il sottoinsieme di unità senza dati mancanti  riduzione numerosità; possibili distorsioni 2.Utilizzare diversi sottoinsiemi (completi) di unità per le diverse analisi (univariate, bivariate, multivariate)  numerosità diverse per le diverse analisi 3.Assegnare al dato mancante un valore plausibile (imputazione)

8 8/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Tecniche di imputazione Diverse tecniche di imputazione valore medio:  1. Imputazione di un valore medio: media aritmetica o mediana (per i caratteri quantitativi o qualitativi ordinali), moda (per i caratteri qualitativi sconnessi) calcolate: a - sul complesso delle unità b - o su un sottoinsieme più omogeneo  Conseguenza indesiderata: riduce la variabilità (in particolare nel caso a) prelievo da donatore  2. Imputazione con prelievo da donatore: invece del valore medio si imputa un valore individuale, “ donato ” da una unità il più possibile simile in base alle altre caratteristiche (indici di similarità o distanza: vedi oltre)

9 9/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Tecniche di imputazione da modello  3. Imputazione da modello In base alla relazione empirica tra la variabile con dati mancanti e una o più variabili esplicative (con dati presenti) Passi: - scelta variabili esplicative di quella con dati mancanti - stima dei parametri di un modello di regressione sui dati presenti nella matrice Regressione (semplice): Modello teorico Modello stimato - assegnazione del valore predetto dal modello in base ai valori assunti dalla variabile esplicativa nella unità i con dato mancante:

10 10/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Tecniche di imputazione stocastica  4. Imputazione stocastica assegnazione al dato mancante di un valore estratto casualmente da una distribuzione ritenuta plausibile Limite: distribuzioni teoriche diverse per diverse variabili, da identificare di volta in volta Semplificazione: estrazione casuale di una unità per ogni dato mancante dalla distribuzione empirica della caratteristica

11 11/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Le analisi sui profili di colonna bivariate Analisi bivariate: studio dell ’ associazione esistente tra le diverse coppie di variabili Si ottiene una matrice di associazione ( p x p ): L ’ indice con cui misurare l ’ associazione dipende dal tipo di variabili presenti nella matrice dei dati Analisi univariate (es: medie, varianze), bivariate (es: correlazione), multivariate (es: regressione multipla)

12 12/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili quantitative covarianza: La covarianza: Indica se tra le due variabili esiste: concordanza (segno positivo: se prevalgono prodotti di segno +) discordanza (segno negativo: se prevalgono prodotti di segno -) Indipendenza lineare (valore nullo) Limite: i valori assunti dalle covarianze dipendono dalle scale di misura dei caratteri  non sono direttamente confrontabili

13 13/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Le variabili quantitative Per ovviare al problema della confrontabilità Coefficiente di correlazione lineare di Bravais-Pearson: (covarianza diviso il prodotto delle due deviazioni standard) Il coefficiente di correlazione lineare: assume lo stesso segno della covarianza è compreso tra –1 e 1

14 14/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Le variabili quantitative Esempio UnitàXhXh XjXj scarti X h scarti X j prodottiscarti 2 X h scarti 2 X j somme medie Cov =0.016 dev. st Cor =0.784

15 15/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Le variabili quantitative Matricedelle correlazioni Matrice (p x p) delle correlazioni simmetrica sulla diagonale valori unitari:

16 16/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Le analisi sui profili di riga distanzasimilarità Obiettivo: misurare la distanza (differenza) o la similarità tra coppie di unità, in relazione alle caratteristiche osservate matrice delle distanze Si ottiene una matrice delle distanze D ( n x n ) L ’ indice con cui misurare la distanza dipende dal tipo di variabili presenti nella matrice dei dati

17 17/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Le analisi sui profili di riga Valori non negativi: d ir ≥ 0 Valori sulla diagonale pari a zero: d ii = 0 Simmetria: d ir = d ri Diseguaglianza triangolare: d ir ≤ d is + d sr Misura di distanza definita in uno spazio metrico indice di distanza indice disimilarità In corrispondenza a ogni indice di distanza può essere definito un indice di similarità: c ir = 1- d ir

18 18/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Indici di distanza Indici specifici per ogni tipologia di variabili: - qualitative (sconnesse politomiche o dicotomiche) - quantitative (o qualitative ordinali) Un indice generale per variabili miste La presenza di variabili miste è la norma, in particolare nelle matrici di dati derivanti da indagini campionarie

19 19/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Indici di distanza Esempi dall ’ indagine Efige: - qualitative dicotomiche: export (si, no); ide; innovazione - qualitative sconnesse: destinazione export (UE, Asia, USA, …) finanziamento investimenti (autofin, venture cap, cred. banc.…) - qualitative ordinali: export prima 2008 (regolarmente, qualche volta, mai) dipendenza da finanziamenti esterni (1 non dip -> 5 molto dip) - quantitative: n. dipendenti; valori e indici di bilancio; % fatturato esportato

20 20/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili qualitative sconnesse politomiche Indice di distanza di Sneath Distanza misurata sulla base di p caratteri qualitativi sconnessi Per il generico carattere k si pone: d ir,k = 1 se x ik  x rk d ir,k = 0 se x ik = x rk - E ’ dato dalla frequenza relativa dei caratteri per i quali le unità i ed r presentano modalità diverse - Di conseguenza: compreso tra 0 e 1 Misurazione su scala nominale Confronto ammissibile tra due unità: se sono uguali o diverse rispetto al carattere considerato

21 21/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili qualitative sconnesse politomiche - Esempio Distanza o similarità tra coppie di aziende esportatrici in relazione ai caratteri: forma giuridica; settore di attività; area di esportazione AziendeForma giuridica SettoreArea export 1SPAMeccanicaAsia 2SPATessileEuropa 3SNCTessileEuropa 4SRLMeccanicaUSA Indice di distanza tra le aziende 1 e 2: d 12,1 =0; d 12,2 =1; d 12,3 =1  d 12 = (0+1+1)/3 =0.66 [c 12 = 1-d 12 =0.33] Indice di distanza tra le aziende 2 e 3: d 23,1 =1; d 23,2 =0; d 23,3 =0  d 23 =(1+0+0)/3 =0.33 [c 23 = 1-d 23 =0.66]

22 22/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili dicotomiche Misurazione su scala nominale Confronto ammissibile: come nel caso di caratteri sconnessi politomici (se le modalità sono uguali o diverse nelle due unità)  si può utilizzare lo stesso indice (di Sneat) AziendeDeloc.Invest.Innov.Assunz. 1NoSìNo 2SìNoSì 3 No Sì 4NoSìNo Esempio: Distanza tra coppie di aziende per le quali è stato rilevato: - se hanno delocalizzato oppure no - se hanno fatto investimenti oppure no - se hanno apportato innovazioni oppure no - se hanno fatto assunzioni oppure no d 12 = ( )/4 = 1 d 23 = ( )/4 = 0.25

23 23/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili politomiche e dicotomiche Esempio: Politomiche Dicotomiche Az. Forma giur.Sett. Area exportDelInvInnAss 1SpAMecAsiaNOSINO 2SpATesEuropaSINOSI Indice di distanza (di Sneat) tra le aziende 1 e 2: d 12 = ( )/7 = 0.86 [c 12 = 1-d 12 =0.14] Sneat L ’ indice di Sneat consente di misurare la distanza anche quando tra le p variabili qualitative considerate ve ne sono alcune sconnesse politomiche e altre dicotomiche

24 24/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili qualitative dicotomiche Nel caso di sole variabili dicotomiche si possono calcolare diversi indici di distanza: Simple matching Jaccard (Altri)

25 25/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili qualitative dicotomiche Nella matrice dei dati, per ognuno dei p caratteri dicotomici: valore 1 (presenza) valore 0 (assenza) AziendeDeloc.Invest.Innov.Assunz. 1No (0)Sì (1)No (0) 2Sì (1)No (0)Sì (1) 3 No (0) Sì (1) 4No (0)Sì (1)No (0) I diversi indici derivano dalla classificazione dei p caratteri nella seguente tabella di contingenza (per la coppia di unità i ed r ): unità i 1 0 unità r 1 a b 0 c d a = numero di caratteri presenti in entrambe le unità b = numero di caratteri presenti in r ma assenti in i c = numero di caratteri assenti in r ma presenti in i d = numero di caratteri assenti in entrambe le unità (a + b + c + d = p)

26 26/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili qualitative dicotomiche Az. 2 Az AziendeDeloc.Invest.Innov.Assunz. 1No (0)Sì (1)No (0) 2Sì (1)No (0)Sì (1) 3 No (0) Sì (1) 4No (0)Sì (1)No (0) Esempio

27 27/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili qualitative dicotomiche Indice Simple matching: Indice Simple matching : Frequenza relativa degli attributi presenti in una unità e assenti nell ’ altra Come indice di Sneath: frequenza relativa dei caratteri per i quali le unità i ed r presentano modalità diverse Az. 2 Az unità i 1 0 unità r 1 a b 0 c d Simple matching : d 23 = 1/4 = 0.25 Esempio:

28 28/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili qualitative dicotomiche Indice di Jaccard: Esclude d dal denominatore: si assume che l ’ assenza in entrambe le unità non indichi similarità unità i 1 0 unità r 1 a b 0 c d Az. 2 Az Jaccard: d 23 = 1/3 = 0.33 Esempio:

29 29/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili qualitative ordinali Due possibilità: a) Trasformare le variabili in quantitative Si attribuisce un punteggio crescente (1, 2, 3, …) al crescere della misurazione ordinale e si utilizza un indice di distanza per dati quantitativi (vedi oltre) Limite: Limite: si introducono elementi di arbitrarietà (si assume costante la differenza tra due modalità contigue) b) Considerare la misurazione su scala nominale Si considerano le variabili come qualitative politomiche e si utilizza l ’ indice di Sneath Limite: Limite: notevole perdita di informazione Meglio soluzione a) Misurazione su scala ordinale Confronto ammissibile tra due unità: se l ’ una presenta modalità maggiore o minore dell ’ altra secondo il carattere considerato

30 30/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili quantitative Misure di distanza fondate sulle differenze tra i valori assunti dalle modalità di tutti i caratteri nelle due unità Misurazione su scala di rapporti o di intervalli Confronto ammissibile: rapporto o differenza tra i valori assunti dal carattere in due diverse unità Diversi indici derivanti da un indice generale: distanza di Minkoski la distanza di Minkoski dove il parametro λ è una sorta di peso assegnato alle differenze maggiori

31 31/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili quantitative Per λ = 2 Distanza euclidea: Distanza di Minkoski: Per λ = 1 Distanza di Manhattam: (o della città a blocchi) Per λ ->  Distanza di Lagrange-Tchebychev:

32 32/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili quantitative Esempio: distanze tra due aziende in relazione ad alcuni indici di bilancio AziendeROIROSROEIndeb |x ik – x rk | (x ik – x rk ) max |x ik – x rk | 13.6

33 33/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili quantitative Problemi degli indici di distanza per variabili quantitative: 1.Problema della scala – sommate differenze relative a caratteri misurati in unità di misura diverse Una soluzione è trasformare le variabili originarie in variabili standardizzate Per la generica variabile X k : (numeri puri, media 0 e varianza unitaria)

34 34/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili quantitative Un ’ altra possibilità è rapportare i valori assunti nelle diverse unità al valore massimo della distribuzione: Un ’ altra soluzione nell ’ indice di distanza per variabili miste (vedi oltre) AzROIEta ’ Prod.% ExpROIEtàProd.% Exp …….……… n Val. max Variabili standardizzate Esempio: Variabili originarie (rapportare al max)

35 35/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili quantitative 2. Correlazione tra le variabili – uno stesso fenomeno misurato tramite più variabili viene implicitamente pesato di più nella misura della distanza AziendeROIROEROSIndeb (x ik – x rk ) Distanza Euclidea: d 12 = 15.7 Esempio: Ma: - redditività misurata con tre indici, forse correlati tra loro - situazione finanziaria misurata con un solo indice

36 36/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili quantitative Una soluzione al problema della correlazione tra variabili: Distanza euclidea ponderata: dove w k : coefficiente di ponderazione della k -esima variabile (tanto minore quanto più la variabile è correlata con le altre p-1 ) Ad esempio 1/R 2 da regressioni multiple (Cap 4)

37 37/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili miste d ir,k : misura di distanza tra le unità i e r in relazione al k -esimo attributo (misura diversa a seconda della tipologia di carattere, ma sempre compresa tra 0 e 1) confronto non ammissibile (principalmente dati mancanti) tutti gli altri casi Misurazione su scale diverse Confronti ammissibili a seconda della scala di misurazione Media di indici di distanza relativi alle diverse variabili qualitative e quantitative Indice di distanza di Gower

38 38/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili miste Caratteri qualitativi ordinali: si trasformano le variabili in quantitative attribuendo punteggi crescenti al crescere delle modalità del carattere e ci si riconduce al caso dei caratteri quantitativi Caratteri quantitativi: Dividere per il range è un modo per eliminare l ’ effetto delle diverse unità di misura delle variabili: - il rapporto che definisce d ir,k (differenza su massimo della differenza) sarà sempre compreso tra zero e uno - corrisponde alla standardizzazione dividendo per il massimo, se si assume il minimo pari a zero [ Range (k) = max x k – min x k ] Range(k): campo di variazione della variabile k

39 39/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili miste Caratteri qualitativi sconnessi politomici: Indice di distanza di Sneath d ir,k = 1 se i e r presentano modalità diverse del carattere k d ir,k = 0 se presentano modalità uguale Caratteri qualitativi sconnessi dicotomici: Indice di Jaccard d ir,k = 1 se i e r presentano modalità diverse del carattere k d ir,k = 0 se presentano modalità uguale confronto non ammissibile (dati mancanti, assenza-assenza) tutti gli altri casi

40 40/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili miste - Esempio AziendeROIIndeb.Aspettative produzione SettoreExport Stazionaria (0)Mecc.Si (1) Aumento (1)Alim.No (0) Forte aumento (2)Alim.Si (1) Forte diminuz. (-2)Tess.No (0)

41 41/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili miste Indice di Gower modificato: Per i casi in cui nei caratteri dicotomici l ’ assenza del fenomeno in entrambe le unità è interpretabile come similitudine Caratteri qualitativi sconnessi dicotomici: Indice Simple matching (Sneath) d ir,k = 1 se i e r presentano modalità diverse del carattere k d ir,k = 0 se presentano modalità uguale confronto non ammissibile in caso di dati mancanti tutti gli altri casi

42 42/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Analisi dei gruppi Obiettivi: - raggruppare un insieme di unità in un certo numero di gruppi sulla base delle loro similarità Possibili applicazioni nelle analisi aziendali: - segmentazione del mercato, segmentazione per omogeneità dei consumatori  offerta di prodotti differenziati o strategie di marketing specifiche per le diverse tipologie di consumatori - ridurre la dimensionalità di una matrice dei dati X nel senso delle righe attraverso l ’ individuazione di righe (unità) simili - classificazione di un insieme di aziende concorrenti in un numero ridotto di tipologie ai fini di una analisi di posizionamento sulla base di una pluralità di indicatori

43 43/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Analisi dei gruppi I dati di partenza: - la matrice delle distanze D (n x n) - in alcuni casi la matrice dei dati X (n x p) gerarchici (MG): - gerarchici (MG): raggruppamento ottenuto per passaggi successivi - agglomerativi (MGA): aggregazioni successive (in un numero sempre minore di gruppi) - divisivi (MGD): divisioni successive (in un numero sempre maggiore di gruppi) - non gerarchici (MNG): raggruppamento direttamente in un numero prefissato di gruppi Di norma: qualitative, quantitative, miste Per alcuni metodi: solo quantitative Le tipologie di variabili:  solo quantitative  I metodi di raggruppamento:

44 44/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi  Procedono per agglomerazioni successive delle unità  Prendono come input la matrice delle distanze D (n x n) Step: 1.Punto di partenza: n gruppi, ognuno formato da una unità 2.Si identificano le due unità più simili (minimo valore nella matrice delle distanze, esclusa la diagonale )

45 45/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi 3. Si fondono le due unità in un gruppo, eliminandole dalla matrice delle distanze, che diventa: D n-2, n-2 4. Si aggiunge una nuova riga e una nuova colonna con le distanze tra il nuovo gruppo e tutte le altre unità, ottenendo D n-1, n-1 5.Si torna ad eseguire lo step 2 e i seguenti in modo iterativo, riducendo la matrice D di una unità ad ogni iterazione (fermandosi prima della soluzione - finale e inutile - costituita da un solo gruppo composto da tutte le unità) Due questioni aperte: - Come eseguire lo step 4: come calcolare le distanze tra il nuovo gruppo e tutte le altre unità  dalla scelta derivano i diversi metodi - - Come decidere quando fermarsi: in quanti gruppi realizzare la classificazione

46 46/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi Metodi Metodi per eseguire lo step 4 Esempio ABCDE A B C D00.82 E0 ADE(B,C) A ? D00.82? E0? (B,C) distanza minore: si forma il gruppo (B,C) distanza di A da (B,C)? di D da (BC)? di E da (B,C)?

47 47/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi Metodi Metodi per eseguire lo step 4 Notazioni: C K : K -esimo gruppo (inizialmente, k -esima unità) C L : L -esimo gruppo (inizialmente, l -esima unità) D KL : distanza tra i gruppi C K e C L (inizialmente, tra le unità k e l ) C M : gruppo derivante dalla fusione dei gruppi C K e C L (inizialmente k -esima e l -esima unità) D jM : distanza di un generico gruppo (o unità) preesistente C j dal gruppo C M derivante dalla fusione dei gruppi C K e C L (inizialmente distanza della generica unità preesistente j dal gruppo formato dalle unità k e l )

48 48/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi legame singolo  Metodo del legame singolo  D JM = min(D JK,D JL ) ABCDE A B C D00.82 E0 distanza di A da BC: min (d AB ; d AC )  min (0,26; 0,68) distanza di A da BCE: min (d A(BC) ; d AE )  min (0,26; 0,44 ) ADE(B,C) A D E00.19 (B,C)0 ADBCE A D00.39 BCE0 DBCEA D00.39 BCEA0   distanza di D da BCEA: min (d D(BCE) d DA )  min (0,39; 0,45)

49 49/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi Rappresentazione grafica della classificazioneDendrogramma: -Asse delle ascisse (non quantitativo): le unità -Asse delle ordinate: livelli di distanza a cui sono avvenute le successive fusioni Pro e contro il metodo del legame singolo: - tende a produrre gruppi allungati e quindi poco omogenei (contro) - ma isola i valori anomali (pro)

50 50/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi legame completo  Metodo del legame completo  D JM = max(D JK,D JL ) ABCDE A B C D00.82 E0 distanza di A da BC: max (d AB ; d AC )  max (0,26; 0,68 ) distanza di D da AE: max (d DA ; d DE )  max (0,45; 0,82) ADE(BC) A D E00.68 (BC)0 D (AE) D (BC)00.68 (AE)0 (BCD) (AE)00.82 (BCD)0   distanza di BC da AE: max (d (BC)A ; d (BC)E )  max (0,68; 0,68) distanza di AE da BCD: max (d (AE)(BC) ; d (AE)D )  max (0,68; 0,82)

51 51/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi Dendrogramma Pro e contro il metodo del legame completo: - tende a produrre gruppi di dimensioni simili (pro) - ma è influenzato dai valori anomali (contro) A E B C D

52 52/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi McQuitty  Metodo di McQuitty (dist. media)  D JM = (D JK + D JL )/ 2 ABCDE A B C D00.82 E0 distanza di A da BC: (d AB + d AC )/2  (0,26 + 0,68)/2 distanza di A da BCE: (d A(BC) + d AE )/2  (0,47 + 0,44 )/2 ADE(BC) A D E (BC)0 AD(BCE) A D (BCE)0 (AD) (BCE) (AD)0   distanza di BCE da AD: (d (BCE)A + d (BCE)D )/2  (0,455+ 0,6375)/2

53 53/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi Dendrogramma Pro e contro il metodo di McQuitty: produce soluzioni intermedie tra legame singolo e legame completo: ne contempera vantaggi e svantaggi

54 54/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi legame medio  Metodo del legame medio (media aritmetica ponderata)  D JM = (D JK N k + D JL N L )/ N M [ N K, N L, N M : n. unità in C K, C L, C M ] ABCDE A B C D00.82 E0 distanza di A da BC: (d A B + d AC )/N (BC)  (0,26 + 0,68)/2 distanza di A da BCE: (d A(BC) N (BC) + d AE N E )/N (BCE)  (0,47 x 2 + 0,44 x 1)/3 ADE(BC) A D E (B,C)0 AD(BCE) A D (BCE)0 (AD) (BCE) (AD)0   distanza di BCE da AD: (d (BCE)A N A + d (BCE)D N D )/N (AD)  (0,46 + 0,577)/2

55 55/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi Distanza di A da BCE: d A(BCE) = (d A(BC) N (BC) + d AE N E )/N (BCE) = (d AB + d AC + d AE )/N (BCE)  (0,47 x 2 + 0,44 x 1)/3 = (0,26 + 0,68 + 0,44)/3 = 0,46 La distanza di una unità da un gruppo è la media delle distanze da tutte le unità del gruppo Distanza di BCE da AD: d (BCE)(AD) = (d (BCE)A N (A) + d (BCE)D N AD )/N (AD) = = (d AB + d AC + d AE + d DB + d DC + d DE )/N (BCE) N (AD)  (0,26 + 0,68 + 0,44 + 0,39 + 0,52 + 0,82)/6 = 0,518 La distanza tra due gruppi è la media delle distanze di ogni unità di un gruppo da tutte le unità dell ’ altro gruppo:

56 56/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi Dendrogramma Pro e contro il metodo del legame medio: come il metodo di McQuitty, produce soluzioni intermedie tra legame singolo e legame completo

57 57/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi centroide  Metodo del centroide - si applica solo in caso di variabili quantitative - prende come input la matrice dei dati X (n x p) - centroide (o baricentro) di un gruppo: valori medi delle p variabili calcolati sulle unità appartenenti al gruppo - si aggregano i gruppi per i quali risulta minima la distanza euclidea tra i centroidi dei gruppi (inizialmente si aggregano le due unità che presentano la minima distanza euclidea)

58 58/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi - Esempio UnitàX1X2 ABCDABCD ABCD A B C013.4 D0 UnitàX1X2 B D (A,C) BD(A,C) B D012.1 (A,C)0 Matrice dei dati: Distanza euclidea: Passo 2:  

59 59/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi Metodo poco sensibile ai valori anomali: i dati anomali (molto diversi da tutti gli altri) producono elevate distanze euclidee con le altre unità (e con i gruppi che si formano) e quindi tendono a restare isolati (a non aggregarsi)

60 60/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi Ward  Metodo di Ward - si applica solo in caso di variabili quantitative - prende come input la matrice dei dati X (n x p) - è fondato sulla scomposizione della devianza totale in devianza entro i gruppi e devianza tra i gruppi Dev (T) = Dev (W) + Dev (B)

61 61/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi A ogni passo uniti i gruppi che danno luogo alla minore devianza entro i gruppi rispetto a tutte le altre possibili unioni Ovvero, poiché passando da g a g-1 gruppi aumenta Dev (W), a ogni passo si aggregano i gruppi che danno luogo al minore incremento di Dev (W)

62 62/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi UnitàX1X2 ABCDABCD Coppie di unità Dev A,B A,C A,D B,C B,D C,D Esempio: UnitàX1X2 B D A,C ; ;24  Passo successivo (tre possibilità: (B,D); (B,A,C); (D,A,C) Δ Dev (W) = 14.6

63 63/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi Metodo di Ward: - Poco sensibile ai valori anomali, che tende a isolare (come metodo del centroide e per le stesse ragioni) - Tende a produrre gruppi di dimensioni simili Molto utilizzato per la classificazione gerarchica in caso di variabili quantitative

64 64/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi Quanti gruppi considerare  Criterio: il livello di distanza a cui avvengono le aggregazioni successive Osservazione del dendrogramma: aggregazioni che avvengono “ molto in alto ” (dopo un “ salto ” nell ’ indice di distanza) indicano fusione di gruppi eterogenei  fermarsi prima  n. gruppi = g Incremento relativo della distanza di fusione da g a g-1 gruppi:

65 65/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici agglomerativi  Analisi dello scree plot (descrive la relazione tra il n. gruppi e la distanza di fusione): Fino a 10 gruppi: distanza di fusione vicina a zero; Da 8 a 7 gruppi: primo incremento sensibile della distanza di fusione; Da 4 a 3 gruppi: massimo incremento relativo (da a )  fermarsi a 4.

66 66/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici divisivi punti nodali Metodo basato sui punti nodali Primo passo: - sulla matrice delle distanze si individuano le due unità più distanti tra loro: i nodi - le altre unità vengono assegnate ai due nodi sulla base della distanza minima Passi successivi: l ’ operazione si ripete su ognuno dei due gruppi, e così via Percorso inverso rispetto agli agglomerativi - Punto di partenza: un unico gruppo formato da tutte le unità - Si procede per divisioni successive, prima in due gruppi, poi il più eterogeneo dei due viene a sua volta diviso in due…

67 67/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi gerarchici divisivi punti nodali - Esempio Metodi basati sui punti nodali - Esempio ABCDE A B C D00.82 E0 A con E: d AE < d AD (0.44 < 0.45) Idem per C (0.19 < 0.52) E con C: d EC < d EA (0.19 < 0.44) EAC E A00.68 C0 CE C00.19 E0 BD B00.39 D0 Passo 1 Punti nodali: D, E Passo 2 Punti nodali: A, C B D AC E B con D: d BD < d BE (0.39 < 0.68)

68 68/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi non gerarchici  Effettuano il raggruppamento direttamente nel numero di gruppi prefissato  Si applicano a sole variabili quantitative  Prendono come input la matrice di dati X (n x p)  Preventiva standardizzazione delle variabili (per neutralizzare gli effetti di diverse unità di misura e/o diverse variabilità)  Procedura iterativa che a ogni passo modifica la classificazione nei k gruppi in modo da ottenere il raggruppamento finale caratterizzato dalla massima omogeneità interna

69 69/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi non gerarchici K -means Algoritmo K -means 1.Raggruppamento iniziale: si specificano k punti iniziali (seeds) nello spazio delle p variabili quantitative: uno per ciascun gruppo da costruire (centroidi provvisori) Caso semplificato di due sole variabili rappresentato nel grafico: per costruire due gruppi, nel diagramma vanno individuati due punti iniziali (casualmente o con altro criterio) da cui far partire il processo iterativo di classificazione ■ ■

70 70/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi non gerarchici 2. Ciascuna unità viene assegnata a un punto iniziale sulla base della distanza (euclidea) minima, formando gruppi provvisori

71 71/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi non gerarchici 3.Vengono calcolati i baricentri (o centroidi) dei gruppi provvisori (valori medi delle p variabili nei gruppi) ■ ■ 4. Si riallocano tutte le unità sulla base del baricentro più vicino (distanza euclidea), formando nuovi gruppi provvisori

72 72/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi non gerarchici 5. Si rieseguono in modo iterativo gli step 3 (calcolo centroidi) … … e 4 (riallocazione unità) fino ad ottenere una soluzione stabile: raggruppamento finale ■ ■

73 73/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi non gerarchici K-means Pro e contro il metodo K-means Pro: Pro: tende a produrre gruppi internamente più omogenei rispetto ai metodi non gerarchiciContro: - problema della prefissazione del numero di gruppi (consigliabile provarne diversi) - problema della scelta dei punti iniziali: se nell ’ insieme di unità i gruppi non sono ben distinti, i punti iniziali possono condizionare la classificazione

74 74/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi non gerarchici Punti iniziali diversi … ■ ■ ■ ■ … diversa soluzione finale

75 75/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Metodi non gerarchici Soluzioni al problema della scelta dei punti iniziali: - se possibile utilizzare informazioni a priori sui baricentri dei gruppi (vedi strategie complesse di classificazione) - in particolare in caso di scelta casuale, ripetere più volte l ’ analisi (e valutare la stabilità della classificazione ottenuta)

76 76/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Scelta metodo di raggruppamento In base al tipo di variabili a disposizione e alle caratteristiche dei diversi metodi Variabili qualitative o miste  solo metodi gerarchici (non tutti) - vantaggio di poter scegliere il n. di gruppi a posteriori - ma sono più rigidi: non consentono di modificare aggregazioni fatte a livello inferiore; tendono quindi a produrre gruppi meno omogenei rispetto ai metodi non gerarchici

77 77/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Scelta metodo di raggruppamento Variabili solo quantitative  metodi gerarchici (anche Ward e Centroide) e non gerarchici: più flessibili e quindi gruppi più omogenei (classificazione modificata a ogni iterazione con l ’ obiettivo di massimizzare l ’ omogeneità interna ai gruppi)

78 78/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Strategie complesse di classificazione 1. Nell ’ ambito dei metodi gerarchici (per tutte le tipologie di variabili) a) In caso di variabili qualitative o miste: prima - prima metodo del legame singolo per identificare (ed eliminare) i casi anomali poi - poi metodo del legame completo, che produce migliori raggruppamenti in assenza di valori anomali Utilizzazione di più metodi in sequenza in modo da sfruttare i vantaggi di ognuno

79 79/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Strategie complesse di classificazione 1. Nell ’ ambito dei metodi gerarchici (per tutte le tipologie di variabili) a) In caso di variabili qualitative o miste: prima - prima metodo del legame singolo per identificare (ed eliminare) i casi anomali poi - poi metodo del legame completo, che produce migliori raggruppamenti in assenza di valori anomali b) In caso di variabili quantitative: prima - prima metodo di Ward (o del centroide) per identificare (ed eliminare) i casi anomali poi - poi stesso metodo per ottenere la classificazione al netto dei casi anomali

80 80/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Strategie complesse di classificazione 2. Tra metodi gerarchici e non gerarchici (per variabili quantitative) prima - prima metodo gerarchico al fine di individuare: - il numero ottimo di gruppi - gli eventuali casi anomali - i punti iniziali per classificazione non gerarchica (centroidi dei gruppi) Preferibili quelli di Ward e del Centroide: robusti rispetto ai casi anomali, che vengono isolati) poi - poi metodo non gerarchico (dopo eliminazione delle unità anomale) per ottenere la classificazione finale (più omogenea di quella ottenuta dal metodo gerarchico: effetto della riclassificazione delle unità tra i gruppi)


Scaricare ppt "1/80 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Capitolo 3 e par. 5.1 La matrice."

Presentazioni simili


Annunci Google