Capitolo 3 e par. 5.1 La matrice dei dati e le analisi preliminari

Capitolo 3 e par. 5.1 La matrice dei dati e le analisi preliminari
I metodi di classificazione La matrice dei dati Qualità dei dati e mancate risposte parziali Analisi sui profili di colonna Analisi sui profili di riga Analisi dei gruppi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

La matrice dei dati Tabella contenente le informazioni disponibili
relativamente ad un insieme di unità statistiche Ciascuna riga della matrice contiene le informazioni relative ad una determinata unità Ciascuna colonna contiene le modalità assunte da un determinato carattere nelle diverse unità Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

La matrice dei dati Statistica aziendale
Bruno Bracalente, Massimo Cossignani, Anna Mulas

La matrice dei dati I caratteri che figurano nella matrice possono essere: - qualitativi (in scala nominale o in scala ordinale) - quantitativi (in scala ad intervalli o in scala di rapporti) Spesso la matrice contiene variabili miste, alcune qualitative e altre quantitative Le unità possono pure essere di varia natura. Esempi: - le singole imprese di un campione (caso di studio) - i singoli consumatori di un prodotto - i singoli prodotti o stabilimenti di una azienda Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

La matrice dei dati La matrice dei dati può derivare da:
rilevazioni primarie (indagini campionarie) fonti secondarie - interne (dati aziendali) - esterne (fonti statistiche ufficiali o non ufficiali) Principali problemi di qualità: presenza di valori errati valori mancanti Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

I valori errati Possono essere segnalati da:
- valori fuori dominio (non appartenenti all’insieme dei valori ammissibili) - valori anomali o outliers (valori che si discostano molto da quelli assunti nella maggior parte delle altre unità) - valori incompatibili (contraddittori con altre risposte) Possono essere individuati, rispettivamente, attraverso: - controlli di validità o di range - controlli per gli outlier - controlli di consistenza Una volta individuati, i valori errati possono essere corretti attraverso una nuova rilevazione considerati come valori mancanti Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Le mancate risposte parziali
Mancanza di uno o più dati: - nelle indagini campionarie mancate risposte ad uno o più quesiti Le possibili soluzioni: Utilizzare soltanto il sottoinsieme di unità senza dati mancanti  riduzione numerosità; possibili distorsioni Utilizzare diversi sottoinsiemi (completi) di unità per le diverse analisi (univariate, bivariate, multivariate)  numerosità diverse per le diverse analisi Assegnare al dato mancante un valore plausibile (imputazione) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Tecniche di imputazione
Diverse tecniche di imputazione 1. Imputazione di un valore medio: media aritmetica o mediana (per i caratteri quantitativi o qualitativi ordinali), moda (per i caratteri qualitativi sconnessi) calcolate: a - sul complesso delle unità b - o su un sottoinsieme più omogeneo  Conseguenza indesiderata: riduce la variabilità (in particolare nel caso a) 2. Imputazione con prelievo da donatore: invece del valore medio si imputa un valore individuale, “donato” da una unità il più possibile simile in base alle altre caratteristiche (indici di similarità o distanza: vedi oltre) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

3. Imputazione da modello In base alla relazione empirica tra la variabile con dati mancanti e una o più variabili esplicative (con dati presenti) Passi: - scelta variabili esplicative di quella con dati mancanti - stima dei parametri di un modello di regressione sui dati presenti nella matrice Regressione (semplice): Modello teorico Modello stimato - assegnazione del valore predetto dal modello in base ai valori assunti dalla variabile esplicativa nella unità i con dato mancante: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

4. Imputazione stocastica assegnazione al dato mancante di un valore estratto casualmente da una distribuzione ritenuta plausibile Limite: distribuzioni teoriche diverse per diverse variabili, da identificare di volta in volta Semplificazione: estrazione casuale di una unità per ogni dato mancante dalla distribuzione empirica della caratteristica Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Le analisi sui profili di colonna
Analisi univariate (es: medie, varianze), bivariate (es: correlazione), multivariate (es: regressione multipla) Analisi bivariate: studio dell’associazione esistente tra le diverse coppie di variabili Si ottiene una matrice di associazione (p x p): L’indice con cui misurare l’associazione dipende dal tipo di variabili presenti nella matrice dei dati Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Variabili quantitative
La covarianza: Indica se tra le due variabili esiste: concordanza (segno positivo: se prevalgono prodotti di segno +) discordanza (segno negativo: se prevalgono prodotti di segno -) Indipendenza lineare (valore nullo) Limite: i valori assunti dalle covarianze dipendono dalle scale di misura dei caratteri  non sono direttamente confrontabili Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Le variabili quantitative
Per ovviare al problema della confrontabilità Coefficiente di correlazione lineare di Bravais-Pearson: (covarianza diviso il prodotto delle due deviazioni standard) Il coefficiente di correlazione lineare: assume lo stesso segno della covarianza è compreso tra –1 e 1 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Esempio Unità Xh Xj scarti Xh scarti Xj prodotti scarti2 Xh scarti2 Xj 1 1.3 0.7 -0.3 -0.1 0.03 0.09 0.01 2 1.6 0.9 0.1 3 1.8 0.8 0.2 0.04 4 1.4 -0.2 0.02 5 1.9 0.3 somme 8 0.08 0.26 medie 0.052 0.008 Cov = 0.016 dev. st. 0.228 0.089 Cor = 0.784 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Matrice (p x p) delle correlazioni simmetrica sulla diagonale valori unitari: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Le analisi sui profili di riga
Obiettivo: misurare la distanza (differenza) o la similarità tra coppie di unità, in relazione alle caratteristiche osservate Si ottiene una matrice delle distanze D (n x n) L’indice con cui misurare la distanza dipende dal tipo di variabili presenti nella matrice dei dati Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Le analisi sui profili di riga
Valori non negativi: dir ≥ 0 Valori sulla diagonale pari a zero: dii = 0 Simmetria: dir = dri Diseguaglianza triangolare: dir ≤ dis + dsr Misura di distanza definita in uno spazio metrico In corrispondenza a ogni indice di distanza può essere definito un indice di similarità: cir = 1- dir Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Indici di distanza Indici specifici per ogni tipologia di variabili:
- qualitative (sconnesse politomiche o dicotomiche) - quantitative (o qualitative ordinali) Un indice generale per variabili miste La presenza di variabili miste è la norma, in particolare nelle matrici di dati derivanti da indagini campionarie Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Indici di distanza Esempi dall’indagine Efige:
qualitative dicotomiche: export (si, no); ide; innovazione - qualitative sconnesse: destinazione export (UE, Asia, USA, …) finanziamento investimenti (autofin, venture cap, cred. banc.…) - qualitative ordinali: export prima 2008 (regolarmente, qualche volta, mai) dipendenza da finanziamenti esterni (1 non dip -> 5 molto dip) - quantitative: n. dipendenti; valori e indici di bilancio; % fatturato esportato Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Variabili qualitative sconnesse politomiche
Misurazione su scala nominale Confronto ammissibile tra due unità: se sono uguali o diverse rispetto al carattere considerato Indice di distanza di Sneath Distanza misurata sulla base di p caratteri qualitativi sconnessi Per il generico carattere k si pone: dir,k = 1 se xik  xrk dir,k = 0 se xik = xrk - E’ dato dalla frequenza relativa dei caratteri per i quali le unità i ed r presentano modalità diverse - Di conseguenza: compreso tra 0 e 1 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Variabili qualitative sconnesse politomiche - Esempio
Distanza o similarità tra coppie di aziende esportatrici in relazione ai caratteri: forma giuridica; settore di attività; area di esportazione Aziende Forma giuridica Settore Area export 1 SPA Meccanica Asia 2 Tessile Europa 3 SNC 4 SRL USA Indice di distanza tra le aziende 1 e 2: d12,1=0; d12,2=1; d12,3=1  d12= (0+1+1)/3 =0.66 [c12 = 1-d12=0.33] Indice di distanza tra le aziende 2 e 3: d23,1=1; d23,2=0; d23,3=0  d23=(1+0+0)/3 =0.33 [c23 = 1-d23 =0.66] Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Variabili dicotomiche
Misurazione su scala nominale Confronto ammissibile: come nel caso di caratteri sconnessi politomici (se le modalità sono uguali o diverse nelle due unità)  si può utilizzare lo stesso indice (di Sneat) Esempio: Distanza tra coppie di aziende per le quali è stato rilevato: - se hanno delocalizzato oppure no - se hanno fatto investimenti oppure no - se hanno apportato innovazioni oppure no - se hanno fatto assunzioni oppure no Aziende Deloc. Invest. Innov. Assunz. 1 No Sì 2 3 4 d12 = ( )/4 = 1 d23 = ( )/4 = 0.25 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Variabili politomiche e dicotomiche
L’indice di Sneat consente di misurare la distanza anche quando tra le p variabili qualitative considerate ve ne sono alcune sconnesse politomiche e altre dicotomiche Esempio: Politomiche Dicotomiche Az. Forma giur. Sett. Area export Del Inv Inn Ass 1 SpA Mec Asia NO SI 2 Tes Europa Indice di distanza (di Sneat) tra le aziende 1 e 2: d12= ( )/7 = [c12 = 1-d12=0.14] Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Variabili qualitative dicotomiche
Nel caso di sole variabili dicotomiche si possono calcolare diversi indici di distanza: Simple matching Jaccard (Altri) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Nella matrice dei dati, per ognuno dei p caratteri dicotomici: valore 1 (presenza) valore 0 (assenza) Aziende Deloc. Invest. Innov. Assunz. 1 No (0) Sì (1) 2 3 4 I diversi indici derivano dalla classificazione dei p caratteri nella seguente tabella di contingenza (per la coppia di unità i ed r): unità i 1 0 unità r a b 0 c d a = numero di caratteri presenti in entrambe le unità b = numero di caratteri presenti in r ma assenti in i c = numero di caratteri assenti in r ma presenti in i d = numero di caratteri assenti in entrambe le unità (a + b + c + d = p) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Esempio Aziende Deloc. Invest. Innov. Assunz. 1 No (0) Sì (1) 2 3 4 Az. 2 Az.3 1 2 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Indice Simple matching : unità i 1 0 unità r a b 0 c d Frequenza relativa degli attributi presenti in una unità e assenti nell’altra Come indice di Sneath: frequenza relativa dei caratteri per i quali le unità i ed r presentano modalità diverse Esempio: Az. 2 Az.3 1 2 Simple matching: d23 = 1/4 = 0.25 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

unità i 1 0 unità r a b 0 c d Indice di Jaccard: Esclude d dal denominatore: si assume che l’assenza in entrambe le unità non indichi similarità Esempio: Az. 2 Az.3 1 2 Jaccard: d23 = 1/3 = 0.33 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Variabili qualitative ordinali
Misurazione su scala ordinale Confronto ammissibile tra due unità: se l’una presenta modalità maggiore o minore dell’altra secondo il carattere considerato Due possibilità: a) Trasformare le variabili in quantitative Si attribuisce un punteggio crescente (1, 2, 3, …) al crescere della misurazione ordinale e si utilizza un indice di distanza per dati quantitativi (vedi oltre) Limite: si introducono elementi di arbitrarietà (si assume costante la differenza tra due modalità contigue) b) Considerare la misurazione su scala nominale Si considerano le variabili come qualitative politomiche e si utilizza l’indice di Sneath Limite: notevole perdita di informazione Meglio soluzione a) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Misurazione su scala di rapporti o di intervalli Confronto ammissibile: rapporto o differenza tra i valori assunti dal carattere in due diverse unità Misure di distanza fondate sulle differenze tra i valori assunti dalle modalità di tutti i caratteri nelle due unità Diversi indici derivanti da un indice generale: la distanza di Minkoski dove il parametro λ è una sorta di peso assegnato alle differenze maggiori Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Distanza di Minkoski: Per λ = 2 Distanza euclidea: Per λ = 1 Distanza di Manhattam: (o della città a blocchi) Per λ ->  Distanza di Lagrange-Tchebychev: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Esempio: distanze tra due aziende in relazione ad alcuni indici di bilancio Aziende ROI ROS ROE Indeb 1 7.2 5.7 8.2 25.3 2 5.2 1.2 2.0 11.7 |xik – xrk| 4.5 6.2 13.6 (xik – xrk)2 4.0 20.2 38.4 185.0 max |xik – xrk| Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Problemi degli indici di distanza per variabili quantitative: Problema della scala – sommate differenze relative a caratteri misurati in unità di misura diverse Una soluzione è trasformare le variabili originarie in variabili standardizzate Per la generica variabile Xk : (numeri puri, media 0 e varianza unitaria) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Un’altra possibilità è rapportare i valori assunti nelle diverse unità al valore massimo della distribuzione: Variabili standardizzate Esempio: Variabili originarie (rapportare al max) Az ROI Eta’ Prod. % Exp Età 1 7.2 65 48.2 65.3 0.387 0.722 0.230 0.653 2 5.2 20 91.5 42.7 0.280 0.222 0.436 0.427 … …. n 2.0 42 42.1 28.5 Val. max 18.6 90 210 100 Un’altra soluzione nell’indice di distanza per variabili miste (vedi oltre) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Correlazione tra le variabili – uno stesso fenomeno misurato tramite più variabili viene implicitamente pesato di più nella misura della distanza Esempio: Aziende ROI ROE ROS Indeb. 1 7.2 8.2 5.7 25.3 2 5.2 2.0 1.2 11.7 (xik – xrk)2 4.0 38.4 20.2 185.0 Distanza Euclidea: d12 = 15.7 Ma: redditività misurata con tre indici, forse correlati tra loro situazione finanziaria misurata con un solo indice Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Una soluzione al problema della correlazione tra variabili: Distanza euclidea ponderata: dove wk : coefficiente di ponderazione della k-esima variabile (tanto minore quanto più la variabile è correlata con le altre p-1) Ad esempio 1/R2 da regressioni multiple (Cap 4) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Variabili miste Misurazione su scale diverse
Confronti ammissibili a seconda della scala di misurazione Indice di distanza di Gower Media di indici di distanza relativi alle diverse variabili qualitative e quantitative dir,k : misura di distanza tra le unità i e r in relazione al k-esimo attributo (misura diversa a seconda della tipologia di carattere, ma sempre compresa tra 0 e 1) confronto non ammissibile (principalmente dati mancanti) tutti gli altri casi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Variabili miste Caratteri quantitativi: Range(k):
campo di variazione della variabile k Dividere per il range è un modo per eliminare l’effetto delle diverse unità di misura delle variabili: il rapporto che definisce dir,k (differenza su massimo della differenza) sarà sempre compreso tra zero e uno corrisponde alla standardizzazione dividendo per il massimo, se si assume il minimo pari a zero [Range (k) = max xk – min xk] Caratteri qualitativi ordinali: si trasformano le variabili in quantitative attribuendo punteggi crescenti al crescere delle modalità del carattere e ci si riconduce al caso dei caratteri quantitativi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Variabili miste Caratteri qualitativi sconnessi politomici:
Indice di distanza di Sneath dir,k = 1 se i e r presentano modalità diverse del carattere k dir,k = 0 se presentano modalità uguale Caratteri qualitativi sconnessi dicotomici: Indice di Jaccard dir,k = 1 se i e r presentano modalità diverse del carattere k dir,k = 0 se presentano modalità uguale confronto non ammissibile (dati mancanti, assenza-assenza) tutti gli altri casi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Variabili miste - Esempio
Aziende ROI Indeb. Aspettative produzione Settore Export 1 7.1 25.3 Stazionaria (0) Mecc. Si (1) 2 5.1 11.7 Aumento (1) Alim. No (0) 3 7.6 10.3 Forte aumento (2) 4 2.6 18.9 Forte diminuz. (-2) Tess. Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Variabili miste Indice di Gower modificato:
Per i casi in cui nei caratteri dicotomici l’assenza del fenomeno in entrambe le unità è interpretabile come similitudine Caratteri qualitativi sconnessi dicotomici: Indice Simple matching (Sneath) dir,k = 1 se i e r presentano modalità diverse del carattere k dir,k = 0 se presentano modalità uguale confronto non ammissibile in caso di dati mancanti tutti gli altri casi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Analisi dei gruppi Obiettivi:
raggruppare un insieme di unità in un certo numero di gruppi sulla base delle loro similarità ridurre la dimensionalità di una matrice dei dati X nel senso delle righe attraverso l’individuazione di righe (unità) simili Possibili applicazioni nelle analisi aziendali: - segmentazione del mercato, segmentazione per omogeneità dei consumatori  offerta di prodotti differenziati o strategie di marketing specifiche per le diverse tipologie di consumatori - classificazione di un insieme di aziende concorrenti in un numero ridotto di tipologie ai fini di una analisi di posizionamento sulla base di una pluralità di indicatori Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Analisi dei gruppi - la matrice delle distanze D (n x n)
I dati di partenza: - la matrice delle distanze D (n x n) - in alcuni casi la matrice dei dati X (n x p) I metodi di raggruppamento: Le tipologie di variabili: - gerarchici (MG): raggruppamento ottenuto per passaggi successivi - agglomerativi (MGA): aggregazioni successive (in un numero sempre minore di gruppi) - divisivi (MGD): divisioni successive (in un numero sempre maggiore di gruppi) Di norma: qualitative, quantitative, miste Per alcuni metodi: solo quantitative  non gerarchici (MNG): raggruppamento direttamente in un numero prefissato di gruppi solo quantitative  Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodi gerarchici agglomerativi
Procedono per agglomerazioni successive delle unità Prendono come input la matrice delle distanze D (n x n) Step: Punto di partenza: n gruppi, ognuno formato da una unità Si identificano le due unità più simili (minimo valore nella matrice delle distanze, esclusa la diagonale) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

3. Si fondono le due unità in un gruppo, eliminandole dalla matrice delle distanze, che diventa: Dn-2,n-2 4. Si aggiunge una nuova riga e una nuova colonna con le distanze tra il nuovo gruppo e tutte le altre unità, ottenendo Dn-1,n-1 Si torna ad eseguire lo step 2 e i seguenti in modo iterativo, riducendo la matrice D di una unità ad ogni iterazione (fermandosi prima della soluzione - finale e inutile - costituita da un solo gruppo composto da tutte le unità) Due questioni aperte: - Come eseguire lo step 4: come calcolare le distanze tra il nuovo gruppo e tutte le altre unità  dalla scelta derivano i diversi metodi - - Come decidere quando fermarsi: in quanti gruppi realizzare la classificazione Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodi per eseguire lo step 4 Esempio A B C D E 0.26 0.68 0.45 0.44 0.11 0.39 0.52 0.19 0.82 A D E (B,C) 0.45 0.44 ? 0.82 0.11 distanza minore: si forma il gruppo (B,C) distanza di A da (B,C)? di D da (BC)? di E da (B,C)? Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodi per eseguire lo step 4 Notazioni: CK : K-esimo gruppo (inizialmente, k-esima unità) CL : L-esimo gruppo (inizialmente, l-esima unità) DKL : distanza tra i gruppi CK e CL (inizialmente, tra le unità k e l) CM : gruppo derivante dalla fusione dei gruppi CK e CL (inizialmente k-esima e l-esima unità) DjM : distanza di un generico gruppo (o unità) preesistente Cj dal gruppo CM derivante dalla fusione dei gruppi CK e CL (inizialmente distanza della generica unità preesistente j dal gruppo formato dalle unità k e l) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodo del legame singolo  DJM = min(DJK,DJL) A B C D E 0.26 0.68 0.45 0.44 0.11 0.39 0.52 0.19 0.82 A D E (B,C) 0.45 0.44 0.26 0.82 0.39 0.19  distanza di A da BC: min (dAB; dAC)  min (0,26; 0,68) A D BCE 0.45 0.26 0.39 D BCEA 0.39  distanza di A da BCE: min (dA(BC); dAE)  min (0,26; 0,44) distanza di D da BCEA: min (dD(BCE) dDA)  min (0,39; 0,45) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Rappresentazione grafica della classificazione Dendrogramma: Asse delle ascisse (non quantitativo): le unità Asse delle ordinate: livelli di distanza a cui sono avvenute le successive fusioni 0.39 0.26 0.19 0.11 Pro e contro il metodo del legame singolo: tende a produrre gruppi allungati e quindi poco omogenei (contro) ma isola i valori anomali (pro) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodo del legame completo  DJM = max(DJK,DJL) A B C D E 0.26 0.68 0.45 0.44 0.11 0.39 0.52 0.19 0.82 A D E (BC) 0.45 0.44 0.68 0.82 0.52  distanza di A da BC: max (dAB; dAC)  max (0,26; 0,68) D (BC) (AE) 0.52 0.82 0.68 (AE) (BCD) 0.82  distanza di D da AE: max (dDA; dDE)  max (0,45; 0,82) distanza di AE da BCD: max (d(AE)(BC); d(AE)D) max (0,68; 0,82) distanza di BC da AE: max (d(BC)A; d(BC)E )  max (0,68; 0,68) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Dendrogramma 0.68 0.52 0.44 0.11 A E B C D Pro e contro il metodo del legame completo: tende a produrre gruppi di dimensioni simili (pro) ma è influenzato dai valori anomali (contro) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodo di McQuitty (dist. media)  DJM = (DJK + DJL)/ 2 A B C D E 0.26 0.68 0.45 0.44 0.11 0.39 0.52 0.19 0.82 A D E (BC) 0.45 0.44 0.47 0.82 0.455 0.435  distanza di A da BC: (dAB + dAC)/2  (0,26 + 0,68)/2 A D (BCE) 0.45 0.455 0.6375 (BCE) (AD)  distanza di A da BCE: (dA(BC) + dAE)/2  (0,47 + 0,44)/2 distanza di BCE da AD: (d(BCE)A+ d(BCE)D)/2  (0,455+ 0,6375)/2 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Dendrogramma 0.55 0.45 0.11 Pro e contro il metodo di McQuitty: produce soluzioni intermedie tra legame singolo e legame completo: ne contempera vantaggi e svantaggi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodo del legame medio (media aritmetica ponderata)  DJM = (DJK Nk+ DJLNL)/ NM [NK , NL , NM : n. unità in CK, CL, CM] A B C D E 0.26 0.68 0.45 0.44 0.11 0.39 0.52 0.19 0.82 A D E (BC) 0.45 0.44 0.47 0.82 0.455 0.435 (B,C)  distanza di A da BC: (dA B+ dAC)/N(BC)  (0,26 + 0,68)/2 A D (BCE) 0.45 0.46 0.577 (BCE) (AD) 0.518  distanza di A da BCE: (dA(BC) N(BC)+ dAE NE)/N(BCE)  (0,47 x 2 + 0,44 x 1)/3 distanza di BCE da AD: (d(BCE)A NA+ d(BCE)D ND)/N(AD)  (0,46 + 0,577)/2 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Distanza di A da BCE: dA(BCE) = (dA(BC) N(BC)+ dAE NE)/N(BCE) = (dAB + dAC + dAE)/N(BCE)  (0,47 x 2 + 0,44 x 1)/3 = (0,26 + 0,68 + 0,44)/3 = 0,46 La distanza di una unità da un gruppo è la media delle distanze da tutte le unità del gruppo Distanza di BCE da AD: d(BCE)(AD) = (d(BCE)A N(A)+ d(BCE)D NAD)/N(AD) = = (dAB + dAC + dAE + dDB + dDC + dDE)/N(BCE) N(AD)  (0,26 + 0,68 + 0,44 + 0,39 + 0,52 + 0,82)/6 = 0,518 La distanza tra due gruppi è la media delle distanze di ogni unità di un gruppo da tutte le unità dell’altro gruppo: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Dendrogramma 0.52 0.45 0.11 Pro e contro il metodo del legame medio: come il metodo di McQuitty, produce soluzioni intermedie tra legame singolo e legame completo Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodo del centroide - si applica solo in caso di variabili quantitative - prende come input la matrice dei dati X (n x p) - centroide (o baricentro) di un gruppo: valori medi delle p variabili calcolati sulle unità appartenenti al gruppo - si aggregano i gruppi per i quali risulta minima la distanza euclidea tra i centroidi dei gruppi (inizialmente si aggregano le due unità che presentano la minima distanza euclidea) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

- Esempio Distanza euclidea: Matrice dei dati: A B C D 4.47 2.83 10.8 7.21 6.32 13.4 Unità X1 X2 A B C D 10 12 8 14 26 30 24 36  Passo 2: Unità X1 X2 B D (A,C) 12 14 9 30 36 25 B D (A,C) 6.32 5.83 12.1  Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodo poco sensibile ai valori anomali: i dati anomali (molto diversi da tutti gli altri) producono elevate distanze euclidee con le altre unità (e con i gruppi che si formano) e quindi tendono a restare isolati (a non aggregarsi) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodo di Ward - si applica solo in caso di variabili quantitative - prende come input la matrice dei dati X (n x p) - è fondato sulla scomposizione della devianza totale in devianza entro i gruppi e devianza tra i gruppi Dev (T) = Dev (W) + Dev (B) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

A ogni passo uniti i gruppi che danno luogo alla minore devianza entro i gruppi rispetto a tutte le altre possibili unioni Ovvero, poiché passando da g a g-1 gruppi aumenta Dev (W), a ogni passo si aggregano i gruppi che danno luogo al minore incremento di Dev (W) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Esempio: Unità X1 X2 A B C D 10 12 8 14 26 30 24 36 Coppie di unità Dev A,B A,C A,D B,C B,D C,D 10 4 58 26 20 90 Unità X1 X2 B D A,C 12 14 10;8 30 36 26;24  Passo successivo (tre possibilità: (B,D); (B,A,C); (D,A,C) Δ Dev (W) = 14.6 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodo di Ward: Poco sensibile ai valori anomali, che tende a isolare (come metodo del centroide e per le stesse ragioni) Tende a produrre gruppi di dimensioni simili Molto utilizzato per la classificazione gerarchica in caso di variabili quantitative Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Quanti gruppi considerare Criterio: il livello di distanza a cui avvengono le aggregazioni successive Osservazione del dendrogramma: aggregazioni che avvengono “molto in alto” (dopo un “salto” nell’indice di distanza) indicano fusione di gruppi eterogenei  fermarsi prima Incremento relativo della distanza di fusione da g a g-1 gruppi: 0.52 0.45 0.11  n. gruppi = g Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Analisi dello scree plot (descrive la relazione tra il n. gruppi e la distanza di fusione): Fino a 10 gruppi: distanza di fusione vicina a zero; Da 8 a 7 gruppi: primo incremento sensibile della distanza di fusione; Da 4 a 3 gruppi: massimo incremento relativo (da a )  fermarsi a 4. Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodi gerarchici divisivi
Percorso inverso rispetto agli agglomerativi - Punto di partenza: un unico gruppo formato da tutte le unità - Si procede per divisioni successive, prima in due gruppi, poi il più eterogeneo dei due viene a sua volta diviso in due… Metodo basato sui punti nodali Primo passo: - sulla matrice delle distanze si individuano le due unità più distanti tra loro: i nodi - le altre unità vengono assegnate ai due nodi sulla base della distanza minima Passi successivi: l’operazione si ripete su ognuno dei due gruppi, e così via Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodi gerarchici divisivi
Metodi basati sui punti nodali - Esempio A B C D E 0.26 0.68 0.45 0.44 0.11 0.39 0.52 0.19 0.82 Passo 1 Punti nodali: D, E A con E: dAE < dAD (0.44 < 0.45) Idem per C (0.19 < 0.52) B D 0.39 E A C 0.44 0.19 0.68 B con D: dBD < dBE (0.39 < 0.68) Passo 2 Punti nodali: A, C C E 0.19 E con C: dEC < dEA (0.19 < 0.44) B D A C E Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodi non gerarchici Effettuano il raggruppamento direttamente nel numero di gruppi prefissato Si applicano a sole variabili quantitative Prendono come input la matrice di dati X (n x p) Preventiva standardizzazione delle variabili (per neutralizzare gli effetti di diverse unità di misura e/o diverse variabilità) Procedura iterativa che a ogni passo modifica la classificazione nei k gruppi in modo da ottenere il raggruppamento finale caratterizzato dalla massima omogeneità interna Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodi non gerarchici Algoritmo K-means
Raggruppamento iniziale: si specificano k punti iniziali (seeds) nello spazio delle p variabili quantitative: uno per ciascun gruppo da costruire (centroidi provvisori) Caso semplificato di due sole variabili rappresentato nel grafico: per costruire due gruppi, nel diagramma vanno individuati due punti iniziali (casualmente o con altro criterio) da cui far partire il processo iterativo di classificazione ■ ■ Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodi non gerarchici 2. Ciascuna unità viene assegnata a un punto iniziale sulla base della distanza (euclidea) minima, formando gruppi provvisori Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodi non gerarchici Vengono calcolati i baricentri
(o centroidi) dei gruppi provvisori (valori medi delle p variabili nei gruppi) 4. Si riallocano tutte le unità sulla base del baricentro più vicino (distanza euclidea), formando nuovi gruppi provvisori ■ ■ Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodi non gerarchici 5. Si rieseguono in modo iterativo gli step 3 (calcolo centroidi) … … e 4 (riallocazione unità) fino ad ottenere una soluzione stabile: raggruppamento finale ■ ■ Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodi non gerarchici Pro e contro il metodo K-means
Pro: tende a produrre gruppi internamente più omogenei rispetto ai metodi non gerarchici Contro: - problema della prefissazione del numero di gruppi (consigliabile provarne diversi) - problema della scelta dei punti iniziali: se nell’insieme di unità i gruppi non sono ben distinti, i punti iniziali possono condizionare la classificazione Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodi non gerarchici Punti iniziali diversi …
… diversa soluzione finale ■ ■ ■ ■ Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Metodi non gerarchici Soluzioni al problema della scelta dei punti iniziali: se possibile utilizzare informazioni a priori sui baricentri dei gruppi (vedi strategie complesse di classificazione) in particolare in caso di scelta casuale, ripetere più volte l’analisi (e valutare la stabilità della classificazione ottenuta) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Scelta metodo di raggruppamento
In base al tipo di variabili a disposizione e alle caratteristiche dei diversi metodi Variabili qualitative o miste  solo metodi gerarchici (non tutti) vantaggio di poter scegliere il n. di gruppi a posteriori ma sono più rigidi: non consentono di modificare aggregazioni fatte a livello inferiore; tendono quindi a produrre gruppi meno omogenei rispetto ai metodi non gerarchici Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Scelta metodo di raggruppamento
Variabili solo quantitative  metodi gerarchici (anche Ward e Centroide) e non gerarchici: più flessibili e quindi gruppi più omogenei (classificazione modificata a ogni iterazione con l’obiettivo di massimizzare l’omogeneità interna ai gruppi) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Strategie complesse di classificazione
Utilizzazione di più metodi in sequenza in modo da sfruttare i vantaggi di ognuno 1. Nell’ambito dei metodi gerarchici (per tutte le tipologie di variabili) a) In caso di variabili qualitative o miste: - prima metodo del legame singolo per identificare (ed eliminare) i casi anomali - poi metodo del legame completo, che produce migliori raggruppamenti in assenza di valori anomali Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

1. Nell’ambito dei metodi gerarchici (per tutte le tipologie di variabili) a) In caso di variabili qualitative o miste: - prima metodo del legame singolo per identificare (ed eliminare) i casi anomali - poi metodo del legame completo, che produce migliori raggruppamenti in assenza di valori anomali b) In caso di variabili quantitative: - prima metodo di Ward (o del centroide) per identificare (ed eliminare) i casi anomali - poi stesso metodo per ottenere la classificazione al netto dei casi anomali Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

2. Tra metodi gerarchici e non gerarchici (per variabili quantitative) - prima metodo gerarchico al fine di individuare: - il numero ottimo di gruppi - gli eventuali casi anomali - i punti iniziali per classificazione non gerarchica (centroidi dei gruppi) Preferibili quelli di Ward e del Centroide: robusti rispetto ai casi anomali, che vengono isolati) poi metodo non gerarchico (dopo eliminazione delle unità anomale) per ottenere la classificazione finale (più omogenea di quella ottenuta dal metodo gerarchico: effetto della riclassificazione delle unità tra i gruppi) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

Capitolo 3 e par. 5.1 La matrice dei dati e le analisi preliminari

Presentazioni simili

Presentazione sul tema: "Capitolo 3 e par. 5.1 La matrice dei dati e le analisi preliminari"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Capitolo 3 e par. 5.1 La matrice dei dati e le analisi preliminari

Presentazioni simili

Presentazione sul tema: "Capitolo 3 e par. 5.1 La matrice dei dati e le analisi preliminari"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back