I metodi di Classificazione automatica L’Analisi Multidimensionale dei Dati Una Statistica da vedere I metodi di Classificazione automatica
Analisi nello spazio delle variabili Matrici e metodi Strategia di AMD Analisi nello spazio delle variabili Per riga Matrice strutturata Anal. Discrimin. Segmentazione SI SI NO NO Cluster Anal. Scaling Multid NO SI Analisi simmetrica Correl. Canon. Corrisp. Multi. An. Matrici 3D SI Comp.Princ. An. Corrisp. Analisi esplorative NO Analisi confermative Regress.Mult, Conjoint Anal. An. Non Simm Corrisp. Variabili qualitative Variabili ordinali Variabili quantitative
Classificazione automatica Insieme di procedure (algoritmi) che si prefiggono di classificare o raggruppare individui in classi tali che: - gli individui all'interno di una classe siano molto simili - ogni classe sia relativamente distinta dalle altre Tabelle individui-variabili numeriche Tabelle di contingenza Tabelle di presenza-assenza I dati Si ipotizza la presenza di raggruppamenti tra le unità oppure Se ne richiede la determinazione La definizione delle classi si ottiene mediante algoritmi iterativi basati su una serie di operazioni elementari ripetute in maniera ricorsiva.
I metodi di Classificazione automatica Obiettivo Definire una o più partizioni a partire dall’insieme dei punti considerati Problema Numero delle partizioni possibili Es.: 4 elementi (A,B,C,D) e 2 gruppi (A) (B,C,D) (B) (A,C,D) (C) (A,B,D) (D) (A,B,C) (A,B) (C,D) (A,C) (B,D) (A,D) (B,C) 2n-1- 1 Numero delle partizioni (P) n=4 P = 7 n=10 P = 511 n=100 P = 1,000,000,000,000,000,000,000,000,000,00 - 1 = 1029-1
I metodi di Classificazione automatica 1 milione di partizioni al secondo Partizione ottimale di... … 20 unità in 5 classi 8 giorni … 30 unità in 5 classi 2444 secoli!
I metodi di Classificazione automatica Gli algoritmi per la classificazione automatica possono portare: Alla costruzione di classi per dicotomizzazioni successive dell’insieme degli oggetti Classificazione gerarchica discendente Classificazione gerarchica ascendente Alla costruzione di classi per aggregazioni successive di coppie di oggetti Direttamente a delle partizioni Classificazione non gerarchica
Criteri di classificazione
Gerarchia Albero Gerarchico o Dendrogramma H(E) P5={(e1 e2 e3 e4 e5)} nodi rami taglio del dendrogramma per ottenere i gruppi P4={(e1 e2 e3 e4) e5} e1 e2 e3 e4 e5 E P1={e1 e2 e3 e4 e5} P2={(e1 e2) e3 e4 e5} P3={(e1 e2) (e3 e4) e5} Gerarchia Albero Gerarchico o Dendrogramma una gerarchia è una sequenza di partizioni nidificate
La misura del grado di somiglianza Si può definire una applicazione d che faccia corrispondere un numero reale positivo o nullo a ciascuna coppia (i,h) Condizioni: 1) Separabilità: 2) Simmetria: 3) Disuguaglianza triangolare: 4) Condizione di Krassner: Parleremo di: .) indice di dissimilarità se si verificano le condizioni 1 e 2 .) metrica o distanza se si verificano le condizioni 1, 2 e 3 .) ultrametrica se si verificano le condizioni 1, 2 e 4 Il concetto di gruppo presuppone l’esistenza di un criterio globale che misuri la prossimità tra individui di una stessa classe e quindi la qualità della partizione. La scelta della misura di dissomiglianza è strettamente legata alla natura dei dati osservati. Mentre un indice di dissimilarità consente il solo confronto tra le caratteristiche di coppie di elementi dell’insieme, l’introduzione di una metrica, imponendo la condizione della disuguaglianza triangolare, consente anche la definizione di una relazione d’ordine tra le distanze dei punti. In molti casi può risultare utile la definizione di una relazione più stretta che risponda anche ad una condizione di classificabilità dei punti; ciò implica la possibilità di determinare una soglia che definisca una partizione dell’insieme iniziale in due gruppi tale che un elemento si trovi nell’uno o nell’altro gruppo a seconda che la sua distanza da tutti gli altri elementi sia minore o maggiore della soglia prefissata. indici di similarità: dati booleani indici di distanza: dati numerici e frequenze
Indici di similarità per variabili dicotomiche Dati binari Indici di similarità: L’indice di sokal-michener risulta pari a 1 quando tutti gli elementi sono sulla diagonale principale e quindi c’e’ massima concordanza tra i caratteri e pari a 0 quando i caratteri sono completamente discordi. L’indice di jaccard non considera i casi del mancato possesso congiunto dei caratteri osservati. Indice di Sokal-Michener: Coefficente di Jaccard:
La matrice di similarità/dissimilarità Dati binari Matrice di Similarità · quadrata n n · simmetrica · diagonale = 1 Indice di dissimilarità
Distanze per variabili quantitative
Distanze per tabelle di frequenze Distanza del c2 (Benzecri) Distanza tra due righe i e i’: Distanza tra due colonne j e j’: Consideriamo n unità statistiche su cui siano state osservate 2 variabili su scala qualsiasi. I dati possono essere raccolti in una tabella a doppia entrata in cui ogni cella riporta la frequenza associata all’incrocio delle corrispondenti modalità delle variabili.
Una Metrica Particolare: la Distanza del c2
Classificazione gerarchica Il principio dell’algoritmo consiste nel creare, a ciascun passo, una partizione ottenuta aggregando a due a due gli elementi più vicini; L’algoritmo non fornisce una partizione in q classi di un insieme di n oggetti ma una gerarchia di partizioni che si presentano sotto forma di albero detto anche dendrogramma e che contiene n-1 partizioni; L’importanza della lettura del dendrogramma è nella possibilità di suggerire il numero di classi effettivamente presenti nell’insieme osservato.
I passi di una procedura di classificazione PASSO 0: n individui da classificare PASSO 1: analisi della matrice di dissimilarità (distanza) e aggregazione dei due elementi più vicini PASSO 2: calcolo delle distanze tra il nuovo punto ed i punti restanti. Ritorno al passo 0 con n-1 punti da classificare PASSO 3: nuova ricerca dei due punti più vicini e loro aggregazione. Calcolo delle nuove distanze e ripetizione del processo fino a comprendere tutti gli elementi in un'unica classe
Scelta del livello di “taglio” Dendrogramma 15 gruppi 16 gruppi 19 gruppi 14 gruppi 4 gruppi 1 gruppo 5 gruppi 3 gruppi 2 gruppi 6 gruppi 9 gruppi 7 gruppi 17 gruppi 18 gruppi 8 gruppi Scelta del livello di “taglio” x Definizione delle classi della partizione
I diversi criteri di raggruppamento Gruppo A Gruppo B x x Criteri per la determinazione della distanza tra due gruppi Distanza minima a. ; Distanza massima b. Distanza centroidi c. ; Distanza media d. Criteri basati sull’inerzia dei gruppi Metodo di Ward
I diversi criteri di raggruppamento Criteri basati sull’inerzia dei gruppi Metodo di Ward Il metodo di Ward è basato sulla minimizzazione della varianza all’interno dei gruppi Teorema di Huyghens: Obiettivo della partizione è minimizzare la quota di variabilità interna ai gruppi, massimizzando al contempo la variabilità tra i gruppi, così da ottenere classi omogenee al loro interno e ben separate l’una dall’altra Varianza tra i gruppi in caso di n classi: massima Varianza tra i gruppi in caso di una classe: nulla L’algoritmo di Ward aggrega, ad ogni passo intermedio, gli oggetti (gruppi o unità) che determinano la perdita di inerzia tra le classi minima.
cj cj (nj ) (nj ) (nj ) cj
Un esempio (Criterio della distanza minima) 1 2 3 4 5 6 a b c d e f g a b c d e f g
I diversi criteri di raggruppamento b c d e f g a b c d e f g a b c d e f g a b c d e f g Distanza minima Distanza massima Distanza media
. . . I passi di una classificazione gerarchica Matrice dei dati 1 : n Matrice dei dati 1 : n 1 … n Matrice delle ultrametriche 1 : n 1 … n Matrice delle distanze 1 : n-1 1 … n-1 Matrice delle distanze 1 2 1 … 2 Matrice delle distanze . . .
Esempio: I consumi alimentari BE 0.08 1.40 0.93 0.36 0.77 0.71 0.54 0.18 0.13 0.15 0.38 0.22 2.92 0.11 FR GE DA IR AU OL SV IT GR PO SP IS NO GB FI Livello di taglio Classi della partizione
~ N(0,1) ~ N(0,1) e La descrizione delle classi: I valori-test Media generale Numerosità classe k Numerosità totale Media classe k Varianza variabile j Variabile j ~ N(0,1) a) variabili continue: e 2.5% 95% b) variabili nominali ~ N(0,1) -1,96 s 1,96 s
2.81 La definizione delle classi es.: Classe 1 BE, FR, GE, DA, IR AU, OL, SV, FI, GB, NO, IS Classe 1 SP, PO, GR, IT 2.81 es.:
Le “tipologie” La dieta mediterranea La dieta iperproteica La dieta grassa
Metodo dei centri mobili Metodo delle nubi dinamiche Classificazione non gerarchica E’ utilizzata quando si hanno molti punti da classificare Richiede la determinazione a priori del numero di classi che definiscono la partizione Metodo dei centri mobili L’algoritmo è convergente ed il numero di iterazioni richieste è generalmente limitato, cosa che rende questo metodo applicabili anche a grosse quantità di dati; D’altra parte, la soluzione ottenuta non rappresenta la soluzione ottimale ma solo una delle tante possibili, ottenuta avendo determinato a priori quel numero di classi e avendo scelto quelle unità iniziali; Metodo delle nubi dinamiche Soluzione proposta
Metodo dei centri mobili 1° passo: Scelta casuale dei k nuclei iniziali 2° passo: Calcolo delle distanze e definizione della prima partizione Convergenza: Stabilità della partizione Passi successivi: Definizione dei nuovi nuclei, calcolo delle nuove distanze, definizione della nuova partizione, e così via...
Un algoritmo generale di tipo nubi dinamiche PASSO 0: definizione del numero delle classi (k) e dei nuclei costituiti da uno o più elementi rappresentativi di ciascuna classe. La scelta dei nuclei può essere inizialmente arbitraria (per es. elementi casuali) o basata su informazione a priori (per es. un'analisi fattoriale preliminare PASSO 1: sia l'insieme dei k nuclei iniziali di numerosità , Al primo passo si passa da questi nuclei ad una prima partizione per mezzo di una funzione di distanza D tale che:
Un algoritmo generale di tipo nubi dinamiche PASSO 1 D può essere il legame singolo, il legame medio, ecc., tra i gruppi
Un algoritmo generale di tipo nubi dinamiche PASSO 2: ridefinizione dei k nuclei di numerosità ancora considerando gli elementi più vicini alla classe per mezzo di una funzione di distanza R tale che:
Un algoritmo generale di tipo nubi dinamiche PASSI SUCCESSIVI: si passa dai nuovi nuclei ad una nuova partizione , poi ai nuclei e da questi ad una nuova partizione e così via fino alla convergenza ad una soluzione stabile e quindi ottimale
Metodo delle nubi dinamiche Matrice dei Dati Matrice delle Distanze Euclidee x5 x1 x2 x3 x4 Scelta dei Nuclei Iniziali
Metodo delle nubi dinamiche Passo 2: calcolo dei nuovi nuclei in base agli elementi più prossimi alla partizione Passo 1: passaggio dai nuclei alla prima partizione secondo il criterio della distanza media Passo 3: passaggio dai nuovi nuclei ad una nuova partizione
Metodo delle nubi dinamiche Partizione Finale x5 x1 x2 x3 x4
Metodo delle nubi dinamiche (distanza minima dai nuclei) Matrice delle Distanze
Metodo delle nubi dinamiche (distanza media dai nuclei) x5 x1 x2 x3 x4 Partizione Finale A {x1 x3}{x2 x4 x5} B {x1 x3}{x2 x4 x5}
Classificazione sui risultati di un metodo fattoriale Metodi fattoriali e Classificazione Metodi fattoriali + Sono particolarmente adatti all’esplorazione di grandi tabelle di dati individuali + Consentono di evidenziare le relazioni strutturali tra le variabili e/o le unità osservate - I piani rappresentano solo una parte della variabilità totale - La lettura può risultare complessa Metodi di classificazione + La descrizione delle classi è più facile di quella di uno spazio continuo, anche se a due dimensioni + Le classi si formano sulla base delle dimensioni reali del fenomeno e non considerano, quindi, eventuali deformazioni dovute ad operazioni di proiezione + Gli algoritmi di classificazione sono generalmente “robusti”, nel senso che risultano non influenzati da eventuali punti anomali isolati - Lo spazio a p dimensioni è probabilmente ridondante e contiene, quindi, una parte di “rumore”, inutile ai fini dell’analisi Approccio integrato Classificazione sui risultati di un metodo fattoriale