I metodi di Classificazione automatica

Slides:



Advertisements
Presentazioni simili
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
Advertisements

ANALISI DEI GRUPPI seconda parte
Analisi dei gruppi – Cluster Analisys
2a + 10b abx2 3a + 1 y 2 a + 1 x + 2y a − Espressioni algebriche
1 Variabili. 2 Tipi di variabili Una variabile è qualche proprietà di un evento che è stata misurata. Le variabili sono attributi dei fenomeni e pertanto.
Elaborazione delle Immagini Operatori Puntuali Luigi Cinque
Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Il modello logico Il modello logico.
LA CLASSIFICAZIONE DIMENSIONI DEL CONCETTO DI CLASSIFICAZIONE (Marradi, ) classificazione a: operazione intellettuale con cui l’estensione di.
Il trattamento statistico dei dati
LA STATISTICA DESCRITTIVA
© 2007 SEI-Società Editrice Internazionale, Apogeo
DALLA TABELLA DELLE OSSERVAZIONI ALLA TABELLA DELLE FREQUENZE
Fotogrammetria - Lezione 3
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Funzioni crescenti e decrescenti
Il trattamento statistico dei dati
Dal problema al processo risolutivo
STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
x : variabile indipendente
Algoritmi di stima con perdita di pacchetti in reti di sensori wireless: modellizzazione a catene di Markov, stima e stima distribuita Chiara Brighenti,
L’analisi monovariata
DISTRIBUZIONI TEORICHE DI PROBABILITA’
L’analisi del comportamento delle imprese (seconda parte)
IL CONCETTO DI ALGORITMO
Dal problema al processo risolutivo
Richiami di Algebra Matriciale
Cluster Analysis Definizione di Classificazione: operazione concettuale condotta adottando un solo criterio (detto fondamento della divisione) per individuare.
x : variabile indipendente
La normalizzazione delle relazioni
Macchine sequenziali Capitolo 4.
FUNZIONI MATEMATICHE DANIELA MAIOLINO.
Accenni di analisi monovariata e bivariata
Programmazione strutturata
Cluster Analysis: concetti di base e algoritmi
La Statistica Istituto Comprensivo “ M. G. Cutuli”
Statistica descrittiva bivariata
L’analisi monovariata
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Richiami di Algebra Matriciale
Parabola a cura Prof sa A. SIA.
Corso di Analisi Statistica per le Imprese 2
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
Statistica descrittiva
Statistica Scienza che studia i fenomeni collettivi.
Basi di dati - Fondamenti
Matrici Definizioni Matrici Rettangolari Quadrate 02/01/2019
I sistemi di equazioni di I grado in due incognite
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Cammini di costo minimo su un grafo pesato
Ricerca Operativa 2a parte
I sistemi di equazioni di I grado in due incognite
Corso di Laurea Ingegneria Informatica Fondamenti di Informatica
Riduzione dei Dati.
ANALISI DEI GRUPPI I.
Strategie di progetto Si possono utilizzare le strategie tipiche dello sviluppo di un processo di ingegnerizzazione (es. ingegneria del software). Strategie.
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Organizzazione Aziendale
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
Matrici e determinanti
Similarità e dissimilarità
Richiami di Algebra Matriciale
Statistica descrittiva bivariata
LA CLASSIFICAZIONE DIMENSIONI DEL CONCETTO DI CLASSIFICAZIONE (Marradi, ) classificazione a: operazione intellettuale con cui l’estensione di.
I sistemi di equazioni di 1° grado
Transcript della presentazione:

I metodi di Classificazione automatica L’Analisi Multidimensionale dei Dati Una Statistica da vedere I metodi di Classificazione automatica

Analisi nello spazio delle variabili Matrici e metodi Strategia di AMD Analisi nello spazio delle variabili Per riga Matrice strutturata Anal. Discrimin. Segmentazione SI SI NO NO Cluster Anal. Scaling Multid NO SI Analisi simmetrica Correl. Canon. Corrisp. Multi. An. Matrici 3D SI Comp.Princ. An. Corrisp. Analisi esplorative NO Analisi confermative Regress.Mult, Conjoint Anal. An. Non Simm Corrisp. Variabili qualitative Variabili ordinali Variabili quantitative

Classificazione automatica Insieme di procedure (algoritmi) che si prefiggono di classificare o raggruppare individui in classi tali che: - gli individui all'interno di una classe siano molto simili - ogni classe sia relativamente distinta dalle altre Tabelle individui-variabili numeriche Tabelle di contingenza Tabelle di presenza-assenza I dati Si ipotizza la presenza di raggruppamenti tra le unità oppure Se ne richiede la determinazione La definizione delle classi si ottiene mediante algoritmi iterativi basati su una serie di operazioni elementari ripetute in maniera ricorsiva.

I metodi di Classificazione automatica Obiettivo Definire una o più partizioni a partire dall’insieme dei punti considerati Problema Numero delle partizioni possibili Es.: 4 elementi (A,B,C,D) e 2 gruppi (A) (B,C,D) (B) (A,C,D) (C) (A,B,D) (D) (A,B,C) (A,B) (C,D) (A,C) (B,D) (A,D) (B,C) 2n-1- 1 Numero delle partizioni (P) n=4 P = 7 n=10 P = 511 n=100 P = 1,000,000,000,000,000,000,000,000,000,00 - 1 = 1029-1

I metodi di Classificazione automatica 1 milione di partizioni al secondo Partizione ottimale di... … 20 unità in 5 classi 8 giorni … 30 unità in 5 classi 2444 secoli!

I metodi di Classificazione automatica Gli algoritmi per la classificazione automatica possono portare: Alla costruzione di classi per dicotomizzazioni successive dell’insieme degli oggetti Classificazione gerarchica discendente  Classificazione gerarchica ascendente  Alla costruzione di classi per aggregazioni successive di coppie di oggetti Direttamente a delle partizioni Classificazione non gerarchica 

Criteri di classificazione

 Gerarchia Albero Gerarchico o Dendrogramma H(E) P5={(e1 e2 e3 e4 e5)} nodi rami  taglio del dendrogramma per ottenere i gruppi P4={(e1 e2 e3 e4) e5} e1 e2 e3 e4 e5 E P1={e1 e2 e3 e4 e5} P2={(e1 e2) e3 e4 e5} P3={(e1 e2) (e3 e4) e5} Gerarchia Albero Gerarchico o Dendrogramma una gerarchia è una sequenza di partizioni nidificate

La misura del grado di somiglianza Si può definire una applicazione d che faccia corrispondere un numero reale positivo o nullo a ciascuna coppia (i,h) Condizioni: 1) Separabilità: 2) Simmetria: 3) Disuguaglianza triangolare: 4) Condizione di Krassner: Parleremo di: .) indice di dissimilarità  se si verificano le condizioni 1 e 2 .) metrica o distanza  se si verificano le condizioni 1, 2 e 3 .) ultrametrica  se si verificano le condizioni 1, 2 e 4 Il concetto di gruppo presuppone l’esistenza di un criterio globale che misuri la prossimità tra individui di una stessa classe e quindi la qualità della partizione. La scelta della misura di dissomiglianza è strettamente legata alla natura dei dati osservati. Mentre un indice di dissimilarità consente il solo confronto tra le caratteristiche di coppie di elementi dell’insieme, l’introduzione di una metrica, imponendo la condizione della disuguaglianza triangolare, consente anche la definizione di una relazione d’ordine tra le distanze dei punti. In molti casi può risultare utile la definizione di una relazione più stretta che risponda anche ad una condizione di classificabilità dei punti; ciò implica la possibilità di determinare una soglia che definisca una partizione dell’insieme iniziale in due gruppi tale che un elemento si trovi nell’uno o nell’altro gruppo a seconda che la sua distanza da tutti gli altri elementi sia minore o maggiore della soglia prefissata. indici di similarità: dati booleani indici di distanza: dati numerici e frequenze

Indici di similarità per variabili dicotomiche Dati binari Indici di similarità: L’indice di sokal-michener risulta pari a 1 quando tutti gli elementi sono sulla diagonale principale e quindi c’e’ massima concordanza tra i caratteri e pari a 0 quando i caratteri sono completamente discordi. L’indice di jaccard non considera i casi del mancato possesso congiunto dei caratteri osservati. Indice di Sokal-Michener: Coefficente di Jaccard:

La matrice di similarità/dissimilarità Dati binari Matrice di Similarità ·    quadrata n  n ·    simmetrica ·    diagonale = 1 Indice di dissimilarità

Distanze per variabili quantitative

Distanze per tabelle di frequenze Distanza del c2 (Benzecri) Distanza tra due righe i e i’: Distanza tra due colonne j e j’: Consideriamo n unità statistiche su cui siano state osservate 2 variabili su scala qualsiasi. I dati possono essere raccolti in una tabella a doppia entrata in cui ogni cella riporta la frequenza associata all’incrocio delle corrispondenti modalità delle variabili.

Una Metrica Particolare: la Distanza del c2

Classificazione gerarchica Il principio dell’algoritmo consiste nel creare, a ciascun passo, una partizione ottenuta aggregando a due a due gli elementi più vicini; L’algoritmo non fornisce una partizione in q classi di un insieme di n oggetti ma una gerarchia di partizioni che si presentano sotto forma di albero detto anche dendrogramma e che contiene n-1 partizioni; L’importanza della lettura del dendrogramma è nella possibilità di suggerire il numero di classi effettivamente presenti nell’insieme osservato.

I passi di una procedura di classificazione PASSO 0: n individui da classificare PASSO 1: analisi della matrice di dissimilarità (distanza) e aggregazione dei due elementi più vicini PASSO 2: calcolo delle distanze tra il nuovo punto ed i punti restanti. Ritorno al passo 0 con n-1 punti da classificare PASSO 3: nuova ricerca dei due punti più vicini e loro aggregazione. Calcolo delle nuove distanze e ripetizione del processo fino a comprendere tutti gli elementi in un'unica classe

Scelta del livello di “taglio” Dendrogramma 15 gruppi 16 gruppi 19 gruppi 14 gruppi 4 gruppi 1 gruppo 5 gruppi 3 gruppi 2 gruppi 6 gruppi 9 gruppi 7 gruppi 17 gruppi 18 gruppi 8 gruppi Scelta del livello di “taglio” x Definizione delle classi della partizione

I diversi criteri di raggruppamento Gruppo A Gruppo B x x Criteri per la determinazione della distanza tra due gruppi Distanza minima a. ; Distanza massima b. Distanza centroidi c. ; Distanza media d. Criteri basati sull’inerzia dei gruppi Metodo di Ward

I diversi criteri di raggruppamento Criteri basati sull’inerzia dei gruppi Metodo di Ward Il metodo di Ward è basato sulla minimizzazione della varianza all’interno dei gruppi Teorema di Huyghens: Obiettivo della partizione è minimizzare la quota di variabilità interna ai gruppi, massimizzando al contempo la variabilità tra i gruppi, così da ottenere classi omogenee al loro interno e ben separate l’una dall’altra Varianza tra i gruppi in caso di n classi: massima Varianza tra i gruppi in caso di una classe: nulla L’algoritmo di Ward aggrega, ad ogni passo intermedio, gli oggetti (gruppi o unità) che determinano la perdita di inerzia tra le classi minima.

cj   cj (nj ) (nj ) (nj )  cj

Un esempio (Criterio della distanza minima) 1 2 3 4 5 6 a b c d e f g a b c d e f g

I diversi criteri di raggruppamento b c d e f g a b c d e f g a b c d e f g a b c d e f g Distanza minima Distanza massima Distanza media

. . . I passi di una classificazione gerarchica Matrice dei dati 1 : n Matrice dei dati 1 : n 1 … n Matrice delle ultrametriche 1 : n 1 … n Matrice delle distanze 1 : n-1 1 … n-1 Matrice delle distanze 1 2 1 … 2 Matrice delle distanze . . .

Esempio: I consumi alimentari BE 0.08 1.40 0.93 0.36 0.77 0.71 0.54 0.18 0.13 0.15 0.38 0.22 2.92 0.11 FR GE DA IR AU OL SV IT GR PO SP IS NO GB FI Livello di taglio Classi della partizione

~ N(0,1) ~ N(0,1) e La descrizione delle classi: I valori-test Media generale Numerosità classe k Numerosità totale Media classe k Varianza variabile j Variabile j ~ N(0,1) a) variabili continue: e 2.5% 95% b) variabili nominali ~ N(0,1) -1,96 s 1,96 s

2.81 La definizione delle classi es.: Classe 1 BE, FR, GE, DA, IR AU, OL, SV, FI, GB, NO, IS Classe 1 SP, PO, GR, IT 2.81 es.:

Le “tipologie” La dieta mediterranea La dieta iperproteica La dieta grassa

Metodo dei centri mobili Metodo delle nubi dinamiche Classificazione non gerarchica E’ utilizzata quando si hanno molti punti da classificare Richiede la determinazione a priori del numero di classi che definiscono la partizione Metodo dei centri mobili L’algoritmo è convergente ed il numero di iterazioni richieste è generalmente limitato, cosa che rende questo metodo applicabili anche a grosse quantità di dati; D’altra parte, la soluzione ottenuta non rappresenta la soluzione ottimale ma solo una delle tante possibili, ottenuta avendo determinato a priori quel numero di classi e avendo scelto quelle unità iniziali; Metodo delle nubi dinamiche Soluzione proposta

Metodo dei centri mobili 1° passo: Scelta casuale dei k nuclei iniziali 2° passo: Calcolo delle distanze e definizione della prima partizione Convergenza: Stabilità della partizione Passi successivi: Definizione dei nuovi nuclei, calcolo delle nuove distanze, definizione della nuova partizione, e così via...

Un algoritmo generale di tipo nubi dinamiche PASSO 0: definizione del numero delle classi (k) e dei nuclei costituiti da uno o più elementi rappresentativi di ciascuna classe. La scelta dei nuclei può essere inizialmente arbitraria (per es. elementi casuali) o basata su informazione a priori (per es. un'analisi fattoriale preliminare PASSO 1: sia l'insieme dei k nuclei iniziali di numerosità , Al primo passo si passa da questi nuclei ad una prima partizione per mezzo di una funzione di distanza D tale che:

Un algoritmo generale di tipo nubi dinamiche PASSO 1 D può essere il legame singolo, il legame medio, ecc., tra i gruppi

Un algoritmo generale di tipo nubi dinamiche PASSO 2: ridefinizione dei k nuclei di numerosità ancora considerando gli elementi più vicini alla classe per mezzo di una funzione di distanza R tale che:

Un algoritmo generale di tipo nubi dinamiche PASSI SUCCESSIVI: si passa dai nuovi nuclei ad una nuova partizione , poi ai nuclei e da questi ad una nuova partizione e così via fino alla convergenza ad una soluzione stabile e quindi ottimale

Metodo delle nubi dinamiche Matrice dei Dati Matrice delle Distanze Euclidee  x5  x1  x2  x3  x4 Scelta dei Nuclei Iniziali

Metodo delle nubi dinamiche Passo 2: calcolo dei nuovi nuclei in base agli elementi più prossimi alla partizione Passo 1: passaggio dai nuclei alla prima partizione secondo il criterio della distanza media Passo 3: passaggio dai nuovi nuclei ad una nuova partizione

Metodo delle nubi dinamiche Partizione Finale  x5  x1  x2  x3  x4

Metodo delle nubi dinamiche (distanza minima dai nuclei) Matrice delle Distanze

Metodo delle nubi dinamiche (distanza media dai nuclei)  x5  x1  x2  x3  x4 Partizione Finale A {x1 x3}{x2 x4 x5} B {x1 x3}{x2 x4 x5}

Classificazione sui risultati di un metodo fattoriale Metodi fattoriali e Classificazione Metodi fattoriali + Sono particolarmente adatti all’esplorazione di grandi tabelle di dati individuali + Consentono di evidenziare le relazioni strutturali tra le variabili e/o le unità osservate - I piani rappresentano solo una parte della variabilità totale - La lettura può risultare complessa Metodi di classificazione + La descrizione delle classi è più facile di quella di uno spazio continuo, anche se a due dimensioni + Le classi si formano sulla base delle dimensioni reali del fenomeno e non considerano, quindi, eventuali deformazioni dovute ad operazioni di proiezione + Gli algoritmi di classificazione sono generalmente “robusti”, nel senso che risultano non influenzati da eventuali punti anomali isolati - Lo spazio a p dimensioni è probabilmente ridondante e contiene, quindi, una parte di “rumore”, inutile ai fini dell’analisi Approccio integrato Classificazione sui risultati di un metodo fattoriale