Classificazione (aka Cluster Analysis)

Slides:



Advertisements
Presentazioni simili
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
Advertisements

Le distribuzioni di probabilità continue
Valutazione d’Istituto A.S. 2008/2009
1 MeDeC - Centro Demoscopico Metropolitano Provincia di Bologna - per Valutazione su alcuni servizi erogati nel.
TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
Calcolo della formula minima (o “empirica”) di un composto a partire dalla percentuali in peso degli elementi che lo compongono Si ricava 1) il peso di.
Frontespizio Economia Monetaria Anno Accademico
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
DISEGNO TECNICO INDUSTRIALE
Lez. 3 - Gli Indici di VARIABILITA’
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
Implementazione dell algortimo di Viterbi attraverso la soluzione del problema di cammino mi- nimo tramite software specifico. Università degli studi di.
Ordini Parziali - Reticoli
EPA 01/02 III/1 I consumi di prodotti agro-alimentari: differenziazioni nello spazio e nel tempo Cosa spiega le differenze nei consumi tra individui diversi…
L’elasticità della domanda rispetto al “proprio prezzo”
EPA 01/02 VII /1 Relazioni spaziali tra i prezzi Lo spazio: produzione e consumo non avvengono nello stesso punto il prodotto deve essere spostato, con.
Apprendimento Non Supervisionato
Varianza campionaria Errore standard della varianza campionaria
Algoritmo di Ford-Fulkerson
ANALISI DEI GRUPPI seconda parte
ALBERI DECISIONALI terza parte
Canale A. Prof.Ciapetti AA2003/04
Classificare gli esecutivi Polcomp Dimensioni di classificazione: MWECCMIN MONO COAL Esecutivi monopartitici o di coalizione Ampiezza base parlamentare.
CAMERA DI COMMERCIO INDUSTRIA ARTIGIANATO E AGRICOLTURA DI BRESCIA - UFFICIO STUDI 10 MAGGIO 2004.
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
Seminario su clustering dei dati – Parte II
PALI DI FONDAZIONE E PALIFICATE ing. Nunziante Squeglia
Algoritmi e Strutture Dati
Master universitario di II livello in Ingegneria delle Infrastrutture e dei Sistemi Ferroviari Anno Accademico 2012/2013 Cultura dimpresa, valutazione.
La partita è molto combattuta perché le due squadre tentano di vincere fino all'ultimo minuto. Era l'ultima giornata del campionato e il risultato era.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Scritte scritte scritte scritte scritte scritte scritte Scritte scritte Titolo.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Simulazione di un esperimento di laboratorio: Caduta di un corpo quadrato in.
Analisi dei gruppi – Cluster Analisys
Cos’è un problema?.
Lezione 2 La progettazione degli esperimenti
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Lezione 6 Encoder ottici
CHARGE PUMP Principio di Funzionamento
2 3 4 RISERVATEZZA INTEGRITA DISPONIBILITA 5 6.
Melfi, 1 aprile 2011 – MediaShow 1 Social Network: possibilità di uso consapevole nella didattica Uso, consapevolezza, opportunità, proposte Caterina Policaro.
Le prime 30 professioni di sbocco per i diplomati in Italia Anno 2012 (valori assoluti e incidenze percentuali) Assunzioni di diplomati (v.a.)* Incidenza.
Esercitazione 1: Rispetto al test di ansia (Media=25; σ=5), calcolare:
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
ISOIVA (LOCALE) TO ISOIVA (WEB) RIPARTIZIONE INFORMATICA UFFICIO APPLICATIVI AMMINISTRATIVI 13/04/2011 UNIVERSITÀ DEGLI STUDI DI FERRARA 1.
Elementi di Informatica di base
ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
UNIVERSITA’ DEGLI STUDI DI GENOVA
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
Esordienti RESPONSABILE TECNICO Portieri Calcio Gallico 2001
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
1 Questionario di soddisfazione ATA - a. sc. 2008/09 Il questionario è stato somministrato nel mese di aprile Sono stati restituiti 29 questionari.
TRASFORMAZIONI GEOMETRICHE
La Classificazione non supervisionata
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
1 Questionario di soddisfazione del servizio scolastico Anno scolastico 2011/2012 Istogramma- risposte famiglie.
Un trucchetto di Moltiplicazione per il calcolo mentale
Esempi risolti mediante immagini (e con excel)
1Piero Scotto - C14. Finalità del corso Programma Materiale Requisiti Spendibilità 2Piero Scotto - C14.
Sviluppare un programma in C che, dato un array da 100 elementi interi caricato con numeri casuali compresi tra [10,100], sia in grado di cercare il valore.
-17 Aspettative economiche – Europa Settembre 2013 Indicatore > +20 Indicatore 0 a +20 Indicatore 0 a -20 Indicatore < -20 Unione Europea Totale: +6 Indicatore.
Economia delle Aziende, Pubbliche e Non Profit Sistema di misurazione e valutazione e Programma triennale per la trasparenza e l’integrità: alcuni esempi.
NO WASTE Progetto continuità scuola primaria scuola secondaria Salorno a.s. 2013_

1 Ministero dell’Istruzione, dell’Università e della Ricerca Dipartimento per la Programmazione e la Gestione delle risorse umane, finanziarie e strumentali.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Transcript della presentazione:

Classificazione (aka Cluster Analysis)

Classificazione non gerarchica Classificazione gerarchica divisiva es. k-means Classificazione gerarchica divisiva Classificazione gerarchica agglomerativa Legame: singolo, completo, medio, … Coefficiente di correlazione cofenetica Classificazione con vincoli Metodi innovativi (machine learning) es. Self-organizing maps

Classificazione (= Cluster Analysis) Obiettivo: ? (= Cluster Analysis) Obiettivo: massimizzare l’omogeneità dei gruppi (o classi o clusters) (cioè: gli oggetti simili devono essere nello stesso cluster) Problema generale: cercare le discontinuità nello spazio dei dati da classificare

Discontinuità Reali o “naturali”: es. tassonomia Arbitrarie: es. ecologia delle comunità

Clustering non-gerarchico: k-means Si utilizza direttamente la matrice dei dati calcolando distanze euclidee Si massimizza la varianza inter-classe per un numero dato a priori di classi In pratica, equivale a cercare le classi che massimizzano il rapporto F di una MANOVA a una via

k-means Procedura iterativa: 1. Scegli un numero di classi 2. Assegna gli oggetti alle classi (a caso o in base ad un’altra classificazione) 3. Sposta gli oggetti nelle classi il cui centroide è più vicino (la varianza intra-classe diminuisce) 4. Ripeti lo step 3 finchè non c’è più nessun cambiamento nella composizione delle classi

k-means con 3 classi Variabile InterSQ gdl IntraSQ gdl rapporto F X 0.536 2 0.007 7 256.163 Y 0.541 2 0.050 7 37.566 ** TOTALE ** 1.078 4 0.058 14

k-means con 3 classi Classe 1 di 3 (contiene 4 casi) Membri Statistiche Caso Distanza | Variabile Min Media Max Dev.St. Caso 1 0.02 | X 0.41 0.45 0.49 0.04 Caso 2 0.11 | Y 0.03 0.19 0.27 0.11 Caso 3 0.06 | Caso 4 0.05 | Classe 2 di 3 (contiene 4 casi) Caso Distanza | Variabile Min Media Max Dev.St. Caso 7 0.06 | X 0.11 0.15 0.19 0.03 Caso 8 0.03 | Y 0.61 0.70 0.77 0.07 Caso 9 0.02 | Caso 10 0.06 | Classe 3 di 3 (contiene 2 casi) Caso 5 0.01 | X 0.77 0.77 0.78 0.01 Caso 6 0.01 | Y 0.33 0.35 0.36 0.02

Svantaggi della classificazione k-means Ottimizza le classi, ma non in modo globale (iterando si può ottenere una partizione più efficace) Bisogna scegliere il numero di classi a priori Ma quante classi devono essere scelte?

Classificazione gerarchica Solitamente si rappresenta con un dendrogramma

Classificazione gerarchica Divisiva Si cercano partizioni successive di un insieme di oggetti in due sotto-insiemi in modo da soddisfare un criterio predefinito Agglomerativa Si aggregano gli oggetti in gruppi ed i gruppi fra loro secondo un criterio predefinito

Classificazione gerarchica divisiva Si inizia con tutti gli oggetti in una sola classe, poi: si dividono mediante classificazioni k-means o altre tecniche divisive con partizioni in due classi; si divide ogni volta la classe più eterogenea… Oppure si dividono simultaneamente tutte le classi esistenti. Si tratta di tecniche efficienti, ma poco usate!

Classificazione gerarchica agglomerativa Si inizia con un oggetto per classe Le classi vengono fuse finchè ne rimane una soltanto E’ la classe di metodi di gran lunga più ampiamente diffusa

Classificazione gerarchica agglomerativa Si lavora su una matrice di dissimilarità o distanza Procedura generale: 1. Si calcola una matrice simmetrica di dissimilarità/distanza fra le classi Le classi fra cui la dissimilarità/distanza è minima vengono fuse fra loro Si calcola la dissimilarità/distanza fra la nuova classe ottenuta e tutte le altre N.B. I diversi algoritmi differiscono nel punto 3

Classificazione gerarchica agglomerativa A B C D E A 0 . . . . B 0.35 0 . . . C 0.45 0.67 0 . . D 0.11 0.45 0.57 0 . E 0.22 0.56 0.78 0.19 0 AD B C E AD 0 . . . B ? 0 . . C ? 0.67 0 . E ? 0.56 0.78 0 Prima fusione: A e D Come calcolare le nuove distanze?

Classificazione gerarchica agglomerativa Legame semplice A B C D E A 0 . . . . B 0.35 0 . . . C 0.45 0.67 0 . . D 0.11 0.45 0.57 0 . E 0.22 0.56 0.78 0.19 0 AD B C E AD 0 . . . B 0.35 0 . . C ? 0.67 0 . E ? 0.56 0.78 0 d(AD,B)=Min{d(A,B), d(D,B)}

Classificazione gerarchica agglomerativa Legame completo A B C D E A 0 . . . . B 0.35 0 . . . C 0.45 0.67 0 . . D 0.11 0.45 0.57 0 . E 0.22 0.56 0.78 0.19 0 AD B C E AD 0 . . . B 0.45 0 . . C ? 0.67 0 . E ? 0.56 0.78 0 d(AD,B)=Max{d(A,B), d(D,B)}

Classificazione gerarchica agglomerativa Legame intermedio A B C D E A 0 . . . . B 0.35 0 . . . C 0.45 0.67 0 . . D 0.11 0.45 0.57 0 . E 0.22 0.56 0.78 0.19 0 AD B C E AD 0 . . . B 0.40 0 . . C ? 0.67 0 . E ? 0.56 0.78 0 d(AD,B)=Mean{d(A,B), d(D,B)}

Classificazione gerarchica agglomerativa Metodo di Ward Minimizza la varianza intra-classe Affine ad algortimi basati sul calcolo delle distanze dai centroidi di classe (come nel caso dell’algoritmo k-means)

Legame intermedio 1 1.00 2 0.00 1.00 4 0.53 0.00 1.00 5 0.18 0.05 0.00 1.00 9 0.22 0.09 0.13 0.25 1.00 11 0.36 0.00 0.17 0.40 0.33 1.00 12 0.00 0.37 0.18 0.00 0.13 0.00 1.00 14 0.74 0.00 0.30 0.20 0.23 0.17 0.00 1.00 15 0.53 0.00 0.30 0.00 0.36 0.00 0.26 0.56 1.00 19 0.00 0.00 0.17 0.21 0.43 0.32 0.29 0.09 0.09 1.00 20 0.04 0.00 0.17 0.00 0.14 0.10 0.35 0.00 0.18 0.25 1.00 1 2 4 5 9 11 12 14 15 19 20

Legame singolo Legame intermedio Legame completo Algoritmo di Ward

Metodi di classificazione gerarchica agglomerativa Legame semplice Produce “catene” di oggetti, “contrae” lo spazio intorno alle classi Non appropriato se l’errore di campionamento è grande Usato in tassonomia Invariante rispetto alle trasformazioni dei dati Legame completo Produce classi compatte e “dilata” lo spazio intorno a esse Legame intermedio, centroide, di Ward Maggiore probabilità di riconoscere partizioni “naturali” Non invarianti rispetto alle trasformazioni dei dati

Coefficiente di correlazione cofenetica (CCC) Correlazione fra la matrice di dissimilarità originale e quella inferita in base alla classificazione CCC >~ 0.8 indica un buon accordo CCC <~ 0.8 indica che il dendrogramma non è una buona rappresentazione delle relazioni fra oggetti Si può usare il CCC per scegliere l’algoritmo ottimale

Legame singolo Legame intermedio Legame completo Algoritmo di Ward CCC=0.77 CCC=0.83 Legame completo Algoritmo di Ward CCC=0.80 CCC=0.75

Classificazione vincolata Si definisce un vincolo di natura spaziale (es. contiguità fra oggetti) o di natura temporale (es. successione) Si definisce un metodo per verificare che il vincolo sia rispettato (es. rete di Gabriel per rappresentare la contiguità) Si applica il vincolo ad un qualsiasi algoritmo di classificazione Le classi ottenute possono essere più vicine alla nostra percezione della realtà Il fuoco si sposta dalla composizone delle classi alle discontinuità fra di esse

k=5 k=5

Problemi aperti Esistono realmente classi biologicamente o ecologicamente rilevanti? Il dendrogramma rappresenta la realtà biologica (web-of-life vs. tree-of-life)? Quante classi usare? le regole per la selezione sono arbitrarie! Quale metodo usare? la tecnica ottimale dipende dai dati! I dendrogrammi non sono efficienti nel visualizzare classificazioni complesse…

C’è qualcosa di meglio per casi complessi? Esistono metodi di nuova generazione, che non sono ancora molto diffusi in Ecologia La loro diffusione sta crescendo, ma bisogna che siano accettati dagli ecologi In molti casi, sfruttano le capacità di calcolo attualmente disponibili per tutti Si tratta soprattutto di tecniche mutuate dal campo del Machine Learning, dell’Intelligenza Artificiale e del Data Mining

Ordinamento e classificazione: Self-Organizing Maps (SOMs) o Mappe di Kohonen

. . . Campioni Oi Op O1 O2 O3 Specie sp1 sp2 spn Inizializzazione . . . Specie sp1 sp2 spn . . . . . Inizializzazione Addestramento delle unità virtuali (iterativo) - scelta casuale di un’osservazione - identificazione della “best matching unit” (BMU) O - addestramento della BMU e delle unità adiacenti O Proiezione delle osservazioni sulla mappa O We consider a classical data set in the form of a matrix with n rows and p columns, the rows representing the species and the columns the sample units. Measurements of abundance may be density, presence, frequency biomass and so on. With the Self Organizing Map , the dataset will be projected in a non-linear way onto a rectangular grid laid out on a hexagonal lattice: the Kohonen map. For this purpose, in each hexagon, a reference vector will be considered. The reference vectors are in fact virtual sites with species abundance to be computed. The modifications of the Virtual Units are made through an Artificial Neural Network and computed during a training phase by iterative adjustments. In fact, the Kohonen neural network consists of two layers: the first one (input layer) is connected to each vector of the dataset, the second one (output layer) forms a two-dimensional array of nodes. In the output layer, the units of the grid (virtual sites) give a representation of the distribution of the sample units in an ordered way. For learning, only input units are used, no expected-output data is given to the system: we are referring to unsupervised learning. Some words about the training of this network : •The first step is initialization : the virtual sites are chosen randomly among the the sample units. Second step : a sample unit is randomly chosen as an input unit, then this input is connected to each unit in the map. We are finding the map unit closest to the input unit. When this unit has been found, we'll talk about the Best Matching Unit. We have to modify this Best Matching Unit in order to reduce the distance between the sample unit and the reference vector. •But to obtain a smooth representation on the map, the neighbours of the Best Matching Unit are also updated. •Then, with an iterative process, the reference vectors are changed and learn the distribution of the samples. And now each sample can be projected on the map by seeking its Best Matching Unit. O Vettori di riferimento (unità virtuali)

Al termine della procedura di addestramento… Oj On At the end of the learning process, we have two data sets : the initial data set. The data set with the virtual units : the species components are known for each virtual unit.

Visualizzazione delle osservazioni Oj On Visualizzazione delle Unità Virtuali O1 Oj On UV1 UV2 UVk UVS ... So at the end of the learning, some information can be displayed on the map. Firstly, the sample units : similar sites (for species composition) are displayed in the same hexagon or in neighbouring hexagons when disimilar sites are displayed in distant hexagons. But we can also display the species composition of each virtual unit using a gray shade level. The two previous representations can be mixed on the same map.

Ogni specie ha una diversa distribuzione… If we have a look to species distributions in the virtual units using a gray shade level (dark hexagons for large abundance, light hexagons for poor abundance and white hexagons for absence), several patterns can be observed. For instance : a large regular gradient from one side of the map to an other one A small gradient for species located only in an area of the map Separated dark areas. Each pattern corresponds to the main ecological traits of each species and by a visual way, the best species for the structuration of the map can be selected. But for large data sets, the observation of each map is a very hard work, so we have looked for an index able to give the structuring power of each species : the structuring index (SI). Specie 2 Specie i

ASI ILT MOL SPI PAL FIG SMA LAV MAD SPT SER LAP PAS CAV SAN SPA SOF Una SOM 8 x 5 basata sui dati di presenza/assenza delle farfalle diurne in un sottoinsieme delle piccole isole circumsarde Specie Accordo PMA 0 0.000 0 ok PBR 0 0.000 0 ok PRA 1 0.947 1 ok PDA 1 0.761 1 ok CCR 1 0.939 1 ok GCL 1 0.947 1 ok LSI 0 0.000 0 ok LCE 1 0.761 1 ok CJA 0 0.178 0 ok VAT 1 1.000 1 ok VCA 1 0.939 1 ok HNE 1 0.761 1 ok HAR 1 0.939 1 ok MJU 0 0.178 0 ok PCE 1 0.939 1 ok CCO 1 1.000 1 ok PAE 0 0.186 0 ok LTI 1 1.000 1 ok LPH 1 1.000 1 ok LBO 0 0.000 0 ok LPI 0 0.000 0 ok CAR 1 0.761 1 ok LCO 0 0.053 0 ok AAG 0 0.000 0 ok ACR 1 0.947 1 ok PIC 1 0.939 1 ok CAL 0 0.125 0 ok GPU 1 0.761 1 ok TAV UV ASI ILT MOL SPI PAL FIG CAM SMA LAV MAD SPT MAL SER BAR LIN LAP PAS CAV LEB SAN SPA SOF BUD CAP MLT OGL RAZ SST TAV MOR

La matrice U consente di visualizzare le distanze fra gli elementi di una SOM. CAP SAN TAV MOL MAD ASI SER SPI LAP SMA PAS LAV PAL CAV SPT RAZ BUD SOF FIG ILT MLT CAM LEB BAR MOR SST OGL LIN MAL D D D SPA SPA D D D

Un’applicazione delle Self-Organizing Maps (SOMs) Dati estratti da: Marina Cobolli, Marco Lucarelli e Valerio Sbordoni (1996). Le farfalle diurne delle piccole isole circumsarde. Biogeographia, 18: 569-582

28 specie identificate in 30 isole

ASI ILT MOL SPI PAL FIG SMA LAV MAD SPT SER LAP PAS CAV SAN SPA SOF Una SOM 8 x 5 basata sui dati di presenza/assenza delle farfalle diurne in un sottoinsieme delle piccole isole circumsarde Specie Accordo PMA 0 0.000 0 ok PBR 0 0.000 0 ok PRA 1 0.947 1 ok PDA 1 0.761 1 ok CCR 1 0.939 1 ok GCL 1 0.947 1 ok LSI 0 0.000 0 ok LCE 1 0.761 1 ok CJA 0 0.178 0 ok VAT 1 1.000 1 ok VCA 1 0.939 1 ok HNE 1 0.761 1 ok HAR 1 0.939 1 ok MJU 0 0.178 0 ok PCE 1 0.939 1 ok CCO 1 1.000 1 ok PAE 0 0.186 0 ok LTI 1 1.000 1 ok LPH 1 1.000 1 ok LBO 0 0.000 0 ok LPI 0 0.000 0 ok CAR 1 0.761 1 ok LCO 0 0.053 0 ok AAG 0 0.000 0 ok ACR 1 0.947 1 ok PIC 1 0.939 1 ok CAL 0 0.125 0 ok GPU 1 0.761 1 ok TAV UV ASI ILT MOL SPI PAL FIG CAM SMA LAV MAD SPT MAL SER BAR LIN LAP PAS CAV LEB SAN SPA SOF BUD CAP MLT OGL RAZ SST TAV MOR

La matrice U consente di visualizzare le distanze fra gli elementi di una SOM. CAP SAN TAV MOL MAD ASI SER SPI LAP SMA PAS LAV PAL CAV SPT RAZ BUD SOF FIG ILT MLT CAM LEB BAR MOR SST OGL LIN MAL D D D SPA SPA D D D

Self-Organizing Map vs. Analisi delle Coordinate Principali B P Z U D - 1 . 5 2 3 MAD ASI SER SPI LAP SMA PAS LAV PAL CAV SPT CAP SAN SPA RAZ BUD SOF FIG ILT MLT CAM LEB BAR TAV MOL MOR SST OGL LIN MAL

Gonepteryx cleopatra (L., 1767) Foto: www.leps.it

Gonepteryx cleopatra Altitudine Foto: www.leps.it

Classification Trees

Il metodo: un esempio classico... 1 Nodo 1 Iris setosa larg_petalo<10 FALSO Nodo 2 2 larg_petalo>=10 VERO Nodo 3 3 larg_petalo<18 VERO Iris versicolor (91%) Nodo 5 lung_petalo<57 Iris verginica (9%) VERO Nodo 6 Iris verginica lung_petalo>=57 FALSO Nodo 4 Iris verginica (98%) larg_petalo>=18 Iris versicolor (2%) FALSO

1 2 3 80 70 60 50 40 30 20 10 10 20 30 lung_petalo Iris setosa Iris verginica Iris versicolor 30 20 10 10 20 30 larg_petalo

Modelli strutturali: classification tree Variabili predittive: Profondità Varianza della profondità (raggio=500 m) Distanza dal punto noto senza Posidonia più vicino (distanza dal margine della prateria stimata per eccesso) Variabile da predire: Classe di densità della prateria (secondo Giraud)

Un modello per Rosignano:

92% ok 84% ok

In sintesi…

Alcuni metodi di classificazione Tipo Tecnica Uso Non gerarchico k-means Partizionare insiemi di dati Gerarchico divisivo k-means ripetuto Buona tecnica su piccoli insiemi di dati Gerarchico agglomerativo Legame semplice Tassonomia Legame completo Classi omogenee Legame intermedio, centroide, di Ward Scelta più frequente Machine learning SOM Visualizzazione di insiemi di dati complessi Classification trees Previsione e pattern recognition