Lez.13: Unsupervised classification: clustering gerarchico

Slides:



Advertisements
Presentazioni simili
Algoritmi e Strutture Dati
Advertisements

Master Bioinformatica 2002: Grafi Problema: cammini minimi da tutti i vertici a tutti i vertici Dato un grafo pesato G =(V,E,w), trovare un cammino minimo.
LE SUCCESSIONI Si consideri la seguente sequenza di numeri:
Unità D2 Archivi e file.
Capitolo 8 Sistemi lineari.
Laboratorio Processi Stocastici
LE SUCCESSIONI Si consideri la seguente sequenza di numeri:
1 2. Introduzione alla probabilità Definizioni preliminari: Prova: è un esperimento il cui esito è aleatorio Spazio degli eventi elementari : è linsieme.
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Lez. 121 Universita' di Ferrara Facolta' di Scienze Matematiche, Fisiche e Naturali Laurea Specialistica in Informatica Algoritmi Avanzati Progettazione.
DEFINIZIONE DI LIMITE Il concetto di limite esprime, attraverso un complesso formalismo matematico, una forte relazione tra due ambienti, dominio e codominio,
DEFINIZIONE DI LIMITE Il concetto di limite esprime, attraverso un complesso formalismo matematico, una forte relazione tra due ambienti, dominio e codominio,
ANALISI CONFORMAZIONALE
ANALISI CONFORMAZIONALE
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Apprendimento Non Supervisionato
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Algoritmo di Ford-Fulkerson
ANALISI DEI GRUPPI seconda parte
Algoritmi e Strutture Dati (Mod. A)
Algoritmi e Strutture Dati (Mod. B)
Stima ed algoritmi di consensus distribuito: considerazioni su IKF
Seminario su clustering dei dati – Parte II
Apprendimento di movimenti della testa tramite Hidden Markov Model
CONTROLLO DI SUPPLY CHAIN MEDIANTE TECNICHE H-INFINITO E NEGOZIAZIONE
Sistemi Peer To Peer (P2P) Avanzati Gennaro Cordasco Gennaro Cordasco
Modelli simulativi per le Scienze Cognitive
Algoritmi e Strutture Dati
Lezione 5 Domande: Laverage path length di Chord con 2^b identificatori e N=2^b nodi è (giustificare la risposta) Laverage path length di Chord con 2^b.
ITERAZIONE e RICORSIONE (eseguire uno stesso calcolo ripetutamente)
Analisi dei gruppi – Cluster Analisys
Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture.
Intelligenza Artificiale
Progettazione di una base di dati
Modello Relazionale Proposto agli inizi degli anni ‘70 da Codd
MOLTIPLICAZIONE COMBINATORIA
Metodo della moltiplicazione
Daniele Santamaria – Marco Ventura
Radix-Sort(A,d) // A[i] = cd...c2c1
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
La Classificazione non supervisionata
Algoritmi e Strutture Dati
Un approccio soft per i primi tre anni della primaria
Cammini minimi tra tutte le coppie
UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.
Classificazione (aka Cluster Analysis)
Complessità di un algoritmo
ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Sistemi Informativi per le Decisioni a.a. 2005/2006.
Gli algoritmi del minimo percorso
IO E LA MATEMATICA PROCEDURALE
Un approccio soft per i primi tre anni della primaria
Il calcolo con le frazioni
1 Esercitazione Sistemi distribuiti: sistemi che risisedono su più calcolatori interconnessi da una rete di comunicazione Algoritmi distribuiti: programmi.
ANALISI DEI DATI STATISTICI
Algoritmi di classificazione e reti neurali Seminario su clustering dei dati Università Sapienza di Roma Dipartimento di ingegneria Informatica, Automatica.
Implementazione di dizionari Problema del dizionario dinamico Scegliere una struttura dati in cui memorizzare dei record con un campo key e alcuni altri.
Didattica e Fondamenti degli Algoritmi e della Calcolabilità Terza giornata: principali classi di complessità computazionale dei problemi Guido Proietti.
R. Soncini Sessa, MODSS, L 26 Stima degli effetti Calcolo degli obiettivi (Laplace) Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini.
Ordinamento in tempo lineare Il limite inferiore Ω(n log n) vale per tutti gli algoritmi di ordinamento generali, ossia per algoritmi che non fanno alcuna.
1 Interpretazione astratta: un approccio sistematico all’analisi statica.
Sistemi basati su conoscenza (agenti intelligenti) Prof. M.T. PAZIENZA a.a
Tecniche di analisi matematica. Gli studi di autenticazione e di tracciabilità sugli alimenti sono generalmente effettuati individuando variabili chimico-fisiche.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Pattern Recognition Lez.14: Miscugli di Gaussiane.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
La dipendenza e indipendenza statistica Prof. Daniela Bertozzi Itis Fauser - Novara Gli appunti sono stati tratti dal testo L. Sasso – Matematica a colori.
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN INFORMATICA Corso di APPRENDIMENTO AUTOMATICO Prof. Giancarlo Mauri Lezione Clustering.
Transcript della presentazione:

Lez.13: Unsupervised classification: clustering gerarchico Pattern Recognition Lez.13: Unsupervised classification: clustering gerarchico

Clustering per “dicotomie successive” Quando una popolazione va divisa in sottogruppi? Quando al suo interno non c’è sufficiente omogeneità. Questa idea è alla base di un altro approccio al clustering, detto clustering gerarchico. L’idea si concretizza in un paio di algoritmi abbastanza facili da descrivere e implementare.

La popolazione e la matrice delle distanze Possiamo didatticamente presentare il clustering gerarchico assumendo che siano date una popolazione di N record da ripartire e una matrice D, di N x N elementi in cui ciascun elemento Dij riporta la “distanza” tra il record i-esimo e il record j-esimo. Attenzione non sempre nelle reali implementazioni tale matrice è calcolata per intero (per ragioni di efficienza o di limiti di memoria).

Un esempio “saccheggiato” da Internet   BA FI MI NA RM TO 662 877 255 412 996 295 468 268 400 754 564 138 219 869 669   Distanze in chilometri tra città italiane

Struttura di ogni algoritmo di clustering gerarchico Passo 0: ogni record è l’unico rappresentante di una classe che lo contiene. Ci sono quinid all’inizio N classi ciascuna con un solo elemento. Passo 1: fondere assieme le due classi che sono le più vicine possibili secondo la tabella delle distanze. Passo 2: ri-calcolare le distanze tra la nuova classe, nata dalla fusione, e le altre classi. I passi 1 e 2 vanno ripetuti alternativamente fino a che tutti i record non sono stati fusi in una unica mega classe onnicomprensiva.

Un unico “punto sottile”: passo 2 Se le distanze iniziali tra record sono ben definite cosa sono le distanze tra “classi”? Non esiste un unico approccio alla distanza tra “cluster” e nel contesto del clustering gerarchico si parla di due approcci: Single-linkage; Complete-linkage; Average-linkage;

Single-linkage (metodo della connessione o della minima distanza) La distanza tra due gruppi di record è definita come la minima distanza osservata tra tutte le coppie formate da un elemento del primo gruppo e un elemento del secondo gruppo. La distanza è posta eguale alla distanza tra la coppia di record più vicini

Complete-linkage (metodo del diametro o della massima distanza) La distanza tra due gruppi di record è definita come la massima distanza osservata tra tutte le coppie formate da un elemento del primo gruppo e un elemento del secondo gruppo. La distanza è posta eguale alla distanza tra la coppia di record più lontani

Average-linkage (metodo della distanza media) La distanza tra due gruppi di record è definita come la distanza media osservata tra tutte le coppie formate da un elemento del primo gruppo e un elemento del secondo gruppo. Variante: considerare la mediana invece della media.

Simuliamo il single-linkage sulle città italiane   BA FI MI/TO NA RM 662 877 255 412 295 468 268 754 564 219 Prima fusione

Simuliamo il single-linkage sulle città italiane   BA FI MI/TO NA/RM 662 877 255 295 268 564 Seconda fusione

Simuliamo il single-linkage sulle città italiane   BA/NA/RM FI MI/TO 268 564 295 Terza fusione

Simuliamo il single-linkage sulle città italiane   BA/NA/RM FI MI/TO 268 564 295 Quarta fusione

Simuliamo il single-linkage sulle città italiane   BA/FI/NA/RM MI/TO 295 Quinta fusione La sesta fusione ovviamente forma un unico blocco

La sequenza L’”albero” delle fusioni è una guida alla “partizione” in classi. Tagliando l’albero a vari livelli si possono ottenere classi più fini o più generali.

Pro e Contro PRO Algoritmo facile e non richiede analisi matematica complessa per la convergenza e per la ottimizzazione; L’albero “spiega” le relazioni tra cluster ed è facile per un esperto (in generale) interpretare i risultati dell’algoritmo; CONTRO Quale livello di “taglio” scegliere per formare le classi? Forte dipendenza dalla misura di similarità. Impossibile gestire le similarità “fuzzy”. Complessità elevata (la matrice iniziale e le successive matrici richiedono O(N2) passi per il loro aggiornamento. (Antipole?)