Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture.

Slides:



Advertisements
Presentazioni simili
Algoritmi e Strutture Dati
Advertisements

Algoritmi e Strutture Dati
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Network Biologiche.
RB-alberi (Red-Black trees)
Sistemi di supporto alle decisioni 4. Clustering
Alberi binari di ricerca
ANALISI CONFORMAZIONALE
ANALISI CONFORMAZIONALE
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Stesso approccio.
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Ordinamenti ottimi.
Capitolo 4 Ordinamento Algoritmi e Strutture Dati.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Stesso approccio.
Algoritmi e Strutture Dati
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Stesso approccio.
Esercizi su alberi binari
Apprendimento Non Supervisionato
Apprendimento Automatico: Apprendimento Pigro (Lazy Learning)
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 22/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 05/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
ANALISI DEI GRUPPI seconda parte
Algoritmi e strutture Dati - Lezione 7
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Capitolo 6 Interrogazioni.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Capitolo 4 Ordinamento: Heapsort Algoritmi e Strutture Dati.
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
Capitolo 4 Ordinamento Algoritmi e Strutture Dati.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Alberi AVL (Adelson-Velskii.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Alberi AVL (Adelson-Velskii.
Algoritmi e Strutture Dati
Capitolo 4 Ordinamento Algoritmi e Strutture Dati.
Algoritmi e Strutture Dati Alberi Binari di Ricerca.
Seminario su clustering dei dati – Parte II
Esercizi su alberi binari
Biologia computazionale A.A semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re p5p5 UPGMA C.d.l.
Analisi dei gruppi – Cluster Analisys
Instance Based Learning Mercoledì, 17 novembre 2004 Giuseppe Manco Readings: Chapter 8, Mitchell Chapter 7, Han & Kamber Instance-Based Learning (IBL):
Chapter 14, Hastie , Tibshirani and Friedman
Chapter 14, Hastie , Tibshirani and Friedman
Clustering Mercoledì, 24 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Density-Based Clustering.
Learning finite Mixture-Models
Strategia bottom-up Nella strategia bottom-up le specifiche iniziali sono suddivise in componenti via via sempre più piccole, fino a descrivere frammenti.
La Classificazione non supervisionata
Algoritmi e Strutture Dati
CLUSTERING WITH WEKA Branca Stefano Dosi Clio Gnudi Edward William.
Classificazione (aka Cluster Analysis)
ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Sistemi Informativi per le Decisioni a.a. 2005/2006.
Rete di Hopfield applicata al problema del TSP Federica Bazzano
Array (ordinamento) CORDA – Informatica A. Ferrari.
Lez.13: Unsupervised classification: clustering gerarchico
ANALISI DEI DATI STATISTICI
Algoritmi di classificazione e reti neurali Seminario su clustering dei dati Università Sapienza di Roma Dipartimento di ingegneria Informatica, Automatica.
Alberi Alberi radicati : alberi liberi in cui un vertice è stato scelto come radice. Alberi liberi : grafi non orientati connessi e senza cicli. Alberi.
Capitolo 13 Cammini minimi: Algoritmo di Floyd e Warshall Algoritmi e Strutture Dati.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Capitolo 13 Cammini minimi: Bellman e Ford Algoritmi e Strutture Dati.
Efficient construction of regression trees with Range and Region Splitting Yasuhiko Morimoto, Hiromu Ishii, Shinichi Morishita (1997) Gruppo 11: Paola.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Capitolo 4 Ordinamento: Heapsort Algoritmi e Strutture Dati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Progettare algoritmi.
CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori PRESENTAZIONE Sistemi Informativi.
Algoritmi e Strutture Dati HeapSort. Select Sort: intuizioni L’algoritmo Select-Sort  scandisce tutti gli elementi dell’array a partire dall’ultimo elemento.
Parsing ricorsivo discendente Il parsing ricorsivo discendente (recursive descent parsing) è un metodo di tipo top-down che può essere facilmente codificato.
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN INFORMATICA Corso di APPRENDIMENTO AUTOMATICO Prof. Giancarlo Mauri Lezione Clustering.
Transcript della presentazione:

Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture 12

Clustering Clustering gerarchico Il settaggio di parametri in alcune situazioni è complicato Soluzione: approcci gerarchici al clustering Cluster gerarchici Cluster di densità differente

Clustering Clustering Gerarchico Decomposizione gerarchica del dataset in un insieme di clusters annidati –Il risultato è rappresentato sotto forma di dendogramma I nodi rappresentano possibili clusters Può essere costruito in maniera top-down o bottom-up –Basato sull analisi della matrice di dissimilarit à Step 0 Step 1Step 2Step 3Step 4 b d c e a a b d e c d e a b c d e Step 4 Step 3Step 2Step 1Step 0 agglomerativo divisivo

Clustering Esempio Interpretazione del dendogramma –La radice rappresenta lintero dataset –Una foglia rappresenta un oggetto nel dataset –Un nodo interno rappresenta lunione di tutti gli oggett nel sottoalbero –Laltezza di un nodo interno rappresenta la distanza tra i nodi figli

Clustering Clustering Gerarchico Agglomerativo Input –Dataset D Output –Partizione S = {C 1, …, C k } N.B.: K non prefissato 1. S 0 := D 2. Calcola la matrice di dissimilarità M S 3. DO 4. Identifica la coppia (x,y) che esibisce il minimo valore dist(x,y) in M s 5. Crea il cluster M = x y 6. S n+1 := S n -{x,y} M 7. Ricalcola Ms eliminando le righe relative a x,y e aggiungendo la riga relativa a M (calcolando le distanze di M da tutti gli altri oggetti) 8. UNTIL |S n+1 | = 1 9. Scegli S j che ottimizza il criterio di qualità

Clustering Aggiornamento della matrice Quando rimuoviamo x,y e aggiungiamo M –M s va aggiornata Tre varianti: –Single linkage –Complete linkage –Average linkage

Clustering Distanze inter-cluster Single-Linkage –Chaining effect Se due clusters hanno outliers vicini, vengono comunque fusi –La compattezza può essere violata Clusters con diametri ampi Complete-linkage –Situazione duale –La vicinanza può essere violata Clusters con diametri piccoli Average-linkage –Relativamente compatti –Relativamente vicini

Clustering Clustering gerarchico: commenti Maggiore debolezza –Non scalabili: O(n 2 ), dove n è la dimensione del dataset –Ogni assegnamento è fissato una volta per tutte Approcci differenti al clustering gerarchico –BIRCH, CURE,CHAMELEON –Clustering gerarchico basato su densit à : OPTICS

Clustering Esercizio: PlayTennis Clusterizzare utilizzando DBScan Clusterizzare utilizzando unistanza del gerarchico agglomerativo –Con le tre varianti IDOutlookTemp.HumidityWindy ASunnyHotHighFalse BSunnyHotHighTrue COvercastHotHighFalse DRainyMildHighFalse ERainyCoolNormalFalse FRainyCoolNormalTrue GOvercastCoolNormalTrue HSunnyMildHighFalse ISunnyCoolNormalFalse JRainyMildNormalFalse KSunnyMildNormalTrue LOvercastMildHighTrue MOvercastHotNormalFalse NRainyMildHighTrue

Clustering Clustering concettuale Approccio euristico (COBWEB/CLASSIT) Forma incrementalmente una gerarchia di clusters Inizializzazione –Lalbero consiste del nodo radice (vuoto) Iterazione –Consideriamo le istanze incrementalmente –Aggiorniamo lalbero ad ogni passo –Per laggiornamento, troviamo la foglia più appropriata per listanza in considerazione –Può richiedere la ristrutturazione dellalbero (Ri)strutturazioni guidate dal concetto di category utility

Clustering Clustering PlayTennis IDOutlookTemp.HumidityWindy ASunnyHotHighFalse BSunnyHotHighTrue COvercastHotHighFalse DRainyMildHighFalse ERainyCoolNormalFalse FRainyCoolNormalTrue GOvercastCoolNormalTrue HSunnyMildHighFalse ISunnyCoolNormalFalse JRainyMildNormalFalse KSunnyMildNormalTrue LOvercastMildHighTrue MOvercastHotNormalFalse NRainyMildHighTrue 1 2 3

Clustering Clustering PlayTennis [2] IDOutlookTemp.HumidityWindy ASunnyHotHighFalse BSunnyHotHighTrue COvercastHotHighFalse DRainyMildHighFalse ERainyCoolNormalFalse FRainyCoolNormalTrue GOvercastCoolNormalTrue HSunnyMildHighFalse ISunnyCoolNormalFalse JRainyMildNormalFalse KSunnyMildNormalTrue LOvercastMildHighTrue MOvercastHotNormalFalse NRainyMildHighTrue 4 3 Il merge migliora la CU 5 Se il merging non aiuta, proviamo a fare splitting

Clustering Clustering PlayTennis [3] IDOutlookTemp.HumidityWindy ASunnyHotHighFalse BSunnyHotHighTrue COvercastHotHighFalse DRainyMildHighFalse a e b sono molto simili

Clustering Esempio: Iris Data

Clustering Iris Riorganizzato

Clustering Category utility Category utility: Funzione quadratica definita sulle probabilità condizionali:

Clustering Overfitting Se ogni istanza costituisce ununica categoria, il numeratore si massimizza e diventa: NB n è il numero di possibili valori per gli attributi. Il k al denominatore mitiga questo effetto overfitting