La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Algoritmi di classificazione e reti neurali Seminario su clustering dei dati – Parte I Università di RomaLa Sapienza Dipartimento di Informatica e Sistemistica.

Copie: 1
Algoritmi di classificazione e reti neurali Seminario su clustering dei dati – Parte I Università di RomaLa Sapienza Dipartimento di Informatica e Sistemistica.

Presentazioni simili


Presentazione sul tema: "Algoritmi di classificazione e reti neurali Seminario su clustering dei dati – Parte I Università di RomaLa Sapienza Dipartimento di Informatica e Sistemistica."— Transcript della presentazione:

1 Algoritmi di classificazione e reti neurali Seminario su clustering dei dati – Parte I Università di RomaLa Sapienza Dipartimento di Informatica e Sistemistica Corso di Laurea in Ingegneria Gestionale A.A a cura di Silvia Canale contatto

2 2 Definizione del problema di clustering di dati Apprendimento automatico e data mining Schema generale di una procedura di clustering Applicazioni del clustering di dati Definizioni preliminari e rappresentazione dei dati Misure di similarità e di dissimilarità – distanze Problema della partizione in clique definizione e formulazione algoritmo dei piani di taglio ARGOMENTI DEL SEMINARIO

3 3 DEFINIZIONE DEL PROBLEMA CLUSTERING: classificazione di oggetti sulla base delle similarità percepite Gli oggetti sono descritti: - dagli attributi che lo definiscono (misure oggettive o soggettive) - dalle relazioni con gli altri oggetti Lo scopo è quello di determinare unorganizzazione degli oggetti che sia: - valida - facile da determinare Un cluster è un gruppo di oggetti simili (criterio di omogeneità). Oggetti che appartengono a cluster diversi non sono simili (criterio di separazione).

4 4 DEFINIZIONE DEL PROBLEMA Un cluster è un gruppo di oggetti simili. Sepuntispazio di distanza allora Se gli oggetti sono punti in uno spazio di distanza allora possiamo dare la seguente definizione: Un cluster è un sottoinsieme di punti tali che la distanza tra due punti qualsiasi del cluster è minore della distanza tra un qualsiasi punto del cluster ed un punto esterno al cluster. Sia X uno spazio di oggetti e d una distanza definita su X. Indicheremo con (X,d) lo spazio di distanza definito da d su X. Un sottoinsieme V X è un cluster se e solo se d(i,j) d(k,l)per ogni i,j,k V, l V

5 5 APPRENDIMENTO AUTOMATICO ragionamento induttivo Apprendimento: Processo di ragionamento induttivo che permette di passare dalle osservazioni alle regole generali (tipico delluomo che impara dallesperienza) Automatico: Definizione automatica, distinta da quella naturale, delle regole generali a partire dalle osservazioni (dati sperimentali) Scopo: Estrazione di informazione interessante dai dati nuova (non è qualcosa di già noto, analisi esplorativa) oppure attesa (ipotesi a priori da convalidare, analisi confermativa) implicita: presente nei dati analizzati ma non immediatamente accessibile potenzialmente utile: può essere utilizzata per prendere delle decisioni REGOLE OSSERVAZIONI Processo deduttivo Processo induttivo INFORMAZIONE

6 6 APPRENDIMENTO AUTOMATICO Processo automatico di estrazione di informazioni su un sistema fisico S incognito partendo da un insieme finito di n osservazioni. Linsieme { v 1, v 2, …, v n } prende il nome di training set. non supervisionato Apprendimento non supervisionato (clustering): Il sistema S non ha ingressi e lo scopo è determinare una regola che metta in relazione le osservazioni del training set sulla base di una misura di similarità definita. supervisionato Apprendimento supervisionato (analisi discriminante): Il sistema S riceve gli ingressi { c 1, c 2, …, c n } e lo scopo è determinare una regola che metta in relazione le osservazioni del training set con gli ingressi. S v1v1 v2v2 v3v3 vnvn c1c1 c2c2 c3c3 cncn

7 7 ESTRAZIONE DELLA CONOSCENZA Pulizia ed integrazione dei dati Data Mining Valutazione regole Database Selezione e trasformazione dei dati Informazione Datawarehouse Regole APPRENDIMENTO AUTOMATICO

8 8 APPLICAZIONI Segmentazione di immagini – partizione di unimmagine in regioni che siano omogenee rispetto ad una proprietà di interesse (es. intensità, colore, struttura, …) Riconoscimento di oggetti e caratteri – Analisi di immagini allo scopo di riconoscere particolari strutture Information retrieval – Processo di raccolta e recupero automatico di informazioni (es. libri e riviste di una biblioteca) Segmentazione di grandi database in gruppi omogenei di dati Classificazioni di documenti web Analisi predittiva in Customer Relationship Management - Customer profiling - Customer retention - Market segmentation - … ….E MOLTE ALTRE

9 9 CLUSTERING – SCHEMA GENERALE 1.Rappresentazione dei dati Definizione del numero, del tipo e della scala delle caratteristiche (o attributi) Definizione del numero di cluster (o classi) Selezione delle caratteristiche (opzionale) Estrazione delle caratteristiche (opzionale) 2.Definizione di una misura di similarità sullinsieme dei dati 3.Applicazione di un algoritmo di clustering 4.Astrazione sui dati 5.Valutazione dei risultati studio dellandamento dei cluster analisi della validità dei cluster confronto esterno confronto interno controllo relativo DESCRIZIONE COMPATTA E SINTETICA DEI CLUSTER

10 10 DEFINIZIONI PRELIMINARI Un algoritmo di clustering partizionale raggruppa le osservazioni del training set in cluster sulla base di una misura di similarità definita sullinsieme delle coppie di osservazioni. Due tipi di algoritmi di clustering partizionale: - clustering di tipo hard: unosservazione è assegnata ad un solo cluster; - clustering di tipo fuzzy: unosservazione ha un grado di appartenenza per ciascuno dei cluster individuati. Le osservazioni possono essere rappresentate in due formati standard: matrice delle istanze di dato matrice delle similarità

11 11 MATRICE DELLE ISTANZE Unosservazione (o istanza) v è rappresentata da un vettore di m caratteristiche (o attributi). v 1 v 2 v = … … v m Linsieme X = { v 1, v 2, …, v n } delle osservazioni viene rappresentato come una matrice n x m detta matrice delle istanze. X =

12 12 TIPI DI DATO Unistanza può rappresentare un oggetto fisico oppure un concetto astratto. Un attributo può essere di diversi tipi: quantitativo continuo (es. peso, larghezza, temperatura) discreto (es. età di un individuo) intervallo (es. durata di un evento) qualitativo nominale (es. colori) ordinato (es. intensità di un suono, valutazione di una sensazione) Sono inoltre possibili altre rappresentazioni delle istanze.

13 13 MATRICE DELLE RELAZIONI Sia X = { v 1, v 2, …, v n } un insieme di n istanze. Indichiamo con V = { 1, 2, …, n } linsieme degli indici da 1 a n. Una relazione r definita sullo spazio X x X delle coppie di istanze può essere rappresentata come una matrice n x n detta matrice delle relazioni. R = Consideriamo relazioni simmetriche ( per ogni i, j V ) e in particolare: relazioni di similarità (più v i e v j sono simili, più è grande) relazioni di dissimilarità (più v i e v j sono simili, più è basso)

14 14 DISTANZE distanza Una distanza d definita sullinsieme X è una relazione che gode delle seguenti proprietà: a) d è simmetrica per ogni coppia (i,j) in V. b) d assume valore nullo per ogni coppia (i,i) in V. Indicheremo con (X,d) lo spazio di distanza definito da d su X. Se inoltre d soddista la proprietà: c) d soddisfa la diseguaglianza triangolare per ogni terna (i,j,k) in V semimetrica allora d è una semimetrica sullinsieme X. metrica Si definisce metrica una semimetrica d che soddisfa lulteriore proprietà: v1v v2v2 v3v3 v1v v2v2 v3v3

15 15 NORME Se X è uno spazio vettoriale definito sul campo dei reali, una funzione || || : X + si definisce norma se: i. || v || = 0 v = 0 per ogni v in X. ii. || v || = | | || v || per ogni in, v in X. iii. || v i + v j || || v i || + || v j || per ogni v i,v j in X. Si definisce spazio normato la coppia (X, || || ). Ad uno spazio normato (X, || || ) può essere associata la topologia metrica indotta dalla norma || || tramite lidentità: Consideriamo lo spazio normato ( m, || || p ) dove || || p è la norma l p METRICA NORMA

16 16 UNA METRICA NORMA È UNA METRICA Dim. Sia || || : X + una norma definita su X. La funzione a) è simmetrica b)d assume valore nullo per ogni coppia (i,i) in V. c) d soddisfa la diseguaglianza triangolare per ogni terna (i,j,k) in V || v || = | | || v || || v || = 0 v = 0 || v i + v j || || v i || + || v j ||

17 17 METRICHE NORME Una classe molto importante di metriche è quella delle metriche d l p indotte dalle diverse norme l p : p = 1 – distanza di Manhattan o metrica city-block p = 2 – distanza Euclidea p = – distanza di Lagrange p = 0 – distanza di Hamming

18 18 PROBLEMA DI PARTIZIONE Un algoritmo di clustering partizionale di tipo hard determina una partizione delle osservazioni del training set sulla base di una misura di similarità definita sullinsieme delle coppie di osservazioni. Si definisce partizione P di un insieme X = { v 1, v 2, …, v n } è una famiglia finita di k insiemi V 1, V 2, …, V k P = { V 1, V 2, …, V k } tali che ogni insieme V j in P è un sottoinsieme non vuoto di X: V j X

19 19 RAPPRESENTAZIONE DEI DATI Dato un insieme di osservazioni X = { v 1, v 2, …, v n } e la matrice delle similarità relative allinsieme X, si definisce grafo associato a X il grafo G(N,A) tale che: N rappresenta linsieme dei nodi { 1, 2, …, n } tale che ciascun nodo i N sia associato ad unosservazione v i X A sia linsieme degli archi che connettono ogni coppia non ordinata (v i, v j ) di osservazioni in X con v i v j. Larco in A che connette due nodi i e j viene indicato con (i,j) o con ij. Siano n e m il numero di nodi e di archi, rispettivamente, in N e A. Il grafo associato a X è completo!

20 20 INSIEME DELLE SOLUZIONI – DEFINIZIONI Si definisce clustering del grafo G(N,A) una partizione P(G) = { V 1, V 2, …, V k } dei nodi del grafo G(N,A). clique Gli elementi V i P(G) vengono definiti componenti o clique del clustering P(G). clique Dato un grafo G(N,A) si definisce clique un sottoinsieme V N dei nodi tali che per ogni coppia di nodi i e j larco ij appartiene ad A. clique Se il grafo G(N,A) è completo, ogni sottoinsieme V N è una clique. NON è una clique: 25 A

21 21 INSIEME DELLE SOLUZIONI – DEFINIZIONI Si definisce clustering del grafo G(N,A) una partizione P(G) = { V 1, V 2, …, V k } dei nodi del grafo G(N,A). Come sono fatte le soluzioni di un problema di clustering? Sia V h N. Indichiamo con (V h ) linsieme degli archi che connettono nodi in V h e nodi fuori da V h Se |V h | = 1, (V h ) è la stella del nodo in V h.

22 22 INSIEME DELLE SOLUZIONI – DEFINIZIONI Siano V h, V l N. Indichiamo con (V h,V l ) linsieme degli archi che connettono nodi in V h e nodi in V l In generale, dati k sottoinsiemi V 1,…, V k N, linsieme degli archi con estremi in due sottoinsiemi diversi viene indicato con

23 23 INSIEME DELLE SOLUZIONI – DEFINIZIONI multi-cut Ad ogni clustering P(G)= { V 1, V 2, …, V k } del grafo G(N,A) è possibile associare un insieme multi-cut (P(G)) (P(G)) = ( V 1, V 2, …, V k ) Definiamo il vettore di incidenza y P multi-cut di un insieme multi-cut (P(G))

24 24 INSIEME DELLE SOLUZIONI – DEFINIZIONI Sia V i N. Indichiamo con E(V i ) linsieme degli archi che connettono nodi in V i. Se |V i | = 1, E(V i ) è vuoto. In generale, dati k sottoinsiemi V 1,…, V k N, linsieme degli archi con estremi nello stesso sottoinsieme viene indicato con

25 25 INSIEME DELLE SOLUZIONI – DEFINIZIONI partizione Ad ogni clustering P(G)= { V 1, V 2, …, V k } del grafo G(N,A) è possibile associare un insieme partizione E(P(G)) E(P(G)) = E ( V 1, V 2, …, V k ) Definiamo il vettore di incidenza x P partizione E(P(G)) di un insieme partizione E(P(G)) multi-cut partizione Gli insiemi multi-cut e partizione definiscono una partizione di A

26 26 VETTORE DI INCIDENZA DI UNA PARTIZIONE – Esempio – Sia X = { v 1, v 2, v 3, v 4, v 5, v 6, v 7, v 8 }. Definiamo il grafo G(N,A) associato allinsieme X, dove N = { 1, 2, 3, 4, 5, 6, 7, 8 } e A = { ij | 1 i j 8 }. Consideriamo il clustering P(G)= { V 1, V 2, V 3 }

27 27 INSIEME DELLE SOLUZIONI Supponiamo di voler determinare una partizione in k cluster. numero uguale Sia s =. Se vogliamo che i cluster contengano un numero uguale di osservazioni, il problema è equivalente al problema di determinare una partizione in cluster che abbiano ciascuno un numero di osservazioni non inferiori a s. Linsieme S delle soluzioni del problema di clustering di X è linsieme dei vettori di incidenza di tutte le possibili insiemi partizione E(P(G)) del grafo G(N,A) associato a X. Vincolo di dimensione s =3

28 28 PROBLEMA DI PARTIZIONE IN CLIQUE In base al valore di s possiamo avere diversi problemi: partizione in clique se s 1, S è linsieme delle soluzioni del problema di partizione in clique (CPP) dei nodi di un grafo Consideriamo linsieme delle soluzioni partizione in clique con vincolo di dimensione se s 1, S è linsieme delle soluzioni del problema di partizione in clique con vincolo di dimensione (CPPMIN) equipartizione se k = 2, S è linsieme delle soluzioni del problema di equipartizione equipartizione in k sottoinsiemi se n è multiplo di s, S è linsieme delle soluzioni del problema di equipartizione in k sottoinsiemi

29 29 CRITERIO DI OTTIMALITÀ – Esempio – Sia X = { v 1, v 2, v 3, v 4, v 5, v 6, v 7, v 8 } e s = 2 Definiamo il grafo G(N,A) associato allinsieme X, dove N = { 1, 2, 3, 4, 5, 6, 7, 8 } con n = 8, e A = { ij | 1 i j 8 }. Consideriamo i due clustering P 1 (G)= { V 1, V 2, V 3 } e P 2 (G)= { V 4, V 5, V 6 } Come valutare le soluzioni in S? Qual è la migliore soluzione? In P 1 (G) i punti appartenenti allo stesso cluster sono più vicini…

30 30 CRITERIO DI OTTIMALITÀ In P 1 (G) i punti appartenenti allo stesso cluster sono più vicini… La matrice delle relazioni contiene le informazioni relative alla similarità o alla dissimilarità tra i punti Sia D la matrice n x n delle relazioni di dissimilarità (più i e j sono simili, più è basso) Assegniamo ad ogni arco ij di A il peso

31 31 CRITERIO DI OTTIMALITÀ Assegniamo ad ogni cluster V N la somma dei pesi degli archi in E(V) Assegniamo ad ogni arco ij di A il peso Assegniamo ad ogni partizione P(G)= { V 1, V 2, …, V k } del grafo G(N,A) la somma dei costi degli elementi della partizione c(P 1 (G)) = = 7.5 c(P 2 (G)) = 15 < P 1 (G) è migliore di P 2 (G)

32 32 CRITERIO DI OTTIMALITÀ Ad ogni partizione P(G)= { V 1, V 2, …, V k } del grafo G(N,A) associamo il costo vettore di incidenza partizione E(P(G)) Ad ogni P(G)= { V 1, V 2, …, V k } è associato il vettore di incidenza x P di un insieme partizione E(P(G))

33 33 CRITERIO DI OTTIMALITÀ Ad ogni partizione P(G)= { V 1, V 2, …, V k } del grafo G(N,A) associamo il costo – Esempio – Sia X = { v 1, v 2, v 3, v 4, v 5, v 6, v 7, v 8 } e s = 2 Consideriamo la soluzione x P associata al clustering P(G)= { V 1, V 2, V 3 }

34 34 FORMULAZIONE MATEMATICA DEL CPP partizione in clique Risolvere il problema di partizione in clique dei nodi di un grafo significa determinare la soluzione del seguente problema dove linsieme delle soluzioni è

35 35 MATERIALE DEL SEMINARIO Le slide di questo seminario sono reperibili al seguente link:


Scaricare ppt "Algoritmi di classificazione e reti neurali Seminario su clustering dei dati – Parte I Università di RomaLa Sapienza Dipartimento di Informatica e Sistemistica."

Presentazioni simili


Annunci Google