Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoDetta Bernasconi Modificato 11 anni fa
1
Instance Based Learning Mercoledì, 17 novembre 2004 Giuseppe Manco Readings: Chapter 8, Mitchell Chapter 7, Han & Kamber Instance-Based Learning (IBL): k-Nearest Neighbor e Case-Based Reasoning Lecture 7
2
Instance Based Learning Instance-Based Learning (IBL) Idea –Conserviamo (più o meno) tutte le istanze –Classificazione: Data una istanza x q –Restituiiamo: il concetto dellistanza più prossima nel database di prototipi –Giustificazione Listanza più prossima a x q tende ad avere lo stesso concetto di f(x q ) Non vale quando i dati sono pochi Nearest Neighbor –Si trovi lesempio x n nel training set che sia più vicino alla query x q –Si effettui la stima k-Nearest Neighbor –f nominale: votazione tra I k vicini più vicini a x q –f numerica:
3
Instance Based Learning Proprietà ideali –Istanze in R n –Meno di 20 attributi per instanza –Training set molto grande Vantaggi –Training veloce –Apprendimento di funzioni complesse –Non cà perdita di informazione Svantaggi –Lento a tempo di classificazione –Attributi irrelevanti influenzano il tutto Quando usare Nearest Neighbor
4
Instance Based Learning Triangolazione di Delaunay Diagrammi di Voronoi (Nearest Neighbor) Diagrammi di Voronoi Training Data: Istanze etichettate + - - - - - + + + + - Query x q ?
5
Instance Based Learning k-NN Pesato Idea –Utilizziamo tutti i dati, associamo un peso ai vicini Funzione di peso –I pesi sono proporzionali alla distanza: –d(x q, x i ) è la distanza euclidea
6
Instance Based Learning Case-Based Reasoning (CBR) IBL applicato a dati non numerici –Necessità di una nozione differente di distanza –Idea: utilizziamo misure di similarità simbolica (sintattica)
7
Instance Based Learning Esempio Istanza X1X1 X2X2 X3X3 I1I1 000 I2I2 100 I3I3 200 I4I4 2.520 I5I5 300 I6I6 121 I7I7 1.501 I8I8 221 I9I9 321 I 10 421
8
Instance Based Learning Similarità e dissimilarità tra oggetti La distanza è utilizzata per misurare la similarità (o dissimilarità) tra due istanze Some popular ones include: Minkowski distance: –Dove x i = (x i1, x i2, …, x ip ) e x j = (x j1, x j2, …, x jp ) sono due oggetti p- dimensionali, e q è un numero primo se q = 1, d è la distanza Manhattan
9
Instance Based Learning Similarità e dissimilarità tra oggetti [2] se q = 2, d è la distanza euclidea: –Proprietà Varianti –Distanza pesata –Distanza Mahalanobis
10
Instance Based Learning Esempio Euclidea manhattan mahalanobis
11
Instance Based Learning Similarità del coseno Similarità di Jaccard –Su dati reali Studio delleffetto delle varie misure di similarità nei clusters
12
Instance Based Learning Attributi binari Distanza di Hamming –Distanza Manhattan quando i valori possibili sono 0 o 1 In pratica, conta il numero di mismatches
13
Instance Based Learning Attributi binari Utilizzando la tabella di contingenza Coefficiente di matching (invariante, se le variabili sono simmetriche): Coefficiente di Jaccard (noninvariante se le variabili sono asimmetriche): Oggetto i Oggetto j
14
Instance Based Learning Dissimilarità tra attributi binari Esempio –gender è simmetrico –Tutti gli altri sono asimmetrici –Poniamo Y e P uguale a 1, e N a 0
15
Instance Based Learning Indici di similarità demografica Proporzionale al numero di uni comuni (1-1) Inversamente proporzionale agli 0-1 e ai 1-0 Non affetta da 0-0 Indice di Condorcet = –a / (a + 1 / 2 (b + c)) Indice di Dice = –a / (a + 1 / 4 (b + c)) Dice meno efficace di Condorcet –Appropriato su oggetti estremamente differenti
16
Instance Based Learning Variabili Nominali Generalizzazione del meccanismo di variabili binarie Metodo 1: Matching semplice –m: # di matches, p: # di attributi nominali metodo 2: binarizzazione
17
Instance Based Learning Esercizio: PlayTennis
18
Instance Based Learning Playtennis [2] d(I,d1) = 2/4 = 0.5 d(I,d2) = 1/4 = 0.25 d(I,d3) = 3/4 = 0.75 d(I,d4) = 3/4 = 0.75 d(I,d5) = 3/4 = 0.75 d(I,d6) = 2/4 = 0.5 d(I,d7) = 2/4 = 0.75 d(I,d8) = 2/4 = 0.5 d(I,d9) = 2/4 = 0.5 d(I,d10) = 3/4 = 0.75 d(I,d11) = 2/4 = 0.5 d(I,d12) = 2/4 = 0.5 d(I,d13) = 4/4 = 1 d(I,d14) = 2/4 = 0.5
19
Instance Based Learning Lazy e Eager Learning Lazy Learning –Nessuna generalizzazione: aspettiamo la query k-nearest neighbor (k-NN) Case-based reasoning (CBR) Eager Learning –generalizzazione ID3, backpropagation, simple (Naïve) Bayes, etc. Qualè la differenza? –Eager crea unapprossimazione globale –Lazy può creare molte approssimazioni locali
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.