Instance Based Learning Mercoledì, 17 novembre 2004 Giuseppe Manco Readings: Chapter 8, Mitchell Chapter 7, Han & Kamber Instance-Based Learning (IBL):

Slides:



Advertisements
Presentazioni simili
I tipi Strutturati.
Advertisements

Calore e lavoro La stessa variazione dello stato termodinamico di un sistema, misurata ad esempio dalla variazione della sua temperatura, può essere prodotta.
Le distribuzioni di probabilità continue
20 – Lincertezza di misura Tecnologie Informatiche per la Qualità Università degli Studi di Milano – Polo di Crema - Dipartimento di Tecnologie dellInformazione.
Tecniche di Apprendimento Automatico
LR Parser Giuseppe Morelli. La maggior parte dei parser Bottom-Up è costituita dai cosiddetti parser LR(k) dove: L indica il verso dellanalisi della stringa.
Costruzione di tabelle di Parsing SLR
Vittoria Gallina presentazione in dettaglio degli strumenti
Riconoscimento di forme
Attività cerebrale I neuroni si attivano in gruppi sotto lazione di uno stimolo Attività in gruppi ben delimitati con alta o bassa attività Il gruppo.
Gli indicatori semplici Costituiscono un ponte tra ciò che è osservabile e misurabile e i concetti di cui si vuole fornire una misura. Assumono significato.
Soluzioni di problemi elettrostatici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Moto nello spazio tridimensionale
“Lavoro” compiuto da una forza :
Le interazioni fondamentali :
Cinematica Studio puramente descrittivo del moto dei corpi, indipendentemente dalle cause (=> forze) che determinano le variazioni dello stato di moto.
Forza gravitazionale di un corpo sferico omogeneo
Momento angolare “Momento angolare” ( o “momento della quantità di moto”) di un punto materiale P avente quantità di moto p = mv rispetto ad un “polo”
“Centro di massa” “Centro di massa” G
r (t) = OP = S i xi u i = OO’ + O’P == Si xiui + S xi’ ui’
Modello cinetico del gas ideale (monoatomico):
Moto di un “punto materiale” P nello spazio tridimensionale:
Equazioni differenziali omogenee e non omogenee :
“Corpo rigido” Distribuzione estesa di massa i cui punti mantengono invariate le distanze reciproche ( Þ non ci sono deformazioni) Possibili moti di un.
Moto dei pianeti Il moto dei pianeti è descritto dalle tre leggi di Keplero, basate sulle osservazioni dell’astronomo danese Tycho Brahe ( ) ed.
Moto armonico smorzato
Apprendimento Automatico: Alberi di Decisione
Alberi di Decisione decision trees
Apprendimento Automatico: Apprendimento Pigro (Lazy Learning)
Apprendimento Automatico: Alberi di Decisione
Apprendimento di funzioni algebriche
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Algoritmi e basi del C Marco D. Santambrogio – Ver. aggiornata al 9 Agosto 2013.
ANALISI DEI GRUPPI seconda parte
Seminario su clustering dei dati – Parte I
Algoritmi di classificazione e reti neurali Seminario su clustering dei dati – Parte I Università di RomaLa Sapienza Dipartimento di Informatica e Sistemistica.
RICERCA OPERATIVA INGEGNERIA DEI TRASPORTI ESERCITAZIONE IN EXCEL 20 aprile 2004 (esempio a cura di S. Mattia e E. Parrello)
D2I- Integrazione, Warehousing e Mining di sorgenti eterogenee Francesco Buccafurri, Luigi Palopoli, Domenico Rosaci, Giorgio Terracina, Domenico Ursino.
B D1D1 D2D2 B2B2 6 4 B3B3 3 B1B1 2 1 B4B4 B5B5 D3D3 D4D4 D5D5 D6D6 a b c a T=22 c d T= P.D. SENZA e CON DUPLICAZIONE.
7 Luglio, 2005Verona, 4° incontro LIMA 3D1 Laboratory of Image Analysis and Vision Università degli Studi di Milano Dipartimento di Scienze dellInformazione.
Analisi dei gruppi – Cluster Analisys
Chapter 14, Hastie , Tibshirani and Friedman
Concept Learning Mercoledì, 20 ottobre 2004 Giuseppe Manco Riferimenti: Chapter 2, Mitchell Chapter 10 Hand, Mannila, Smith Chapter 7 Han, Kamber Introduzione.
Clustering Mercoledì, 24 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Density-Based Clustering.
Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture.
Bayesian Learning Martedì, 16 Novembre 2004 Giuseppe Manco Readings: Sections , Mitchell Chapter 2, Bishop Chapter 4, Hand-Mannila-Smith Bayesian.
MINISTERO DELL ISTRUZIONE,DELLUNIVERSITA E DELLA RICERCA DIREZIONE DIDATTICA STATALE V.A. Ferrentino ROCCAPIEMONTE (Salerno) Anno scolastico 2009/2010.
1 Y Modello di regressione semplice Supponiamo che una variabile Y sia funzione lineare di unaltra variabile X, con parametri incogniti 1 e 2 che vogliamo.
FACOLTA DINGEGNERIA CORSO DI RICERCA OPERATIVA a.a. 2001/2002 Problema di assegnamento di una compagnia aerea Università degli studi di Cagliari Studenti:
Progetto SeT Comunità di ricerca on line per lo studio scientifico a.s Presentazione Scuola superiore di 1° grado Dante Alighieri Stefano.
Progetto SeT Comunità di ricerca on line per lo studio scientifico a.s Presentazione Scuola superiore di 1° grado Dante Alighieri Stefano.
Macchine elettriche rotanti fondamentali
Geometria dell’utensile
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
Prof. Cerulli – Dott.ssa Gentili
Index Land Surface for Efficient kNN Query Gruppo 2 Riccardo Mascia Roberto Saluto Relatore Roberto Saluto Cyrus Shahabi Lu-An TangSonghua Xing.
Voronoi-Based K Nearest Neighbor Search for Spatial Network Databases
Regressione e correlazione
Similarità, distanza, associazione
Tecnologie delle Costruzioni Aeronautiche 1 Esercitazione 3 © Goran Ivetic.
Lycée dAltitude Briançon Projet « Horloges dAltitude » Cortile di Palazzo Ducale F.
Metaclassificazione Giovedì, 18 novembre 2004 Francesco Folino ( Combinare Classificatori Lecture 8.
ANNO SCOLASTICO PROVA DI MATEMATICA SCUOLA SECONDARIA DI I GRADO CLASSI II C – III B Istituto Comprensivo “Stefano D’Arrigo” – Venetico Dirigente.
Scomposizione della devianza
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
Algoritmi di classificazione e reti neurali Seminario su clustering dei dati Università Sapienza di Roma Dipartimento di ingegneria Informatica, Automatica.
Voronoi-Based K Nearest Neighbor Search for Spatial Network Databases1 GRUPPO 13: Relatore: Mengoli Dario Mengoli Dario Rovatti Fabrizio Tassoni Davide.
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
Sommario Analisi del dominio: i sistemi per la localizzazione
Similarità e dissimilarità
Transcript della presentazione:

Instance Based Learning Mercoledì, 17 novembre 2004 Giuseppe Manco Readings: Chapter 8, Mitchell Chapter 7, Han & Kamber Instance-Based Learning (IBL): k-Nearest Neighbor e Case-Based Reasoning Lecture 7

Instance Based Learning Instance-Based Learning (IBL) Idea –Conserviamo (più o meno) tutte le istanze –Classificazione: Data una istanza x q –Restituiiamo: il concetto dellistanza più prossima nel database di prototipi –Giustificazione Listanza più prossima a x q tende ad avere lo stesso concetto di f(x q ) Non vale quando i dati sono pochi Nearest Neighbor –Si trovi lesempio x n nel training set che sia più vicino alla query x q –Si effettui la stima k-Nearest Neighbor –f nominale: votazione tra I k vicini più vicini a x q –f numerica:

Instance Based Learning Proprietà ideali –Istanze in R n –Meno di 20 attributi per instanza –Training set molto grande Vantaggi –Training veloce –Apprendimento di funzioni complesse –Non cà perdita di informazione Svantaggi –Lento a tempo di classificazione –Attributi irrelevanti influenzano il tutto Quando usare Nearest Neighbor

Instance Based Learning Triangolazione di Delaunay Diagrammi di Voronoi (Nearest Neighbor) Diagrammi di Voronoi Training Data: Istanze etichettate Query x q ?

Instance Based Learning k-NN Pesato Idea –Utilizziamo tutti i dati, associamo un peso ai vicini Funzione di peso –I pesi sono proporzionali alla distanza: –d(x q, x i ) è la distanza euclidea

Instance Based Learning Case-Based Reasoning (CBR) IBL applicato a dati non numerici –Necessità di una nozione differente di distanza –Idea: utilizziamo misure di similarità simbolica (sintattica)

Instance Based Learning Esempio Istanza X1X1 X2X2 X3X3 I1I1 000 I2I2 100 I3I3 200 I4I I5I5 300 I6I6 121 I7I I8I8 221 I9I9 321 I

Instance Based Learning Similarità e dissimilarità tra oggetti La distanza è utilizzata per misurare la similarità (o dissimilarità) tra due istanze Some popular ones include: Minkowski distance: –Dove x i = (x i1, x i2, …, x ip ) e x j = (x j1, x j2, …, x jp ) sono due oggetti p- dimensionali, e q è un numero primo se q = 1, d è la distanza Manhattan

Instance Based Learning Similarità e dissimilarità tra oggetti [2] se q = 2, d è la distanza euclidea: –Proprietà Varianti –Distanza pesata –Distanza Mahalanobis

Instance Based Learning Esempio Euclidea manhattan mahalanobis

Instance Based Learning Similarità del coseno Similarità di Jaccard –Su dati reali Studio delleffetto delle varie misure di similarità nei clusters

Instance Based Learning Attributi binari Distanza di Hamming –Distanza Manhattan quando i valori possibili sono 0 o 1 In pratica, conta il numero di mismatches

Instance Based Learning Attributi binari Utilizzando la tabella di contingenza Coefficiente di matching (invariante, se le variabili sono simmetriche): Coefficiente di Jaccard (noninvariante se le variabili sono asimmetriche): Oggetto i Oggetto j

Instance Based Learning Dissimilarità tra attributi binari Esempio –gender è simmetrico –Tutti gli altri sono asimmetrici –Poniamo Y e P uguale a 1, e N a 0

Instance Based Learning Indici di similarità demografica Proporzionale al numero di uni comuni (1-1) Inversamente proporzionale agli 0-1 e ai 1-0 Non affetta da 0-0 Indice di Condorcet = –a / (a + 1 / 2 (b + c)) Indice di Dice = –a / (a + 1 / 4 (b + c)) Dice meno efficace di Condorcet –Appropriato su oggetti estremamente differenti

Instance Based Learning Variabili Nominali Generalizzazione del meccanismo di variabili binarie Metodo 1: Matching semplice –m: # di matches, p: # di attributi nominali metodo 2: binarizzazione

Instance Based Learning Esercizio: PlayTennis

Instance Based Learning Playtennis [2] d(I,d1) = 2/4 = 0.5 d(I,d2) = 1/4 = 0.25 d(I,d3) = 3/4 = 0.75 d(I,d4) = 3/4 = 0.75 d(I,d5) = 3/4 = 0.75 d(I,d6) = 2/4 = 0.5 d(I,d7) = 2/4 = 0.75 d(I,d8) = 2/4 = 0.5 d(I,d9) = 2/4 = 0.5 d(I,d10) = 3/4 = 0.75 d(I,d11) = 2/4 = 0.5 d(I,d12) = 2/4 = 0.5 d(I,d13) = 4/4 = 1 d(I,d14) = 2/4 = 0.5

Instance Based Learning Lazy e Eager Learning Lazy Learning –Nessuna generalizzazione: aspettiamo la query k-nearest neighbor (k-NN) Case-based reasoning (CBR) Eager Learning –generalizzazione ID3, backpropagation, simple (Naïve) Bayes, etc. Qualè la differenza? –Eager crea unapprossimazione globale –Lazy può creare molte approssimazioni locali