Apprendimento Automatico: Apprendimento Pigro (Lazy Learning)

Slides:



Advertisements
Presentazioni simili
Algoritmi e Strutture Dati
Advertisements

Apprendimento Automatico Apprendimento supervisionato
Master Bioinformatica 2002: Grafi Problema: cammini minimi da tutti i vertici a tutti i vertici Dato un grafo pesato G =(V,E,w), trovare un cammino minimo.
Sistemi di Classificazione usando NCD
DEFINIZIONE DI LIMITE Il concetto di limite esprime, attraverso un complesso formalismo matematico, una forte relazione tra due ambienti, dominio e codominio,
DEFINIZIONE DI LIMITE Il concetto di limite esprime, attraverso un complesso formalismo matematico, una forte relazione tra due ambienti, dominio e codominio,
Riconoscimento di forme
Breath-first search Visita in ampiezza di un grafo Algoritmo Esempio
Attività cerebrale I neuroni si attivano in gruppi sotto lazione di uno stimolo Attività in gruppi ben delimitati con alta o bassa attività Il gruppo.
Difficoltà di contenuto Difficoltà linguistiche Difficoltà cognitive
Intelligenza Artificiale Apprendimento automatico (generalizzare lesperienza) Prof. M.T. PAZIENZA a.a
Scenario Archi di un grafo controllati da agenti egoistici
Teoria e Tecniche del Riconoscimento
Apprendimento Automatico: Apprendimento di Concetti da Esempi
Apprendimento Automatico: Apprendimento Bayesiano
Apprendimento Automatico: Apprendimento Non Supervisionato
Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano.
Apprendimento Non Supervisionato
Apprendimento Automatico: Alberi di Decisione
Alberi di Decisione decision trees
Apprendimento Automatico: Alberi di Decisione
Apprendimento Automatico: Valutazione delle Prestazioni
Apprendimento di funzioni algebriche
Computational Learning Theory and PAC learning
Apprendimento Automatico: Apprendimento per Rinforzo
Metodi di Ensemble Metaclassificatori.
Apprendimento Bayesiano
Apprendimento Automatico: Apprendimento per Rinforzo Roberto Navigli Apprendimento Automatico: Apprendimento per Rinforzo.
U V U V (a) |cfc|=2 prima e dopo (b) |cfc|=2 prima e |cfc|=1 dopo
ANALISI DEI GRUPPI seconda parte
Il problema del cammino minimo tra 2 nodi in un grafo con archi privati.
Algoritmi e Strutture Dati (Mod. B)
Seminario su clustering dei dati – Parte I
Algoritmi di classificazione e reti neurali Seminario su clustering dei dati – Parte I Università di RomaLa Sapienza Dipartimento di Informatica e Sistemistica.
BIOINGEGNERIA S. Salinari Lezione 4.
BIOINGEGNERIA S. Salinari Lezione 7. RETI CON APPRENDIMENTO SUPERVISIONATO A DISTANZA Nello sviluppo delle reti neurali si è proceduto indebolendo via.
D2I - Tema 3: Data Mining Stato di avanzamento Roma 11/10/2002.
Apprendimento di movimenti della testa tramite Hidden Markov Model
Marco Cristani1 Teoria e Tecniche del Riconoscimento Facoltà di Scienze MM. FF. NN. Università di Verona A.A Introduzione alla Pattern Recognition.
1 A cura di Vittorio Villasmunta Metodi di analisi dei campi meteorologici Corso di base sulluso del software di analisi meteorologica DIGITAL ATMOSPHERE.
Metodi basati sulle similitudini per dedurre la funzione di un gene
Instance Based Learning Mercoledì, 17 novembre 2004 Giuseppe Manco Readings: Chapter 8, Mitchell Chapter 7, Han & Kamber Instance-Based Learning (IBL):
Chapter 14, Hastie , Tibshirani and Friedman
Clustering Mercoledì, 24 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Density-Based Clustering.
Ingegneria della conoscenza e sistemi esperti Dario Bianchi, 1999 Risoluzione di problemi e ricerca.
Dipartimento di Ingegneria dellInformazione Università degli Studi di Parma Intelligenza Artificiale Apprendimento Parte 2 Agostino Poggi Stefano Cagnoni.
Case Based Reasoning
Classificazione dei Problemi F. Puppe, Expert Systems: a Systematic Introduction, Springer Verlag, 1993.
Passo 3: calcolo del costo minimo
Semi-Supervised Learning
Algoritmi e Strutture Dati
Riconoscitori di lingua in documenti testuali
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
Classificazione (aka Cluster Analysis)
ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Sistemi Informativi per le Decisioni a.a. 2005/2006.
DATA MINING PER IL MARKETING
Metaclassificazione Giovedì, 18 novembre 2004 Francesco Folino ( Combinare Classificatori Lecture 8.
Intelligenza Artificiale Apprendimento automatico Prof. M.T. PAZIENZA a.a
LAB-SCI/Dipartimento I.C. Centro storico Pestalozzi Primo Incontro 15 Gennaio 2014.
Algoritmi di classificazione e reti neurali Seminario su clustering dei dati Università Sapienza di Roma Dipartimento di ingegneria Informatica, Automatica.
Implementazione di dizionari Problema del dizionario dinamico Scegliere una struttura dati in cui memorizzare dei record con un campo key e alcuni altri.
Università degli Studi di Roma Tor Vergata
1 Ordinamento (Sorting) INPUT: Sequenza di n numeri OUTPUT: Permutazione π = tale che a 1 ’  a 2 ’  … …  a n ’ Continuiamo a discutere il problema dell’ordinamento:
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
Il Problema del Commesso Viaggiatore. Traveling Salesman’s Problem (TSP) Un commesso viaggiatore deve visitare un certo numero di città Conosce la distanza.
Dipartimento di Ingegneria dell’Informazione Università degli Studi di Parma Intelligenza Artificiale Apprendimento Agostino Poggi Stefano Cagnoni.
Programmazione dei Calcolatori Elettronici
Algoritmi e Strutture Dati Luciano Gualà
CREO UNA MAPPA Utilizzo delle mappe concettuali nelle materie di studio alle scuole primarie.
Similarità e dissimilarità
Transcript della presentazione:

Apprendimento Automatico: Apprendimento Pigro (Lazy Learning) Roberto Navigli Cap. 5.3 [Tan, Steinbeck & Kumar]

Concetto di base: Pigrizia Pigrizia mentale (Devoto-Oli 2008): atteggiamento di chi trascura l’arricchimento delle proprie conoscenze […]

Il più semplice lazy learner: rote classifier In altre parole Il principio di base è quello di ritardare il processo di modellazione dell’insieme di addestramento finché non è richiesto per classificare le istanze di test Lazy learner vs. eager learner Il più semplice lazy learner: rote classifier Apprende tutto a memoria Classifica solo ciò che fa match con almeno un esempio dell’insieme di addestramento

Un noto rappresentante è l’algoritmo k-Nearest Neighbours (kNN) Siamo seri! Per rendere l’approccio più flessibile, cerchiamo gli esempi di addestramento relativamente più simili all’istanza di test “Se cammina come una papera, fa qua qua come una papera e somiglia fisicamente a una papera, allora probabilmente è una papera!” Apprendimento basato su istanze Un noto rappresentante è l’algoritmo k-Nearest Neighbours (kNN)

Chi sono i k “vicini più vicini”? Le istanze sono rappresentate mediante punti nello spazio m-dimensionale degli m attributi I k “vicini più vicini” (nearest neighbours) di un’istanza di test x sono i k punti dell’insieme d’addestramento più vicini a x + + + + + + + + + + + + - - - x x x - - - + + + - - - + + + + + + + + + + + + + + + + + + k=1 k=2 k=3

Come avviene la classificazione? Si sceglie la classe di maggioranza dei k esempi più vicini: dove Dx è il sottoinsieme di D dei k esempi più vicini a x (majority voting) Se k è troppo piccolo si rischia overfitting dovuto al rumore nell’insieme di addestramento Se k è troppo grande, potremmo includere istanze troppo dissimili dall’istanza di test

For each istanza di test x do Algoritmo kNN kNN(k, D) For each istanza di test x do Calcola d(x, xi) per ogni esempio (xi, yi)  D Determina l’insieme Dx  D dei k esempi più vicini a x Classifica x:

Posso migliorare la classificazione? Vista la dipendenza dalla scelta di k, è possibile migliorare la classificazione di kNN pesando il contributo di ciascun esempio secondo la sua distanza: Quindi la classe di maggioranza è scelta come segue: (majority voting pesato sulla distanza)

Alcune metriche per determinare la distanza Distanza euclidea: Distanza di Manhattan (o city block): Distanza di Minkowski (generalizzazione):

Misure di Prossimità: Cosine Similarity Nota: se la distanza è normalizzata tra 0 e 1, la similarità sim(x, y) è data da 1-d(x, y) Esempio: similarità del coseno di due vettori di documenti:

Misure di Prossimità: Coefficiente di Jaccard Esempio: similarità di Jaccard di due vettori di documenti:

kNN “in a nutshell” Vantaggi: Svantaggi: Non è necessario appprendere né costruire un’astrazione (modello) a partire dai dati kNN può adattare i propri confini di decisione in modo arbitrario, producendo una rappresentazione del modello più flessibile Si può arricchire incrementalmente l’insieme di addestramento Svantaggi: Classificare le istanze di test è costoso, perché dobbiamo calcolare i valori di prossimità tra ciascun esempio di addestramento e l’istanza di test Essendo la classificazione fatta in modo locale (al contrario degli alberi di decisione), kNN è suscettibile al rumore La misura di prossimità può essere dominata da alcuni attributi (es. altezza vs. peso)

Esercizio Provate ad adattare l’algoritmo ID3 al paradigma di apprendimento pigro