La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 1 Apprendimento Automatico: Apprendimento Pigro (Lazy Learning) Cap. 5.3 [Tan,

Presentazioni simili


Presentazione sul tema: "Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 1 Apprendimento Automatico: Apprendimento Pigro (Lazy Learning) Cap. 5.3 [Tan,"— Transcript della presentazione:

1 Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 1 Apprendimento Automatico: Apprendimento Pigro (Lazy Learning) Cap. 5.3 [Tan, Steinbeck & Kumar]

2 Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 2 Concetto di base: Pigrizia Pigrizia mentale (Devoto-Oli 2008): atteggiamento di chi trascura larricchimento delle proprie conoscenze […]

3 Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 3 In altre parole Il principio di base è quello di ritardare il processo di modellazione dellinsieme di addestramento finché non è richiesto per classificare le istanze di test –Lazy learner vs. eager learner Il più semplice lazy learner: rote classifier –Apprende tutto a memoria –Classifica solo ciò che fa match con almeno un esempio dellinsieme di addestramento

4 Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 4 Siamo seri! Per rendere lapproccio più flessibile, cerchiamo gli esempi di addestramento relativamente più simili allistanza di test Se cammina come una papera, fa qua qua come una papera e somiglia fisicamente a una papera, allora probabilmente è una papera! –Apprendimento basato su istanze Un noto rappresentante è lalgoritmo k-Nearest Neighbours (kNN)

5 Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 5 Chi sono i k vicini più vicini? Le istanze sono rappresentate mediante punti nello spazio m-dimensionale degli m attributi I k vicini più vicini (nearest neighbours) di unistanza di test x sono i k punti dellinsieme daddestramento più vicini a x x x x k=1k=2k=3

6 Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 6 Come avviene la classificazione? Si sceglie la classe di maggioranza dei k esempi più vicini: dove D x è il sottoinsieme di D dei k esempi più vicini a x (majority voting) Se k è troppo piccolo si rischia overfitting dovuto al rumore nellinsieme di addestramento Se k è troppo grande, potremmo includere istanze troppo dissimili dallistanza di test

7 Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 7 Algoritmo kNN kNN(k, D) For each istanza di test x do Calcola d(x, x i ) per ogni esempio (x i, y i ) D Determina linsieme D x D dei k esempi più vicini a x Classifica x:

8 Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 8 Posso migliorare la classificazione? Vista la dipendenza dalla scelta di k, è possibile migliorare la classificazione di kNN pesando il contributo di ciascun esempio secondo la sua distanza: Quindi la classe di maggioranza è scelta come segue: (majority voting pesato sulla distanza)

9 Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 9 Alcune metriche per determinare la distanza Distanza euclidea: Distanza di Manhattan (o city block): Distanza di Minkowski (generalizzazione):

10 Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 10 Misure di Prossimità: Cosine Similarity Nota: se la distanza è normalizzata tra 0 e 1, la similarità sim(x, y) è data da 1-d(x, y) Esempio: similarità del coseno di due vettori di documenti:

11 Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 11 Misure di Prossimità: Coefficiente di Jaccard Esempio: similarità di Jaccard di due vettori di documenti:

12 Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 12 kNN in a nutshell Vantaggi: –Non è necessario appprendere né costruire unastrazione (modello) a partire dai dati –kNN può adattare i propri confini di decisione in modo arbitrario, producendo una rappresentazione del modello più flessibile –Si può arricchire incrementalmente linsieme di addestramento Svantaggi: –Classificare le istanze di test è costoso, perché dobbiamo calcolare i valori di prossimità tra ciascun esempio di addestramento e listanza di test –Essendo la classificazione fatta in modo locale (al contrario degli alberi di decisione), kNN è suscettibile al rumore –La misura di prossimità può essere dominata da alcuni attributi (es. altezza vs. peso)

13 Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 13 Esercizio Provate ad adattare lalgoritmo ID3 al paradigma di apprendimento pigro


Scaricare ppt "Apprendimento Automatico: Apprendimento Non Supervisionato Roberto Navigli 1 Apprendimento Automatico: Apprendimento Pigro (Lazy Learning) Cap. 5.3 [Tan,"

Presentazioni simili


Annunci Google