La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Tecniche di Apprendimento Automatico Evelina Lamma Fabrizio Riguzzi Sergio Storari Giacomo Gamberoni.

Presentazioni simili


Presentazione sul tema: "Tecniche di Apprendimento Automatico Evelina Lamma Fabrizio Riguzzi Sergio Storari Giacomo Gamberoni."— Transcript della presentazione:

1 Tecniche di Apprendimento Automatico Evelina Lamma Fabrizio Riguzzi Sergio Storari Giacomo Gamberoni

2 2 Definizione di AA Definizione 1: –Learning is constructing or modifying representations of what is being experienced [Michalski 1986], pag. 10 Definizione 2: –Learning denotes changes in the system that are adaptive in the sense that they enable the system to do the same task or tasks drawn from the same population more efficiently and more effectively the next time [Simon 1984], pag. 28

3 3 Impieghi dellAA A) estrazione di conoscenza –da utilizzare per il funzionamento di sistemi basati su conoscenza (ad esempio, sistemi per la classificazione) –a fini scientifici, ovvero scoperta di nuovi fatti e teorie attraverso losservazione e la sperimentazione B) miglioramento delle performance di una macchina –ad esempio, miglioramento delle capacità motrici e cognitive di un robot

4 4 Tecniche di AA Tecniche simboliche (impieghi A e B) diversi tipi di rappresentazione –rappresentazione attributo valore –rappresentazione del primo ordine (regole) Tecniche statistiche (impiego B) Reti neurali (impiego B) Lapprendimento automatico può essere supervisionato (a partire da esempi) oppure non supervisionato.

5 5 Tecniche di AA Alberi decisionali(supervisionato) Support Vector Machine ( ) Regole associative Reti bayesiane Clustering

6 6 Apprendimento di alberi di decisione Problemi appropriati: –le istanze sono rappresentate da coppie attributo valore –la funzione target ha valori discreti –descrizioni disgiuntive di concetti possono essere richieste –linsieme dei dati di training può contenere errori –linsieme dei dati di training può contenere dati mancanti Sistemi che apprendono alberi di decisione: CLS, IDR, C4, ASSISTANT, ID5, CART, ID3 etc.

7 7 Alberi di decisione: c4.5 c4.5 [Qui93b,Qui96] Evoluzione di ID3, altro sistema del medesimo autore, J.R. Quinlan Ispirato ad uno dei primi sistemi di questo genere, CLS (Concept Learning Systems) di E.B. Hunt Continuo studio ed aggiornamento (release 8): rimane uno dei punti di riferimento nella propria classe di algoritmi. Algoritmo scritto in C per Unix: disponibile da

8 8 Algoritmo di determinazione dellalbero T: insieme degli esempi; {C 1,C 2,…,C k }: insieme delle classi; Considera linsieme T: –T contiene uno o più esempi, tutti appartenenti alla medesima classe => singola foglia con etichetta la classe –T non contiene nessun esempio (insieme vuoto)=> singola foglia con etichetta la classe piu frequente nellinsieme padre –T contiene casi che appartengono a più classi => partizionamento di T in piu sottoinsiemi T 1,T 2,…,T n secondo un test su un attributo=> nodo associato al test, con un sottoalbero per ogni possibile risultato del test stesso. Richiama lalgoritmo su ogni ramo/sottoinsieme

9 9 Esempio Istanze: sabati mattina Concetti: sabato adatto a giocare a tennis e sabato non adatto a giocare a tennis Attributi: outlook, con valori {sunny,overcast,rain} temperature, con valori numerici humidity, con valori numerici windy, con valori {true, false}

10 10 Esempio: NoOutlook Temp (°F)Humid (%)WindyClass D1sunny7570TP D2sunny8090TN D3sunny8585FN D4sunny7295FN D5sunny6970FP D6overcast7290TP D7overcast8378FP D8overcast6465TP D9overcast8175FP D10rain7180TN D11rain6570TN D12rain7580FP D13rain6880FP D14rain7096FP

11 11 Albero di decisione Outlook rainsunny Humidity 75 P true N false Windy N true P false P overcast

12 12 Regole associative Descrivono correlazioni di eventi (attributo-valore) e possono essere viste come regole probabilistiche. Due eventi sono correlati quando sono osservati frequentemente insieme. Una regola associativa è unimplicazione della forma X Y, dove X e Y sono insiemi di eventi disgiunti Esempio: Outlook=overcast Class=P

13 13 Esempio NoOutlook Temp (°F)Humid (%)WindyClass D1sunny7570TP D2sunny8090TN D3sunny8585FN D4sunny7295FN D5sunny6970FP D6overcast7290TP D7overcast8378FP D8overcast6465TP D9overcast8175FP D10rain7180TN D11rain6570TN D12rain7580FP D13rain6880FP D14rain7096FP

14 14 Supporto e confidenza X Y ha supporto s nel database D se e solo se una frazione pari ad s delle transazioni in D contengono X Y: s(Outlook=overcast Class=P) = 4/14 X Y ha confidenza c nel database D, se e solo se, tra tutte le transazioni che contengono X, ce ne una frazione c che contiene anche Y: c(Outlook=overcast Class=P) = 1

15 15 Regole associative Il problema della scoperta di regole associative può essere espresso come segue Sia I = {i 1, i 2,..., i m } un insieme di letterali chiamati oggetti (o items). Una transazione T è un insieme di oggetti tali che T I. Un database di transazioni D è un insieme di transazioni ed è solitamente memorizzato in una tabella della forma Un itemset X è un set di oggetti tali che X I. Si dice che una transazione T contiene un itemset X se X T. Identificativo della transazione Item

16 16 Regole associative Il supporto di un itemset X (supporto(X)) è la frazione di transazioni in D che contiene X supporto(X)=transazioni che contengono X numero totale di transazioni Una regola associativa è una implicazione della forma X Y, dove X e Y sono itemsets e X Y.

17 17 Confidenza e supporto X Y ha supporto s nel database D se e solo se una frazione pari ad s delle transazioni in D contengono X Y: s=supporto(X Y)=supporto(X Y) X Y ha confidenza c nel database D, se e solo se, tra tutte le transazioni che contengono X, ce ne una frazione c che contiene anche Y: c=confidenza(X Y)=supporto(X Y) supporto(X) Confidenza e supporto possono essere indicati anche in forma percentuale

18 18 Esempi 1 &2 => 3 ha il 90% di confidenza se, quando un cliente ha comperato gli oggetti 1 e 2, nel 90% dei casi has comperato anche 3 1 &2 => 3 ha il 20% di supporto se il 20% delle transazioni contiene 1, 2 e 3. Indica la frazione dei casi nei quali la regola si applica

19 19 Esempio Per supporto minimo 50% e confidenza minima 50% abbiamo le seguenti regole 1=>3 con supporto 50% e confidenza 66% 3=>1 con supporto 50% e confidenza 100%

20 20 Regole associative Dato un database D, il compito di scoprire le regole associative può essere riformulato come segue: –scoprire tutte le regole associative con almeno un minimo supporto (chimato minsup) e una minima confidenza (chiamata minconf), dove minsup e minconf sono valori specificati dallutente Il compito di scoprire regole associative può essere decomposto in due sottoproblemi: –Trovare tutti gli itemset che hanno supporto sopra il minimo. Tali itemset sono chiamati itemset grandi. Questo sottoproblema è risolto dallalgoritmo APRIORI –Generare tutte le regole associative con almeno la confidenza minima dallinsieme degli itemset grandi

21 21 Bayesian Networks Appropriate tool for modeling uncertainty Directed acyclic graph G: –Nodes=random variables –Arcs=dependence relations: Each node is conditionally independent from any node that is not its descendant given its parents Conditional Probability Tables (CPTs) GPr

22 22 Bayesian Networks Tampering Smoke Fire Alarm Leaving Report

23 23 Clustering Raggruppare le istanze di un dominio in cluster tali che gli oggetti nello stesso cluster mostrino un alto grado di similarità e gli oggetti in cluster diversi un alto grado di dissimilarità Misure di distanza e dissimilarità Distanze per punti in R n : distanza euclidea

24 24 Esempio (K-means) Punti iniziali Centri dei cluster Membri del primo cluster Membri del secondo cluster Dopo la seconda iterazione

25 25 Clustering gerarchico Ogni istanza è considerata come un gruppo separato I gruppi più simili sono raggruppati in un nuovo gruppo di livello superiore nella gerarchia

26 26 Misure di distanza o dissimilarita Distanze per punti in R n : distanza euclidea E un caso particolare, con p=2, della metrica di Minkowski

27 27 Misure di similarita Funzione coseno Coefficiente di Dice Similarita esponente

28 28 Relazione tra le misure di similarita e dissimilarita Un esempio:

29 29 K-means (versione di Forgy) Si applica a istanze appartenenti a R n Sia k il numero dei cluster che si vogliono trovare 1.Si scelgono k punti a caso in R n come centri dei cluster 2.Le istanze sono assegnate al cluster avente il centro piu vicino 3.Si calcola il centroide (la media) dei punti in ogni cluster: questo rappresenta il nuovo centro del cluster 4.Si riparte dal passo 2 finche tutte le istanze non sono assegnate allo stesso cluster in due iterazioni successive

30 30 K-means (versione di MacQueen) In questo caso i centroidi vengono ricalcolati dopo lassegnazione di ogni pattern e non alla fine di un ciclo di riallocazione: 1.Si scelgono k punti a caso in R n come centri dei cluster 2.Ciascuna istanza e assegnata al cluster avente il centro piu vicino. Dopo ogni assegnamento si deve ricalcolare il centroide del cluster che ha guadagnato lelemento 3.Si riparte dal passo 2 finche tutte le istanze non sono assegnate allo stesso cluster in due iterazioni successive

31 31 Risultato del clustering Il k-means cerca di minimizzare la funzione obiettivo

32 32 Scelta dei punti iniziali Sono possibili varie scelte: –Le prime k istanze nel dataset –Etichetta le istanze con i numeri da 1 a m (numero delle istanze) e scegli quelle con numeri m/k,2m/k,…,(k-1)m/k e m –Scegliere a caso k istanze –Generare k punti scegliendo a caso i valori di ciascun coordinata nel range della coordinata –Genera un partizione del dataset in k sottoinsiemi mutuamente esclusivi e considera i centroidi dei sottoinsiemi

33 33 Esempio (K-means) Punti iniziali Centri dei cluster Membri del primo cluster Membri del secondo cluster Dopo la seconda iterazione


Scaricare ppt "Tecniche di Apprendimento Automatico Evelina Lamma Fabrizio Riguzzi Sergio Storari Giacomo Gamberoni."

Presentazioni simili


Annunci Google