Estensioni: Regole di classificazione

Slides:



Advertisements
Presentazioni simili
Macchine di Percezione
Advertisements

PROGETTO DI UN SISTEMA DI ACQUISIZIONE DATI
Processo di accreditamento impianti presso il CdC
                      Insertion-Sort
SPECIFICA INIZIALE DELLE MAPPE FINITE v. 0.0 Gianna Reggio
IL MODELLO ENTITÀ-RELAZIONE Gli altri costruttori
Algebra relazionale Presentazione 12.1
Università degli Studi di Napoli Federico II Facoltà di Ingegneria Dipartimento di Informatica e Sistemistica Corso di Sistemi ad elevate prestazioni –
Data Bases Distribuiti Finalità Caratteristiche Struttura Mario Capurso
= 2x – 3 x Definizione e caratteristiche
Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Lezione 2 Chiara Mocenni Corso di laurea L1.
RB-alberi (Red-Black trees)
Classificatore bayesiano
Università degli Studi di Roma Tor Vergata
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Ordinamenti lineari.
Macchine non completamente specificate
Apprendimento Automatico: Apprendimento di Concetti da Esempi
Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano.
Apprendimento Automatico: Alberi di Decisione
Apprendimento Bayesiano
Alberi di Decisione decision trees
Apprendimento Automatico: Alberi di Decisione
Valutazione delle ipotesi
Apprendimento Automatico: Valutazione delle Prestazioni
Computational Learning Theory and PAC learning
Alberi di Decisione.
Apprendimento Bayesiano
Algoritmi Paralleli e Distribuiti a.a. 2008/09
Alcuni esercizi e domande per il compitino quali sono le parti principali dellarchitettura di von Neumann? citare le caratteristiche salienti della RAM.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Capitolo 4 Ordinamento: Heapsort Algoritmi e Strutture Dati.
Corso di Informatica (Basi di Dati)
Esperienza n. 12 Filtro passa-banda
In un condotto, la velocità è inversamente proporzionale alla sezione 3 cm/s 1 cm/s 3 cm/s.
Seminario su clustering dei dati – Parte II
Modelli e Algoritmi per la Logistica
Modelli probabilistici
GENERAZIONE CODICE MACCHINA
Tecniche e algoritmi di base per l’estrazione di conoscenza
Aspetti radiologici dott.Fabrizio Gandolfo
E SERCITAZIONE Ing. E. Ritacco Ing. M. Guarascio.
Normalizzazione Le forme normali certificano che la base di dati soddisfa criteri di qualità che mirano ad evitare le ridondanze e i conseguenti effetti.
Calcolo di resistenze viste da vari punti
Semplificazione di un sistema
Esercizio 1 Convertire il seguente DTD (esercizio 1 sui DTD) in XML Schema:
1 Y Modello di regressione semplice Supponiamo che una variabile Y sia funzione lineare di unaltra variabile X, con parametri incogniti 1 e 2 che vogliamo.
Sistemi a Regole Ettore Colombo 13 Dicembre 2006 Ingegneria della Conoscenza e Sistemi Esperti.
Example instruction Instruction Name Meaning (RTL Language) ADD R1, R2, R3 AddRegs[R1]
Tavole dinamiche Spesso non si sa a priori quanta memoria serve per memorizzare dei dati in un array, in una tavola hash, in un heap, ecc. Può capitare.
Classificazione con Weka
Il teorema di Thevenin 1 - a cosa serve? - quando usarlo?
Introduzione al comportamento complesso e caotico dei sistemi
Studio degli indici per query di similarità basati su matrici di distanze Esame di Sistemi Informativi per le Decisioni L-S Presentato da: Ing. Marco Patella.
Metaclassificazione Giovedì, 18 novembre 2004 Francesco Folino ( Combinare Classificatori Lecture 8.
Ingegneria del Traffico L’IT prima di MPLS L’IT con MPLS Costruzione del database IT.
Classification Salvatore Orlando.
S. Costantini 06/05/2006 (parte del materiale è tratto da slide del 2001 di Ceri-Atzeni) Normalizzazione di Schemi.
Università degli studi di Parma Dipartimento di Ingegneria dell’Informazione Politecnico di Milano Reti Logiche A Macchine non completamente specificate.
4 < 12 5 > −3 a < b a > b a ≤ b a ≥ b
Basi di dati e Relazioni Uno schema di relazione R(X) è costituito da un simbolo (nome della relazione) R e da una serie di attributi X={A 1, A 2, …, A.
Query languages per Basi di Dati Relazionali  Algebra Relazionale:  basato sulla teoria degli insiemi  procedurale  usato per l’implementazione di.
Progettazione di una base di dati relazionale Vincoli.
Dipartimento di Ingegneria dell’Informazione Università degli Studi di Parma Intelligenza Artificiale Apprendimento Agostino Poggi Stefano Cagnoni.
DATA MINING.
I rapporti . . _______ e le proporzioni.
S. Costantini 06/05/2006 (parte del materiale è tratto da slide del 2001 di Ceri-Atzeni) Normalizzazione di Schemi.
Model evaluation Mercoledì, 31 Gennaio 2007 Giuseppe Manco References: Chapter 3, Mitchell Chapter 7 Han, Kamber Chapter 5 Eibe, Frank Alberi di decisione:
Reti Logiche A Lezione 2.1 Sintesi di reti combinatorie a due livelli
Cloud informatica V anno.
Logica Lezione 11, Annuncio Non si terrà la lezione di Lunedì 16 Marzo.
ROMA 23 GIUGNO 2016 AREA TEMATICA 1. PROSPETTIVE DEI SISTEMI STATISTICI Validation: un approccio metodologico comune per la validazione dei dati e l’automazione.
Transcript della presentazione:

Estensioni: Regole di classificazione Lezione 4 Estensioni: Regole di classificazione Giovedì, 1 Febbraio 2007 Giuseppe Manco

Classificatori Rule-Based Si classifica utilizzando una collezione di regole “if…then…” Regola: (Condition)  y Condition è una congiunzione di attributi y è l’etichetta di classe LHS: antecedente RHS: conseguente Esempi: (Blood Type=Warm)  (Lay Eggs=Yes)  Birds (Taxable Income < 50K)  (Refund=Yes)  Evade=No

Un esempio R1: (Give Birth = no)  (Can Fly = yes)  Birds R2: (Give Birth = no)  (Live in Water = yes)  Fishes R3: (Give Birth = yes)  (Blood Type = warm)  Mammals R4: (Give Birth = no)  (Can Fly = no)  Reptiles R5: (Live in Water = sometimes)  Amphibians

Applicazione di un classificatore rule-based Una regola r copre un’istanza x se l’attributo dell’istanza soddisfa la condizione della regola R1: (Give Birth = no)  (Can Fly = yes)  Birds R2: (Give Birth = no)  (Live in Water = yes)  Fishes R3: (Give Birth = yes)  (Blood Type = warm)  Mammals R4: (Give Birth = no)  (Can Fly = no)  Reptiles R5: (Live in Water = sometimes)  Amphibians R1 copre la prima tupla (classificazione: Birds) R3 Copre la seconda tupla (classificaizone Mammal)

Copertura, accuratezza Copertura di una regola: Frazione delle istanze che soddisfano l’antecedente Accuratezza di una regola: Frazione delle istanze che soddisfano antecedente e conseguente rispetto alla copertura (Status=Single)  No Copertura= 40%, Accuratezza = 50%

Utilzzo di un classificatore a regole R1: (Give Birth = no)  (Can Fly = yes)  Birds R2: (Give Birth = no)  (Live in Water = yes)  Fishes R3: (Give Birth = yes)  (Blood Type = warm)  Mammals R4: (Give Birth = no)  (Can Fly = no)  Reptiles R5: (Live in Water = sometimes)  Amphibians La prima tupla è coperta da R3, e quindi classificata come mammal La seconda tupla è coperta da R4 e R5 La terza da nessuna

Proprietà di un Rule-Based Classifier Regole mutuamente esclusive Le regole sono indipendenti Ogni istanza è coperta da al massimo una regola Regole esaustive Ogni possibile combinazione di attributi è contemplata Ogni istanza è coperta da almeno una regola

Dagli alberi alle regole Regole esclusive ed esaustive Equivalenza

Semplificazione Regola iniziale: (Refund=No)  (Status=Married)  No Regola semplificata: (Status=Married)  No

Effetti della semplificazione Le regole non sono più esclusive Una tupla può essere coperta da più regole Ordinamento Schema di votazione Le regole non sono più esaustive Una tupla può non essere coperta Classe di default Non sempre è un problema!

Schemi di ordinamento Rule-based ordering Class-based ordering Sulla base della qualità Class-based ordering Sulla base della classe

Generazione di classificatori a regole Metodo diretto: Estrazione diretta dai dati RIPPER, CN2, … Metodo indiretto: Estrazione da altri modelli (Alberi di decisione, reti neurali, …) C4.5rules

Metodo Diretto: Sequential Covering Si comincia con un insieme vuoto Si genera una regola Si rimuovono le istanze coperte dalla regola Si ripetono i passi (2) e (3) fino a quando il criterio di stop non è soddisfatto

Sequential Covering: Esempio

Sequential Covering: Esempio

Caratteristiche Generazione di una regola Eliminazione delle istanze Valutazione della regola Criterio di stop Pruning

Generazione di una regola Due strategie

generazione (Esempi) CN2: RIPPER: Antecedente inizialmente vuoto: {} Aggiungi la condizione che minimizza l’entropia: {A}, {A,B}, … Il conseguente è la classe di maggioranza delle istanze coperte RIPPER: Regola iniziale: {} => class Aggiungi la condizione che massimizza l’information gain: R0: {} => class (1) R1: {A} => class (2) Gain(R0, R1) = t [ log (p1/(p1+n1)) – log (p0/(p0 + n0)) ] Dove: t: numero delle istanze positive coperte da R0 e R1 p0: numero di istanze positive coperte da R0 n0: numero di istanze negative coperte da R0 p1: numero di istanze positive coperte da R1 n1: numero di istanze negative coperte da R1

Eliminazione delle istanze Perché l’eliminazione? Evitare di generare la stessa regola In particolare, rimuoviamo le istanze positive Vanno rimosse anche le istanze negative? SI: evitiamo di sottostimare l’accuratezza Confrontate R2 e R3 nel diagramma

Valutazione di una regola Metriche: Accuratezza Laplace M-estimate n : Numero di istanze coperte dalla regola nc : Numero di istanze correttamente coperte dalla regola k : Numero di classi p : Prior probability

Criteri di stop e di pruning Calcoliamo il guadagno Se non è significativo, eliminiamo la regola Rule Pruning Simile al post-pruning degli alberi di decisione Reduced Error Pruning: Rimuovi uno dei componenti l’antecedente Confronta l’errore con e senza la rimozione Se l’errore migliora, accetta il taglio