Efficient construction of regression trees with Range and Region Splitting Yasuhiko Morimoto, Hiromu Ishii, Shinichi Morishita (1997) Gruppo 11: Paola.

Slides:



Advertisements
Presentazioni simili
Algoritmi e Strutture Dati
Advertisements

Algoritmi e Strutture Dati
Alberi binari di ricerca
1 la Torre Berardino Force rendering & Collision detection Dipartimento di Ingegneria dellInformazione Siena Ore F1F1 F2F2.
Analisi di regressione Fornire un semplice modello lineare dei dati per scopi Descrittivi Esplicativi Previsivi Adattare una retta minimizzando gli errori.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Stesso approccio.
Capitolo 4 Ordinamento Algoritmi e Strutture Dati.
Università degli Studi di Roma Tor Vergata
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Stesso approccio.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Stesso approccio.
Esercizi su alberi binari
Alberi binari Definizione della struttura dati: struct tree { };
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 22/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 12/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 19/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
Il problema del minimo albero ricoprente in un grafo con archi privati
Algoritmi e strutture Dati - Lezione 7
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Capitolo 4 Ordinamento: Heapsort Algoritmi e Strutture Dati.
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
Capitolo 4 Ordinamento Algoritmi e Strutture Dati.
Interrogazioni su un albero binario di ricerca Search(S,k) – dato un insieme S ed un valore chiave k restituisce un puntatore x ad un elemento in S tale.
Algoritmi e Strutture Dati
Capitolo 4 Ordinamento Algoritmi e Strutture Dati.
Algoritmi e Strutture Dati Alberi Binari di Ricerca.
Algoritmi e Strutture Dati (Mod. A)
Alberi di Ricorrenza Gli alberi di ricorrenza rappresentano un modo conveniente per visualizzare i passi di sostitu- zione necessari per risolvere una.
Algoritmi e Strutture Dati
Modello dati ALBERO Albero: Albero: insieme di punti chiamati NODI e linee chiamate EDGES EDGE: linea che unisce due nodi distinti Radice (root): in una.
Modello dati ALBERO Albero: Albero: insieme di punti chiamati NODI e linee chiamate EDGES EDGE: linea che unisce due nodi distinti Radice (root): in una.
Filtri adattativi.
Esercizi su alberi binari
CALCOLO EVOLUZIONISTICO. In ogni popolazione si verificano delle mutazioni. Le mutazioni possono generare individui che meglio si adattano allambiente.
Fibonacci Heaps e il loro utilizzo nell’algoritmo di Prim
Anche la RB-Delete ha due fasi: Nella prima viene tolto un nodo y avente uno dei sottoalberi vuoto sostituendolo con la radice dellaltro sottoalbero. Per.
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
Heap Ordinamento e code di priorità Ugo de Liguoro.
Algoritmi e Strutture Dati
B trees.
STATISTICA PER LE DECISIONI DI MARKETING
I modelli Predittivi: Traning e Validation data set
Capitolo 6 Alberi di ricerca Algoritmi e Strutture Dati.
Alberi Alberi radicati : alberi liberi in cui un vertice è stato scelto come radice. Alberi liberi : grafi non orientati connessi e senza cicli. Alberi.
1 Ordinamento (Sorting) INPUT: Sequenza di n numeri OUTPUT: Permutazione π = tale che a 1 ’  a 2 ’  … …  a n ’ Continuiamo a discutere il problema dell’ordinamento:
Algoritmi e strutture Dati - Lezione 7 1 Algoritmi di ordinamento ottimali L’algoritmo Merge-Sort ha complessità O(n log(n))  Algoritmo di ordinamento.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Algoritmi e Strutture Dati
1 Ordinamento (Sorting) Input: Sequenza di n numeri Output: Permutazione π = tale che: a i 1  a i 2  ……  a i n Continuiamo a discutere il problema dell’ordinamento:
Laureando: Enrico Sperindio Relatore: Prof. GIORGIO ROMANIN JACUR
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Capitolo 4 Ordinamento: Heapsort Algoritmi e Strutture Dati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Progettare algoritmi.
CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori PRESENTAZIONE Sistemi Informativi.
Problemi risolvibili con la programmazione dinamica Abbiamo usato la programmazione dinamica per risolvere due problemi. Cerchiamo ora di capire quali.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
Decision Tree Based Transient Stability Method A Case Study Gruppo 10: Alessandro Gambini Michele Leoni Sistemi informativi per le decisioni LS 15 marzo.
Università degli Studi di Cagliari FACOLTA’ DI INGEGNERIA
Programmazione lineare: un esempio Mix produttivo ottimo con risorse vincolate Materiale di studio: M. Fischetti, Lezioni di RO, Cap. 3. Libreria Progetto.
Divide et Impera Parte 11 - Risoluzione di problemi per divisione in sottoproblemi “bilanciati” Corso A: Prof. Stefano Berardi
Algoritmi e Strutture Dati HeapSort. Select Sort: intuizioni L’algoritmo Select-Sort  scandisce tutti gli elementi dell’array a partire dall’ultimo elemento.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Endogenous restricted participation
Capitolo 6 Alberi di ricerca Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Statistica con Excel Corso di Fisica ed Elementi di Laboratorio ed Informatica CdL Scienze Biologiche AA 2015/2016.
Prof.ssa Rossella Petreschi Lezione del 17 /10/2014 del Corso di Algoritmica Lezione n°5.
Programmazione lineare: un esempio Mix produttivo ottimo con risorse vincolate Materiale di studio: M. Fischetti, Lezioni di RO, Cap. 3. Libreria Progetto.
Transcript della presentazione:

Efficient construction of regression trees with Range and Region Splitting Yasuhiko Morimoto, Hiromu Ishii, Shinichi Morishita (1997) Gruppo 11: Paola Belingheri Maria Giulia Casanova Alice Spadazzi Sistemi Informativi per le Decisioni L-S Prof. Marco Patella

Costruzione efficiente di alberi di regressione con splitting in intervallo e regione Obiettivo: Predire il valore di un attributo numerico tramite albero di regressione binario in maniera più efficiente rispetto allo split con soglia Indice 1.Introduzione al Range & Region Splitting 2.Possiamo calcolare la regione R ottimale ad ogni split in modo efficiente? 3.Il region-splitting permette di ottenere un albero di regressione più preciso? 4.Conclusioni 5.Applicazioni pratiche

1.Introduzione al Range & Region Splitting Costruzione dell’albero di regressione con un test di “Split ad ogni nodo rettangoli! Rischio di overfitting La ghigliottina non è efficiente 0,85 x 22 x height 2 < weight < 1,15 x 22 x height 2 relazione non-lineare fra gli attributi! Albero di regressione binario Esempio Il paziente deve fare la dieta?

Definizioni: Attributi condizionali: numerici, usati per predire Attributo obiettivo A: numerico, il valore da predire Scarto quadratico medio (MSE): tuple test set valore effettivo di A valore predetto = valore medio delle tuple presenti nella foglia in cui finisce t min Domande: 1. Possiamo calcolare in modo efficiente la regione che minimizza MSE? 2. Il region-splitting permette di ottenere un albero di regressione più preciso? Un modo più furbo 1.Introduzione al Range & Region Splitting

Vogliamo predire il valore dell’indice SP500 Attributi: 1.anno 2.mese 3.settimana 4.BPS: US$/Pound 5.GDM: US$/Mark 6.Yen: US$/yen 7.TB3M 8.TB30Y 9.Gold: US$/oncia 10.SP500 Tre tipologie di regioni ammissibili: Valori distribuiti “meglio”! Selezione di due attributi condizionali: Gold e GDM Divisione in N bucket equi-width (N Gold = N GDM) Pixel: intersecando gli N bucket ottengo N 2 pixel D out D in 1.Introduzione al Range & Region Splitting DwDw

Indice 1.Introduzione al Range & Region Splitting 2.Possiamo calcolare la regione R ottimale ad ogni split in modo efficiente? 3.Il region-splitting permette di ottenere un albero di regressione più preciso? 4.Conclusioni 5.Applicazioni pratiche

2 - Possiamo calcolare la regione R ottimale ad ogni split in modo efficiente? Regioni ammissibili: tutte le combinazioni di N x N pixel N N Esempio: = regioni possibili Varianza Interclasse: min max max V(R) min MSE(R) Selezionare tra queste la regione che minimizza MSE(R): D in D out |D in | + |D out |

2 - Possiamo calcolare la regione R ottimale ad ogni split in modo efficiente? Trasformazione STAMP POINT max 1.Poniamo = Poniamo x =, y =, M = 5. D in D out

2 - Possiamo calcolare la regione R ottimale ad ogni split in modo efficiente? È una funzione CONVESSA per 0 ≤ x ≤ M calcolo x e y V(R) x y

2 - Possiamo calcolare la regione R ottimale ad ogni split in modo efficiente? x y max V(R) in una regione convessa quindi il punto di max corrisponde ad un punto (x,y) che si trova sulla frontiera dell’inviluppo convesso: la regione minima che contiene tutti i punti nel piano θ Come trovare i punti dell’inviluppo? HAND PROBING N N punti da “tastare” Algoritmo Hand-Probing

Guidato da: presi due punti P 1 e P 2 sulla frontiera e Q intersezione delle tangenti all’inviluppo in P 1 e P 2 per ogni punto P interno al triangolo P 1 P 2 Q V(P) ≤ V(Q) se V(Q) ≤ V max corrente, allora pota tutto il triangolo altrimenti esplora il vertice più esterno del triangolo (P 3 ) 2 - Possiamo calcolare la regione R ottimale ad ogni split in modo efficiente? Branch-and-bound : algoritmo che permette di individuare ricorsivamente la “direzione più furba” in cui spostarsi alla ricerca della soluzione ottima scarta a priori le soluzioni ammissibili ma non migliorative dell’ottimo corrente Branch-and-Bound Guidato

2 - Possiamo calcolare la regione R ottimale ad ogni split in modo efficiente? ─ V max := 0; ─ Per ogni intervallo I = {P i,P j } V max := max {V(P i ),V(P j ), V max } if V(Q) ≤ V max allora pota I else trova il vertice più esterno di I e aggiorna V max Complessità computazionale: O(N 4 log N): rettilineare O(N 3 log N): rettangolare O(N 3 log N): x-monotona V max aumenta mentre I si restringe ad ogni iterazione Algoritmo Branch-and-Bound

Indice 1.Introduzione al Range & Region Splitting 2.Possiamo calcolare la regione R ottimale ad ogni split in modo efficiente? 3.Il region-splitting permette di ottenere un albero di regressione più preciso? 4.Conclusioni 5.Applicazioni pratiche

Guadagno sufficiente Guadagno insufficiente 3 - Il region-splitting permette di ottenere un albero di regressione più preciso? Inizio Selezione della regione in cui suddividere le tuple della foglia corrente per ottenere il nuovo nodo di regression tree trovando la regione che massimizza V(R) mediante l’algoritmo “Guided Branch-and-Bound” Creazione di due sotto-alberi: uno con il dataset “interno alla regione e l’altro con il dataset “esterno” ad essa (Avvia due ricorsioni) Fine Calcolo del guadagno di splitting, fatto da MSE nodo padre - MSE nodi figli Alberi di regressione più larghi potrebbero ridurre MSE ma…rischio di overfitting! Fino a che punto espandere l’albero?

3 - Il region-splitting permette di ottenere un albero di regressione più preciso? parametro di pruning generiamo una serie di alberi per diversi valori di α e troviamo il migliore MSE relativo α pruning α = 0,0002 buon valore! MSE nodo padre - MSE nodi figli ≥ α x

3 - Il region-splitting permette di ottenere un albero di regressione più preciso? Anche la pixel-density (n° medio di tuple per pixel) influenza MSE… MSE relativo α pruning …una pixel-density fra 5 e 10 genera minimizza MSE In sintesi : un buon α e una buona pixel-density generano alberi di regressione più precisi e compressi le regioni rettilineari generano gli alberi più precisi

Indice 1.Introduzione al Range & Region Splitting 2.Possiamo calcolare la regione R ottimale ad ogni split in modo efficiente? 3.Il region-splitting permette di ottenere un albero di regressione più preciso? 4.Conclusioni 5.Applicazioni pratiche

4 - Conclusioni 1.Possiamo trovare relazioni non-lineari fra gli attributi 2.Possiamo ridurre MSE in media del 10% (in alcuni casi fino al 34%) ma… 3.L’algoritmo è sensibile al numero di attributi (pressoché lineare nel quadrato del numero di attributi) N.B. Costruendo l’albero su un training set “scelto bene” posso rendere ragionevole il costo computazionale

Indice 1.Introduzione al Range & Region Splitting 2.Possiamo calcolare la regione R ottimale ad ogni split in modo efficiente? 3.Il region-splitting permette di ottenere un albero di regressione più preciso? 4.Conclusioni 5.Applicazioni pratiche

5 – Applicazioni pratiche: L’età dell’abalone Abalone: mollusco che vive nei mari della Tasmania e della costa nord dell’Islanda Studio dell’età: affettare la conchiglia del mollusco, colorarla e esaminare al microscopio il numero di anelli presenti lungo e noioso Usiamo il range-region splitting su altri attributi: Fonte:

5 – Applicazioni pratiche: I bracci meccanici del Robot Puma Predire l’accelerazione angolare del braccio meccanico del Robot Puma