Discovering Relative Importance of Skyline Attributes Gruppo 8 Altobelli Andrea (Relatore) Ciotoli Fabio Denis Mindolin, Jan Chomicki.

Slides:



Advertisements
Presentazioni simili
OLIMPIADI DI FISICA a.s. 2008/2009
Advertisements

Strutture dati per insiemi disgiunti
I numeri naturali ….. Definizione e caratteristiche
2. Introduzione alla probabilità
/ fax
Il linguaggio della Matematica: Insiemi e operazioni
1 Processi e Thread Processi Thread Meccanismi di comunicazione fra processi (IPC) Problemi classici di IPC Scheduling Processi e thread in Unix Processi.
COORDINATE POLARI Sia P ha coordinate cartesiane
6. Catene di Markov a tempo continuo (CMTC)
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
1 Il punto di vista Un sistema è una parte del mondo che una persona o un gruppo di persone, durante un certo intervallo di tempo, sceglie di considerare.
Algoritmi e Strutture Dati
Lez. 91 Universita' di Ferrara Facolta' di Scienze Matematiche, Fisiche e Naturali Laurea Specialistica in Informatica Algoritmi Avanzati Alberi di ricerca.
Modellazione per addizione: denti posteriori
esponente del radicando
1 Istruzioni, algoritmi, linguaggi. 2 Algoritmo per il calcolo delle radici reali di unequazione di 2 o grado Data lequazione ax 2 +bx+c=0, quali sono.
Cammini minimi con sorgente singola
6. Catene di Markov a tempo continuo (CMTC)
Ordini Parziali - Reticoli
Esercitazioni su circuiti combinatori
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
R. Soncini Sessa, MODSS, L 24b Analisi a molti obiettivi-esempi Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini Sessa.
Stato di Avanzamento dello sviluppo del modulo Concretizator
La Concorrenza Perfetta e La
Capitolo 9 I numeri indici
U V U V (a) |cfc|=2 prima e dopo (b) |cfc|=2 prima e |cfc|=1 dopo
Algoritmo di Ford-Fulkerson
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie.
Capitolo 9 Il problema della gestione di insiemi disgiunti (Union-find) Algoritmi e Strutture Dati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie.
Processi Aleatori : Introduzione – Parte I
Corso di Informatica (Programmazione)
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Problemi e algoritmi Anno Accademico 2009/2010.
Realizzazione e caratterizzazione di una semplice rete neurale per la separazione di due campioni di eventi Vincenzo Izzo.
Algoritmi e Strutture Dati (Mod. B)
Seminario su clustering dei dati – Parte II
Modelli e Algoritmi per la Logistica
CONTROLLO DI SUPPLY CHAIN MEDIANTE TECNICHE H-INFINITO E NEGOZIAZIONE
Progetto CRESCO S.P.III.3 Modelli e Strumenti di supporto alla Ottimizzazione e Riconfigurazione delle Reti A. Chella, G. Lo Re, A. De Paola Dipartimento.
Algoritmi e Strutture Dati
I numeri by iprof.
I numeri relativi by iprof.
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
Qualità - 1 / 26 Lezione 1 La qualità del prodotto.
Notazioni Asintotiche e Ordini di Grandezza delle funzioni
Intelligenza Artificiale
Dipartimento di Economia
Elaborato di Teoria dello Sviluppo dei Processi Chimici
1. Obiettivo del PSL rafforzare lidentità dellarea del GAL e aumentare la sua attrattività come luogo di residenza, produzione, turismo 2.
Elementi di Informatica di base
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
Metodi di soluzione guasti nel volo in formazione di velivoli autonomi Candidato: Simone Di Nisio Relatori: Prof. M.Innocenti Prof. A. Balestrino.
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
SCOPRI LA TABELLINA click Trova la regola nascosta… click
1 Questionario di soddisfazione ATA - a. sc. 2008/09 Il questionario è stato somministrato nel mese di aprile Sono stati restituiti 29 questionari.
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
1101 = x 10 x 10 x x 10 x = CORRISPONDENZE
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
Pippo.
Bando Pittori e Scultori in Piemonte alla metà del ‘700
lun mar mer gio ven SAB DOM FEBBRAIO.
L’EQUILIBRIO ECONOMICO GENERALE
1 PerfectFit06 Sistema di personalizzazione dei contenuti per gli scavi archeologici di Ercolano Candidato: Vincenzo Scognamiglio Relatore: Prof. Ernesto.
Euro e Fiscal Compact: perché? Che fare ? Associazione Giuseppe Mazzini, Bruxelles 13 maggio Fabio Colasanti.
Università degli studi di Parma Dipartimento di Ingegneria dell’Informazione Politecnico di Milano Reti Logiche A Macchine non completamente specificate.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Transcript della presentazione:

Discovering Relative Importance of Skyline Attributes Gruppo 8 Altobelli Andrea (Relatore) Ciotoli Fabio Denis Mindolin, Jan Chomicki

Scenario Skyline IdMakePriceYear t1ford30k2007 t2bmw45k2008 t3kia20k2007 t4ford40k2008 t5bmw50k2006 make : bmw ford kia year : dal più nuovo price : dal meno costoso Vorrei una macchina di buona marca, nuova e poco costosa… 2

Scenario Skyline Equivalenza degli attributi (Pareto improvement principle): Alto numero di tuple incomparabili allaumentare del numero di attributi crescita dello skyline esponenziale Impossibilità da parte dellutente di esprimere limportanza relativa tra attributi IdMakePriceYear t1ford30k2007 t2bmw45k2008 t3kia20k2007 t4ford40k2008 t5bmw50k2006 make : bmw ford kia year : dal più nuovo price : dal meno costoso 3

Scenario P-Skyline IdMakePriceYear t1ford30k2007 t2bmw45k2008 t3kia20k2007 t4ford40k2008 t5bmw50k2006 make : bmw ford kia year : dal più nuovo price : dal meno costoso Year più importante di Price e Make Vorrei una macchina principalmente nuova, poi di buona marca e poco costosa… 4

Scenario P-Skyline Introducono il concetto di importanza tra attributi: Numero maggiore di tuple comparabili riduzione della dimensione dello skyline Maggiore capacità espressiva da parte degli utenti IdMakePriceYear t1ford30k2007 t2bmw45k2008 t3kia20k2007 t4ford40k2008 t5bmw50k2006 make : bmw ford kia year : dal più nuovo price : dal meno costoso Year più importante di Price e Make 5

P-Skyline relation Relazione di ordinamento totale A indotto da un attributo singolo A: = { (t,t) | t.A > A t.A } Pareto accumulation di relazioni p-skyline ( ha la stessa importanza di ): = & Prioritized accumulation di relazioni p-skyline ( ha maggiore importanza di ): = 6

P-Skyline relation Relazione di ordinamento totale A indotto da un attributo singolo A: = { (t,t) | t.A > A t.A } Year year : dal più nuovo 7

P-Skyline relation Pareto accumulation di relazioni p-skyline ( ha la stessa importanza di ): = & make : bmw > ford > kia year : dal più nuovo price : dal meno costoso YearPriceMake = year & make & price 8

P-Skyline relation Prioritized accumulation di relazioni p-skyline ( ha maggiore importanza di ): = make : bmw ford kia year : dal più nuovo price : dal meno costoso Year più importante di Price e Make Year PriceMake 2 = year ( make & price ) 9

Linterazione con lutente Bisogna conoscere limportanza relativa degli attributi e linformazione deve essere estratta dagli utenti. Come? A.Lutente indica esplicitamente limportanza relativa degli attributi Per ogni coppia: n*(n-1)/2 confronti!!! Ammesso che l'utente abbia le idee chiare… B.Uso dei feedback dell'utente: esempi superiori (Great) ed inferiori (Worst) 10

Great & Worst examples Great examples: Tuple che piacciono allutente Worst examples: Tuple che non piacciono allutente G W Come utilizzare tale informazione?!? 11

Obiettivi Dati un insieme G e un insieme W: 1.Verificare l'esistenza di almeno una p- skyline relation 2.Costruire la p-skyline relation, ed in particolare quella ottimale tra tutte 12

Obiettivi 1.Verificare l'esistenza di una p-skyline relation che: Favorisca le tuple preferite G Le tuple G devono far parte dellinsieme delle migliori tuple secondo Sfavorisca quelle non preferite W Le tuple W non devono far parte dellinsieme delle migliori tuple secondo 13

Obiettivi 2.Costruire la p-skyline relation, ed in particolare quella ottimale tra tutte: Year PriceMake IdMakePriceYear t1ford30k2007 t2bmw45k2008 t3kia20k2007 t4ford40k2008 t5bmw50k = year ( make & price ) 14

Obiettivi 2.Costruire la p-skyline relation, ed in particolare quella ottimale tra tutte: Massimizza le relazioni di importanza tra gli attributi Maggior numero di oggetti confrontabili Minimizza gli oggetti nel risultato Corrispondenza più precisa con le preferenze dell'utente Year PriceMake IdMakePriceYear t1ford30k2007 t2bmw45k2008 t3kia20k2007 t4ford40k2008 t5bmw50k = year ( make & price ) ott = year make price 15

Complessità del Problema Verifica dell'esistenza: NP-Completo Costruzione della relazione: FNP-Completo Difficile costruire W… Versione semplificata del problema, considerando solo l'insieme G Complessità Polinomiale!!! 16

Il winnow di ogni p-skyline relation è contenuto nel winnow di una skyline relation Affinchè G possa rappresentare il winnow di una relazione p-skyline deve valere: G skyline p-skyline 1 p-skyline 2 Verifica dellesistenza skyline 17

Costruzione: Algoritmo Discover 1. A partire dall'insieme G, generazione di un insieme di vincoli (G, ) 2. Costruzione della relazione ottima 18

Costruzione: Algoritmo Discover 1. A partire dall'insieme G, generazione di un insieme di vincoli (G, ) Garantiscono che gli esempi superiori non siano dominati da alcun oggetto G = {t3}, da cui t3 non deve essere dominato: t1 t3, t2 t3, t4 t3 e t5 t3 Es. t1 t3 IdMakePrice t1ford30k t3kia20k t1.make > t3.make t3.price > t1.price Price Make In generale: linsieme degli attributi in cui t domina t non deve essere contenuto nellinsieme dei figli degli attributi in cui t domina t… 19

2. Costruzione della relazione 1.Si parte dalla relazione skyline (uguale importanza degli attributi) 2.Si applicano regole di trasformazione al grafo Ogni trasformazione introduce una sola relazione di importanza tra attributi (estensione minima del grafo) Una regola può essere applicata solo se rispetta i vincoli!!! YearPriceMake YearMake Price YearPrice Make Costruzione: Algoritmo Discover 20

2. Costruzione della relazione 3.Per ogni attributo si itera il punto 2 finché è possibile In questo modo si ottiene il grafo ottimale (con il massimo numero di connessioni tra attributi) Nel pieno rispetto dei vincoli!!! YearPrice Make Year Price Make Price Make Year Costruzione: Algoritmo Discover 21

Complessità O(|| |A| 3 ) dove: N è l'insieme dei vincoli A è l'insieme degli attributi Polinomiale!!! 22

Finora i vincoli (G, ) creati tra ogni elemento di G e tutti gli elementi di |(G, )|= |G|(||-1) G è estratto dal winnow della relazione skyline Gli oggetti di G non possono essere dominati dagli oggetti al di fuori del winnow Necessari solo i vincoli con il resto del winnow: |(G, )|= |G|(| skyline ()|-1) Ottimizzazione dei vincoli skyline G G 23

Esperimenti: Accuratezza O: database reale, statistiche giocatori NHL, circa 10K tuple Attributi rilevanti: |A| = {12, 6} 100 relazioni p-skyline fav generate casualmente G fav generato prelevando 5 tuple per volta dal w fav (O) 24

Esperimenti: Accuratezza Quando |G fav | > 15 l'accuratezza supera l'83% L'accuratezza converge a 1 velocemente per minor numero di attributi, a causa della minore dimensione dello skyline Fn-ratio relativamente alto per |G fav | piccola, poiché con pochi esempi l'algoritmo non riesce a catturare esattamente le preferenze dell'utente nella soluzione ottima 25

Esperimenti: Efficienza Tre data set da 50K tuple, con dati uniformi, correlati e anticorrelati |A| = {10, 15, 20} G costruito prendendo tuple simili tra loro (distanza L 2 ) Utilizziamo lalgoritmo Discover per calcolare che favorisce G 26

Esperimenti: Efficienza Tempo di esecuzione: In funzione di |G|, si stabilizza per valori maggiori di 20 All'aumentare del data set, aumenta la dimensione dello skyline e quindi il numero vincoli Allaumentare degli attributi: Lefficienza dell'algoritmo ne risente!!! O(|N| |A| 3 ) Cresce lo skyline e il numero di vincoli 27

Conclusioni Le p-skyline relation: maggiore potenza espressiva Il feedback utente: by example Lalgoritmo Discover: scalabile, preciso 28

Grazie per lattenzione!!! 29