Corso di Sisitemi Informativi per le Decisioni A.A. 2006-2007 Prof. Ing. Marco Patella Lacorte Francesco Sirianni Paolo Alma Mater Studiorum – Università.

Slides:



Advertisements
Presentazioni simili
Studio di strutture guidanti periodiche
Advertisements

G1RD-CT e-Volution II Page 1 Project funded by the European Community under the Competitive and Sustainable Growth Programme ( )PROJECT.
FUNZIONI REALI DI DUE VARIABILI REALI
Profilazione d’utente nei sistemi di e-commerce
1. LO SCORING Lo scoring è una metodologia di analisi che consente di esprimere un giudizio estremamente sintetico, rappresentato da un singolo numero,
LA VARIABILITA’ IV lezione di Statistica Medica.
COORDINATE POLARI Sia P ha coordinate cartesiane
La teoria di portafoglio: cap.7-9
FUNZIONI DI DUE VARIABILI
6. Catene di Markov a tempo continuo (CMTC)
6. Catene di Markov a tempo continuo (CMTC)
ECONOMIA E GESTIONE DELL INNOVAZIONE AZIENDALE Docente A.Federico Giua a.a / 2010 UNIVERSITA CARLO CATTANEO 8° Capitolo SELEZIONE DEL CONCEPT SPECIFICHE.
Enver Sangineto, Dipartimento di Informatica Multimedia Information Retrieval.
Support Vector Machines
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: il linguaggio della ricerca CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI-
Università degli Studi di Pavia
Sistemi di equazioni lineari
Teoria e Tecniche del Riconoscimento
Stima ed algoritmi di consensus distribuito: considerazioni su IKF
Seminario su clustering dei dati – Parte I
Scene Modelling, Recognition and Tracking
Teoria e Tecniche del Riconoscimento
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Analisi dei gruppi – Cluster Analisys
UNIVERSITÀ DEGLI STUDI DI PERUGIA Dipartimento di Ingegneria Industriale Prof. Francesco Castellani Corso di Meccanica Applicata A.A.
Intelligenza Artificiale Algoritmi Genetici
Modello E-R Generalizzazioni
Il progetto di business nella nuova economiaLezione 8: L'analisi di settore1 LANALISI DI SETTORE.
APPLICAZIONI DI INTELLIGENZA ARTIFICIALE ALLA MEDICINA
Antonello DAguanno Music Information Retrieval - AUDIO.
Sito Web MusicMania.com Marco Berlenghini. Descrizione del Sito Il sito ha come tema principale la Musica e più in particolare gli album musicali. Gli.
Il Semantic Web applicato ai percorsi formativi nelle organizzazioni innovative By CSTAdvising CSTAdvising, professionisti della conoscenza,
Programma Impostazione di un nuovo Progetto
Statistica economica (6 CFU) Corso di Laurea in Economia e Commercio a.a Docente: Lucia Buzzigoli Lezione 5 1.
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
Discovering Relative Importance of Skyline Attributes Gruppo 8 Altobelli Andrea (Relatore) Ciotoli Fabio Denis Mindolin, Jan Chomicki.
Multimedia Information Retrieval
Valutazione delle prstazioni di un sistema di retrieval
SIBA Days 2009 – II Edizione MetaSearch, lo strumento per il discovery e il delivery delle risorse bibliografiche e documentarie Walter Stefano Coordinamento.
Continuos Query Processing in Data Streams Using Duality of Data and Queries Hyo-Sang Lim, Jae-Gil Lee, Min-Jae Lee,Kyu-Young Whang, Il-Yeol Song GRUPPO.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Paper Based Prototipe Laboratorio di Basi di Dati 2 Università di Roma La Sapienza Tecnologie Informatiche Anno 2003/2004.
Evolve. Il software EVOLVE consente un veloce accesso, visualizzazione ed estrazione dei dati contenuti nel data base dellAmministrazione del Personale.
Università degli Studi di Cagliari
Studio degli indici per query di similarità basati su matrici di distanze Esame di Sistemi Informativi per le Decisioni L-S Presentato da: Ing. Marco Patella.
Vettori dello spazio bidimensionale (R 2)
1 PerfectFit06 Sistema di personalizzazione dei contenuti per gli scavi archeologici di Ercolano Candidato: Vincenzo Scognamiglio Relatore: Prof. Ernesto.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Composizione grafica dott. Simone Cicconi CORSO DI ECONOMIA POLITICA MACROECONOMIA Docente: Prof.ssa M. Bevolo Lezione n. 7 II SEMESTRE A.A
Didattica e Fondamenti degli Algoritmi e della Calcolabilità Terza giornata: principali classi di complessità computazionale dei problemi Guido Proietti.
Relatore: Prof. Marco Porta Correlatore: Prof. Lidia Falomo
IL CAMPIONE.
“Exact Indexing of Dynamic Time Warping” di E.Keogh G. Fregnan, T. Splendiani 17/03/06 Exact Indexing of Dynamic Time Warping Eamonn Keogh Computer Science.
IL PROCESSO EVOLUTIVO DELLA MUSICA
RETI NEURALI - 2.
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
Allineamento di sequenze
Università degli Studi di Bologna FACOLTÀ DI INGEGNERIA Corso di Laurea in Ingegneria Gestionale Ricerca Operativa MODELLI PER L’OTTIMIZZAZIONE DELL’OFFERTA.
APPROSSIMAZIONE DI FUNZIONI
SnippetSearch Database di snippet bilanciato e replicato di Gianluigi Salvi Reti di calcolatori LS – Prof. A.Corradi.
Assicurazioni vita e mercato del risparmio gestito Lezione 13 Modelli media varianza con N titoli.
Simulazione Interattiva di Capelli Marta De Cinti Anno accademico 2005/2006 Università di Roma “La Sapienza” Relatore Prof. Marco Schaerf Correlatore Ing.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
SISR-USABILITÀ VALUTAZIONE DI USABILITÀ (fonte prof. Polillo)
WEB MARKETING PER IL TURISMO. Aumentare la visibilità del proprio brand e promuovere i propri servizi sul web grazie alla pubblicità on line. Campagne.
Lezione n° 10 Algoritmo del Simplesso: - Coefficienti di costo ridotto - Condizioni di ottimalità - Test dei minimi rapporti - Cambio di base Lezioni di.
L’Analisi delle Corrispondenze. Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o.
Lezione n° 6 -Ottimi globali e locali -Risoluzione grafica di un problema di PL -Definizione di Iperpiano e Semispazi. -Insiemi convessi. -Politopi e poliedri.
Prof.ssa Cecilia Silvestri - A.A. 2014/ Evoluzione dei Mercati Storia della Qualità Principi del TQM CFs of TQM Prof.ssa Cecilia Silvestri - A.A.
Transcript della presentazione:

Corso di Sisitemi Informativi per le Decisioni A.A Prof. Ing. Marco Patella Lacorte Francesco Sirianni Paolo Alma Mater Studiorum – Università di Bologna

Aumento esponenziale dei contenuti musicali Sviluppo costante di mezzi per l’accesso di musica online (streaming and purchase) Nuove esigenze:  creare una nuova tassonomia  necessità di nuovi “search & retrieval tools” Music Information Retrieval L’ 80% delle vendite totali 3% dei titoli in commercio

Basate sui classici metadata (artista, genere, anno…) Basate su approcci collaborativi, tenendo traccia degli acquisti e degli ascolti sui vari portali di utenti con gusti simili (Last.fm) content-based retrieval (search sui data) effettuato per similitudine su: - rappresentazioni simboliche (MIDI) - rappresentazioni acustiche (wav, mp3) Modalità di classificazione e ricerca

> Attività di raccomandazione di contenuti musicali Rimanda a siti come iTunes e Amazon per l’eventuale acquisto di titoli musicali Pandora.com Nel 2000 Tim Westergren, promuove un nuovo progetto (commerciale) di classificazione della musica

Music Genome Project TM “gene” “cromosoma” “genoma” L’analisi di ogni brano richiede circa minuti da parte di esperti Ogni canzone è descritta da un insieme di caratteristiche dette “geni” I geni sono raggruppati in gruppi logici detti cromosomi L’insieme dei cromosomi vanno a costituire il genoma Ogni brano risulta in definitiva rappresentato come un vettore di massimo 400 attributi Alcuni attributi: Aggressive Female Vocalist Boogie Woogie Rhythms Dirty Electric Guitar Riffs Electric Guitars Explicit Lyrics Great Electric Guitar Solo Major Key Tonality … _Genome_Project_attributes

Source Core Engine Identify focus traits MGP database User Find matching songs Choose new seed Select focus Traits for re- weight Schema di funzionamento

Focus traits Core Engine raggiunto valore soglia per un certo gene? gene identificato come Definer? gruppi di geni soddisfano criteri specifici? Focus trait sono individuati applicando le triggering rules al brano seme rappresentano gli “aspetti” su cui focalizzare la ricerca possono cambiare nel tempo in seguito ai feedback dell’utente Evoluzione dinamica dei criteri di creazione della playlist

Visualizzazione dei focus traits

Seed song S = (s 1,s 2,s 3,…,s n )  Cercare K punti geometricamente vicini: problema K-NN Distanza (S,T)= Matching method (song to song) privilegia le canzoni che hanno molte piccole differenze rispetto a quella seme piuttosto che poche differenze grandi  I “geni” non sono tutti ugualmente importanti: l’importanza viene espressa mediante un opportuno vettore di pesi: W = (w 1,w 2,w 3,…,w n ) Distanza (S,T)= Ai vettori S e T viene applicata una funzione f(x) per esprimere la non linearità dei dati Distanza (S,T)=

Indicizzazione nel database elevato numero di record (circa 2 milioni di brani ad oggi) alta dimensionalità dei dati La distanza di ogni foglia dalla sua leaf-parent è minore della distanza della stessa foglia da qualsiasi altra leaf-parent La ricerca dei K-NN funziona con una logica di lista (parte dai più vicini ed espande) Non bilanciato root internal nodes leaf parent data-point

Multi-Song Matching (1) Il seme può non essere una singola canzone Viene scelto come “seme” la discografia di un artista Viene scelto come seme un gruppo di canzoni  viene identificato un “brano virtuale” (virtual song) che rappresenta idealmente il centro del seed set  la virtual song è in grado di esprimere l’ ”ampiezza” del set scelto  ci avviciniamo nel senso più ampio del termine ai gusti reali dell’utente low deviation axis high deviation axis

Multi-Song Matching (2) La virtual song è rappresentata con una coppia di vettori: C=(      ,…,  n   esprime le coordinate del centroide nello spazio multidimensionale  I suoi elementi rappresentano la media aritmetica dei geni del seed set D=(      ,…,  n   indica l’ “ampiezza” del set originario  l’i-esimo elemento rappresenta la deviazione standard dell’i-esimo gene nel seed set

Il vettore peso del multi song I valori del vettore varianza possono essere intuitivamente utilizzati per affinare il vettore dei pesi: Una varianza bassa (alta) è associata a un gene con un valore “molto (poco) desiderato” La formula della distanza della virtual song C rispetto a una target song T è espressa quindi come: Distanza (C,T)= In caso di   =0 il peso diverrebbe infinitamente grande, viene quindi introdotto un fattore correttivo per ovviare al problema Distanza (C,T)=

MindReader ( Ishikawa, Subramanya, Faloutsos, 1998) “Indovinare” le preferenze di un utente in base a un set di esempi “positivi” da lui forniti L’utente fornisce una serie di esempi L’utente può eventualmente assegnare uno score agli esempi Gli esempi forniti godono di correlazione spaziale come dedurre la query implicitamente richiesta dall’utente? individuare una distanza opportuna partendo dagli esempi ? Euclidea ? Euclidea pesata q q

Funzione distanza (1) generalized ellipsoid distance: D (x, q) = (x – q) T M (x – q) q D (x, q) =  j  k m jk (x j – q j ) (x k – q k ) anche Formulazione del problema: Dati  N vettori esempio di dimensione n  una scala di valutazione Trovare  la matrice M ottima  Il punto q ottimo Minimizzare la D (x, q) = (x – q) T M (x – q) Sotto il vincolo det(M) = 1

Funzione distanza (2) Risolvendo con i Moltiplicatori di Lagrange… Il query point ottimo è dato da: Teorema 1. q = x = [x 1, …, x n ] T = X T v /  v i La matrice ottima delle distanze sarà: Teorema 2. M = (det(C)) 1/n C –1 C = [c jk ] è la matrice di covarianza c jk =  v i (x ik - x k ) (x ij - x j ) Se si restringe la matrice ottima alla sola diagonale si ha: Teorema 3.  (ovvero quello usato da Pandora per il re-weight)

Conclusioni… Pandora.com è una realtà economica: 15 milioni di dollari di fatturato nel milioni di utenti giornalieri Pandora ha creato un nuovo modello di business che inizia a convincere piccole e grandi etichette musicali Problema del popolamento del database: Data preparation lunga (su minuti per una traccia di 3-4 minuti) Soggettività nell’attribuzione dei valori Ridotta trasparenza degli effetti dei feedback Punti deboli: