Corso di Sisitemi Informativi per le Decisioni A.A. 2006-2007 Prof. Ing. Marco Patella Lacorte Francesco Sirianni Paolo Alma Mater Studiorum – Università.

Corso di Sisitemi Informativi per le Decisioni A.A. 2006-2007 Prof. Ing. Marco Patella Lacorte Francesco Sirianni Paolo Alma Mater Studiorum – Università di Bologna

Aumento esponenziale dei contenuti musicali Sviluppo costante di mezzi per l’accesso di musica online (streaming and purchase) Nuove esigenze:  creare una nuova tassonomia  necessità di nuovi “search & retrieval tools” Music Information Retrieval L’ 80% delle vendite totali 3% dei titoli in commercio

Basate sui classici metadata (artista, genere, anno…) Basate su approcci collaborativi, tenendo traccia degli acquisti e degli ascolti sui vari portali di utenti con gusti simili (Last.fm) content-based retrieval (search sui data) effettuato per similitudine su: - rappresentazioni simboliche (MIDI) - rappresentazioni acustiche (wav, mp3) Modalità di classificazione e ricerca

> Attività di raccomandazione di contenuti musicali Rimanda a siti come iTunes e Amazon per l’eventuale acquisto di titoli musicali Pandora.com Nel 2000 Tim Westergren, promuove un nuovo progetto (commerciale) di classificazione della musica

Music Genome Project TM “gene” “cromosoma” “genoma” L’analisi di ogni brano richiede circa 15-20 minuti da parte di esperti Ogni canzone è descritta da un insieme di caratteristiche dette “geni” I geni sono raggruppati in gruppi logici detti cromosomi L’insieme dei cromosomi vanno a costituire il genoma Ogni brano risulta in definitiva rappresentato come un vettore di massimo 400 attributi Alcuni attributi: Aggressive Female Vocalist Boogie Woogie Rhythms Dirty Electric Guitar Riffs Electric Guitars Explicit Lyrics Great Electric Guitar Solo Major Key Tonality … http://en.wikipedia.org/wiki/List_of_Music _Genome_Project_attributes

Source Core Engine Identify focus traits MGP database User Find matching songs Choose new seed Select focus Traits for re- weight Schema di funzionamento

Focus traits Core Engine raggiunto valore soglia per un certo gene? gene identificato come Definer? gruppi di geni soddisfano criteri specifici? Focus trait sono individuati applicando le triggering rules al brano seme rappresentano gli “aspetti” su cui focalizzare la ricerca possono cambiare nel tempo in seguito ai feedback dell’utente Evoluzione dinamica dei criteri di creazione della playlist

Visualizzazione dei focus traits

Seed song S = (s 1,s 2,s 3,…,s n )  Cercare K punti geometricamente vicini: problema K-NN Distanza (S,T)= Matching method (song to song) privilegia le canzoni che hanno molte piccole differenze rispetto a quella seme piuttosto che poche differenze grandi  I “geni” non sono tutti ugualmente importanti: l’importanza viene espressa mediante un opportuno vettore di pesi: W = (w 1,w 2,w 3,…,w n ) Distanza (S,T)= Ai vettori S e T viene applicata una funzione f(x) per esprimere la non linearità dei dati Distanza (S,T)=

Indicizzazione nel database elevato numero di record (circa 2 milioni di brani ad oggi) alta dimensionalità dei dati La distanza di ogni foglia dalla sua leaf-parent è minore della distanza della stessa foglia da qualsiasi altra leaf-parent La ricerca dei K-NN funziona con una logica di lista (parte dai più vicini ed espande) Non bilanciato root internal nodes leaf parent data-point

Multi-Song Matching (1) Il seme può non essere una singola canzone Viene scelto come “seme” la discografia di un artista Viene scelto come seme un gruppo di canzoni  viene identificato un “brano virtuale” (virtual song) che rappresenta idealmente il centro del seed set  la virtual song è in grado di esprimere l’ ”ampiezza” del set scelto  ci avviciniamo nel senso più ampio del termine ai gusti reali dell’utente low deviation axis high deviation axis

Multi-Song Matching (2) La virtual song è rappresentata con una coppia di vettori: C=(      ,…,  n   esprime le coordinate del centroide nello spazio multidimensionale  I suoi elementi rappresentano la media aritmetica dei geni del seed set D=(      ,…,  n   indica l’ “ampiezza” del set originario  l’i-esimo elemento rappresenta la deviazione standard dell’i-esimo gene nel seed set

Il vettore peso del multi song I valori del vettore varianza possono essere intuitivamente utilizzati per affinare il vettore dei pesi: Una varianza bassa (alta) è associata a un gene con un valore “molto (poco) desiderato” La formula della distanza della virtual song C rispetto a una target song T è espressa quindi come: Distanza (C,T)= In caso di   =0 il peso diverrebbe infinitamente grande, viene quindi introdotto un fattore correttivo per ovviare al problema Distanza (C,T)=

MindReader ( Ishikawa, Subramanya, Faloutsos, 1998) “Indovinare” le preferenze di un utente in base a un set di esempi “positivi” da lui forniti L’utente fornisce una serie di esempi L’utente può eventualmente assegnare uno score agli esempi Gli esempi forniti godono di correlazione spaziale come dedurre la query implicitamente richiesta dall’utente? individuare una distanza opportuna partendo dagli esempi ? Euclidea ? Euclidea pesata q q

Funzione distanza (1) generalized ellipsoid distance: D (x, q) = (x – q) T M (x – q) q D (x, q) =  j  k m jk (x j – q j ) (x k – q k ) anche Formulazione del problema: Dati  N vettori esempio di dimensione n  una scala di valutazione Trovare  la matrice M ottima  Il punto q ottimo Minimizzare la D (x, q) = (x – q) T M (x – q) Sotto il vincolo det(M) = 1

Funzione distanza (2) Risolvendo con i Moltiplicatori di Lagrange… Il query point ottimo è dato da: Teorema 1. q = x = [x 1, …, x n ] T = X T v /  v i La matrice ottima delle distanze sarà: Teorema 2. M = (det(C)) 1/n C –1 C = [c jk ] è la matrice di covarianza c jk =  v i (x ik - x k ) (x ij - x j ) Se si restringe la matrice ottima alla sola diagonale si ha: Teorema 3.  (ovvero quello usato da Pandora per il re-weight)

Conclusioni… Pandora.com è una realtà economica: 15 milioni di dollari di fatturato nel 2005 5 milioni di utenti giornalieri Pandora ha creato un nuovo modello di business che inizia a convincere piccole e grandi etichette musicali Problema del popolamento del database: Data preparation lunga (su 20-25 minuti per una traccia di 3-4 minuti) Soggettività nell’attribuzione dei valori Ridotta trasparenza degli effetti dei feedback Punti deboli:

Corso di Sisitemi Informativi per le Decisioni A.A. 2006-2007 Prof. Ing. Marco Patella Lacorte Francesco Sirianni Paolo Alma Mater Studiorum – Università.

Presentazioni simili

Presentazione sul tema: "Corso di Sisitemi Informativi per le Decisioni A.A. 2006-2007 Prof. Ing. Marco Patella Lacorte Francesco Sirianni Paolo Alma Mater Studiorum – Università."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Corso di Sisitemi Informativi per le Decisioni A.A. 2006-2007 Prof. Ing. Marco Patella Lacorte Francesco Sirianni Paolo Alma Mater Studiorum – Università.

Presentazioni simili

Presentazione sul tema: "Corso di Sisitemi Informativi per le Decisioni A.A. 2006-2007 Prof. Ing. Marco Patella Lacorte Francesco Sirianni Paolo Alma Mater Studiorum – Università."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back