RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO VALUTAZIONE DELLA QUALITA’ DI UN DATASET SPERIMENTANDO TRE DIVERSI METODI DI SIMILARITA’ & RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO 10/12/2014
Descrizione del progetto Sviluppo sistema iTag Studio del sistema Implementazione similarità Valutazione qualità 1
OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
Cos’è un tag? PER COMINCIARE Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: IMMAGINI VIDEO SITI WEB 2
OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
Cosa si intende per similarità? PER COMINCIARE Cosa si intende per similarità? “Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”) In informatica, la similarità viene implementata attraverso il concetto matematico di DISTANZA 3
OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
Perchè la pulizia dei dati? PER COMINCIARE Perchè la pulizia dei dati? INCOMPLETI PERCHÈ si effettua la pulizia? Molto spesso i dati sono RUMOROSI INCONSISTENTI FONTI ETEROGENEE Passi principali: Pulizia: levigare il rumore nei dati, risolvere le inconsistenze Integrazione: più fonti eterogenee vengono unite Riduzione: diminuire il volume del dataset 4
OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
Concetti di base di iTag RISORSA DATASET POST DELICIOUS CROWDSOURCING elemento taggato (foto, video, sito web) insieme di risorse, ognuna con i suoi post insieme di tag dati di una risorsa sistema di social bookmarking piattaforma online che favorisce il contributo degli utenti dietro incentivo economico 5
iTAG Scopo di iTag Ogni risorsa alla quale è possibile applicare tag può risultare: Sovrataggata (per le più popolari) Sottotaggata Aumentare la QUALITA’ del dataset In questo modo quando un utente effettua una ricerca Non tutte le risorse vengono mostrate ricerca inefficiente 6
Sistema iTag iTAG CROWDSOURCING DATASET LAVORO COMPLETATO iTAG CREA I LAVORI VIENE CONSEGNATO L’INCENTIVO MOTORE DI INCENTIVI 7
OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
Scopo della ricerca I passi sono stati: Argomento approvato: Analizzare iTag Cercare aspetti da migliorare Ho fatto alcune proposte: Argomento approvato: Feedback Similarità Differenziazione incentivi 8
RICERCA Il mio contributo Le tre misure di similarità che ho scelto sono state: Similarità del Coseno Coefficiente di Dice Similarità di Jacquard 9
OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
Informazioni sul dataset Fonte: Delicious Inizialmente i files, relativi ad 1 mese di utilizzo, erano 4 da circa 10 GB ciascuno (40GB totali) Dopo le operazioni di pulizia e filtraggio del dataset, le dimensioni si sono ridotte a 100MB 10
Struttura del dataset (Delicious) Per ogni risorsa, la prima cifra rappresenta il numero di post Ogni linea è una risorsa Le cifre dentro al post rappresentano l’ID del tag 1 9 2 8 3 Per ogni post, la prima cifra rappresenta il numero di tag dentro al post “viaggi” 4 7 5 6 11
OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
Concetti di base del mio contributo ALGORITMO Concetti di base del mio contributo STABILITÀ w QUALITÀ RFD DP B si ha quando il livello di informazioni per la risorsa è sufficiente finestra (quantità di post) utilizzata per valutare la stabilità si ha quando le informazioni della risorsa superano la soglia di stabilità vettore di frequenze relative di ogni tag algoritmo ottimo per generare gli assegnamenti delle risorse Budget stanziato dal provider per l’incremento della qualità 12
1) Pulizia del dataset Circa 1TB Circa 40GB 1 mese 2 anni ALGORITMO 1) Pulizia del dataset CARATTERISTICHE: RUMOROSO RUMORE: DATI SPORCHI RIDONDANTE RIDONDANZA: DATI RIPETUTI Guardiamo i seguenti tag: Circa 40GB Guardiamo i seguenti tag: 1 mese TROPPO GRANDE r4sa334 pasta FORMATTATO 2 anni Circa 1TB PULITO RIDOTTO ricetta spaghetti RIDUZIONE RUMORE spaghetti 4 X 10GB cucina sidofhbdjnopf cucina 100 MB RIDUZIONE RIDONDANZA pasta 3dfasgg5 spaghetti cucina QUESTO E’ IL RUMORE pasta DATASET ORIGINALE QUESTA E’ LA RIDONDANZA 13
OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
2) Calcolo rfd e punti di stabilità ALGORITMO 2) Calcolo rfd e punti di stabilità RFD DATASET PULITO APPLICAZIONE FORMULE STATISTICHE INPUT OUTPUT Punto di stabilità 14
OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
3) L’algoritmo DP ALGORITMO BUDGET RFD STATO INIZIALE (RANDOM) DP ASSIGNMENT RFD ASSIGNMENT ASSEGNAMENTO OTTIMO STATO INIZIALE (RANDOM) DP INPUT OUTPUT Qualità del dataset Punto di stabilità 15
OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
Analisi assegnamenti RISULTATI COSINE DICE JACQUARD COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI... ... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI? 16
Punto di stabilità al variare di w RISULTATI Punto di stabilità al variare di w 17
RISULTATI Qualità vs Budget (w = 4) 18
RISULTATI Qualità vs Budget (w = 6) 19
RISULTATI Qualità vs Budget (w = 10) 20
RISULTATI Qualità vs Budget (w = 15) 21
Qualità vs finestra (B = 200) RISULTATI Qualità vs finestra (B = 200) 22
Qualità vs finestra (B = 500) RISULTATI Qualità vs finestra (B = 500) 23
Andamento qualità per Budget piccoli RISULTATI Andamento qualità per Budget piccoli 24
OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
Conclusioni Osservando i risultati sperimentali è possibile vedere come i risultati in valore assoluto siano simili per quanto riguarda Coseno e Dice, mentre siano diversi per la Jacquard. Dopo aver analizzato i risultati sperimentali, è possibile affermare che per il sistema analizzato non è presente una misura di similarità migliore delle altre, ma sono tutte e tre equivalenti. Infatti è interessante notare come, nonostante gli assegnamenti varino da misura a misura, le curve abbiano esattamente lo stesso comportamento, ottenendo alla fine gli stessi valori di qualità. Il mio contributo è stato apprezzato, verrà introdotto in un’estensione del paper “On incentive-based tagging” (ICDE 2013). 25
OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri
Sviluppi futuri Effettuare i test anche con le altre strategie di assegnamento Scelta libera Round Robin Less Posts first Most Unstable first Ibrida Indirizzare l’utente verso le risorse che più si addicono al suo profilo Implementare un sistema di feedback Generare un sistema di riconoscimento semantico dei tag 26
GRAZIE - THANK YOU - 謝謝