RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO

RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO
VALUTAZIONE DELLA QUALITA’ DI UN DATASET SPERIMENTANDO TRE DIVERSI METODI DI SIMILARITA’ & RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO 10/12/2014

Descrizione del progetto
Sviluppo sistema iTag Studio del sistema Implementazione similarità Valutazione qualità 1

OVERVIEW Per cominciare: Presentazione del sistema iTag
Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri

Cos’è un tag? PER COMINCIARE
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: IMMAGINI VIDEO SITI WEB 2

Cosa si intende per similarità?
PER COMINCIARE Cosa si intende per similarità? “Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”) In informatica, la similarità viene implementata attraverso il concetto matematico di DISTANZA 3

Perchè la pulizia dei dati?
PER COMINCIARE Perchè la pulizia dei dati? INCOMPLETI PERCHÈ si effettua la pulizia? Molto spesso i dati sono RUMOROSI INCONSISTENTI FONTI ETEROGENEE Passi principali: Pulizia: levigare il rumore nei dati, risolvere le inconsistenze Integrazione: più fonti eterogenee vengono unite Riduzione: diminuire il volume del dataset 4

Concetti di base di iTag
RISORSA DATASET POST DELICIOUS CROWDSOURCING elemento taggato (foto, video, sito web) insieme di risorse, ognuna con i suoi post insieme di tag dati di una risorsa sistema di social bookmarking piattaforma online che favorisce il contributo degli utenti dietro incentivo economico 5

iTAG Scopo di iTag Ogni risorsa alla quale è possibile applicare tag può risultare: Sovrataggata (per le più popolari) Sottotaggata Aumentare la QUALITA’ del dataset In questo modo quando un utente effettua una ricerca Non tutte le risorse vengono mostrate ricerca inefficiente 6

Sistema iTag iTAG CROWDSOURCING DATASET LAVORO COMPLETATO
iTAG CREA I LAVORI VIENE CONSEGNATO L’INCENTIVO MOTORE DI INCENTIVI 7

Scopo della ricerca I passi sono stati: Argomento approvato:
Analizzare iTag Cercare aspetti da migliorare Ho fatto alcune proposte: Argomento approvato: Feedback Similarità Differenziazione incentivi 8

RICERCA Il mio contributo Le tre misure di similarità che ho scelto sono state: Similarità del Coseno Coefficiente di Dice Similarità di Jacquard 9

Informazioni sul dataset
Fonte: Delicious Inizialmente i files, relativi ad 1 mese di utilizzo, erano 4 da circa 10 GB ciascuno (40GB totali) Dopo le operazioni di pulizia e filtraggio del dataset, le dimensioni si sono ridotte a 100MB 10

Struttura del dataset (Delicious)
Per ogni risorsa, la prima cifra rappresenta il numero di post Ogni linea è una risorsa Le cifre dentro al post rappresentano l’ID del tag 1 9 2 8 3 Per ogni post, la prima cifra rappresenta il numero di tag dentro al post “viaggi” 4 7 5 6 11

Concetti di base del mio contributo
ALGORITMO Concetti di base del mio contributo STABILITÀ w QUALITÀ RFD DP B si ha quando il livello di informazioni per la risorsa è sufficiente finestra (quantità di post) utilizzata per valutare la stabilità si ha quando le informazioni della risorsa superano la soglia di stabilità vettore di frequenze relative di ogni tag algoritmo ottimo per generare gli assegnamenti delle risorse Budget stanziato dal provider per l’incremento della qualità 12

1) Pulizia del dataset Circa 1TB Circa 40GB 1 mese 2 anni
ALGORITMO 1) Pulizia del dataset CARATTERISTICHE: RUMOROSO RUMORE: DATI SPORCHI RIDONDANTE RIDONDANZA: DATI RIPETUTI Guardiamo i seguenti tag: Circa 40GB Guardiamo i seguenti tag: 1 mese TROPPO GRANDE r4sa334 pasta FORMATTATO 2 anni Circa 1TB PULITO RIDOTTO ricetta spaghetti RIDUZIONE RUMORE spaghetti 4 X 10GB cucina sidofhbdjnopf cucina 100 MB RIDUZIONE RIDONDANZA pasta 3dfasgg5 spaghetti cucina QUESTO E’ IL RUMORE pasta DATASET ORIGINALE QUESTA E’ LA RIDONDANZA 13

2) Calcolo rfd e punti di stabilità
ALGORITMO 2) Calcolo rfd e punti di stabilità RFD DATASET PULITO APPLICAZIONE FORMULE STATISTICHE INPUT OUTPUT Punto di stabilità 14

3) L’algoritmo DP ALGORITMO BUDGET RFD STATO INIZIALE (RANDOM) DP
ASSIGNMENT RFD ASSIGNMENT ASSEGNAMENTO OTTIMO STATO INIZIALE (RANDOM) DP INPUT OUTPUT Qualità del dataset Punto di stabilità 15

Analisi assegnamenti RISULTATI COSINE DICE JACQUARD
COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI... ... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI? 16

Punto di stabilità al variare di w
RISULTATI Punto di stabilità al variare di w 17

RISULTATI Qualità vs Budget (w = 4) 18

Qualità vs finestra (B = 200)
RISULTATI Qualità vs finestra (B = 200) 22

Qualità vs finestra (B = 500)
RISULTATI Qualità vs finestra (B = 500) 23

Andamento qualità per Budget piccoli
RISULTATI Andamento qualità per Budget piccoli 24

Conclusioni Osservando i risultati sperimentali è possibile vedere come i risultati in valore assoluto siano simili per quanto riguarda Coseno e Dice, mentre siano diversi per la Jacquard. Dopo aver analizzato i risultati sperimentali, è possibile affermare che per il sistema analizzato non è presente una misura di similarità migliore delle altre, ma sono tutte e tre equivalenti. Infatti è interessante notare come, nonostante gli assegnamenti varino da misura a misura, le curve abbiano esattamente lo stesso comportamento, ottenendo alla fine gli stessi valori di qualità. Il mio contributo è stato apprezzato, verrà introdotto in un’estensione del paper “On incentive-based tagging” (ICDE 2013). 25

Sviluppi futuri Effettuare i test anche con le altre strategie di assegnamento Scelta libera Round Robin Less Posts first Most Unstable first Ibrida Indirizzare l’utente verso le risorse che più si addicono al suo profilo Implementare un sistema di feedback Generare un sistema di riconoscimento semantico dei tag 26

GRAZIE - THANK YOU - 謝謝

RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO

Presentazioni simili

Presentazione sul tema: "RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO

Presentazioni simili

Presentazione sul tema: "RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back