RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO

Slides:



Advertisements
Presentazioni simili
Forme di governo e sistemi elettorali I modelli. Sistemi elettorali proporzionali Criterio ispiratore: - Le forze politiche che partecipano alle elezioni.
Advertisements

EduMeter Sistema per la valutazione della didattica dell’Università degli Studi di Torino.
Elaborazione in tempo reale di immagini digitali attraverso tecniche fuzzy FACOLTA’ DI INGEGNERIA Tesi di Laurea in Ingegneria Elettronica Relatore Prof.
Porting RGCAD - Gianfranco Gargano II Corso di formazione INFN su aspetti pratici dell'integrazione di applicazioni in GRID Porting RGCAD.
Elaborazione delle Immagini Operatori Puntuali Luigi Cinque
1 Sistemi di numerazione. 2 Sistemi di numerazione posizionali posizionali Sistemi di numerazione posizionali: base La base del sistema di numerazione.
Gruppo Alpini Rivoli sezione Torino
Visual Analytics Dashboard
UNITÀ 3 REPUTAZIONE ONLINE E SELF-BRANDING.
SCUOLA INFANZIA di MONCRIVELLO: ORDINE E DISORDINE: “maestra non trovo più la mia scarpa.” Risolvere in modo creativo situazioni problematiche, utilizzando.
Protocollo di trasmissione tramite tecnologia Barryvox
LA PROGRAMMAZIONE: Algoritmi e programmi
Piattaforma per industrie stampaggio
messi a disposizione delle scuole da parte dell’INVALSI”
Le principali grandezze macroeconomiche
Pensiero Computazionale
I teoremi sulle funzioni derivabili
Come funziona?.
Uso di Unity per la Creazione di Giochi Educativi
GeoGebra QuizFaber Formazione tra pari
Progetto di ricerca di scienze
Valutazione del servizio scolastico Caratteristiche dell'informazione
EasyGraph Dynamic web-based dashboard
Dal problema al processo risolutivo
REX - Istruzioni tipo IKEA
Ricercare un annuncio non è mai stato tanto semplice e veloce.
coordinate geografiche longitudine, latitudine
Geometria descrittiva dinamica
Algoritmi e soluzioni di problemi
DIRIGERE L’INNOVAZIONE
IL CONCETTO DI ALGORITMO
Dal problema al processo risolutivo
Cluster Analysis Definizione di Classificazione: operazione concettuale condotta adottando un solo criterio (detto fondamento della divisione) per individuare.
Lodovico Ratti, Stefano Zucca
Job Application Monitoring (JAM)
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Uso di Unity per la Creazione di Giochi Educativi
Forme per rappresentare l’algoritmo:
* Il Sistema Operativo GNU/Linux * Sistema Operativo e Applicazioni
Università degli Studi di Parma
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Anno Accademico 2010 – 2011 Corso di Progettazione dei Sistemi di Controllo Prof. Luca Schenato Prof. Gianluigi Pillonetto Gottardo Giuseppe, matr
Progetto di ricerca di scienze
Sviluppo di un'applicazione web per l'utilizzo del framework SparkER
Comitato Paritetico Strategia Nazionale Biodiversità
La natura dei problemi.
IL TESTO ESPOSITIVO - INFORMATIVO
1.
Programmare.
Emergency Department Wait Time Prediction
PRIMA PARTE DEL PRIMO PROGETTO DI DIDATTICA DELLA MATEMATICA
“DEBATE” I.T.I.S. “G. Marconi” Pontedera (PI)
PILLOLE DI GENETICA parte 1
Sistemi informativi statistici
Ricorsione 16/01/2019 package.
Corsi di Laurea in Biotecnologie
Amministrazioni sciolte per mafia
BLOGGALO.
Variazione percentuale di una grandezza
Excel 3 - le funzioni.
Fogli di Calcolo Elettronici
Piattaforma FPA per gli Obiettivi di Sviluppo Sostenibile
Strategie di progetto Si possono utilizzare le strategie tipiche dello sviluppo di un processo di ingegnerizzazione (es. ingegneria del software). Strategie.
Risolvere le moltiplicazioni tra frazioni
SARAI ANCHE BELLA, MA QUANTO MI PESI !
Algoritmi.
In sin tesi – l19 come si discute una tesi?
GRIGLIE PER LA VALUTAZIONE DELL’ORALE-CLIL
Presentazione del software SEMAFORO
Programma di Soddisfazione del Paziente 2018 – HD Report del centro
Transcript della presentazione:

RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO VALUTAZIONE DELLA QUALITA’ DI UN DATASET SPERIMENTANDO TRE DIVERSI METODI DI SIMILARITA’ & RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO 10/12/2014

Descrizione del progetto Sviluppo sistema iTag Studio del sistema Implementazione similarità Valutazione qualità 1

OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri

Cos’è un tag? PER COMINCIARE Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: IMMAGINI VIDEO SITI WEB 2

OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri

Cosa si intende per similarità? PER COMINCIARE Cosa si intende per similarità? “Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”) In informatica, la similarità viene implementata attraverso il concetto matematico di DISTANZA 3

OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri

Perchè la pulizia dei dati? PER COMINCIARE Perchè la pulizia dei dati? INCOMPLETI PERCHÈ si effettua la pulizia? Molto spesso i dati sono RUMOROSI INCONSISTENTI FONTI ETEROGENEE Passi principali: Pulizia: levigare il rumore nei dati, risolvere le inconsistenze Integrazione: più fonti eterogenee vengono unite Riduzione: diminuire il volume del dataset 4

OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri

Concetti di base di iTag RISORSA DATASET POST DELICIOUS CROWDSOURCING elemento taggato (foto, video, sito web) insieme di risorse, ognuna con i suoi post insieme di tag dati di una risorsa sistema di social bookmarking piattaforma online che favorisce il contributo degli utenti dietro incentivo economico 5

iTAG Scopo di iTag Ogni risorsa alla quale è possibile applicare tag può risultare: Sovrataggata (per le più popolari) Sottotaggata Aumentare la QUALITA’ del dataset In questo modo quando un utente effettua una ricerca Non tutte le risorse vengono mostrate ricerca inefficiente 6

Sistema iTag iTAG CROWDSOURCING DATASET LAVORO COMPLETATO iTAG CREA I LAVORI VIENE CONSEGNATO L’INCENTIVO MOTORE DI INCENTIVI 7

OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri

Scopo della ricerca I passi sono stati: Argomento approvato: Analizzare iTag Cercare aspetti da migliorare Ho fatto alcune proposte: Argomento approvato: Feedback Similarità Differenziazione incentivi 8

RICERCA Il mio contributo Le tre misure di similarità che ho scelto sono state: Similarità del Coseno Coefficiente di Dice Similarità di Jacquard 9

OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri

Informazioni sul dataset Fonte: Delicious Inizialmente i files, relativi ad 1 mese di utilizzo, erano 4 da circa 10 GB ciascuno (40GB totali) Dopo le operazioni di pulizia e filtraggio del dataset, le dimensioni si sono ridotte a 100MB 10

Struttura del dataset (Delicious) Per ogni risorsa, la prima cifra rappresenta il numero di post Ogni linea è una risorsa Le cifre dentro al post rappresentano l’ID del tag 1 9 2 8 3 Per ogni post, la prima cifra rappresenta il numero di tag dentro al post “viaggi” 4 7 5 6 11

OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri

Concetti di base del mio contributo ALGORITMO Concetti di base del mio contributo STABILITÀ w QUALITÀ RFD DP B si ha quando il livello di informazioni per la risorsa è sufficiente finestra (quantità di post) utilizzata per valutare la stabilità si ha quando le informazioni della risorsa superano la soglia di stabilità vettore di frequenze relative di ogni tag algoritmo ottimo per generare gli assegnamenti delle risorse Budget stanziato dal provider per l’incremento della qualità 12

1) Pulizia del dataset Circa 1TB Circa 40GB 1 mese 2 anni ALGORITMO 1) Pulizia del dataset CARATTERISTICHE: RUMOROSO RUMORE: DATI SPORCHI RIDONDANTE RIDONDANZA: DATI RIPETUTI Guardiamo i seguenti tag: Circa 40GB Guardiamo i seguenti tag: 1 mese TROPPO GRANDE r4sa334 pasta FORMATTATO 2 anni Circa 1TB PULITO RIDOTTO ricetta spaghetti RIDUZIONE RUMORE spaghetti 4 X 10GB cucina sidofhbdjnopf cucina 100 MB RIDUZIONE RIDONDANZA pasta 3dfasgg5 spaghetti cucina QUESTO E’ IL RUMORE pasta DATASET ORIGINALE QUESTA E’ LA RIDONDANZA 13

OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri

2) Calcolo rfd e punti di stabilità ALGORITMO 2) Calcolo rfd e punti di stabilità RFD DATASET PULITO APPLICAZIONE FORMULE STATISTICHE INPUT OUTPUT Punto di stabilità 14

OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri

3) L’algoritmo DP ALGORITMO BUDGET RFD STATO INIZIALE (RANDOM) DP ASSIGNMENT RFD ASSIGNMENT ASSEGNAMENTO OTTIMO STATO INIZIALE (RANDOM) DP INPUT OUTPUT Qualità del dataset Punto di stabilità 15

OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri

Analisi assegnamenti RISULTATI COSINE DICE JACQUARD COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI... ... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI? 16

Punto di stabilità al variare di w RISULTATI Punto di stabilità al variare di w 17

RISULTATI Qualità vs Budget (w = 4) 18

RISULTATI Qualità vs Budget (w = 6) 19

RISULTATI Qualità vs Budget (w = 10) 20

RISULTATI Qualità vs Budget (w = 15) 21

Qualità vs finestra (B = 200) RISULTATI Qualità vs finestra (B = 200) 22

Qualità vs finestra (B = 500) RISULTATI Qualità vs finestra (B = 500) 23

Andamento qualità per Budget piccoli RISULTATI Andamento qualità per Budget piccoli 24

OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri

Conclusioni Osservando i risultati sperimentali è possibile vedere come i risultati in valore assoluto siano simili per quanto riguarda Coseno e Dice, mentre siano diversi per la Jacquard. Dopo aver analizzato i risultati sperimentali, è possibile affermare che per il sistema analizzato non è presente una misura di similarità migliore delle altre, ma sono tutte e tre equivalenti. Infatti è interessante notare come, nonostante gli assegnamenti varino da misura a misura, le curve abbiano esattamente lo stesso comportamento, ottenendo alla fine gli stessi valori di qualità. Il mio contributo è stato apprezzato, verrà introdotto in un’estensione del paper “On incentive-based tagging” (ICDE 2013). 25

OVERVIEW Per cominciare: Presentazione del sistema iTag Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri

Sviluppi futuri Effettuare i test anche con le altre strategie di assegnamento Scelta libera Round Robin Less Posts first Most Unstable first Ibrida Indirizzare l’utente verso le risorse che più si addicono al suo profilo Implementare un sistema di feedback Generare un sistema di riconoscimento semantico dei tag 26

GRAZIE - THANK YOU - 謝謝