UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Dipartimento di Scienze Fisiche, Informatiche e Matematiche CORSO DI LAUREA IN INFORMATICA Analisi e Valutazione.

Slides:



Advertisements
Presentazioni simili
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Advertisements

Digressione: il linguaggio di query CQP
LA WEB RADIO: UN NUOVO MODO DI ESSERE IN ONDA.
PINK FLOYD DOGS You gotta be crazy, you gotta have a real need. You gotta sleep on your toes. And when you're on the street. You gotta be able to pick.
TEORIE E TECNICHE DEL RICONOSCIMENTO
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
Dispositivi Mobili per Sentiment Analysis
Stare essere avere Irregular Verbs Meaning: To Be To Have.
Buon giorno, ragazzi oggi è il quattro aprile duemilasedici.
Introduzione all’uso degli indicatori di valutazione ed ai metodi di valutazione Dott.ssa Gabriella Giuliano Direttore Sanitario CREAS-IFC-CNR giugno.
MSc in Communication Sciences Program in Technologies for Human Communication Davide Eynard Facoltà di scienze della comunicazione Università della.
Nuovo PLS e Azioni mirate a ridurre gli abbandoni Background (dati raccolti dal prof. Persico dal sito MIUR) Tra il I e II anno calo di iscritti, soprattutto.
Ragionamento Bayesiano Esercizi. Classificatore Naïve Bayes: richiami (credits: P. Velardi-uniroma1) Si applica quando le ipotesi in H sono rappresentabili.
Viki: Smart Home Natural Language Interface Realizzazione di un’interfaccia in linguaggio naturale, senza grammatiche fisse, per l’automazione casalinga.
Piattaforma per la gestione di forniture basata su servizi web
Visual Analytics Dashboard
Università Cattolica del Sacro Cuore
GUIDA ON LINE Claudio Caso.
Stima della qualità dei classificatori per l’ analisi dei dati biomolecolari Giorgio Valentini
Università degli Studi di Modena e Reggio Emilia
linguistico-artistico-espressiva
Piattaforma per industrie stampaggio
Teacher’s notes This lesson probably takes a good 1hr30 plus hwk time. A preparatory homework could be to find out who Jovanotti is. Learning objectives:
Linguistica computazionale, treebank e altre risorse
Revisione Aziendale Corso avanzato
Lingua comunitaria lesson 8
The English Language Centre 20/07/ /07/2015 Brighton
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Dipartimento di Scienze Fisiche, Informatiche e Matematiche Corso di Laure in Informatica Relatore: Riccardo.
Elaborato/Tesi di Laurea Francesco Saverio Capaldo
Università degli Studi di Teramo – Facoltà di Bioscienze e Tecnologie Agroalimentari ed Ambientali INDAGINE SULL’ACCETTABILITÀ DEL CONSUMATORE AD OTTENERE.
ITEM – PERCORSI FORMATIVI obiettivi e contenuti
dei mercati internazionali
Studente/i Relatore Correlatore Committente Pagano Pedro Daniel
Studente/i Relatore Correlatore Committente Aris Piatti
Linguistica e treebank
Evento moltiplicatore PRESENTAZIONE PROGETTO
Computer assisted translation e terminologia
Ingegneria del Software 2
PEDAGOGIA SPERIMENTALE
Come svolgere una relazione
Cyber Safety.
Gestione Informatica dei Dati Aziendali Sistemi Informativi Gestionali
Corpora Giuseppe Palumbo
Presentazione del Manifesto 2017/2018
Scuola secondaria di primo grado “J.F.Kennedy” Ponteromito
Introduzione al progetto Sigma A.s. 2017/18
nel processo decisionale
RELATORE: CANDIDATO: SONIA BERGAMASCHI FRANCESCO RIZZO
Corpora & co. Giuseppe Palumbo
Management and Computer Science
Università degli Studi di Modena e Reggio Emilia
Corso di laurea interclasse SPE-SEAFC
Per un conto satellite sulla produzione familiare di Monica Montella*
Corso di Laurea Specialistica/Magistrale in Farmacia
Classe V A A.s – 2012 Programma di Informatica
Distribuzione per stato di occupazione
Dipartimento scienze Economiche , Aziendali e statistiche
INDAGINE POST-DIPLOMA
Istruzioni per i progetti
Dal mercato unico all’unione monetaria Quali scenari futuri?
Università degli studi di Modena e Reggio Emilia
Dipartimento di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e implementazione di un applicativo di raccolta.
UNIVERSITÀ DI MODENA E REGGIO EMILIA
Utilizzo, open data e comunicazione dei Conti Pubblici Territoriali
Corso di laurea in Infermieristica
Corso di Laurea in Farmacia Dipartimento di Scienze del Farmaco
In sin tesi – l19 come si discute una tesi?
Wikipedia Wikipedia è un'enciclopedia online, collaborativa e libera. Grazie al contributo di volontari da tutto il mondo, Wikipedia ad ora è disponibile.
UNIVERSITÀ DEGLI STUDI DI GENOVA SCUOLA DI SCIENZE MEDICHE E FARMACEUTICHE CORSO DI LAUREA IN MEDICINA E CHIRURGIA ANNO ACCADEMICO Utilizzo.
Transcript della presentazione:

UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Dipartimento di Scienze Fisiche, Informatiche e Matematiche CORSO DI LAUREA IN INFORMATICA Analisi e Valutazione Sperimentale di Tecniche di Sentiment Analysis Basate su Machine Learning e Dizionari Relatore: Ing. Riccardo Martoglia Laureanda: Daniela Conti Anno Accademico

Introduzione al Sentiment Analysis Con il termine Sentiment Analysis, si indica, l’insieme delle tecniche utilizzate al fine di estrarre informazioni su un testo scritto in linguaggio umano. Esempi: Beautiful day!positive Terrible experience negative

Introduzione al Sentiment Analysis Campi d’applicazione: ● attività di intelligence multimediale ● sociologico ● politico ● economico ● pubblicitario ● sicurezza nazionale

Gli obiettivi del progetto di tesi svolto sono stati: ● Apprendere e conoscere l’obiettivo del Sentiment Analysis e le tecniche utilizzate. ● Approfondire l’implementazione e la valutazione di due delle tecniche più importanti: Naïve Bayes Approach e Dictionary Based-Approach, mediante un dataset basato su recensioni. Obiettivi della tesi

Oggetto di discussione

Tecniche di Sentiment Analysis Le tecniche di classificazione sul Sentiment Analysis possono essere approssimativamente suddivise in tre tipi di approcci: ● Machine Learning ● Basato sul Lessico ● Approccio Ibrido

Tecniche Utilizzate

Oggetto di discussione

ML: Naïve Bayes Classifier Machine Learning Supervised Learning Probabilistic Classifier Naïve Bayes Corpus delle Recensioni Tokenization Speech Tagging Stop words Training set Test set (words, sentiment) sentiment NLTK

ML: Naïve Bayes Classifier pos_tweets = [(‘Beautiful day', 'positive')] neg_tweets = [(‘Terrible experience’, negative’)] Training set: def get_words_in_tweets(tweets) def get_word_features(wordlist) def extract_features(document) tweet = ‘the service was very very slow’ Classifier: The cakes and pastries are delicious The, cakes, and, pastries, are, delicious, cakes [NN], pastries [NN], are [VB], delicios [JJ] Input: negative classifier = NaiveBayesClassifier.train(training_set)

ML: Naïve Bayes Classifier Il classificatore funziona estraendo dalle frasi del train le parole che compaiono con maggiore frequenza. Ad ogni etichetta è associata una probabilità a priori e si basa sulla distribuzione delle parole nel documento La probabilità chela caratteristica di un insieme appartiene ad una particolare etichetta è data dall’equazione:

LA: Dictionary Based Approach Database lessicali: ● WordNet ● SentiWordNet

LA: Dictionary Based Approach 1)Ho acquistato del rombo fresco al mercato 2)Il rombo è una figura geometrica

LA: Dictionary Based Approach tweet = ‘the restaurant is very dirty’ Input: Tokenization, Stop words, Speech Tagging Word Sense Disambiguation Identificazione parola ambigua Identificazione delle parole contenute nel suo quartiere Ricerca nel dizionario Benedetti F.

Oggetto di discussione

Dataset: Recensioni Al fine di testare l’efficacia algoritmica sono state raccolte 350 recensioni, di varia lunghezza, dai siti più frequentati dagli utenti del web quali: ● Amazon [50 : 50] ● TripAdivisor [50 : 50] ● MyMovies [50 : 50] ● Facebook ● YouTube [ 25 : 25 ]

Risultati test su machine learning Matrice 4x4 valori diagonale addestramento ultimi N/2 dati Matrice 4x4 valori diagonale addestramento sugli N/2 dati centrali Matrice 4x4 valori diagonale addestramento primi N/2 dati Matrice 4x4 valori diagonali addestramento sugli N/2 dati scelti a casualmente tra ogni N/2 sottocategoria

Matrice Naïve Bayes

Tabella risultati Dictionary Based- Approach

Valutazione efficacia dei due metodi ● Machine Learning70% ● Dictionary Based- Approach 67% parole organizzate in synset per un totale di coppie di parole di senso compiuto (stime 2012)

Oggetto di discussione

Considerazioni Finali L’analisi condotta sulle recensioni presi dai vari siti web ha portato alla luce le seguenti problematiche: ● difficoltà dovute alla vastità del lessico; ● utilizzo di termini con significato opposto;

Considerazioni Finali: difficoltà dovute alla vastità del lessico Esempio di paragone, similitudine, frasi fatte e metaforiche. Esempio 1: “The movies that Disney have released lately really is not as interesting as the Lion King or Aladdin.” Esempio 2: “I miss the old days when they used to produce good movies like the Lion King, Aladdin, Pocahontas, Cinderella, The Aristocats, and Robin Hood.”

Considerazioni Finali: termini con significato opposto Esempio 3: “I'm always nervous when I order online because I haven't the assurance of the quality and the product itself. As expected the product is of poor quality and is flammable. I do not think I will order anymore online also because the return is at my expense.”