Come le imprese possono usare i discorsi

Slides:



Advertisements
Presentazioni simili
Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale Marco Acutis a.a CdS.
Advertisements

I circuiti elettrici.
IL GOLD STANDARD: INTRODUZIONE
XXXII CONVEGNO NAZIONALE Società Italiana di Chimica Agraria
Il problema dello zaino
Campi di gravità e topografia: analisi con QGIS
Regole associative Gianluca Amato
Ciclo di Seminari e Corso
Valutazione dei risultati della classificazione
Generalità Laboratorio Arduino.
Natura e origini della attuale crisi europea
ECONOMIA DELLE ISTITUZIONI FINANZIARIE
Stato di COMPASS Franco Bradamante CSN1 Roma, 16 luglio 2012.
La struttura dei materiali
ESSERE HOMELESS: PERCORSI DI VITA E FATTORI DETERMINANTI
Introduzione a VPN Ing. Gianpiero Ciacci.
Le verifiche empiriche del teorema di Heckscher-Ohlin: il paradosso di Leontief Wassily Leontief realizzò la prima verifica empirica del teorema di HO.
…. modello di Solow?.
Politica economica: che cosa è?
 π BUZZO GIACOMO D’AGOSTINO ALBERTO DE ANGELIS FEDERICA
“BLAISE PASCAL”- Voghera-
La vitamina C è una molecola contenente C,H e O
REDDITO DI CITTADINANZA E OPPORTUNITA’ ECONOMICA: UN CONFRONTO TRA ITALIA E RESTO D’EUROPA Pasquale Tridico Dipartimento di Economia, Università Roma Tre.
Classificazione e Predizione
L’economia monetaria Corso di Economia delle Istituzioni Finanziarie
L’infiltrazione LM-75: 2016/2017
UN NUOVO MODO DI GUARDARE IL MONDO
LA PREVENZIONE INCENDI NELLE STRUTTURE RELIGIOSE APERTE AL PUBBLICO
LE NOVITÀ DEL BILANCIO 2016 …………………………………………………………………………………………………………..
Le unità territoriali per le analisi socio-economiche
Pompe di calore a integrazione geotermica
ISTITUZIONI (regole scritte e nn scritte che governano l’interazione tra individui) → d.p. e contratti → norme sociali con appropriati Δ delle regole.
Università di Roma Tor Vergata
Convegno europeo sui minori
ATIPICITA’ DEL FATTORE UMANO NEL PILOTAGGIO DEI DRONI
CALENDARIO LEZIONI AGGIORNATO
RAEE è l’acronimo di Rifiuti da Apparecchiature Elettriche ed Elettroniche; ogni elettrodomestico ha un ciclo di vita terminato il quale, sia per malfunzionamento.
Appunti per ostetriche e non solo
Ricerca e innovazione:
Pubblica Amministrazione: semplificazione e costi della politica
Il processo di analisi dei fabbisogni
Comunicazioni Assemblea nazionale TTA 1-2 dicembre 2016
Proactive Care e Proactive Care Advanced
Maria Antonietta Volonté Dipartimento di Neurologia
IL CONFLITTO NELLA CHIESA PRIMITIVA
Piano di formazione Docenti neoassunti a.s. 2016/2017
È possibile rendere comprensibile oggi questo termine filosofico, al di fuori della esigua cerchia degli specialisti? Io una volta ci ho provato in una.
ACCORDO AGROAMBIENTALE D’AREA OPPORTUNITA’ PER LA VALDASO
Il secondo principio.
PROGETTO RELAZIONI PREPOTENTI
Vitamine Sono sostanze organiche a basso peso molecolare strutturalmente assai varie indispensabili per lo svolgimento delle funzioni vitali, di origine.
La misurazione e la valutazione della performance
1.2 Nuovi prodotti alimentari
ASSOCIAZIONE ITALIANA GIURISTI DI IMPRESA
L’evoluzione del Diritto delle Assicurazioni Continuità o rottura con il passato? Avv. Giuseppe Ranieri Studio Legale Tributario Ranieri Comitato Esecutivo.
ADOZIONE INTERNAZIONALE
Esame delle modifiche apportate al precedente ordinamento
e l’associazione in partecipazione
Profilo biografico e opere
IL TOTALITARISMO.
L’Imposta sul reddito delle società (IRES)
Asl Vco – Direzione Generale
Assunzioni, Attività, Investimenti
UROLOGIA - RIMINI VISITE UROLOGICHE AMBULATORIALI REGIME RICOVERO
Endometriosi profonda: quando la chirurgia
Nota AIFA 75 Determinazione 18 novembre 2010 (GU 29 novembre 2010, n. 279): modifiche, con riferimento alla nota AIFA 75,  alla determinazione del 4 gennaio.
PIANO DI RIORDINO PRESIDI DI FOLIGNO E SPOLETO
SINTOMI DEL BASSO APPARATO URINARIO 4 MARZO 2017
Con gli occhi di Maxwell
Transcript della presentazione:

Come le imprese possono usare i discorsi Come distinguere dati fattuali e opinioni negli UGC

Perché distinguere dati fattuali e opinioni Fabrizio Sebastiani Gruppo Human Language Technologies – NeMIS Lab Istituto di Scienza e Tecnologie dell’Informazione Consiglio Nazionale delle Ricerche 56124 Pisa

Cos’è la Corporate Reputation? “Corporate reputation affects the way in which various stakeholders behave towards an organization, influencing, for example, employee retention, customer satisfaction and customer loyalty.” Corporate reputation: Meaning and measurement, Volume: 7, Issue: 2, Pages: 91-109, First published: 25 November 2005, DOI: (10.1111/j.1468-2370.2005.00109.x)

User Generated Content

Net-consumatori www.globalwebindex.com Anche se il negozio fisico resta ancora un luogo importante, il 62% degli utenti su scala mondiale commenta un prodotto o servizio online dopo l’acquisto. se si aggiungono post e tweet il dato arriva al 69% il 55% degli utenti ibridi (coloro che si informano in rete ma poi effettuano l’acquisto in un punto vendita) postano commenti. Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

Net-consumatori www.globalwebindex.com Anche se il negozio fisico resta ancora un luogo importante, dobbiamo prendere seriamente in considerazione il modello di impresa che emerge dall’adozione strategica dei social media. Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

Filtrare l’informazione automaticamente Fatti Opinioni Gli spinaci sono ricchi di ferro Gli spinaci hanno un brutto sapore

Filtrare l’informazione automaticamente Fatti Opinioni Gli spinaci sono ricchi di ferro Oggettivi Ritraggono la realtà Possono essere verificati Presentati con obiettività Gli spinaci hanno un brutto sapore Soggettive Interpretano la realtà NON possono essere verificate Presentate attraverso una valutazione

Filtrare l’informazione automaticamente Fatti Opinioni Data Mining Information Retrieval Information Extraction Opinion Mining Sentiment Classification Feature-based Sentiment Analysis

Filtrare l’informazione automaticamente Metodi Rule-Based cercano di imitare il modo in cui l’uomo utilizza e comprende il linguaggio, riproducendo le strutture sintattiche che sono alla base di questo processo di comprensione, costruendo risorse lessicali come i dizionari elettronici, le tassonomie, le ontologie Metodi Stocastici trattano la lingua come un insieme di parole, quantificando queste in modo matematico e cercando di estrarre informazioni senza la necessità di individuare le strutture sintattiche o, addirittura, cercando di rendere capace la macchina stessa di imparare la sintassi.

Filtrare l’informazione automaticamente Quali Vantaggi? Ads placement Text summarization Recommendation systems Flame and cyberbullying detection Literary reputation tracking Political texts analysis

Cos’è l’Analisi dei Sentimenti La Sentiment Analysis (SA) consiste nel trattamento automatico di opinioni e sentimenti espressi all’interno di testi non strutturati. Sono sinonimi della SA opinion mining, subjectivity analysis, or appraisal extraction. Alcune sfide nella ricerca sulla SA: Sentiment and Subjectivity Classification, Feature-based Sentiment Analysis, Sentiment Analysis of comparative sentences, Opinion search and retrieval, Opinion holders, Opinion features and opinion targets extraction.

Cos’è un’opinione? oj, fjk, ooijkl, hi, tl dove oj è l’oggetto sul quale viene espressa l’opinione fjk rappresenta le caratteristiche (features) dell’oggetto ooijkl è l’orientamento (positivo o negativo) dell’opinione hi è opinion holder, colui che esprime l’opinione tl rappresenta il tempo in cui l’opinione viene espressa Liu, B. (2010). Sentiment analysis and subjectivity. Handbook of natural language processing, 2, 568.

Cos’è un’opinione?

Cos’è un’opinione?

Cos’è un’opinione?

Cos’è un’opinione? oj

Cos’è un’opinione? oj, fjk

Cos’è un’opinione? oj, fjk, ooijkl

Cos’è un’opinione? oj, fjk, ooijkl, hi

Cos’è un’opinione? oj, fjk, ooijkl, hi, tl

Cos’è un’opinione? I dati non strutturati

Cos’è un’opinione? I dati non strutturati

Cos’è un’opinione? I dati non strutturati

Cos’è un’opinione? Strutturare i dati Indicatori di Sentimento Parole dotate di Orientamento Semantico gentile +2 pulito +2 abbondante + buono +2 esagerato + spettacolare +3 lussuoso +2 bene +2

Cos’è un’opinione? Strutturare i dati Indicatori di Sentimento Espressioni dotate di Orientamento Semantico Contextual Valence Shifters: molto gentile non spettacolare non lussuoso avere da ridire sul prezzo Dipendenza dal dominio: hotel molto caratteristico Colazione abbondante arredo con tutto l’occorrente prezzo esagerato

Sentiment Polarity Classification Correzione. Polarity Switching: 4 stars → 2 stars Ridimensionamento. Polarity Shifting : 4 stars → 3 stars

Sentiment Polarity Classification Correzione. Polarity Switching: 4 stars → 2 stars Ridimensionamento. Polarity Shifting : 4 stars → 3 stars

Alcuni task della Sentiment Analysis

Sentiment Polarity Classification

Sentiment Polarity Classification Classificare interi documenti in base alle seguenti macro-classi Positivo Negativo Neurale Ciò che differenzia questo task dal comune Topic Detection and Classification è il fatto che le categorie in gioco non sono semanticamente slegate l’una rispetto all’altra. Tali categorie possono essere rappresentate come: Un’ opposizione binaria Una rating scale Un continuum

Feature-based Sentiment Analysis

Feature-based Sentiment Analysis Sintetizzare il contenuto delle opinioni espresse nei testi individuando le singole caratteristiche che rappresentano i punti di forza e/o le debolezze discusse nell’opinione. La relazione intercorrente tra features e opinione viene perfettamente espressa grazie al concetto di Target (T) dell’opinione, descritto dalla seguente funzione: T=O(f) Ogni feature può essere descritta da sottoinsiemi di altre features: F = {f1, f2, . . . , fn} Il Target può essere descritto nei testi da indicatori diretti (W) o indiretti (I) Wi = {wi1, wi2, . . . , wim} Ii = {ii1, ii2, . . . , iiq}

Feature-based Sentiment Analysis Un esempio di testo annotato

Sentiment Role Labeling

Sentiment Role Labeling Il task del Semantic Role Labeling (SRL) ha come finalità il mapping degli elementi sintattici localizzati nei testi liberi e le loro rappresentazioni semantiche. Esse verranno poi etichettate in base ad appropriati ruoli tematici o semantici. Il Sentiment Role Labeling focalizza l’analisi sui frame semantici relativi alla sfera della soggettività.

Sentiment Role Labeling Frame Semantics Sentiment (SENT) experiencer (e) causer (c) Opinion (OP) opinion holder (h) opinion target (t) Physical Act (PHY) patient (z) agent (a) “ ” Fillmore, C. J. (2006). Frame semantics. Cognitive linguistics: Basic readings,34, 373-400.

Sentiment Role Labeling Frame Semantics Sentiment (SENT) experiencer (e) causer (c) Opinion (OP) opinion holder (h) opinion target (t) Physical Act (PHY) patient (z) agent (a)

Sentiment Role Labeling

Valutazione dell’analisi Fare sentiment analysis è difficile perché, per esprimere le nostre opinioni ed emozioni, facciamo ricorso a una estrema varietà di sofisticati mezzi espressivi, tra cui la metafora, l’ironia, il sarcasmo, l’allusione, etc. Nell’analisi di significato dei testi tutto si può fare, ma solo con un certo grado di accuratezza. Un software di sentiment analysis potrebbe I riconoscere la presenza di un’opinione inesistente (“falso positivo”); non riconoscere la presenza di un’opinione esistente (“falso negativo”); assegnare a un’opinione una polarità erronea; non riconoscere correttamente il soggetto e/o l’oggetto dell’opinione; I ... Fabrizio Sebastiani Gruppo Human Language Technologies – NeMIS Lab Istituto di Scienza e Tecnologie dell’Informazione Consiglio Nazionale delle Ricerche 56124 Pisa

Opinion Mining e Sentiment Analysis Prior Polarity e Contextual Valence Shifters

Impatto del Web sui SEC Goods *Ricapitolando Impatto del Web sui SEC Goods Pro Crescita degli user generated content: forum, discussion group, blog, social media, review website, aggregation site; Costumer empowerment Crescita dell’importanza del passaparola online (eWOM) Contro Crescita del commercio online Ampio volume, alta velocità e grande varietà di dati non strutturati

Impatto del Web sui SEC Goods *Ricapitolando Impatto del Web sui SEC Goods Pro Crescita degli user generated content: forum, discussion group, blog, social media, review website, aggregation site; Costumer empowerment Crescita dell’importanza del passaparola online (eWOM) Contro Crescita del commercio online Ampio volume, alta velocità e grande varietà di dati non strutturati riduzione del costo di ricerca delle informazioni information filtering distanza esplosione di contenuti

Effetto del contesto sulla polarità Semantic Orientation: la misura della polarità e dell’intensità di un’opinione Prior Polarity: la polarità delle singole parole considerate al di fuori di qualsiasi contesto Contextual Valence Shifters elementi e strutture linguistiche capaci di modificare la prior polarity delle parole con cui co-occorrono

Lessici di Sentimento

Approcci alla Sentiment Analysis Lexicon-based approaches Learning and statistical methods Hybrid methods

Approcci alla Sentiment Analysis Lexicon-based approaches Learning and statistical methods Hybrid methods Gli approcci basati sul lessico partono dall’assunto che l’orientamento semantico dei testi dipende in qualche modo dalla polarità delle parole e dei sintagmi in esso contenuti

Indicatori di Sentimento Aggettivi: Hatzivassiloglou and McKeown, 1997; Hu and Liu, 2004; Taboada et al., 2006 Avverbi: Benamara et al., 2007 Nomi: Vermeij, 2005; Riloff et al., 2003 Verbi: Neviarouskaya et al., 2009

Metodi per la costruzione dei lessici Lessici costruiti a mano Pro: Più precisi Contro: Più onerosi Lessici annotati automaticamente Pro: Più ampi Contro: Più instabili

Metodi per la costruzione dei lessici Lessici annotati automaticamente Latent Semantic Analysis (LSA) (Landauer and Dumais, 1997); bootstrapping algorithms (Riloff et al., 2003); graph propagation algorithms (Velikovich et al., 2010; Kaji and Kitsuregawa, 2007); Conjunctions (and or but) and morphological relations between adjectives (Hatzivassiloglou andMcKeown, 1997); ContextCoherency (Kanayama andNasukawa, 2006a); Distributional similarity (Wiebe, 2000); etc.

Metodi per la costruzione dei lessici Seed Words

Sentiment Lexicon Propagation Metodi basati sui Tesauri: espansione dei lessici apartire dalle Seed Words Metodi basati sui Corpora: è probabile che parole con la stessa polarità occorrano l’una vicino all’altra nei testi Meodi basati sulla Morfologia Derivazionale

Un Lessico Italiano dei Sentimenti *Ricapitolando Un Lessico Italiano dei Sentimenti SentIta

Un Lessico Italiano dei Sentimenti *Ricapitolando Un Lessico Italiano dei Sentimenti Categoria Grammaticale Entrate Esempio Aggettivi 5.383 allegro Avverbi 3.626 tristemente Avverbi composti 793 a gonfie vele Frasi idiomatiche 552 essere in difetto Nomi 3.122 eccellenza Verbi psicologici 635 N0 amare N1 Altri verbi LG 879 N0 prendersla Prep N1 Parolacce 189 leccaculo Totale 15.179 -

Un Lessico Italiano dei Sentimenti *Ricapitolando International Nooj 2015 Conference Un Lessico Italiano dei Sentimenti Dizionario Elettronico degli Aggettivi Aggettivo Tag Punteggio Evaluation scale meraviglioso +POS+FORTE +3 divertente +POS +2 accettabile +POS+DEB +1 insapore +NEG+DEB -1 cafone +NEG -2 disastroso +NEG+FORTE -3 The Manually built dictionary of adjectives and the tag set for the sentiment annotation are the ones presented in the last Nooj Conference And include two different scales for the determination of the prior polarity of a word One for the orientation and one for the intensity Aggettivo Tag Punteggio Strenght scale straripante +FORTE +1 episodico +DEB -1 Maisto A., Pelosi S: (2014) A Lexicon-Based Approach to Sentiment Analysis. The Italian Module for Nooj. Nooj International Conference, Sassari, International Nooj 2014 Conference, June 3-5, University of Sassari, Italy. Book of Proceedings.

Un Lessico Italiano dei Sentimenti Dizionario Elettronico degli Avverbi [[emozionante]A -mente]ADV [[incantevole]A -mente]ADV [[allegro]A -mente]ADV Aggettivi Regole per la formazione degli Avverbi Radice Cancellazione Vocale tematica Suffisso emozionante emozionant- - -mente incantevole incantevol- #e allegro allegr- #o -a- The great part of the adverbs is characterized by a complex structure that includes an adjective base and the derivational morpheme -mente “-ly”. All the adverbs contained in the Italian dictionary of simple words have been put in a Nooj text and the above-mentioned grammar has been used to quickly populate the new dictionary by extracting the words ending with the suffix -mente, “-ly” and by making such words inherit the adjectives’ polarity. The FSA used to perform this task follows three rules that depend on the inflectional paradigm of the base adjectives These rules have been formalised into a grammar into three correspondent paths

Un Lessico Italiano dei Sentimenti Dizionario Elettronico dei verbi e delle loro nominalizzazioni Verbi Nomi Deverbali angosciare,V+FLX=V4+NEG+FORTE+41 angoscia,N+FLX=N45+NEG+FORTE+41 piacere,V+FLX=V37+POS+42 piacere,N+FLX=N5+POS+42 piacevolezza,N+FLX=N41+POS+42 amare,V+FLX=V3+POS+FORTE+43 amorevolezza,N+FLX=N41+POS+43 amore,N+FLX=N41+POS+FORTE+43 innamoramento,N+FLX=N41+POS+43 biasimare,V+FLX=V3+NEG+43B biasimo,N+FLX=N5+NEG+43B The verbs chosen for our sentiment lexicon are the Psychological Semantic Predicates belonging to the Italian Lexicon-grammar classes 41, 42, 43 and 43B. The nominalizations of these predicates have been used to manually build the Sentiment dictionary of names. Gross, M. (1981). Les bases empiriques de la notion de prédicat sémantique.Langages, 7-52. Elia, A. (1984). Le verbe italien: les complétives dans les phrases à un complément. Schena.

Un Lessico Italiano dei Sentimenti Dizionario Elettronico dei Nomi di Qualità Here we show one of the automata used to derive the QN from the adjective of sentiment As we can notice, this time the inflectional paradigm of the QN is selected by the suffixes and not by the base adjectives bravo,A+FLX=N88+POS #o + -ura,SFX+QN+FLX=N41 bravura,N+QN+POS+FLX=N41

Un Lessico Italiano dei Sentimenti Dizionario Elettronico delle frasi idiomatiche N0 Agg come C1   Il pavimento è lucido come uno specchio +3 N0 essere (Agg + Ppass) Prep C1 Max è matto da legare -3 N0 essere Agg e Agg Max è bello e fritto C0 essere Agg (come C1 + E) La coscienza è sporca ↔ Mary ha la coscienza sporca -2 N0 essere C1 Agg Mary è una gatta morta -1 In the end, 500+ Italian frozen sentences containing adjectives have been evaluated and then formalised with a pair of dictionary-grammar. It is interesting to notice that the 84% of the idioms has a clear SO, while just the 36% of the adjectives they contain is polarised.

Un Lessico Italiano dei Sentimenti Dizionario Elettronico delle frasi idiomatiche Intensificazione +2 → +3 Mary è bella[A+POS] come il sole.  Polarizazzione 0 → -2 Mary è bianca[A+NEUTRALE] come un cadavere.  Slittamento +2 → -2 Mary è agile[A+POS] come una gatta di piombo. Among the idioms considered, there are the comparative frozen sentences of the type N0 Agg come C1 that usually intensify the polarity of the adjective of sentiment they contain, as happens in the first example. Otherwise, it is also possible for an idiom of that sort to be polarised when the adjective contained in it is neutral, or even to reverse its polarity, as exemplified in the third sentence. Vietri, S. (1990). On some comparative frozen sentences in Italian. Lingvisticae Investigationes, 14(1), 149-174. Jindal, N., & Liu, B. (2006, July). Mining comparative sentences and relations. In AAAI (Vol. 22, pp. 1331-1336).

Le Parole e il loro Contesto Regole per la Negazione Negative operators: non, mica, per niente, affatto, Negative quantifiers: nessuno, niente, nulla, Lexical negation: senza, mancanza di, assenza di, carenza di, Capovolgimento +2 → -2 La Citroen non[Negative_Operator] produce auto valide[A+POS] Slittamento +3 → -1 Grafica non[Negative_Operator] proprio spettacolare[A+POS+FORTE] Negazione e Intensificazione +2 → +3 Personale alla reception non[Negative_Operator] sempre[AVV+FORTE] gentile[A+POS]. As exemplified in the following sentences extracted from a sentiment corpus that will be described in Section X, negation indicators not always change a sentence polarity in its positive or negative counterparts; they often have the effect of increasing or decreasing the sentence score (11). That is why we prefer to talk about valence “shifting” rather than “switching”. We avoided the most used, but complex (and often misleading) mathematical calculations between the words sentiment scores. We instead put into the appropriate “box” the patterns built combining all these negation indicators with the sentiment words.

Le Parole e il loro Contesto Regole per l’Intensificazione Ripetizione +3 Hotel meraviglioso[A+POS+FORTE], lussuoso[A+POS] e impeccabile[A+POS+FORTE] Superlativo Questo smartphone ha un bellissimo[A+POS+SUP] display In order to take Intensification into account, we combined in the grammar the words belonging to the strength scale with the sentiment words listed in the evaluation scale. In general, the adverbs intensify or attenuate adjectives, verbs and other adverbs, while the adjectives modify the intensity of nouns. Avverbio-Aggettivo -2 → -1 Parzialmente[AVV+DEB] deludente[A+NEG] anche il reparto degli attori. Aggettivo-Nome -2 → -3 Ciò che ne deriva (...) è una terribile[A+NEG] confusione[N+NEG] narrativa. Avverbio-Verbo +2 → +3 Alla guida ci si diverte[V+POS] molto[AVV+FORTE]. Avverbio-Avverbio Ne sono rimasta molto[AVV+FORTE] favorevolmente[AVV+POS] colpita

Le Parole e il loro Contesto Regole per l’Intensificazione Frasi idiomatiche Comparative N0 Agg come C1 +2 → +3 Mary è bella[A+POS] come il sole. Comparativo di Minoranza e Maggioranza 0 → +2 L'S3 è complessivamente superiore all'Iphone5 Comparativo Assoluto Il suo motore era anche il più brioso[A+POS] 0 → -3  Un film peggiore di qualsiasi telefilm. As far as the comparative sentences are concerned, we considered in this work the already mentioned comparative frozen sentences; some simple comparative sentences that involve the expressions meglio di, migliore di, “better than”, peggio di, peggiore di, “worse than”, superiore a, “superior to” inferiore a, “less than” the comparative superlative, that confers to the first term of the comparison the higher polarity score, so it always increases the strength of the opinion. Thus, its polarity can be -3 or +3. Vietri, S. (1990). On some comparative frozen sentences in Italian. Lingvisticae Investigationes, 14(1), 149-174. Jindal, N., & Liu, B. (2006, July). Mining comparative sentences and relations. In AAAI (Vol. 22, pp. 1331-1336).

Le Parole e il loro Contesto Altre espressioni di sentimento valerne la pena[POS] essere (dotato + fornito + provvisto) di[POS] grazie a[POS] essere un (aspetto + nota + cosa + lato) negativo[NEG] non essere niente di che[POCONEG] tradire le (aspettative + attese + promesse)[NEG] In this slide we introduce the idea that, in order to reach high levels of Recall, the lexicon-based patterns require the support of lexicon independent expressions. This is the case in which one can see the importance of the Finite-state automata. Without them it would be really difficult and uneconomical to provide the machine with concise instructions to correctly recognise and evaluate some kind of opinionated sentences that can often reach high levels of variability.

Le Parole e il loro Contesto Altre espressioni di sentimento Ironia +2 → -2 La ripresa è degna[A+POS] di un trattore con aratro inserito. E quel tocco di piccante (...) è gradevole[A+POS] quanto lo sarebbe una spruzzata di pepe su un gelato alla panna. Stereotipi Culturali +2 → -1 La nuova fiat 500 è consigliabile[A+POS] molto di più ad una ragazza 0 → -1 Un gioco per bambini di 12 anni. Irony and cultural stereotypes remain an open problem for the NLP in general and for the sentimen analysis. For the moment we decided to give up with them, but we do not exclude that in the next feature we will try to face also these challanges.

Alcuni task della Sentiment Analysis

Sentiment Polarity Classification

Sentiment Polarity Classification Classificare interi documenti in base alle seguenti macro-classi Positivo Negativo Neurale Ciò che differenzia questo task dal comune Topic Detection and Classification è il fatto che le categorie in gioco non sono semanticamente slegate l’una rispetto all’altra. Tali categorie possono essere rappresentate come: Un’ opposizione binaria Una rating scale Un continuum

Sentiment Polarity Classification Un Esperimento Sentiment Polarity Classification

Sentiment Polarity Classification

Sentiment Polarity Classification   Auto Smartphones  Libri Film Hotel Videogame TOT Documenti Negativi 50 300 Positivi Text Files 20 120 Word Forms 17163 19226 8903 37213 12553 5597 101655 Tokens 21663 24979 10845 45397 16230 7070 126184 The dataset used to evaluate our tools has been built using Italian opinionated texts in the form of users’ review and comments. It contains 600 texts units and refers to six different domains, for all of which different e-commerce and opinion websites have been exploited. Each domain contains 50 positive and 50 negative texts. Cars: www.ciao.it Smartphones: www.tecnozoom.it, www.ciao.it, www.amazon.it, alatest.it), Books: www.amazon.it, www.qlibri.it Movies: www.mymovies.it, www.cinemalia.it, www.filmtv.it, www.filmscoop.it Hotels: www.tripadvisor.it, www.expedia.it, www.venere.com, it.hotels.com, www.booking.com Videogames: www.amazon.it

Sentiment Document Classification Sentence-level (%) Cars Smartphones Movies Books Hotels Videogames Average PRECISION* 79,2 74,5 56,9 73,7 81,3 78,6 74,0 RECALL 72,7 79,6 64,8 65,7 72,1 58,8 69,0 F-measure** 75,8 77,0 60,6 69,5 76,4 67,3 71,4 Sentiment Document Classification Document-level (%) Cars Smartphones Movies Books Hotels Videogames Average PRECISION 71,0 72,0 63,0 74,0 91,0 RECALL 100 98,6 96,1 98,9 91,2 97,5 F-measure** 83,0 83,2 77,3 83,6 94,8 80,5 84,1 * Average values ** F-measure=2∗ 𝑃∗𝑅 𝑃+𝑅

Feature-based Sentiment Analysis

Feature-based Sentiment Analysis Sintetizzare il contenuto delle opinioni espresse nei testi individuando le singole caratteristiche che rappresentano i punti di forza e/o le debolezze discusse nell’opinione. La relazione intercorrente tra features e opinione viene perfettamente espressa grazie al concetto di Target (T) dell’opinione, descritto dalla seguente funzione: T=O(f) Ogni feature può essere descritta da sottoinsiemi di altre features: F = {f1, f2, . . . , fn} Il Target può essere descritto nei testi da indicatori diretti (W) o indiretti (I) Wi = {wi1, wi2, . . . , wim} Ii = {ii1, ii2, . . . , iiq}

Feature-based Sentiment Analysis Un Esperimento Feature-based Sentiment Analysis Feature-based Sentiment Analysis

Sentiment Feature Pruning La Similirarità Semantica tra features Feature 1 Feature 2 Similarity Colazione Ristorante 0.907  Arredamento 0.828 Vista 0.751

Sentiment Feature Pruning

Sentiment Feature Pruning

Feature-based Sentiment Analysis Esempio di testo annotato Valutazione dei risultati

Sentiment Role Labeling

Sentiment Role Labeling Il task del Semantic Role Labeling (SRL) ha come finalità il mapping degli elementi sintattici localizzati nei testi liberi e le loro rappresentazioni semantiche. Esse verranno poi etichettate in base ad appropriati ruoli tematici o semantici. Il Sentiment Role Labeling focalizza l’analisi sui frame semantici relativi alla sfera della soggettività.

Sentiment Role Labeling Tavola LG Annotazione Semantica

Sentiment Role Labeling Frame Semantics Sentiment (SENT) experiencer (e) causer (c) Opinion (OP) opinion holder (h) opinion target (t) Physical Act (PHY) patient (z) agent (a) “ ” Fillmore, C. J. (2006). Frame semantics. Cognitive linguistics: Basic readings,34, 373-400.

Sentiment Role Labeling Frame Semantics Sentiment (SENT) experiencer (e) causer (c) Opinion (OP) opinion holder (h) opinion target (t) Physical Act (PHY) patient (z) agent (a)

Sentiment Role Labeling

Inter-annotator Agreement “is a measure of how well two (or more) annotators can make the same annotation decision for a certain category”

Cos’è l’Inter-annotator Agreement Spesso nell’annotazione linguistica non è facile fornire condizioni necessarie e sufficienti per la descrizione di una o più categorie. Probabilmente ciò vale per tutte le categorie linguistiche Durante l’annotazione il linguista o il parlante nativo che effettua l’annotazione si trova davanti alla scelta di attribuire un’entità ad una categoria piuttosto che ad un’altra Per dare una misura al grado di certezza con cui le annotazioni sono attribuite in un database si calcola l’inter-annotator agreement.

Cosa ci dice su un dataset l’Inter-annotator Agreement Quanto è facile descrivere una determinata categoria Quanto affidabile è un’annotazione