Come le imprese possono usare i discorsi

Come le imprese possono usare i discorsi
Come distinguere dati fattuali e opinioni negli UGC

Perché distinguere dati fattuali e opinioni
Fabrizio Sebastiani Gruppo Human Language Technologies – NeMIS Lab Istituto di Scienza e Tecnologie dell’Informazione Consiglio Nazionale delle Ricerche Pisa

Cos’è la Corporate Reputation?
“Corporate reputation affects the way in which various stakeholders behave towards an organization, influencing, for example, employee retention, customer satisfaction and customer loyalty.” Corporate reputation: Meaning and measurement, Volume: 7, Issue: 2, Pages: , First published: 25 November 2005, DOI: ( /j x)

User Generated Content

Net-consumatori www.globalwebindex.com
Anche se il negozio fisico resta ancora un luogo importante, il 62% degli utenti su scala mondiale commenta un prodotto o servizio online dopo l’acquisto. se si aggiungono post e tweet il dato arriva al 69% il 55% degli utenti ibridi (coloro che si informano in rete ma poi effettuano l’acquisto in un punto vendita) postano commenti. Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

Net-consumatori Anche se il negozio fisico resta ancora un luogo importante, dobbiamo prendere seriamente in considerazione il modello di impresa che emerge dall’adozione strategica dei social media. Della Volpe, M. (2013). Imprese tra web 2.0 e big data. Nuove frontiere per innovazione e competitività, CEDAM.

Filtrare l’informazione automaticamente
Fatti Opinioni Gli spinaci sono ricchi di ferro Gli spinaci hanno un brutto sapore

Fatti Opinioni Gli spinaci sono ricchi di ferro Oggettivi Ritraggono la realtà Possono essere verificati Presentati con obiettività Gli spinaci hanno un brutto sapore Soggettive Interpretano la realtà NON possono essere verificate Presentate attraverso una valutazione

Fatti Opinioni Data Mining Information Retrieval Information Extraction Opinion Mining Sentiment Classification Feature-based Sentiment Analysis

Metodi Rule-Based cercano di imitare il modo in cui l’uomo utilizza e comprende il linguaggio, riproducendo le strutture sintattiche che sono alla base di questo processo di comprensione, costruendo risorse lessicali come i dizionari elettronici, le tassonomie, le ontologie Metodi Stocastici trattano la lingua come un insieme di parole, quantificando queste in modo matematico e cercando di estrarre informazioni senza la necessità di individuare le strutture sintattiche o, addirittura, cercando di rendere capace la macchina stessa di imparare la sintassi.

Quali Vantaggi? Ads placement Text summarization Recommendation systems Flame and cyberbullying detection Literary reputation tracking Political texts analysis

Cos’è l’Analisi dei Sentimenti
La Sentiment Analysis (SA) consiste nel trattamento automatico di opinioni e sentimenti espressi all’interno di testi non strutturati. Sono sinonimi della SA opinion mining, subjectivity analysis, or appraisal extraction. Alcune sfide nella ricerca sulla SA: Sentiment and Subjectivity Classification, Feature-based Sentiment Analysis, Sentiment Analysis of comparative sentences, Opinion search and retrieval, Opinion holders, Opinion features and opinion targets extraction.

Cos’è un’opinione? oj, fjk, ooijkl, hi, tl
dove oj è l’oggetto sul quale viene espressa l’opinione fjk rappresenta le caratteristiche (features) dell’oggetto ooijkl è l’orientamento (positivo o negativo) dell’opinione hi è opinion holder, colui che esprime l’opinione tl rappresenta il tempo in cui l’opinione viene espressa Liu, B. (2010). Sentiment analysis and subjectivity. Handbook of natural language processing, 2, 568.

Cos’è un’opinione?

Cos’è un’opinione? oj

Cos’è un’opinione? oj, fjk

Cos’è un’opinione? oj, fjk, ooijkl

Cos’è un’opinione? oj, fjk, ooijkl, hi

Cos’è un’opinione? oj, fjk, ooijkl, hi, tl

Cos’è un’opinione? I dati non strutturati

Cos’è un’opinione? Strutturare i dati
Indicatori di Sentimento Parole dotate di Orientamento Semantico gentile +2 pulito +2 abbondante + buono +2 esagerato + spettacolare +3 lussuoso +2 bene +2

Cos’è un’opinione? Strutturare i dati
Indicatori di Sentimento Espressioni dotate di Orientamento Semantico Contextual Valence Shifters: molto gentile non spettacolare non lussuoso avere da ridire sul prezzo Dipendenza dal dominio: hotel molto caratteristico Colazione abbondante arredo con tutto l’occorrente prezzo esagerato

Sentiment Polarity Classification
Correzione. Polarity Switching: 4 stars → 2 stars Ridimensionamento. Polarity Shifting : 4 stars → 3 stars

Alcuni task della Sentiment Analysis

Classificare interi documenti in base alle seguenti macro-classi Positivo Negativo Neurale Ciò che differenzia questo task dal comune Topic Detection and Classification è il fatto che le categorie in gioco non sono semanticamente slegate l’una rispetto all’altra. Tali categorie possono essere rappresentate come: Un’ opposizione binaria Una rating scale Un continuum

Feature-based Sentiment Analysis

Sintetizzare il contenuto delle opinioni espresse nei testi individuando le singole caratteristiche che rappresentano i punti di forza e/o le debolezze discusse nell’opinione. La relazione intercorrente tra features e opinione viene perfettamente espressa grazie al concetto di Target (T) dell’opinione, descritto dalla seguente funzione: T=O(f) Ogni feature può essere descritta da sottoinsiemi di altre features: F = {f1, f2, , fn} Il Target può essere descritto nei testi da indicatori diretti (W) o indiretti (I) Wi = {wi1, wi2, , wim} Ii = {ii1, ii2, , iiq}

Un esempio di testo annotato

Sentiment Role Labeling

Il task del Semantic Role Labeling (SRL) ha come finalità il mapping degli elementi sintattici localizzati nei testi liberi e le loro rappresentazioni semantiche. Esse verranno poi etichettate in base ad appropriati ruoli tematici o semantici. Il Sentiment Role Labeling focalizza l’analisi sui frame semantici relativi alla sfera della soggettività.

Frame Semantics Sentiment (SENT) experiencer (e) causer (c) Opinion (OP) opinion holder (h) opinion target (t) Physical Act (PHY) patient (z) agent (a) “ ” Fillmore, C. J. (2006). Frame semantics. Cognitive linguistics: Basic readings,34,

Frame Semantics Sentiment (SENT) experiencer (e) causer (c) Opinion (OP) opinion holder (h) opinion target (t) Physical Act (PHY) patient (z) agent (a)

Valutazione dell’analisi
Fare sentiment analysis è difficile perché, per esprimere le nostre opinioni ed emozioni, facciamo ricorso a una estrema varietà di sofisticati mezzi espressivi, tra cui la metafora, l’ironia, il sarcasmo, l’allusione, etc. Nell’analisi di significato dei testi tutto si può fare, ma solo con un certo grado di accuratezza. Un software di sentiment analysis potrebbe I riconoscere la presenza di un’opinione inesistente (“falso positivo”); non riconoscere la presenza di un’opinione esistente (“falso negativo”); assegnare a un’opinione una polarità erronea; non riconoscere correttamente il soggetto e/o l’oggetto dell’opinione; I ... Fabrizio Sebastiani Gruppo Human Language Technologies – NeMIS Lab Istituto di Scienza e Tecnologie dell’Informazione Consiglio Nazionale delle Ricerche Pisa

Opinion Mining e Sentiment Analysis
Prior Polarity e Contextual Valence Shifters

Impatto del Web sui SEC Goods
*Ricapitolando Impatto del Web sui SEC Goods Pro Crescita degli user generated content: forum, discussion group, blog, social media, review website, aggregation site; Costumer empowerment Crescita dell’importanza del passaparola online (eWOM) Contro Crescita del commercio online Ampio volume, alta velocità e grande varietà di dati non strutturati

Impatto del Web sui SEC Goods
*Ricapitolando Impatto del Web sui SEC Goods Pro Crescita degli user generated content: forum, discussion group, blog, social media, review website, aggregation site; Costumer empowerment Crescita dell’importanza del passaparola online (eWOM) Contro Crescita del commercio online Ampio volume, alta velocità e grande varietà di dati non strutturati riduzione del costo di ricerca delle informazioni information filtering distanza esplosione di contenuti

Effetto del contesto sulla polarità
Semantic Orientation: la misura della polarità e dell’intensità di un’opinione Prior Polarity: la polarità delle singole parole considerate al di fuori di qualsiasi contesto Contextual Valence Shifters elementi e strutture linguistiche capaci di modificare la prior polarity delle parole con cui co-occorrono

Lessici di Sentimento

Approcci alla Sentiment Analysis
Lexicon-based approaches Learning and statistical methods Hybrid methods

Approcci alla Sentiment Analysis
Lexicon-based approaches Learning and statistical methods Hybrid methods Gli approcci basati sul lessico partono dall’assunto che l’orientamento semantico dei testi dipende in qualche modo dalla polarità delle parole e dei sintagmi in esso contenuti

Indicatori di Sentimento
Aggettivi: Hatzivassiloglou and McKeown, 1997; Hu and Liu, 2004; Taboada et al., 2006 Avverbi: Benamara et al., 2007 Nomi: Vermeij, 2005; Riloff et al., 2003 Verbi: Neviarouskaya et al., 2009

Metodi per la costruzione dei lessici
Lessici costruiti a mano Pro: Più precisi Contro: Più onerosi Lessici annotati automaticamente Pro: Più ampi Contro: Più instabili

Lessici annotati automaticamente Latent Semantic Analysis (LSA) (Landauer and Dumais, 1997); bootstrapping algorithms (Riloff et al., 2003); graph propagation algorithms (Velikovich et al., 2010; Kaji and Kitsuregawa, 2007); Conjunctions (and or but) and morphological relations between adjectives (Hatzivassiloglou andMcKeown, 1997); ContextCoherency (Kanayama andNasukawa, 2006a); Distributional similarity (Wiebe, 2000); etc.

Seed Words

Sentiment Lexicon Propagation
Metodi basati sui Tesauri: espansione dei lessici apartire dalle Seed Words Metodi basati sui Corpora: è probabile che parole con la stessa polarità occorrano l’una vicino all’altra nei testi Meodi basati sulla Morfologia Derivazionale

Un Lessico Italiano dei Sentimenti
*Ricapitolando Un Lessico Italiano dei Sentimenti SentIta

*Ricapitolando Un Lessico Italiano dei Sentimenti Categoria Grammaticale Entrate Esempio Aggettivi 5.383 allegro Avverbi 3.626 tristemente Avverbi composti 793 a gonfie vele Frasi idiomatiche 552 essere in difetto Nomi 3.122 eccellenza Verbi psicologici 635 N0 amare N1 Altri verbi LG 879 N0 prendersla Prep N1 Parolacce 189 leccaculo Totale 15.179 -

*Ricapitolando International Nooj 2015 Conference Un Lessico Italiano dei Sentimenti Dizionario Elettronico degli Aggettivi Aggettivo Tag Punteggio Evaluation scale meraviglioso +POS+FORTE +3 divertente +POS +2 accettabile +POS+DEB +1 insapore +NEG+DEB -1 cafone +NEG -2 disastroso +NEG+FORTE -3 The Manually built dictionary of adjectives and the tag set for the sentiment annotation are the ones presented in the last Nooj Conference And include two different scales for the determination of the prior polarity of a word One for the orientation and one for the intensity Aggettivo Tag Punteggio Strenght scale straripante +FORTE +1 episodico +DEB -1 Maisto A., Pelosi S: (2014) A Lexicon-Based Approach to Sentiment Analysis. The Italian Module for Nooj. Nooj International Conference, Sassari, International Nooj 2014 Conference, June 3-5, University of Sassari, Italy. Book of Proceedings.

Dizionario Elettronico degli Avverbi [[emozionante]A -mente]ADV [[incantevole]A -mente]ADV [[allegro]A -mente]ADV Aggettivi Regole per la formazione degli Avverbi Radice Cancellazione Vocale tematica Suffisso emozionante emozionant- - -mente incantevole incantevol- #e allegro allegr- #o -a- The great part of the adverbs is characterized by a complex structure that includes an adjective base and the derivational morpheme -mente “-ly”. All the adverbs contained in the Italian dictionary of simple words have been put in a Nooj text and the above-mentioned grammar has been used to quickly populate the new dictionary by extracting the words ending with the suffix -mente, “-ly” and by making such words inherit the adjectives’ polarity. The FSA used to perform this task follows three rules that depend on the inflectional paradigm of the base adjectives These rules have been formalised into a grammar into three correspondent paths

Dizionario Elettronico dei verbi e delle loro nominalizzazioni Verbi Nomi Deverbali angosciare,V+FLX=V4+NEG+FORTE+41 angoscia,N+FLX=N45+NEG+FORTE+41 piacere,V+FLX=V37+POS+42 piacere,N+FLX=N5+POS+42 piacevolezza,N+FLX=N41+POS+42 amare,V+FLX=V3+POS+FORTE+43 amorevolezza,N+FLX=N41+POS+43 amore,N+FLX=N41+POS+FORTE+43 innamoramento,N+FLX=N41+POS+43 biasimare,V+FLX=V3+NEG+43B biasimo,N+FLX=N5+NEG+43B The verbs chosen for our sentiment lexicon are the Psychological Semantic Predicates belonging to the Italian Lexicon-grammar classes 41, 42, 43 and 43B. The nominalizations of these predicates have been used to manually build the Sentiment dictionary of names. Gross, M. (1981). Les bases empiriques de la notion de prédicat sémantique.Langages, 7-52. Elia, A. (1984). Le verbe italien: les complétives dans les phrases à un complément. Schena.

Dizionario Elettronico dei Nomi di Qualità Here we show one of the automata used to derive the QN from the adjective of sentiment As we can notice, this time the inflectional paradigm of the QN is selected by the suffixes and not by the base adjectives bravo,A+FLX=N88+POS #o + -ura,SFX+QN+FLX=N41 bravura,N+QN+POS+FLX=N41

Dizionario Elettronico delle frasi idiomatiche N0 Agg come C1 Il pavimento è lucido come uno specchio +3 N0 essere (Agg + Ppass) Prep C1 Max è matto da legare -3 N0 essere Agg e Agg Max è bello e fritto C0 essere Agg (come C1 + E) La coscienza è sporca ↔ Mary ha la coscienza sporca -2 N0 essere C1 Agg Mary è una gatta morta -1 In the end, 500+ Italian frozen sentences containing adjectives have been evaluated and then formalised with a pair of dictionary-grammar. It is interesting to notice that the 84% of the idioms has a clear SO, while just the 36% of the adjectives they contain is polarised.

Dizionario Elettronico delle frasi idiomatiche Intensificazione +2 → +3 Mary è bella[A+POS] come il sole. Polarizazzione 0 → -2 Mary è bianca[A+NEUTRALE] come un cadavere. Slittamento +2 → -2 Mary è agile[A+POS] come una gatta di piombo. Among the idioms considered, there are the comparative frozen sentences of the type N0 Agg come C1 that usually intensify the polarity of the adjective of sentiment they contain, as happens in the first example. Otherwise, it is also possible for an idiom of that sort to be polarised when the adjective contained in it is neutral, or even to reverse its polarity, as exemplified in the third sentence. Vietri, S. (1990). On some comparative frozen sentences in Italian. Lingvisticae Investigationes, 14(1), Jindal, N., & Liu, B. (2006, July). Mining comparative sentences and relations. In AAAI (Vol. 22, pp ).

Le Parole e il loro Contesto
Regole per la Negazione Negative operators: non, mica, per niente, affatto, Negative quantifiers: nessuno, niente, nulla, Lexical negation: senza, mancanza di, assenza di, carenza di, Capovolgimento +2 → -2 La Citroen non[Negative_Operator] produce auto valide[A+POS] Slittamento +3 → -1 Grafica non[Negative_Operator] proprio spettacolare[A+POS+FORTE] Negazione e Intensificazione +2 → +3 Personale alla reception non[Negative_Operator] sempre[AVV+FORTE] gentile[A+POS]. As exemplified in the following sentences extracted from a sentiment corpus that will be described in Section X, negation indicators not always change a sentence polarity in its positive or negative counterparts; they often have the effect of increasing or decreasing the sentence score (11). That is why we prefer to talk about valence “shifting” rather than “switching”. We avoided the most used, but complex (and often misleading) mathematical calculations between the words sentiment scores. We instead put into the appropriate “box” the patterns built combining all these negation indicators with the sentiment words.

Regole per l’Intensificazione Ripetizione +3 Hotel meraviglioso[A+POS+FORTE], lussuoso[A+POS] e impeccabile[A+POS+FORTE] Superlativo Questo smartphone ha un bellissimo[A+POS+SUP] display In order to take Intensification into account, we combined in the grammar the words belonging to the strength scale with the sentiment words listed in the evaluation scale. In general, the adverbs intensify or attenuate adjectives, verbs and other adverbs, while the adjectives modify the intensity of nouns. Avverbio-Aggettivo -2 → -1 Parzialmente[AVV+DEB] deludente[A+NEG] anche il reparto degli attori. Aggettivo-Nome -2 → -3 Ciò che ne deriva (...) è una terribile[A+NEG] confusione[N+NEG] narrativa. Avverbio-Verbo +2 → +3 Alla guida ci si diverte[V+POS] molto[AVV+FORTE]. Avverbio-Avverbio Ne sono rimasta molto[AVV+FORTE] favorevolmente[AVV+POS] colpita

Regole per l’Intensificazione Frasi idiomatiche Comparative N0 Agg come C1 +2 → +3 Mary è bella[A+POS] come il sole. Comparativo di Minoranza e Maggioranza 0 → +2 L'S3 è complessivamente superiore all'Iphone5 Comparativo Assoluto Il suo motore era anche il più brioso[A+POS] 0 → -3 Un film peggiore di qualsiasi telefilm. As far as the comparative sentences are concerned, we considered in this work the already mentioned comparative frozen sentences; some simple comparative sentences that involve the expressions meglio di, migliore di, “better than”, peggio di, peggiore di, “worse than”, superiore a, “superior to” inferiore a, “less than” the comparative superlative, that confers to the first term of the comparison the higher polarity score, so it always increases the strength of the opinion. Thus, its polarity can be -3 or +3. Vietri, S. (1990). On some comparative frozen sentences in Italian. Lingvisticae Investigationes, 14(1), Jindal, N., & Liu, B. (2006, July). Mining comparative sentences and relations. In AAAI (Vol. 22, pp ).

Altre espressioni di sentimento valerne la pena[POS] essere (dotato + fornito + provvisto) di[POS] grazie a[POS] essere un (aspetto + nota + cosa + lato) negativo[NEG] non essere niente di che[POCONEG] tradire le (aspettative + attese + promesse)[NEG] In this slide we introduce the idea that, in order to reach high levels of Recall, the lexicon-based patterns require the support of lexicon independent expressions. This is the case in which one can see the importance of the Finite-state automata. Without them it would be really difficult and uneconomical to provide the machine with concise instructions to correctly recognise and evaluate some kind of opinionated sentences that can often reach high levels of variability.

Altre espressioni di sentimento Ironia +2 → -2 La ripresa è degna[A+POS] di un trattore con aratro inserito. E quel tocco di piccante (...) è gradevole[A+POS] quanto lo sarebbe una spruzzata di pepe su un gelato alla panna. Stereotipi Culturali +2 → -1 La nuova fiat 500 è consigliabile[A+POS] molto di più ad una ragazza 0 → -1 Un gioco per bambini di 12 anni. Irony and cultural stereotypes remain an open problem for the NLP in general and for the sentimen analysis. For the moment we decided to give up with them, but we do not exclude that in the next feature we will try to face also these challanges.

Alcuni task della Sentiment Analysis

Classificare interi documenti in base alle seguenti macro-classi Positivo Negativo Neurale Ciò che differenzia questo task dal comune Topic Detection and Classification è il fatto che le categorie in gioco non sono semanticamente slegate l’una rispetto all’altra. Tali categorie possono essere rappresentate come: Un’ opposizione binaria Una rating scale Un continuum

Un Esperimento Sentiment Polarity Classification

Auto Smartphones Libri Film Hotel Videogame TOT Documenti Negativi 50 300 Positivi Text Files 20 120 Word Forms 17163 19226 8903 37213 12553 5597 101655 Tokens 21663 24979 10845 45397 16230 7070 126184 The dataset used to evaluate our tools has been built using Italian opinionated texts in the form of users’ review and comments. It contains 600 texts units and refers to six different domains, for all of which different e-commerce and opinion websites have been exploited. Each domain contains 50 positive and 50 negative texts. Cars: Smartphones: alatest.it), Books: Movies: Hotels: it.hotels.com, Videogames:

Sentiment Document Classification
Sentence-level (%) Cars Smartphones Movies Books Hotels Videogames Average PRECISION* 79,2 74,5 56,9 73,7 81,3 78,6 74,0 RECALL 72,7 79,6 64,8 65,7 72,1 58,8 69,0 F-measure** 75,8 77,0 60,6 69,5 76,4 67,3 71,4 Sentiment Document Classification Document-level (%) Cars Smartphones Movies Books Hotels Videogames Average PRECISION 71,0 72,0 63,0 74,0 91,0 RECALL 100 98,6 96,1 98,9 91,2 97,5 F-measure** 83,0 83,2 77,3 83,6 94,8 80,5 84,1 * Average values ** F-measure=2∗ 𝑃∗𝑅 𝑃+𝑅

Sintetizzare il contenuto delle opinioni espresse nei testi individuando le singole caratteristiche che rappresentano i punti di forza e/o le debolezze discusse nell’opinione. La relazione intercorrente tra features e opinione viene perfettamente espressa grazie al concetto di Target (T) dell’opinione, descritto dalla seguente funzione: T=O(f) Ogni feature può essere descritta da sottoinsiemi di altre features: F = {f1, f2, , fn} Il Target può essere descritto nei testi da indicatori diretti (W) o indiretti (I) Wi = {wi1, wi2, , wim} Ii = {ii1, ii2, , iiq}

Un Esperimento Feature-based Sentiment Analysis Feature-based Sentiment Analysis

Sentiment Feature Pruning
La Similirarità Semantica tra features Feature 1 Feature 2 Similarity Colazione Ristorante 0.907 Arredamento 0.828 Vista 0.751

Sentiment Feature Pruning

Esempio di testo annotato Valutazione dei risultati

Il task del Semantic Role Labeling (SRL) ha come finalità il mapping degli elementi sintattici localizzati nei testi liberi e le loro rappresentazioni semantiche. Esse verranno poi etichettate in base ad appropriati ruoli tematici o semantici. Il Sentiment Role Labeling focalizza l’analisi sui frame semantici relativi alla sfera della soggettività.

Tavola LG Annotazione Semantica

Frame Semantics Sentiment (SENT) experiencer (e) causer (c) Opinion (OP) opinion holder (h) opinion target (t) Physical Act (PHY) patient (z) agent (a) “ ” Fillmore, C. J. (2006). Frame semantics. Cognitive linguistics: Basic readings,34,

Frame Semantics Sentiment (SENT) experiencer (e) causer (c) Opinion (OP) opinion holder (h) opinion target (t) Physical Act (PHY) patient (z) agent (a)

Inter-annotator Agreement
“is a measure of how well two (or more) annotators can make the same annotation decision for a certain category”

Cos’è l’Inter-annotator Agreement
Spesso nell’annotazione linguistica non è facile fornire condizioni necessarie e sufficienti per la descrizione di una o più categorie. Probabilmente ciò vale per tutte le categorie linguistiche Durante l’annotazione il linguista o il parlante nativo che effettua l’annotazione si trova davanti alla scelta di attribuire un’entità ad una categoria piuttosto che ad un’altra Per dare una misura al grado di certezza con cui le annotazioni sono attribuite in un database si calcola l’inter-annotator agreement.

Cosa ci dice su un dataset l’Inter-annotator Agreement
Quanto è facile descrivere una determinata categoria Quanto affidabile è un’annotazione

Come le imprese possono usare i discorsi

Presentazioni simili

Presentazione sul tema: "Come le imprese possono usare i discorsi"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Come le imprese possono usare i discorsi

Presentazioni simili

Presentazione sul tema: "Come le imprese possono usare i discorsi"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back