La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Risoluzione di ambiguità semantiche per la ricerca di similarità tra frasi Erika Stefanini Università degli Studi di Modena e Reggio Emilia Facoltà di.

Presentazioni simili


Presentazione sul tema: "Risoluzione di ambiguità semantiche per la ricerca di similarità tra frasi Erika Stefanini Università degli Studi di Modena e Reggio Emilia Facoltà di."— Transcript della presentazione:

1 Risoluzione di ambiguità semantiche per la ricerca di similarità tra frasi Erika Stefanini Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria - Corso di Laurea in Ingegneria Informatica Relatore: Prof. Paolo Tiberio Correlatori: Dott. Federica Mandreoli Ing. Riccardo Martoglia Anno Accademico 2002/2003

2 Obiettivi della tesi: realizzazione di un modulo indipendente per la risoluzione di ambiguità semantiche (word sense disambiguation) di termini appartenenti a frasi di lingua inglese questo modulo verrà poi utilizzato allinterno del progetto EXTRA

3 Sistema EXTRA: Ricerca approssimata di frasi (Pre-traduzione) Testo da tradurre Suggerimenti per la traduzione Allineamento Testo tradotto Traduttore professionista The white cat is hunting the mouse The white feline is catching the rodentThe white computer is detecting a mouse Frase originaleFrase Tradotta The white cat is hunting the mouse Il gatto bianco sta cacciando il topo. The white feline is catching the rodent. Il felino bianco sta catturando il roditore. The white computer is detecting a mouse. Il computer bianco sta rintracciando un mouse. Edit distance = 3 Sim =1- ed/lung = 0,57

4 è stata un tema di grande interesse fin dagli anni 50 è stata studiata ed utilizzata in diversi settori: intelligenza artificiale (comprensione del linguaggio naturale), traduzione automatica, information retrieval consiste nel determinare in modo automatico il significato più appropriato di una parola in base al contesto (frase) in cui si trova 2 tipi di approccio per il wsd La risoluzione di ambiguità semantiche dei termini (word sense disambiguation):

5 WordNet è stato realizzato presso il Cognitive Science Laboratory della Princeton University da un gruppo di psicologi e linguisti coordinati dal prof. George A. Miller. La caratteristica principale di WordNet è lorganizzazione delle informazioni lessicali delle parole in base al loro significato e non alla loro forma (lemma) Ogni parola è lassociazione tra la sua forma (il modo in cui viene scritta) ed il significato che esprime; questa corrispondenza viene espressa tramite la matrice lessicale WordNet È un sistema lessicale basato sulle teorie psicolinguistiche della memoria lessicale umana Word Meanings Word Forms apricotapricot tree Asian tree having clusters of usually white blossoms… XX Downy yellow to rosy- colored fruit resembling a small peach X A shade of pink tinged with yellow X

6 WordNet divide linsieme delle parole in 4 categorie: Nomi Aggettivi Avverbi Verbi Ogni categoria è organizzata in insiemi di sinonimi (synset) che rappresentano un concetto. I synset sono collegati tra loro da diversi tipi di relazioni semantiche. IPERONIMIA Un concetto rappresentato dal synset {y, y,…} è un iperonimo del concetto rappresentato dal synset {x, x,…} se si può costruire una frase del tipo An x is a (kind of) y. Liperonimia genera una gerarchia simile alle gerarchie di specializzazione presente nei modelli E/R. Substance, matter Natural object Plant part Reproductive structure Fruit Solid Food Produce,green goods,… Edible fruitPome, false fruit Apple (significato numero 1) Object, physical object Entity, physical thing Gli algoritmi implementati tengono conto solo dei nomi e dei verbi.

7 TRASFORMAZIONE PRELIMINARE DELLA FRASE frase originale parsing frase parserizzata stemming frase stemmizzata lista nomi, lista verbi estrazione di nomi e verbi The white cat is hunting the mouse The/DT white/JJ cat/NN is/VBZ hunting/VBG the/DT mouse/NN white cat be hunt mouse nomi = {cat, mouse}, verbi = {be, hunt} Algoritmo wsd nomi nomi = {cat,mouse} Algoritmo wsd verbi verbi = {be,hunting} nomi = {cat,mouse}

8 ALGORITMO DI WORD SENSE DISAMBIGUATION DEI NOMI Osservazione:se un insieme di parole polisemiche sono simili, il loro concetto comune dà informazioni su quale significato di ognuna delle parole sia quello più adatto. Calcolo della SIMILARITÀ SEMANTICA di due nomi: si basa sulla lunghezza del cammino necessario a percorrere la distanza che li separa dal loro concetto minimo comune Dato un insieme di nomi W = { w 1, w 2,…} considero tutte le possibili coppie (w i, w j ) Placental mammal CarnivoreRodent Feline, felid Cat (significato 1) Mouse (significato 1) len(cat#1, mouse#1) = 5 sim(cat#1,mouse#1) = 1,856

9 ALGORITMO DI WORD SENSE DISAMBIGUATION DEI NOMI Dati: un insieme di nomi w 1, w 2, …, w n sim(w i, w j ) per ogni coppia di nomi c[i,j] = concetto minimo comune a w i e w j Si vuole determinare: φ(w,k) funzione che indica la confidenza con cui si può dire che la parola w ha il significato k PASSI se c[i,j] è un iperonimo di sense (w i, k) allora support[i,k] += v[i,j] normalization[i] += v[i,j]; normalization[j] += v[i,j]; calcolo della confidenza coppia di nomi w i e w j si determina v[i,j] = sim(w i, w j ) * G(d i – d j ) Il significato migliore di un nome è quello che ha il più alto valore di φ. oppure + = 1

10 ALGORITMO DI WORD SENSE DISAMBIGUATION DEI VERBI Per i verbi approccio di tipo diverso: definizioni dei significati di WordNet Sense 2 look, appear, seem -- (give a certain impression or have a certain outward aspect; "She seems to be sleeping"; "This appears to be a very difficult problem"; "This project looks fishy"; "They appeared like people who had not eaten or slept for a long time") Descrizione del significato + frasi di esempio

11 ALGORITMO DI WORD SENSE DISAMBIGUATION DEI VERBI Dati: N = insieme nomi presenti nella frase in cui compare verbo v nomi_es(v, k) = insieme nomi nella definizione del significato k del verbo v; sim(nome i, nome_es j ), nome i N e nome_es j nomi_es(v,k) Si vuole determinare: φ(v,k) funzione che indica la confidenza con cui si può dire che il verbo v ha il significato k PASSI nome i N Calcolo della confidenza Il significato migliore del verbo v è quello con il valore più alto di φ.

12 Poiché WordNet contiene verbi con oltre 30 significati, si è deciso di sfruttare landamento di R(k) per migliore lefficienza dellalgoritmo. La retta R(k) è decrescenteR(k) > R(k+1) Se risulta vera la condizione φ(v,k) > R(k+1) φ(v,k) = R(k)*T(v,k) > R(k+1) > R(k+1)*T(v,k+1) = φ(v,k+1) Si può smettere di calcolare φ(v,k) per k > k+1, visto che in questo intervallo si otterrebbero valori minori di φ(v,k) ALGORITMO DI WORD SENSE DISAMBIGUATION DEI VERBI

13 GENERAZIONE CODICI Dopo aver eseguito gli algoritmi di word sense disambiguation, ad ogni nome o verbo della frase stemmizzata viene sostituito il codice del significato che è risultato essere migliore. WordNet assegna ad ogni significato un codice numerico univoco. The white cat is hunting the mouse white cat be hunt mouse Frase originale: Frase stemmizzata: Frase con codici: white The white feline is catching the rodent white feline be catch rodent Frase originale: Frase stemmizzata: Frase con codici: white The white computer is detecting a mouse white computer be detect mouse Frase originale: Frase stemmizzata: Frase con codici: white

14 Media delle percentuali di successo caso primaedopo = 0 casi primaedopo = 0 e primaedopo > 0 a confronto 1=DPaint 2=elettrodom. 3=op.letterarie RISULTATI ALGORITMO WSD NOMI Collezioni dati di tipo tecnico e di tipo generico (da opere letterarie)

15 RISULTATI ALGORITMO WSD VERBI È molto difficile stabilire con certezza il giusto significato di un verbo Esempio: Frase originale: The great musician Mozart composed nine symphonies and many other musical composition. The verb compose has 6 senses (first 5 from tagged texts): 1.(14) compose -- (form the substance of; "Greed and ambition composed his personality") 2. (5) compose, write -- (write music; "Beethoven composed nine symphonies") 3. (4) write, compose, pen, indite -- (produce a literary work; "She composed a poem"; "He wrote four novels") 4. (3) compose, compile -- (put together out of existing material; "compile a list") 5. (1) compose -- (calm (someone, esp. oneself); make quiet; "She had to compose herself before she could reply to this terrible insult") 6. frame, outline, compose, draw up -- (draw up the plans or basic details for; "frame a policy")

16 Obiettivi raggiunti : Sviluppi futuri : definizione della funzione di similarità semantica: fornisce una misura della somiglianza di significato tra due concetti tramite questa funzione sono stati sviluppati gli algoritmi di word sense disambiguation: per ogni significato si è determinata la confidenza con cui poter giudicare quanto fosse appropriato si è aumentata lefficacia dellalgoritmo relativo ai nomi valutando anche i nomi delle frasi adiacenti Per i nomi: considerare anche altri tipi di relazioni oltre liperonimia Per i verbi: analizzare le frasi in base allanalisi logica per determinare soggetto ed eventuale complemento oggetto Approccio di tipo statistico


Scaricare ppt "Risoluzione di ambiguità semantiche per la ricerca di similarità tra frasi Erika Stefanini Università degli Studi di Modena e Reggio Emilia Facoltà di."

Presentazioni simili


Annunci Google