Università degli Studi di Modena e Reggio Emilia

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

Evoluzione dei linguaggi di programmazione
I linguaggi di programmazione
Algoritmi e Programmazione
una interfaccia internet per il sistema Momis
Facoltà di Ingegneria di Modena ANALISI E SVILUPPO DI TECNICHE PER
Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico.
a mediatore MOMIS nell’integrazione di
Università degli studi di Modena e Reggio Emilia
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
Integrazione di standard di classificazione per le-commerce: una nuova metodologia basata sul sistema MOMIS UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
Re-engineering del wrapper XML Schema per il sistema MOMIS
1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.
Il mio nome è Alain Fergnani e nel corso della tesi mi sono occupato della dinamica delle ontologie per il Web Semantico, e in particolare dell’approccio.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica MOMIS: servizi di wrapping.
Università degli studi di Modena e Reggio Emilia
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Ontologie Lessicali Multilingua:
Tecniche di processamento testuale Come classificare testi per argomento.
1 Istruzioni, algoritmi, linguaggi. 2 Algoritmo per il calcolo delle radici reali di unequazione di 2 o grado Data lequazione ax 2 +bx+c=0, quali sono.
Intelligenza Artificiale Linguaggio naturale
Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Maria Teresa PAZIENZA a.a
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Informatica di base A.A. 2003/2004 Algoritmi e programmi
Istituzioni di linguistica
Università degli Studi di Bergamo Facoltà di Lingue e Letterature Straniere Facoltà di Lettere e Filosofia A.A Informatica generale 1 Appunti.
Corso di Laurea in Biotecnologie Informatica (Programmazione)
Corso di Informatica (Programmazione)
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Problemi e algoritmi Anno Accademico 2009/2010.
Digressione: il linguaggio di query CQP
ELEMENTI COSTITUTIVI : - TEMPO - ASPETTO - MODO
Fondamentidi Programmazione Corso: Fondamenti di Programmazione Classe: PARI-DISPARI Docente: Prof. Luisa Gargano Testo: Aho, Ulman, Foundations of Computer.
Unità Didattica 2 I Linguaggi di Programmazione
Fondamenti di Informatica Algoritmi
Obiettivi Conoscere strumento Analisi di un progetto
Informatica giuridica Informatica e lingua del diritto Nicola Palazzolo Anno Accademico 2006/2007.
Cristian Colli Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica Anno Accademico 2001/2002.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Progetto e sviluppo.
Che cos’è l’annotazione di un corpus?
Dislocazione ed enfasi
Lezione 1 Linguaggi di programmazione – Algoritmi –Istruzioni
CONCETTI DI BASE 1.0 FONDAMENTI 1.1 HARDWARE 1.2 SOFTWARE 1.3 RETI
Fondamenti di Programmazione
Come collaborare all'organizzazione di un corso in rete
Sistemi basati su conoscenza Linguaggio naturale: grammatiche Prof. M.T. PAZIENZA a.a
GLI INDEFINITI.
Realizzazione di un motore di ricerca semantico basato sul contesto
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
GLI ALGORITMI VISIBILE SUL BLOG INFORMATICA ANNO SCOLASTICO 2013 / 2014 GABRIELE SCARICA 2°T.
PINK FLOYD DOGS You gotta be crazy, you gotta have a real need. You gotta sleep on your toes. And when you're on the street. You gotta be able to pick.
Filosofia analitica del linguaggio: mod. ontologia esistenza e identità Francesco Orilia A.A I Semestre.
Università degli Studi di Cassino e del Lazio Meridionale Dipartimento di Scienze Umane, Sociali, e della Salute Lingua Inglese a.a (Dott. Saverio.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Paola Disisto, Erika Griffini, Yris Noriega.  Insieme ordinato di operazioni non ambigue ed effettivamente computabili che, quando eseguito, produce.
GLI INTERROGATIVI.
Il software Claudia Raibulet
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
GLI AGGETTIVI.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
Simple Sentences in Italian
Buon giorno, ragazzi oggi è il quattro febbraio duemilasedici
Computer assisted translation (CAT - 2) Cristina Bosco Informatica applicata alla comunicazione multimediale
ADVERBS OF FREQUENCY A Spaced Learning Lesson Part I.
Comenius Project “Math is B.E.A.U.” that is Beautiful Easy Amusing Useful ITALIAN WORKGROUP ENNISKILLEN (U.K.) May 2011.
ALGORITMI, LINGUAGGI E PROGRAMMI Facoltà di Lingue e Letterature Straniere Corso di laurea in Relazioni Pubbliche.
Transcript della presentazione:

Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria - Corso di Laurea in Ingegneria Informatica Risoluzione di ambiguità semantiche per la ricerca di similarità tra frasi Erika Stefanini Correlatori: Dott. Federica Mandreoli Ing. Riccardo Martoglia Relatore: Prof. Paolo Tiberio Anno Accademico 2002/2003

Obiettivi della tesi: realizzazione di un modulo indipendente per la risoluzione di ambiguità semantiche (word sense disambiguation) di termini appartenenti a frasi di lingua inglese questo modulo verrà poi utilizzato all’interno del progetto EXTRA

Sistema EXTRA: Testo da tradurre Suggerimenti per la traduzione Ricerca approssimata di frasi (Pre-traduzione) Testo da tradurre Suggerimenti per la traduzione Allineamento Testo tradotto Traduttore professionista Frase originale Frase Tradotta The white cat is hunting the mouse Il gatto bianco sta cacciando il topo. The white feline is catching the rodent. Il felino bianco sta catturando il roditore. The white computer is detecting a mouse. Il computer bianco sta rintracciando un mouse. The white cat is hunting the mouse Sim =1- ed/lung = 0,57 Edit distance = 3 The white feline is catching the rodent The white computer is detecting a mouse

La risoluzione di ambiguità semantiche dei termini (word sense disambiguation): è stata un tema di grande interesse fin dagli anni ’50 è stata studiata ed utilizzata in diversi settori: intelligenza artificiale (comprensione del linguaggio naturale), traduzione automatica, information retrieval consiste nel determinare in modo automatico il significato più appropriato di una parola in base al contesto (frase) in cui si trova 2 tipi di approccio per il wsd

WordNet Word Meanings Word Forms apricot apricot tree Asian tree having clusters of usually white blossoms… X Downy yellow to rosy-colored fruit resembling a small peach A shade of pink tinged with yellow È un sistema lessicale basato sulle teorie psicolinguistiche della memoria lessicale umana La caratteristica principale di WordNet è l’organizzazione delle informazioni lessicali delle parole in base al loro significato e non alla loro forma (lemma) Ogni parola è l’associazione tra la sua forma (il modo in cui viene scritta) ed il significato che esprime; questa corrispondenza viene espressa tramite la matrice lessicale WordNet è stato realizzato presso il Cognitive Science Laboratory della Princeton University da un gruppo di psicologi e linguisti coordinati dal prof. George A. Miller.

WordNet divide l’insieme delle parole in 4 categorie: Nomi Aggettivi Avverbi Verbi Ogni categoria è organizzata in insiemi di sinonimi (synset) che rappresentano un concetto. I synset sono collegati tra loro da diversi tipi di relazioni semantiche. Substance, matter Natural object Plant part Reproductive structure Fruit Solid Food Produce,green goods,… Edible fruit Pome, false fruit Apple (significato numero 1) Object, physical object Entity, physical thing IPERONIMIA Un concetto rappresentato dal synset {y, y’,…} è un iperonimo del concetto rappresentato dal synset {x, x’,…} se si può costruire una frase del tipo An x is a (kind of) y. L’iperonimia genera una gerarchia simile alle gerarchie di specializzazione presente nei modelli E/R. Gli algoritmi implementati tengono conto solo dei nomi e dei verbi.

TRASFORMAZIONE PRELIMINARE DELLA FRASE frase originale parsing frase “parserizzata” stemming frase “stemmizzata” lista nomi , lista verbi estrazione di nomi e verbi The white cat is hunting the mouse The/DT white/JJ cat/NN is/VBZ hunting/VBG the/DT mouse/NN white cat be hunt mouse Algoritmo wsd nomi nomi = {cat,mouse} Algoritmo wsd verbi verbi = {be,hunting} nomi = {cat,mouse} nomi = {cat, mouse}, verbi = {be, hunt}

ALGORITMO DI WORD SENSE DISAMBIGUATION DEI NOMI Placental mammal Carnivore Rodent Feline, felid Cat (significato 1) Mouse ALGORITMO DI WORD SENSE DISAMBIGUATION DEI NOMI Osservazione: se un insieme di parole polisemiche sono simili, il loro concetto comune dà informazioni su quale significato di ognuna delle parole sia quello più adatto. 3 4 Dato un insieme di nomi W = { w1, w2,…} considero tutte le possibili coppie (wi, wj) 2 5 Calcolo della SIMILARITÀ SEMANTICA di due nomi: si basa sulla lunghezza del cammino necessario a percorrere la distanza che li separa dal loro concetto minimo comune 1 len(cat#1, mouse#1) = 5 sim(cat#1,mouse#1) = 1,856

PASSI ALGORITMO DI WORD SENSE DISAMBIGUATION DEI NOMI Dati: un insieme di nomi w1, w2, …, wn sim(wi, wj) per ogni coppia di nomi c[i,j] = concetto minimo comune a wi e wj Si vuole determinare: φ(w,k) funzione che indica la confidenza con cui si può dire che la parola w ha il significato k Il significato migliore di un nome è quello che ha il più alto valore di φ. PASSI calcolo della confidenza coppia di nomi wi e wj si determina v[i,j] = sim(wi, wj) * G(di – dj) oppure  + = 1 se c[i,j] è un iperonimo di sense (wi , k) allora support[i,k] += v[i,j] normalization[i] += v[i,j]; normalization[j] += v[i,j];

ALGORITMO DI WORD SENSE DISAMBIGUATION DEI VERBI Per i verbi approccio di tipo diverso: definizioni dei significati di WordNet Sense 2 look, appear, seem -- (give a certain impression or have a certain outward aspect; "She seems to be sleeping"; "This appears to be a very difficult problem"; "This project looks fishy"; "They appeared like people who had not eaten or slept for a long time") Descrizione del significato + frasi di esempio

PASSI ALGORITMO DI WORD SENSE DISAMBIGUATION DEI VERBI Dati: N = insieme nomi presenti nella frase in cui compare verbo v nomi_es(v, k) = insieme nomi nella definizione del significato k del verbo v; sim(nomei, nome_esj) ,  nomei  N e  nome_esj  nomi_es(v,k) Si vuole determinare: φ(v,k) funzione che indica la confidenza con cui si può dire che il verbo v ha il significato k Il significato migliore del verbo v è quello con il valore più alto di φ. PASSI  nomei  N Calcolo della confidenza

ALGORITMO DI WORD SENSE DISAMBIGUATION DEI VERBI Poiché WordNet contiene verbi con oltre 30 significati, si è deciso di sfruttare l’andamento di R(k) per migliore l’efficienza dell’algoritmo. La retta R(k) è decrescente R(k) > R(k+1) Se risulta vera la condizione φ(v,k) > R(k+1) φ(v,k) = R(k)*T(v,k) > R(k+1) > R(k+1)*T(v,k+1) = φ(v,k+1) Si può smettere di calcolare φ(v,k) per k > k+1, visto che in questo intervallo si otterrebbero valori minori di φ(v,k)

WordNet assegna ad ogni significato un codice numerico univoco. GENERAZIONE CODICI WordNet assegna ad ogni significato un codice numerico univoco. Dopo aver eseguito gli algoritmi di word sense disambiguation, ad ogni nome o verbo della frase “stemmizzata” viene sostituito il codice del significato che è risultato essere migliore. The white cat is hunting the mouse white cat be hunt mouse Frase originale: Frase “stemmizzata”: Frase con codici: white 1788952 2058045 903354 1993014 The white computer is detecting a mouse white computer be detect mouse Frase originale: Frase “stemmizzata”: Frase con codici: white 7846548 2058045 658546 85657 The white feline is catching the rodent white feline be catch rodent Frase originale: Frase “stemmizzata”: Frase con codici: white 1788952 2058045 837447 1993014

RISULTATI ALGORITMO WSD NOMI Media delle percentuali di successo caso primaedopo = 0 Collezioni dati di tipo tecnico e di tipo generico (da opere letterarie) casi primaedopo = 0 e primaedopo > 0 a confronto 1=DPaint 2=elettrodom. 3=op.letterarie

RISULTATI ALGORITMO WSD VERBI È molto difficile stabilire con certezza il giusto significato di un verbo Esempio: The great musician Mozart composed nine symphonies and many other musical composition. Frase originale: The verb compose has 6 senses (first 5 from tagged texts): (14) compose -- (form the substance of; "Greed and ambition composed his personality") 2. (5) compose, write -- (write music; "Beethoven composed nine symphonies") 3. (4) write, compose, pen, indite -- (produce a literary work; "She composed a poem"; "He wrote four novels") 4. (3) compose, compile -- (put together out of existing material; "compile a list") 5. (1) compose -- (calm (someone, esp. oneself); make quiet; "She had to compose herself before she could reply to this terrible insult") 6. frame, outline, compose, draw up -- (draw up the plans or basic details for; "frame a policy")

Obiettivi raggiunti : Sviluppi futuri : definizione della funzione di similarità semantica: fornisce una misura della somiglianza di significato tra due concetti tramite questa funzione sono stati sviluppati gli algoritmi di word sense disambiguation: per ogni significato si è determinata la confidenza con cui poter giudicare quanto fosse appropriato si è aumentata l’efficacia dell’algoritmo relativo ai nomi valutando anche i nomi delle frasi adiacenti Sviluppi futuri : Per i nomi: considerare anche altri tipi di relazioni oltre l’iperonimia Per i verbi: analizzare le frasi in base all’analisi logica per determinare soggetto ed eventuale complemento oggetto Approccio di tipo statistico