Semantica approcci computazionali Maria Teresa PAZIENZA a.a. 2005-06.

Slides:



Advertisements
Presentazioni simili
Estrazione di informazioni da testo. Perchè occuparsene? E unapplicazione particolarmente complessa. Sfrutta la maggior parte delle risorse utilizzate.
Advertisements

Intelligenza Artificiale 1
Introduzione ad XML Mario Arrigoni Neri.
1 Introduzione ad XML. 2 Problemi con SGML Complesso da comprendere ed utilizzare Non è pensato per la rete: mancano link ipertestuali e specifiche grafiche.
Analizzatori Sintattici con Cup Giuseppe Morelli.
Linguaggi di programmazione
XSLT (eXtensible Stylesheet Language Transformation) Laurea Magistrale in Informatica Reti 2 (2005/06) dott. Francesco De Angelis
XML Prof. Alfredo Pulvirenti. XML XML (eXtensible Markup Language) è un meta linguaggio. Può essere definito come un insieme di regole e convenzioni che.
Sistemi computazionali per il linguaggio naturale
TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.
©Carlo Tasso 1999 Object Oriented Programming Slide 1 OO Analysis Vs. OO Design OOA – Object Oriented Analysis. –Specifica COSA, IN QUALE CONTESTO il sistema.
Per un conto satellite sulla produzione familiare di Monica Montella* Oltre il PIL 1. Oltre il PIL A full set of household accounts, for example, may not.
Semantica approcci computazionali
Intelligenza Artificiale Linguaggio naturale
JavaScript Laboratorio di Applicazioni Informatiche II mod. A.
Maria Teresa PAZIENZA a.a
Maria Teresa PAZIENZA a.a
Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Gestione dei dati e della conoscenza secondo emicorso a.a M.T. PAZIENZA
Metodologie per la gestione di conoscenza ontologica Prof. M.T. PAZIENZA a.a
Intelligenza Artificiale Strutture e strategie per risolvere problemi complessi Prof. M.T. PAZIENZA a.a
Maria Teresa PAZIENZA a.a
Maria Teresa PAZIENZA a.a
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale Prof. M.T. PAZIENZA a.a
Sistemi basati su conoscenza Basi di conoscenza: rappresentazione e ragionamento (2 - Reti semantiche, Frames) Prof. M.T. PAZIENZA a.a
Elaborazione del linguaggio naturale morfologia, FSA, FST, POS esercizi Maria Teresa PAZIENZA a.a
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Chomsky La grammatica/sintassi è una proprietà della mente
La pragmatica Morris divide il linguaggio in: Sintassi (relazione tra segni tra di loro) Semantica (relazione tra segni e oggetti a cui si riferiscono)
UML: Extension Mechanism Corso IS I /03 Gianna Reggio Versione 0.0.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Unità Didattica 2 I Linguaggi di Programmazione
Linguaggi di markup1 LINGUAGGI DI MARKUP. Linguaggi di markup2 Documenti su Internet Internet permette (tra laltro) di accedere a documenti remoti In.
LINGUAGGI DI PROGRAMMAZIONE
Large linguistically-processed Web corpora for multiple languages Marco Baroni e Adam Kilgarrif in Proceedings of EACL 2006 presentazione Fantini - Inglese.
Chomsky La grammatica/sintassi è una proprietà della mente Distinta dalla capacità di comunicare E una facoltà autonoma ed innata La comunicazione è solo.
_ ___ _ ______ _ _ _________.
PROBLEMI E “PAROLACCE” Nucleo: Relazioni e Funzioni
Che fatica questa grammatica!
Lo sviluppo del software e i linguaggi di programmazione
SINTASSI.
Che cos’è Il Quadro comune europeo di riferimento?
Grammatiche, Linguaggio e Automi R. Basili TAL - a.a
USR Liguria Anna Maria Parodi I RISULTATI DI ITALIANO e altri strumenti utili SEMINARI PROVINCIALI SNV 2011/12.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale (grammatica, semantica) Prof. M.T. PAZIENZA a.a
Sistemi basati su conoscenza Linguaggio naturale: grammatiche Prof. M.T. PAZIENZA a.a
Elaborazione del linguaggio naturale CFG: esercizi Maria Teresa PAZIENZA a.a
Ambiguità Le lingue sono, per loro natura ambigue e sfumate:
I giorni della settimana
PART 3: DATA ANALYSIS THROUGH OMNIFIND. Il cliente: una sorgente importante di informazioni Mercato iper-competitivo, altamente caotico. Cliente al centro.
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
Tecnologie di InternetDocument Type Definition Dott. Nicola Dragoni Document Type Definition  Document Type Definition (DTD)  Documento XML valido 
AURORA Amministrazioni unite per la redazione degli oggetti e delle registrazioni anagrafiche nel protocollo informatico PROGETTO AURORA Le raccomandazioni.
WWW XSLT Ing. Michele Vindigni. WWW 2 Introduzione Oggi esaminiamo in breve: u XSLT, ovvero il linguaggio trasformazione per documenti XML con sintassi.
TW Asp - Active Server Pages Nicola Gessa. TW Nicola Gessa Introduzione n Con l’acronimo ASP (Active Server Pages) si identifica NON un linguaggio di.
Linguaggi di programmazione: panoramica Linguaggi di programmazione ad alto livello: – –Programmazione procedurale – –Programmazione object oriented –
Elaborazione del linguaggio naturale morfologia, FSA, FST, POS esercizi Maria Teresa PAZIENZA a.a
Elaborazione del linguaggio naturale morfologia, FSA, FST, POS esercizi Maria Teresa PAZIENZA.
Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Indicizzazione di documenti semistrutturati Sistemi informativi – AA D’Este Laura.
Documenti XML ben formati Altre componenti di un documento XML – Struttura dei documenti XML.
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
LA FRASE SEMPLICE M. Dardano – P. Trifone, Grammatica italiana con nozioni di linguistica, Zanichelli, Bologna, III ed.
La Comprensione frasale
I profili professionali ISFOL nel campo delle Relazioni Pubbliche.
Parsing ricorsivo discendente Il parsing ricorsivo discendente (recursive descent parsing) è un metodo di tipo top-down che può essere facilmente codificato.
Scheda per la rilevazione delle condizioni climatiche. abbiamo concordato di effettuare la rilevazione in una settimana concordata, alla medesima ora:
Transcript della presentazione:

Semantica approcci computazionali Maria Teresa PAZIENZA a.a

Analisi semantica robusta Le grammatiche tradizionali generalmente non riflettono i contenuti semantici in maniera diretta ed esplicita; le strutture sintattiche prodotte spesso non sono utili per effettuare l’analisi semantica utilizzando il principio della composizionalità; infatti: –elementi con un ruolo semantico chiave sono spesso distribuiti all’interno dell’albero sintattico rendendo molto complessa la composizionalità –gli alberi sintattici contengono molti costituenti sintattici che non hanno alcun ruolo nell’elaborazione semantica –la generalità informativa di molti costituenti sintattici produce attchment semantici che possono creare rappresentazioni semantiche prive o quasi di significato

Analisi semantica robusta Per risolvere questo problema si può agire in modi diversi per migliorare l’efficienza delle operazioni: estendendo il ruolo delle grammatiche (con l’introduzione delle espressioni lambda e dei termini complessi,) riscrivendo la grammatica per riflettere la semantica

Esempio -distribuzione di elementi con significato all’interno dell’albero -molti nodi non rilevanti per il significato della frase

Esempio - costituenti sintattici ad un giusto livello di generalità per la sintassi, ma troppo vaghi semanticamente Si consideri la regola per il termine complesso (some) Italian food Nominal->Adj Nominal {λx Nominal.sem(x)^AM(x,Adj.sem)} l’applicazione di un tale attachment produce questa rappresentazione:  x Isa(x,Food)  AM(x,Italian) che non sta ad indicare cibo preparato in un modo particolare e speciale

Grammatiche semantiche Le grammatiche semantiche (sviluppate per l’analisi del dialogo in sistemi di Q/A con un vocabolario ristretto e complessità grammaticale limitata) vanno nella direzione di supportare l’analisi composizionale; (regole CFG con un set di terminali). Le regole (scritte per soddisfare le necessità della semantica piuttosto che della sintassi) ed i costituenti della grammatica corrispondono esattamente alle entità ed alle relazioni del dominio analizzato Il termine grammatica semantica si riferisce alla motivazione delle regole della grammatica + si generano esattamente le regole semantiche che servono - è necessario sviluppare una nuova grammatica per ciascun nuovo dominio

Grammatiche semantiche Esempio Si consideri una possibile regola per rispondere ad una richiesta di informazione del tipo Request → I want to go to eat FoodType TimeExpr { some attachment } Per Italian food potremmo usare la regola FoodType -> Nationality FoodType che stabilisce che il tipo di cibo deve essere collegato alla caratteristica nazionale

Grammatiche semantiche Regole difficilmente riusabili in contesti diversi Possibile overgenerazione; per esempio il termine Canadian restaurant non viene usato nella stessa accezione di Italian food, bensì nel senso di ristorante in Canada La motivazione del significato è al di là delle parole, è nel dominio culturale dei cibi

Estrazione di informazione da testi IE Nei sistemi per l’estrazione di informazione da testi siamo interessati a riconoscere solo informazioni specifiche: si richiede un approccio diverso Tali sistemi devono gestire –Frasi reali (e quindi arbitrariamente lunghe e complesse) –Una semantica superficiale Liste piatte di coppie attributo-valore XML/SGML

Esempi Analisi di articoli di quotidiani, notizie di agenzia per l’identificazione di uno specifico insieme di eventi di interesse Analisi di siti web alla ricerca di prodotti, prezzi, etc Questi testi hanno caratteristiche peculiari: Frasi lunghe, sintassi complessa (e talvolta incorretta) autori diversi, …

Sistemi di IE I sistemi di IE sono in genere basati su una cascata di automi per riconoscere fenomeni specifici e tralawsciare parti non rilevanti del testo anlizzato Vengono riconosciuti elementi di sintassi/semantica isolati dal contesto e quindi usati in una fase successiva di processing fino ad ottenere il risultaqto finale Il risultato finale dell’elaborazione è un insieme di relazioni e valori che vengono successivamnete memorizzati in una base di dati

Esempio (MUC) Bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan. The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and “metal wood” clubs a month.

Esempio Bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan. The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and “metal wood” clubs a month.

Esempio Bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan. The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and “metal wood” clubs a month.

Esempio Bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan. The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and “metal wood” clubs a month.

FASTUS Output (Hobbs 1997)

Cascata di processi

Punti rilevanti Il riconoscimento delle named entities di un testo permette di riconoscere nomi di persone, organizzazioni, luoghi, etc. Le named entities vengono riconosciute in modo robusto con metodi riutilizzabili in applicazioni diverse

Punti rilevanti E tutte le altre componenti del testo? Possono essere ignorate! –Non servono per le successive fasi di processing e quindi non è necessario elaborarle

Punti rilevanti L’approccio metodologico dei sistemi di IE funziona in quanto ci si pone in un contesto applicativo limitato –Si ricerca solo un insieme limitato di item che può quindi apparire in un insieme limitato di regole

Esempio reale The White House said President Bush has approved duty-free treatment for imports of certain types of watches that aren’t produced in significant quantities in the U.S., the Virgin Islands and other U.S. possessions. WSJ Markup Example

Demo del sistema di IE CROSSMARC

Riferimenti La presentazione utilizza alcune informazioni esemplificative tratte dal libro: D.Jurafsky, J. H. Martin: Speech and Language Processing, Prentice Hall, 2000, cap.14,15,16