Text Processing WordNet

Slides:



Advertisements
Presentazioni simili
La Comunicazione Bisogno insopprimibile nella vita di ognuno di noi.
Advertisements

Informatica II – Basi di Dati (08/09) – Parte 1
Informatica Generale Susanna Pelagatti
STRUTTURA DEL PERSONAL COMPUTER
I CIRCOLO DIDATTICO MARIGLIANO
1 Informatica Generale Susanna Pelagatti Ricevimento: Mercoledì ore presso Dipartimento di Informatica, Via Buonarroti,
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Ontologie Lessicali Multilingua:
1 Il punto di vista Un sistema è una parte del mondo che una persona o un gruppo di persone, durante un certo intervallo di tempo, sceglie di considerare.
Fondamenti di Informatica
I COMPLEMENTI INDIRETTI
Basi di Dati prof. A. Longheu 4 – Progettazione – Introduzione e Modello E-R Cap. 5 Basi di dati Atzeni – Ceri – Paraboschi - Torlone.
Tecniche di processamento testuale Come classificare testi per argomento.
1 Istruzioni, algoritmi, linguaggi. 2 Algoritmo per il calcolo delle radici reali di unequazione di 2 o grado Data lequazione ax 2 +bx+c=0, quali sono.
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Istituzioni di linguistica
Istituzioni di linguistica
Comunicazione e significato
Istituzioni di linguistica
1 Corso di Informatica (Programmazione) Lezione 4 (24 ottobre 2008) Architettura del calcolatore: la macchina di Von Neumann.
Corso di Informatica (Programmazione)
Chomsky La grammatica/sintassi è una proprietà della mente
Mentre lerrore grammaticale è generalmente attribuito a ignoranza della lingua e facilmente scusato, lerrore pragmatico non viene percepito.
Unità Didattica 2 I Linguaggi di Programmazione
Lezione 3 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
“Paolo dorme mentre Laura studia.”
L’informazione ed i Segnali Elettrici
Labortaorio informatica 2003 Prof. Giovanni Raho 1 INFORMATICA Termini e concetti principali.
PADRONANZA LINGUISTICA
LINGUAGGI DI PROGRAMMAZIONE
Chomsky La grammatica/sintassi è una proprietà della mente Distinta dalla capacità di comunicare E una facoltà autonoma ed innata La comunicazione è solo.
Istituzioni di linguistica a.a Federica Da Milano
L’elettricità.
Strumenti per comunicare (S23) Corso di grammatica italiana 1
CIASCUNA PAROLA HA UN SIGNIFICANTE E UN SIGNIFICATO
Sul concetto di ‘concetto’
Che cosa è un sintagma?.
Alla scoperta del significato
1 Informatica Senza Computer? Chiariamoci un po le idee!!! Carlo Gaibisso Informatica senza Computer?
Descrizione Semantica ad Alto Livello di Ambienti Virtuali in X3D
MODULO 01 Il computer.
Modulo 1 - Concetti di base della Tecnologia dell'Informazione
STRUTTURA GENERALE DI UN ELABORATORE
Il computer: struttura fisica e struttura logica
TECNICHE DI ASSESSMENT COGNITIVO
Rapporti  Il rapporto è un concetto impiegato per esprimere la relazione che intercorre tra le misure di due grandezze. Nel caso di grandezze dello stesso.
MORFOLOGIA.
Alla fine degli anni quaranta nasceva il mito del cervello elettronico, e tutte le attività connesse allutilizzo del computer venivano indicate tramite.
Linguaggi per COMUNICARE
Pippo.
Informatica Lezione 4 Scienze e tecniche psicologiche dello sviluppo e dell'educazione Anno accademico:
PROCESSI DI ASTRAZIONE
Creato da Riccardo Nuzzone
Dominio di una funzione
Parola: Livelli di rappresentazione
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a
Progettazione di una base di dati Ciclo di vita di un sistema informativo Studio di fattibilità definisce le varie alternative possibili, i relativi costi.
(Fallacia naturalistica)
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Linguaggio come processo cognitivo
Fagioli, Caltagirone,Tomboletti e Delli Gatti.
La Comprensione frasale
 L’insegnamento comunicativo della lingua poggia su: -Bisogni concreti degli alunni -La difesa dell’insegnamento esplicito delle strategie -Il rispetto.
Elementi di linguistica italiana. Le strutture dell italiano.
IL VERBO Lavoro realizzato dagli alunni: Colucci Domenico
Un computer per amico Anno scolastico 2001/2002 7°Circolo Autonomo Prato Funzione Obiettivo Nuove Tecnologie Ins: Angela Tinghi.
Le parti del discorso A cura della Prof.ssa Maria Isaura Piredda.
Parola e pensiero. Emile Benveniste, Categorie di pensiero e categorie di lingua, in Problemi di linguistica generale II (ed. originale in Les étude philosophiques,
Transcript della presentazione:

Text Processing WordNet Basi di Dati Multimediali - Giugno 2005 Marco Ernandes: ernandes@dii.unisi.it Fonti di riferimento: “Introduction to WordNet: an on-line lexical database” – George A. Miller “WordNet: a lexical database” – Marco Degemmis

Cos’è WordNet E’ nato a Princeton (1985) dal gruppo di linguistica e psicolinguistica. WordNet è un vero e proprio DataBase Relazionale Lessicale. E’ un ontologia linguistica che rappresenta in modo esplicito la conoscenza linguistica umana. La conoscenza linguistica formalizzata: è di senso comune è domain-independent

A cosa serve Nella comunità di Text Processing WordNet si usa per aggiungere semantica. “Semantizzare” un testo vuol dire collegarlo in modo appropriato con il resto della base di conoscenza posseduta: la lingua è un reticolo di collegamenti! Esempi di utilizzo: Riadattamento delle tecniche di indicizzazione Word-sense disambiguation (es: scotch  whiskey o nastro adesivo? interpretare  cercare di capire o recitare ?)

La filosofia di WordNet Il concetto di parola viene definito come associazione tra due elementi: Word-form (forma-parola): stringa di caratteri (lettere) che definiscono l’espressione “fisica” di una parola Word-meaning (significato-parola): concetto lessicale espresso dalla parola (ogni parola veicola, anche in modo sottinteso, un senso). Le associazioni tra forme e significati possono essere descritti nella matrice lessicale. Le word-form mappate su più word-meaning sono definite: polysemous. Word-form diverse associate alla stessa word-meaning sono definite: synonym.

WordNet: i synset Una word-meaning viene rappresentata dall’insieme di tutte le word-form che possono essere usate per esprimerla. Questo insieme di word-form si chiama: synset. (E’ lo strumento che permette di rappresentare una word-meaning) Le word-form sono mappate tra loro grazie ai synset (e ad altri “puntatori”). Le word-meaning sono mappate tra loro grazie a relazioni tra synset.

Categorie lessicali e relazioni Ci sono 4 categorie lessicali (giustificate dalla psicolinguistica): nomi, verbi, aggettivi, avverbi I nomi sono legati da 2 tipologie di relazioni: Relazioni lessicali: si instaurano tra word-forms (sia tra forme contenute nello stesso synset sia esterne). synomymy vs. antonymy (per l’inglese ci sono anche le relazioni morfologiche) Relazioni semantiche: si instaurano tra word-meaning. hyponymy vs. hyperonymy meronymy vs. holonymy Alcuni aggettivi possono essere in relazione synonimy vs. antonymy I verbi possiedono la relazione di entailment.

Relazioni Lessicali Synonymy: due word-form sono sinonime se sostituendo l’una con l’altra non si cambia il valore di verità di una frase. Le word-form sinonime appaiono nello stesso synset Antonymy “!”: due word-form sono antonime se il loro significato è opposto. A opposto di B non implica che A = not(B) !!! es: alto e basso. Per l’antonimia esiste un vero puntatore da una word_form a un’altra. Non vale tra synset!

Relazioni semantiche 1 Hyponymy “~”: relazione “is a” (sottoinsieme). Un synset A è hyponym di un synset B se A “è del tipo di” B. Es: associazione  hypo  organizzazione, carpa  hypo  pesce, abete  hypo  albero. La relazione deve valere per ogni forma all’interno dei synset (CHE SUCCEDE ALTRIMENTI?) Hyperonymy “@”: relazione inversa dell’hyponymy (famiglia di appartenenza) Un synset A è hyponym di un synset B se B “è del tipo di” A. Es: felino  hyper  gatto, laureato  hyper  ingegnere

Relazioni semantiche 2 Meronymy “%”: relazione “part of” (componente di). Un synset A è meronym di un synset B se A “è un componente di” B. Es: volante  mero  auto, argento  mero  specchio. Attenzione: i meronym non sono tutti “part of”! (es: argento e specchio) Holonymy “#”: relazione inversa di meronymy Un synset A è holonym di un synset B se B “è componente di” A. Es: aeroplano  holo  carlinga, computer  holo  CPU

Relazioni semantiche 3 La relazione di “part-of” non rappresenta tutte le possibili meronimie! Tipi di meronimia: componente-oggetto: ramo / albero, motore / auto, ala / aereo membro-insieme: albero / foresta, pecora / gregge parte-massa: fetta / torta materia-oggetto: sabbia / specchio caratteristica-attività: pagamento / acquisto posto-zona: provincia / regione / nazione / continente fase-processo: adolescenza / crescita

Relazioni semantiche 4 Ci sono 25 radici: organismi, sostanza, etc… WordNet costituisce una foresta di alberi tramite la relazione di iperonimia e iponimia. Ci sono 25 radici: organismi, sostanza, etc… queste radici stabiliscono 25 diversi campi semantici strutturati ad albero. vale il principio di ereditarietà I nomi non sono collegati ad altre categorie lessicali (es: nomi-verbi, nessuna relazione inter-category): NO: relazioni di attributo (es: canarino  giallo) NO: relazioni di funzionalità (es: canarino  volare) Sì: relazioni di componente (es: canarino  ala).

Esempio MultiWordNet {oggetto} ~ @ {artefatto} ~ {computer, data_processor, electronic_computer, Information_processing_system} | = corresponds_to {strumentazione} ~ @ {apparecchio, arnese, congegno, dispositivo} ~ @ {macchina} ~ @ {elaboratore, computer, cervello_elettronico, calcolatore} {monitor, schermo, video} {cpu, unità centrale di elaborazione} % #

Gli aggettivi Gli aggettivi attribuiscono una proprietà ad un nome. Aggettivi descrittivi: associano un valore ad un certo attributo del nome. ES: “sedia grande” stabilisce il valore dell’attributo dimensione(sedia) = grande. Possiedono la relazione di sinonimia/antonimia (diretta e indiretta). Aggettivi relazionali: derivano da un nome. Es: “igienico”, “dentale”, “familiare”, etc… Possiedono un puntatore al nome dal quale derivano. Non possiedono antonimi!

I verbi I verbi sono il nucleo semantico di una frase: stabi-liscono una relazione tra i diversi elementi della frase. Il verbo A “entails” il verbo B, se lo svolgimento del primo implica lo svolgimento del secondo. ES: russare entails dormire / parlare entails comunicare Le relazioni tra verbi sono di 2 tipologie: Entailment “*” Troponymy Co-extensiveness Proper-Inclusion Backward-Presupposition Cause “>”

Verbi: le relazioni L’entailment troponymy è simile all’hyponymy nei nomi: Il verbo A è troponimo del verbo B se l’attività indicata da A è “del tipo” dell’attività di B. La troponymy si verifica tra verbi legati da: “co-extensiveness”, cioè avvengono in modo assolutamente sincrono. Es: scivolare / muoversi – correre / muoversi – zoppicare / camminare / riposarsi – dormire La relazione inversa è l’hyperonym proper-inclusion: il verbo A è incluso nel verbo B se A avviene mentre avviene B (ma non è detto il contrario) Es: russare / dormire – virare / navigare

Verbi: le relazioni Backward-presupposition: Cause “>”: Il verbo A presuppone il verbo B se il verificarsi (temporalmente anteriore) di B è necessario affinchè si verifichi di A. Es: vincere / partecipare – colpire / mirare Cause “>”: il verbo A è in relazione di causa con il verbo B se il verificarsi di A (verbo causative) produce come conseguenza B (verbo resultative). Es: lasciare_in_eredità / possedere – bere / dissetarsi Cause è trattato come una relazione a parte (non è un entailment).

Un po’ di numeri Inglese: # synsets # word forms # relazioni # verbi, nomi, aggettivi, avverbi

Un po’ di numeri Statistiche sui nomi (nel 2004) Inglese: Italiano: # synsets = ca. 102.000 # word forms = ca. 125.000 # relazioni = ca. 125.000 Italiano: # synsets: ca. 34000 (collegati all’inglese) # word forms: ca. 41000