Componente Lessicale Scopi –Riconoscere gli elementi lessicali –Assegnare agli elementi lessicali informazioni sulla loro categoria grammaticale –Risolvere.

Slides:



Advertisements
Presentazioni simili
Michele A. Cortelazzo Morfologia 1.
Advertisements

LA LINGUA LATINA FONETICA : studia i suoni delle parole (pronuncia)
Inizio… Linguaggi Linguaggi di programmazione Linguaggi di programmazione Linguaggi di programmazione Linguaggi di programmazione Linguaggi Formali Linguaggi.
LA RA RIO BO TO FO LO CO GI NO
governare l’Information Overload
Programmazione Procedurale in Linguaggio C++
linguistico-artistico-espressiva
La semantica Introduzione alla scienza del significato.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale Prof. M.T. PAZIENZA a.a
Istituzioni di linguistica
Comunicazione e significato
Istituzioni di linguistica
Dallo sviluppo del linguaggio all’apprendimento della letto-scrittura
Il lessico Lessico: insieme delle parole di una lingua (astratto)
Modelli simulativi per le Scienze Cognitive
Mentre lerrore grammaticale è generalmente attribuito a ignoranza della lingua e facilmente scusato, lerrore pragmatico non viene percepito.
L'AGGETTIVO L'aggettivo è quella parte del discorso, variabile nel genere e nel numero, che serve a modificare il significato del nome a cui si riferisce.
4^ - 5^ scuola primaria 1^-2^-3^scuola secondaria di primo grado
Unità Didattica 2 I Linguaggi di Programmazione
PIANO NAZIONALE DI AGGIORNAMENTO COMPETENZE COMUNI DELLA FIGURA PROFESSIONALE DEL DOMANI PER UN TURISMO DI QUALITA CASERTA APRILE 2001.
Informatica giuridica Informatica e lingua del diritto Nicola Palazzolo Anno Accademico 2006/2007.
PADRONANZA LINGUISTICA
LINGUAGGI DI PROGRAMMAZIONE
Strategie d’uso del computer nella didattica
Strumenti per comunicare (S23) Corso di grammatica italiana 1
Il Si Passivante a)In Italia si leggono molti giornali.
CAP. 2 ANALISI LESSICALE 2.1 Il ruolo dell'analizzatore lessicale
Espressione polirematica
Gianfranco Zampolini Progetto per il corso di: Linguaggi e Modelli Computazionali LS EM Linguaggio per la Descrizione di un Evento Musicale.
Dislessia e disturbi specifici dell’apprendimento
MORFOLOGIA.
SINTASSI.
MODELLO A DUE VIE DI LETTURA
Linguaggi per COMUNICARE
Programma di Informatica Classi Prime
Un’esperienza di traduzione
PROGRAMMAZIONE DISCIPLINARE DOCENTE: PELLEGRINETTI ENRICA
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale (grammatica, semantica) Prof. M.T. PAZIENZA a.a
Michele A. Cortelazzo Morfologia 1.
La riflessione sulla lingua nelle Indicazioni nazionali
Michele A. Cortelazzo Morfologia 1.
Lezione 3 Struttura lessicale del linguaggio
Sistemi basati su conoscenza Linguaggio naturale: grammatiche Prof. M.T. PAZIENZA a.a
FASE 5 Considerazioni di raffronto sulle produzioni di Lingua Inglese. Tenuto presente la tipologia di utenza, allievi di una classe prima di un Istituto.
Frase grammaticale?logica?
Ambiguità Le lingue sono, per loro natura ambigue e sfumate:
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
L’AGGETTIVO QUALIFICATIVO DETERMINATIVO bello suo
Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input.
APPRENDERE Comprendere e produrre il parlato e’ conseguenza di processi di maturazione piu’ che di apprendimento (i bimbi apprendono spontaneamente)
Sistemi basati su conoscenza Linguaggio naturale: semantica Prof. M.T. PAZIENZA a.a
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Excel.
La scrittura di “servizio”
L’articolo.
Gli elementi costitutivi della parola
Programmazione dei Calcolatori Elettronici
LA FRASE SEMPLICE M. Dardano – P. Trifone, Grammatica italiana con nozioni di linguistica, Zanichelli, Bologna, III ed.
Comprensione frasale Garden Path theory
PROTOCOLLO DI INTESA 10 FEBBRAIO 2014 PER LE ATTIVITA’ DI IDENTIFICAZIONE PRECOCE DEI CASI SOSPETTI DI DSA DI CUI ALL’ART. 7 COMMA 1 C.1 DELLA LEGGE 8.
LA SCHEDA DI VALUTAZIONE DELLE PROVE APERTE Gli strumenti di valutazione.
Elementi di linguistica italiana. Le strutture dell italiano.
FRAMEWORK EUROPEO DELLE COMPETENZE LINGUISTICHE ELEMENTARE - A1ELEMENTARE - A2 INTERMEDIO - B1 AscoltoRiesco a riconoscere parole che mi sono familiari.
ITALIANO (classe 4^ Borsi) Ordine temporale PRIMA E DOPO.
Che cos’è la linguistica?
I pronomi, gli avverbi, le congiunzioni
Logica Lez. 5, Varzi su affermazione del conseguente Malgrado alcuni esempi di questa forma siano argomentazioni valide, altri non lo sono.
Elementi di linguistica italiana. Le strutture dell italiano.
Numerali composti con uno Patrizia Petricola. Free Powerpoint Templates Page 2 1. Forme di uno L’aggettivo uno è il primo numerale ordinale. È l’unico.
COME SI SCRIVE? Errori ortografici più comuni in italiano!
Transcript della presentazione:

Componente Lessicale Scopi –Riconoscere gli elementi lessicali –Assegnare agli elementi lessicali informazioni sulla loro categoria grammaticale –Risolvere l’ambiguità grammaticale Vedi lezione sull’ambiguità

Struttura e funzioni del modulo lessicale Riconoscitore di forme (tokenizer) –Segmenta il testo in parole e altre sequenze significative di caratteri (token), eventualmente separati da segni di interpunzione Categorizzatore (tagger) –Assegna categorie grammaticali ai token

Riconoscimento e categorizzazione Le due fasi possono essere in parte indipendenti l’una dall’altra, ma anche interagire e sovrapporsi perché: –un componente da solo non è in grado di raggiungere lo scopo –mentre si segmentano i token, si assegnano anche le categorie

Riconoscitore di forme (tokenizer) Scopo: riconoscere le parole e le altre sequenze significative di un testo

INPUT ORALESCRITTO RICONOSCIMENTO DI FONEMI RICONOSCITORE DI FORME CATEGORIZZAZIONE ANALISI LESSICALE ANALISI SINTATTICA ANALISI SEMANTICA RICONOSCIMENTO DI CARATTERI

Forma e lemma Il testo si presenta come una sequenza di “forme” grafiche, cioè un insieme di parole diverse Le forme grafiche possono essere ricondotte ad una voce di base, “lemma”, sulla base di convenzioni lessicografiche

Lemma Forme:Lemma: bello, bella, belli, bellebello mangio, mangia, mangiamo…mangiare casa, casecasa

Tokenizer Segmentazione di una sequenza di caratteri in sequenze di parole, simboli, segni di interpunzione, ecc. –Parole: babbo, cane, casa, mangio... –Polirematiche (multiwords): Banca d’Italia, a pronta presa... –Sigle: CNR, INPS, CGIL... –Punteggiatura –Numeri arabi e romani –Date: , 1 gennaio –Indirizzi di posta elettronica: –Numeri telefonici:

Tokenization Processo importante che permette di individuare le unità lessicali e i confini di frase necessari per la comprensione Dalla qualità del risultato di questo processo dipende il successo dei risultati delle operazioni successive Dalla qualità del risultato dipende anche il successo dell’applicazione per la quale il sistema è stato progettato

Tipi di conoscenze per il riconoscimento di forme (tipo)grafiche (input scritto)

Tokenization Considerare convenzioni grafiche e tipografiche che differiscono da lingua a lingua Inglese: o’clock, Peter’s, first-rate Italiano: auto-analisi, nonsoché/non so che, tiremmolla/tira e molla, - Come stai? - gli chiesi Francese: chemin-de-fer, as-tu

Tokenization: un problema Riconoscimento di date: –necessario tener conto dei vari stili con i quali è possibile scrivere una data: 25 aprile /4/ Venticinque aprile millenovecentoquarantacinque

Esempi di selezione delle forme di un testo Lunedì 25 maggio u.s., la Banca d’Italia ha abbassato il tasso d’interesse di due punti, portandolo dall’8 al 6%. Soddisfazione tra i ceti produttivi che vedono nuove prospettive per il rilancio dell’economia. Entusiasta reazione della Borsa.

Segmentazione senza restrizioni Utilizzazione del comando di Word: “Converti testo in tabella” Vengono selezionate le sequenze di caratteri comprese tra due spazi bianchi Segni di interpunzione (punti, virgole, apostrofi, ecc.) inglobati nella sequenza selezionata

Lunedì 25 maggio u.s., la Banca d’Italia ha abbassato il tasso d’interesse di due punti, portandolo dall’8 al 6%.

Segmentazione con restrizione su alcuni tipi di dato Riconoscimento dei seguenti tipi di dato –Alfanumerico –Numero –Segni di interpunzione Riesce a distinguere i numeri e i segni di interpunzione rispetto alle stringhe alfanumeriche

Lunedìalfanumerico 25numero Maggioalfanumerico u.punto salfanumerico.punto,virgola laalfanumerico Bancaalfanumerico d ’apice Italiaalfanumerico haalfanumerico abbassatoalfanumerico ilalfanumerico tassoalfanumerico d ’apice interessealfanumerico dialfanumerico duealfanumerico puntialfanumerico,virgola portandoloalfanumerico

Metodi per il riconoscimento delle forme Ricerca delle forme all’interno di un lessico, sia generico che specialistico (dizionario di nomi, ecc) –Per individuare parole, multiwords, sigle Utilizzo di automi per ricercare schemi ricorrenti –Per riconoscere una data secondo le diverse convenzioni Vedi Seminario De Pascalis (2002) in –Indirizzi di posta elettronica e indirizzi web

Riconoscimento di multiword con dizionario testo analizzato dizionario con multiword tecnica Yubetsu tecnica Levallois tecnica di six tecnica di Setushi tecnica di percussione mediante percussori teneri tecnica di percussione mediante percussori duri tecnica di percussione tecnica di lavorazione discoidale del nucleo tecnica di lavorazione del trancetto […] Tombe a camera come questa, rinvenute anche in altri luoghi mediante tecnica di percussione, sono da riferire a gruppi aristocratici stanziati in punti nodali del territorio […] termini in ordine alfabetico inverso trovato

Categorizzazione (tagging) Associare informazioni lessicali ad ogni forma riconosciuta –Lemma di riferimento –Genere –Numero –Persona –Tempo –Modo –Altri

INPUT ORALESCRITTO RICONOSCIMENTO DI FONEMI RICONOSCITORE DI FORME CATEGORIZZAZIONE ANALISI LESSICALE ANALISI SINTATTICA ANALISI SEMANTICA RICONOSCIMENTO DI CARATTERI

Metodi per la categorizzazione Ricerca delle forme all’interno di un lessico, sia generico che specialistico –Vedi anche Tokenizer Applicazione di strumenti per risolvere problemi specifici –Per riconoscere sequenze ricorrenti (date, indirizzi, ecc.) Utilizzo di analizzatori morfologici –Per riconoscere o formulare ipotesi su parole non riconosciute ma che sono costruite su combinazione di pattern ricorrenti

Considerazione sui metodi Consultazione di un dizionario predefinito –Efficiente –Non riconosce e non può formulare ipotesi sulle forme non presenti Metodi specifici –Sono efficaci ed efficienti per il problema specifico da risolvere Analizzatori morfologici –Possono formulare ipotesi categoriali su ogni parola –Poco efficienti perché generano troppe ambiguità

Soluzione realistica Integrazione delle fasi del componente lessicale –Tokenizer + tagger Integrazione dei metodi –Più metodi per risolvere ciascuna fase

Procedura integrata per il riconoscimento e la classificazione di forme Segmenta testo in parole (stringhe di caratteri tra due spazi) –Input: testo –Output: testo suddiviso in stringhe di caratteri Confronta parole con dizionario di forme –Input: testo suddiviso in stringhe di caratteri –Output: testo arricchito di informazioni: –Parole riconosciute con parametri lessicali –Parole non trovate marcate come sconosciute Verifica con test ad hoc –Input: testo suddiviso in stringhe di caratteri –Output: testo arricchito di informazioni Parole riconosciute con parametri lessicali Parole non riconosciute marcate come sconosciute Applica analizzatore morfologico –Input: parole non riconosciute nella fase precedente –Output: testo arricchito di informazioni Parole riconosciute con parametri lessicali Parole non riconosciute marcate come sconosciute

Riconoscimento e classificazione utilizzando un dizionario di forme Sorgenti di conoscenza – dizionario di forme Procedura per confrontare il testo segmentato in parole con il dizionario delle forme –Confronta le parole e, se trovate, arricchisce il testo con le informazioni lessicali recuperate dal dizionario

Struttura del dizionario delle forme Lemma Categoria Grammaticale Forma Parametri Morfologici porto Sostantivo Maschileporti Maschile Plurale porto Sostantivo Maschile porto Maschile Singolare porto Aggettivo Qualificativo porte Femminile Plurale porto Aggettivo Qualificativo porta Femminile Singolare porto Aggettivo Qualificativo porti Maschile Plurale porto Aggettivo Qualificativo porto Maschile Singolare porto Sostantivo Maschile porti Maschile Plurale porto Sostantivo Maschile porto Maschile Singolare porto Sostantivo Maschile porto Maschile Mobile

lunedìlunedìSostantivo Maschile Mas.Mob. 25Non Trovato maggiomaggioSostantivo Maschile Mas.Sing. u.s.Non Trovato lalaPronome Personale Femm.Plur. lalaArticolo Femm.Sing. lalaSostantivo Maschile Mas.Sing. bancabancaSostantivo Femminile Femm.Sing. d’diPreposizione italiaNon Trovato haavereVerbo Trans.Intrans.3 Pers.Sing.Ind.Pres. abbassatoabbassareVerbo Trans.Pron.Intrans.Rifl. Mas.Sing.Part.Pass. abbassatoabbassatoAggettivo Qualificativo Mas.Sing. ililPronome Personale Mas.Sing. ililArticolo Mas.Sing. tassotassareVerbo Trans.Rifl. 1 Pers.Sing.Ind.Pres. tassotassoSostantivo Maschile Mas.Sing. d’diPreposizione interesseinteresseSostantivo Maschile Mas.Sing. didiPreposizione duedueNumerale Cardinale duedueSostantivo Maschile Mas.Mob. puntipugnereVerbo Trans. Mas.Plur.Part.Pass. puntipungereVerbo Trans. Mas.Plur.Part.Pass. puntipuntareVerbo Trans.Intrans. 2 Pers.Sing.Ind.Pres. puntipuntareVerbo Trans.Intrans. 1 Pers.Sing.Cong.Pres. puntipuntareVerbo Trans.Intrans. 2 Pers.Sing.Cong.Pres. puntipuntareVerbo Trans.Intrans. 3 Pers.Sing.Cong.Pres. puntipuntoAggettivo Qualificativo Mas.Plur. puntipuntoAggettivo Indefinito Mas.Plur. puntipuntoSostantivo Maschile Mas.Plur. portandoloNon Trovato dall’daPreposizione Femm.Plur. dall’daPreposizione Femm.Sing. dall’daPreposizione Mas.Sing. 8Non trovato alaPreposizione Mas.Sing. 6Non trovato %Non trovato

Limiti della categorizzazione con uso di un dizionario Ad ogni forma vengono associate le informazioni grammaticali se trovate Forme omografe vengono ricondotte a più lemmi, non risolvendo l’ambiguità –Vedi “punti” nell’esempio presentato nella diapositiva precedente Alcune forme non vengono riconosciute e non viene formulata alcuna ipotesi –Vedi “portandolo” nell’esempio, che viene semplicemente marcato come “non trovato”

Applicazione di strumenti specifici per riconoscere parole non presenti nel dizionario delle forme Numeri –Numeri romani –Ordinali –Frazioni Alfanumerici Iniziali Numeri telefonici Multiwords Indirizzi di posta elettronica e siti web Date Nomi propri

lunedì 25 maqggio u.s.Data laPronome Personale Femminile Plurale laArticolo Femminile Singolare laSostantivo Maschile Singolare Banca d’ItaliaMultiword - Sostantivo Maschile Singolare haVerbo Trans. Intrans. 3 a Pers. Sing. Ind. Pres. abbassatoVerbo Trans. Pron. Intrans. Rifl. Mas. Sing.Part. Pass. abbassatoAggettivo Qualificativo Maschile Singolare ilPronome Personale Maschile Singolare ilArticolo Maschile Singolare tasso d’interesseMultiword - Sostantivo Maschile Singolare diPreposizione dueNumerale Cardinale dueSostantivo Maschile Mobile puntiVerbo Trans. Mas. Plur. Part. Pass. puntiVerbo Trans. Intrans. 2 a Pers. Sing. Ind. Pres. puntiVerbo Trans. Intrans. 1 a Pers. Sing. Cong. Pres. puntiVerbo Trans. Intrans. 2 a Pers. Sing. Cong. Pres. puntiVerbo Trans. Intrans. 3 a Pers. Sing. Cong. Pres. puntiAggettivo Qualificativo Maschile Plurale puntiAggettivo Indefinito Maschile Plurale puntiSostantivo Maschile Plurale portandoloNon Trovato dall’Preposizione Femminle Plurale dall’Preposizione Femminile Singolare dall’Preposizione Maschile Singolare 8Numero Cardinale alPreposizione Maschile Singolare 6 %Numero Percentuale ancora non classificato

Analizzatore morfologico (si veda lezioni su morfologia e seminari di De Pascalis (2002) e Utzeri in Strumenti per riconoscere, suffissi, prefissi e composti lessicali –Suffissi It. - bellissimo –Pronomi personali atoni It. - dirtelo, mangiamocela Sp. - digame –Parole composte It. - antigovernativo

Risultati della procedura Non si ottiene in pieno lo scopo del componente lessicale Alcune parole restano ambigue Necessità di introdurre altri strumenti di analisi

Altri strumenti di analisi Analizzatore morfo-sintattico Scopo: risolvere l’ambiguità grammaticale di alcuni termini lessicali ambigui (vedi esempio precedente): punti pugnereVerbo Trans. Mas.Plur.Part.Pass. punti pungereVerbo Trans. Mas.Plur.Part.Pass. punti puntareVerbo Trans.Intrans. 2 Pers.Sing.Ind.Pres. punti puntareVerbo Trans.Intrans. 1 Pers.Sing.Cong.Pres. punti puntareVerbo Trans.Intrans. 2 Pers.Sing.Cong.Pres. punti puntareVerbo Trans.Intrans. 3 Pers.Sing.Cong.Pres. punti puntoAggettivo Qualificativo Mas.Plur. punti puntoAggettivo Indefinito Mas.Plur. punti puntoSostantivo Maschile Mas.Plur.

Analizzatore morfosintattico Utilizza alcune conoscenze sintattiche Analizza il contesto locale della parola da riconoscere, basandosi sulle categorie grammaticali delle parole che precedono o seguono e sulla loro compatibilità sintattica Utilizza regole: –Sintagmatiche –Fonosintattiche

Regole sintagmatiche Permettono di escludere alcune combinazioni di categorie Ambiguità articolo/pronome Esempio “La notte” –L’ambiguità di “la”, articolo o pronome, viene risolta in articolo in virtù di una regola sintagmatica che esclude la combinazione pronome + sostantivo

Rappresentazione (quasi)formale di una regola sintagmatica SE la forma da analizzare è ambigua, E l’ambiguità è tra articolo e pronome, E la forma seguente è un sostantivo non ambiguo, E concorda con esso per genere e numero; ALLORA la categoria della forma da analizzare è articolo.

Regole fonosintattiche Permettono di escludere alcune combinazioni di categorie utilizzando informazioni sulla compatibilità fonetico-fonologiche tra parole Ambiguità articolo/pronome e sostantivo/verbo Esempio “Lo cambio” –Le ambiguità di “lo”, articolo o pronome, e di “cambio”, sostantivo/verbo, vengono risolte in ‘pronome + verbo’ in virtù di una regola fonosintattica che esclude la presenza della forma “lo” dell’articolo davanti a sostantivi che non inizino per “z”, “s” impura, “x”, “ps”, “pn”, “gn” e “sc” e “i” semiconsonante.

Regole sintagmatiche e fonosintattiche Precedenza Per risolvere l’esempio precedente, “lo cambio”, prima vengono applicate le regole sintagmatiche che forniscono i due esiti che vengono risolti con la successiva applicazione delle regole fonosintattiche

Ambiguità grammaticale e componente lessicale Non sempre si ottiene la risoluzione dell’ambiguità grammaticale Alcune parole resteranno grammaticalmente ambigue perché la combinazione delle loro categorie ammette diverse categorizzazioni, tutte sintatticamente compatibili tra loro –Es. La vecchia porta la sbarra articolo/ aggettivo/ sostantivo/ articolo/ sostantivo/ pronome sostantivo verbo pronome verbo

Componente lessicale e ambiguità lessicale Con gli strumenti presentati fino ad ora, non è possibile risolvere l’ambiguità lessicale tra parole con la stessa categoria, ma con significato diverso –Porto - sostantivo maschile spesa di trasporto spazio di mare protetto dove le navi possono sostare in sicurezza meta ultima [Figurato] rifugio sicuro e tranquillo [Figurato] vino portoghese