Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input orale) –(tipo)grafiche (input scritto) –Morfologiche –Sintattiche –Semantiche –Conoscenza del mondo
Fasi del processo Riconoscitore di forme (tokenization) Categorizzazione (tagging) Analisi sintattica Analisi semantica
INPUT ORALESCRITTO RICONOSCIMENTO DI FONEMI RICONOSCITORE DI FORME CATEGORIZZAZIONE ANALISI LESSICALE ANALISI SINTATTICA INTERPRETAZIONE SEMANTICA RICONOSCIMENTO DI CARATTERI
ANALISI LESSICALE RICONOSCERE LE PAROLE DI UN ENUNCIATO O DI UN TESTO E’ UN COMPITO IMPORTANTE –RICONOSCIMENTO DI FORME (tokens) –ASSEGNAMENTO DI CATEGORIE LESSICALI (tags)
Tokenization Segmentazione di un documento in unità significative –Parole - babbo, cane, casa, mangio... –Locuzioni – Banca d’Italia, a pronta presa... –Sigle – CNR, INPS, CGIL... –Punteggiatura –Numeri arabi e romani –Date – , 1 gennaio –Indirizzi di posta elettronica – romaincendiata.ir –Numeri telefonici
Tokenization Processo importante che permette di individuare le unità lessicali e i confini di frase necessari per la comprensione Dalla qualità del risultato di questo processo dipende il successo dei risultati delle operazioni successive
Tokenization problemi Considerare convenzioni grafiche e tipografiche che differiscono da lingua a lingua Inglese: o’clock, Peter’s, first-rate,etc. Italiano: tasso d’interesse, auto-analisi, parlagli, - Come stai? - gli chiesi Francese: chemin-de-fer, as-tu, Spagnolo: hierba buena, digame,
Tokenization problemi STRUTTURA LESSICALE Italiano: collocazione dei pronomi personali atoni dirtelo, mangiamocela Tedesco: parole composte traumdeutung Arabo: collocazione dell’articolo determinativo alqasa
Tokenization Riconoscimento di date tener conto dei vari stili con i quali è possibile scrivere una data: –25 aprile 1945, – , –25/4/1945, – Venticinque aprile millenovecentoquarantacinque
Automa per riconoscimento data Numero {1,…,31} Numero {1,..,12} Puntegg {-,.,/} If prima Numero Puntegg {-,.,/} Numero Parola {(uno,primo),…,trentuno} Parola {gennaio,,…,dicembre} Parola {‘stringa numero’}
Selezionare le unità del testo Lunedì 25 maggio u.s., la Banca d’Italia ha abbassato il tasso d’interesse di due punti, portandolo dall’8 al 6%. Soddisfazione tra i ceti produttivi che vedono nuove prospettive per il rilancio dell’economia. Entusiasta reazione della Borsa.
Categorizzazione Categorizzare, a partire dalla segmentazione precedente, assegnando alle unità individuate le seguenti categorie grammaticali: –Sostantivo, verbo, aggettivo, preposizione, articolo, ecc. Con l’indicazione dei parametri di flessione e coniugazione –genere, numero, persona, modo, tempo