Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoMarietta D amato Modificato 9 anni fa
1
Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input orale) –(tipo)grafiche (input scritto) –Morfologiche –Sintattiche –Semantiche –Conoscenza del mondo
2
Fasi del processo Riconoscitore di forme (tokenization) Categorizzazione (tagging) Analisi sintattica Analisi semantica
3
INPUT ORALESCRITTO RICONOSCIMENTO DI FONEMI RICONOSCITORE DI FORME CATEGORIZZAZIONE ANALISI LESSICALE ANALISI SINTATTICA INTERPRETAZIONE SEMANTICA RICONOSCIMENTO DI CARATTERI
4
ANALISI LESSICALE RICONOSCERE LE PAROLE DI UN ENUNCIATO O DI UN TESTO E’ UN COMPITO IMPORTANTE –RICONOSCIMENTO DI FORME (tokens) –ASSEGNAMENTO DI CATEGORIE LESSICALI (tags)
5
Tokenization Segmentazione di un documento in unità significative –Parole - babbo, cane, casa, mangio... –Locuzioni – Banca d’Italia, a pronta presa... –Sigle – CNR, INPS, CGIL... –Punteggiatura –Numeri arabi e romani –Date – 31.12.1945, 1 gennaio 200... –Indirizzi di posta elettronica – nerone @ romaincendiata.ir –Numeri telefonici
6
Tokenization Processo importante che permette di individuare le unità lessicali e i confini di frase necessari per la comprensione Dalla qualità del risultato di questo processo dipende il successo dei risultati delle operazioni successive
7
Tokenization problemi Considerare convenzioni grafiche e tipografiche che differiscono da lingua a lingua Inglese: o’clock, Peter’s, first-rate,etc. Italiano: tasso d’interesse, auto-analisi, parlagli, - Come stai? - gli chiesi Francese: chemin-de-fer, as-tu, Spagnolo: hierba buena, digame,
8
Tokenization problemi STRUTTURA LESSICALE Italiano: collocazione dei pronomi personali atoni dirtelo, mangiamocela Tedesco: parole composte traumdeutung Arabo: collocazione dell’articolo determinativo alqasa
9
Tokenization Riconoscimento di date tener conto dei vari stili con i quali è possibile scrivere una data: –25 aprile 1945, –25-4-1945, –25/4/1945, –25.4.1945 Venticinque aprile millenovecentoquarantacinque
10
Automa per riconoscimento data 0 123 4 5 Numero {1,…,31} Numero {1,..,12} Puntegg {-,.,/} If prima Numero Puntegg {-,.,/} Numero Parola {(uno,primo),…,trentuno} Parola {gennaio,,…,dicembre} Parola {‘stringa numero’}
11
Selezionare le unità del testo Lunedì 25 maggio u.s., la Banca d’Italia ha abbassato il tasso d’interesse di due punti, portandolo dall’8 al 6%. Soddisfazione tra i ceti produttivi che vedono nuove prospettive per il rilancio dell’economia. Entusiasta reazione della Borsa.
12
Categorizzazione Categorizzare, a partire dalla segmentazione precedente, assegnando alle unità individuate le seguenti categorie grammaticali: –Sostantivo, verbo, aggettivo, preposizione, articolo, ecc. Con l’indicazione dei parametri di flessione e coniugazione –genere, numero, persona, modo, tempo
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.