La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input.

Presentazioni simili


Presentazione sul tema: "Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input."— Transcript della presentazione:

1 Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input orale) –(tipo)grafiche (input scritto) –Morfologiche –Sintattiche –Semantiche –Conoscenza del mondo

2 Fasi del processo Riconoscitore di forme (tokenization) Categorizzazione (tagging) Analisi sintattica Analisi semantica

3 INPUT ORALESCRITTO RICONOSCIMENTO DI FONEMI RICONOSCITORE DI FORME CATEGORIZZAZIONE ANALISI LESSICALE ANALISI SINTATTICA INTERPRETAZIONE SEMANTICA RICONOSCIMENTO DI CARATTERI

4 ANALISI LESSICALE RICONOSCERE LE PAROLE DI UN ENUNCIATO O DI UN TESTO E’ UN COMPITO IMPORTANTE –RICONOSCIMENTO DI FORME (tokens) –ASSEGNAMENTO DI CATEGORIE LESSICALI (tags)

5 Tokenization Segmentazione di un documento in unità significative –Parole - babbo, cane, casa, mangio... –Locuzioni – Banca d’Italia, a pronta presa... –Sigle – CNR, INPS, CGIL... –Punteggiatura –Numeri arabi e romani –Date – , 1 gennaio –Indirizzi di posta elettronica – romaincendiata.ir –Numeri telefonici

6 Tokenization Processo importante che permette di individuare le unità lessicali e i confini di frase necessari per la comprensione Dalla qualità del risultato di questo processo dipende il successo dei risultati delle operazioni successive

7 Tokenization problemi Considerare convenzioni grafiche e tipografiche che differiscono da lingua a lingua Inglese: o’clock, Peter’s, first-rate,etc. Italiano: tasso d’interesse, auto-analisi, parlagli, - Come stai? - gli chiesi Francese: chemin-de-fer, as-tu, Spagnolo: hierba buena, digame,

8 Tokenization problemi STRUTTURA LESSICALE Italiano: collocazione dei pronomi personali atoni dirtelo, mangiamocela Tedesco: parole composte traumdeutung Arabo: collocazione dell’articolo determinativo alqasa

9 Tokenization Riconoscimento di date tener conto dei vari stili con i quali è possibile scrivere una data: –25 aprile 1945, – , –25/4/1945, – Venticinque aprile millenovecentoquarantacinque

10 Automa per riconoscimento data Numero {1,…,31} Numero {1,..,12} Puntegg {-,.,/} If prima Numero Puntegg {-,.,/} Numero Parola {(uno,primo),…,trentuno} Parola {gennaio,,…,dicembre} Parola {‘stringa numero’}

11 Selezionare le unità del testo Lunedì 25 maggio u.s., la Banca d’Italia ha abbassato il tasso d’interesse di due punti, portandolo dall’8 al 6%. Soddisfazione tra i ceti produttivi che vedono nuove prospettive per il rilancio dell’economia. Entusiasta reazione della Borsa.

12 Categorizzazione Categorizzare, a partire dalla segmentazione precedente, assegnando alle unità individuate le seguenti categorie grammaticali: –Sostantivo, verbo, aggettivo, preposizione, articolo, ecc. Con l’indicazione dei parametri di flessione e coniugazione –genere, numero, persona, modo, tempo


Scaricare ppt "Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input."

Presentazioni simili


Annunci Google