Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoLuciana Paoletti Modificato 6 anni fa
1
Sviluppo di strumenti per l’analisi automatica di testi in lingua italiana
Studente/i Relatore Correlatore Committente Aris Piatti Daniele Puccinelli Silvia Demartini Dipartimento Formazione e Apprendimento (DFA) Corso di laurea Modulo Anno Data Ingegneria Informatica (TP) P Progetto di diploma 1 settembre 2017 Abstract Il Natural Language Processing (NLP) è una tecnica che negli ultimi anni è stata in grado di portare innumerevoli innovazioni nel mondo tecnologico, basti pensare agli assistenti virtuali come Siri o Google Assistant. L'obbiettivo di questo progetto è quello di valutare il funzionamento dei vari software attualmente presenti proprio in questo ambito, l’NLP. In particolare, nel confronto del POS (Part Of Speech) tagging e dell'analisi delle dipendenze. LA valutazione dei software viene effettuata comparando l'output ottenuto dai software testati con una ground-truth di riferimento, fornita dal Dipartimento Formazione e Apprendimento (DFA) di Locarno. Per questo scopo sono stati realizzati degli script comparativi con l'ausilio del linguaggio di programmazione Python. Inizialmente si è reso necessario scoprire e collaudare i tools di analisi della lingua. Dopo questa fase introduttiva, si è iniziato a normalizzare e rendere confrontabili le due fonti di testo. In una seconda fase, sono state calcolate le percentuali di accuratezza grezze che hanno permesso di comprendere meglio il funzionamento e la precisione di ogni tool. In fine, sono state effettuate delle statistiche mirate, volte ad evidenziare i pregi e i difetti di ogni software. La realizzazione di matrici di confusione e di accuratezze generate per categoria hanno permesso un confronto diretto tra i vari programmi. I risultati e le statistiche ottenute confrontando le due parti di testo, evidenziano che i software di NLP non funzionano come dichiarato, questo nel caso in cui sono confrontati con un italiano non standard. Le percentuali di accuratezza ottenute sono infatti ben lungi da quelle annunciate dagli sviluppatori, si distano infatti almeno punti percentuali da quanto dichiarato. Obiettivi L’obbiettivo principale è quello di fornire al commitente del progetto uno strumento che permetta l’analisi e il confronto automatico dei testi. Di conseguenza, poter valutare e confrontare i tools più utilizzati e performanti nell’ambito del NLP. Acquisire familiarità con le tecnologie e sfruttarne a pieno le loro potenzialità Apprendere fondamenti teorici e pratici dell’NLP Rendere le due fonti di testi comparabili Calcolare degli indici grezzi ed accurati per la valutazione Fornire strumenti ‘grafici’ per la valutazione Evidenziare pregi e difetti di ogni applicativo Conclusione Questo progetto mi ha dato la possibilità di affrontare due tematiche che di questi tempi sono molto discusse: il Natural Language Processing ed il machine learning. Negli ultimi anni, entrambe hanno avuto un'impennata nel loro utilizzo. Oggi giorno si tende infatti ad affrontare la maggior parte dei problemi con l'utilizzo del machine learning, di conseguenza, anche l'NLP viene più discusso ed utilizzato. Gli obbiettivi del progetto così come i requisiti imposti dal committente si possono considerare raggiunti e rispettati. Lo sviluppo ha permesso di valutare ed evidenziare i software di NLP su un corpo di testi contenenti dello scritto non-standard. I risultati ottenuti hanno però mostrato la carenza di precisione dei software nell’analisi di questo tipo di scritti. Le conoscenze teoriche e pratiche acquisite sono molte, queste concernono sia gli aspetti tecnici, come l’NLP, il machine learning e il linugaggio Python, sia quelli organizzativi e di gestione di un progetto di natura prettamente agile.
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.