Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini
2 NLP e Tecnologia Semantica Baseline Keyword-based / bag-of-words Primitivo, generale, veloce Avanzato Shallow linguistic / LSI / statistica avanzata Approccio sintetico con analisi su grandi volumi Machine Learning per apprendimento conoscenza
3 NLP e Tecnologia Semantica Perché la tecnologia semantica per NLP? Analisi approfondita testi Approccio analitico a fenomeni linguistici
4 Siri (Apple 2011) Combinazione STT / NLP Virtual assistant, capisce e gestisce Elementi locali (telefono, rubrica, appuntamenti, messaggi) Conoscenza generica esterna (ricerca, meteo) Numerosi tipi di query: meteo, invia sms a, informazioni varie, ricerca Risultato mainstream: cosa mai vista
5 Genio (Virgilio 1999) Genio rispondeva alle domande via web flusso: analisi linguistica, identificazione elementi, ricerca template e restituzione risposta Uso generico NLP su web in italiano 13 anni fa
6 Genio (Virgilio 1999) Esempi di query: che tempo fa a Roma voglio info sul circuito di Hockenheim no mobile/locale ma web su tanti domini comprensione NL qualunque Creazione base di conoscenza strutturata usata come repository per le richieste. Aree coperte: sport, mappe, treni,voli, traffico, meteo, hotel, turismo, nozioni enciclopediche, celebrità, eventi, lavoro, tv, musica, ecc.
7 Chi può farlo Non basta (non serve) forza bruta e risorse Il problema globale è troppo complesso e ampio Cosa serve? Altra strategia Capacità, Competenze Scelta del compromesso valore aggiunto fattibilità Perché in Italia? Intelligenza, visione di insieme, capacità di sintesi
8 Machine Learning Machine Learning oggi molto comune Risorse + $ + hardware + tanti dati danno risultati TTM veloce, buona qualità in poco tempo ma risultati difficilmente affinabili, molte tecniche sono black-box
9 Lapproccio analitico Controllo e sfruttamento fenomeni linguistici porta a comprensione Più faticoso e richiede molte competenze specifiche Compromesso fra analisi puntuale di tutto e fattibilità Migliore nonostante la complessità Permette precisione e qualità più alte (a piacere in certi casi)
10 NLP e qualità La perfezione non è raggiungibile Anche gli umani interpretano male i testi (e i comandi a voce) Mutual agreement fra esperti medio ~80% su analisi sintattica/semantica Grande varietà fenomeni linguistici del mondo reale Long Tail Coreferenze lunghe, negazioni (multiple), ironia/sarcasmo, conoscenza implicita (world knowledge), pragmatica, ecc.
11 NLP e qualità C'è ancora tanta strada da fare Mantenere qualità analisi con scarsa qualità dei documenti (social web) Approcci formali al linguaggio (Generative/Transformational grammars) non funzionano in assoluto Gestione Long Tail dei fenomeni linguistici
12 Il futuro Sfida: combinare gli approcci esistenti prendendo il meglio analisi approfondita usando come base la conoscenza proveniente da sintesi di grandi volumi di testi Tecnologie Big Data possono aiutare a gestire in maniera efficiente i volumi Fondamentale il passaggio da informazione a conoscenza Strumenti black box danno informazione difficilmente usabile, serve significato
13 Il futuro Scenari futuri con qualità migliore: Efficiente integrazione NLP nel ciclo TTS/STT per assistenti vocali NLP open-domain efficiente (QA, sentiment analysis) su informazioni non strutturate Semantic network automatiche da dati web (conoscenza, non informazione) Analisi social media (linguaggi non-standard, scarsa qualità, diverse lingue, conoscenza e cultura implicite)
Grazie Nico Lavarini Chief Scientist Expert System Contacts