Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoLalia Viviani Modificato 10 anni fa
1
Sommarizzazione e Generazione Fiori Alessandro 12 Ottobre 2013 - Pisa
2
Cosè un riassunto Riassunto (summary) (Oxford Dictionary Online 2013): a brief statement or account of the main points of something (Garzanti Linguistica 2013): esposizione in forma sintetica di uno scritto, di un discorso, di un fatto e simili (Radev et.al. 2002): a text that is produced from one or more texts, that conveys important information in the original text(s), and that is no longer than half of the original text(s) and usually significantly less than that. Text here is used rather loosely and can refer to speech, multimedia documents, hypertext, etc.
3
Cosè un sommarizzatore Sommarizzazione (Automatic Summarization) (Mani & Maybury, 1999): "to take an information source, extract content from it, and present the most important content to the user in a condensed form and in a manner sensitive to the user's or application's needs (Mani, 2001): a process to produce a condensed representation of the content of its input for human consumption (Sparck-Jones, 1999): a reductive transformation of source text to summary text through content condensation by selection and/or generalization on what is important in the source (Rehm & Uszkoreit, 2012): tenta di presentare gli elementi essenziali di un testo lungo in forma abbreviata
4
Scenario Generazione sommari Riassunto
5
Perché i riassunti? Motivazioni grandi volumi di documenti informazioni ridondanti tempi di consultazione e ricerca elevati Obiettivi riduzione del volume di dati estrazione delle informazioni rilevanti riduzione dei tempi di consultazione
6
Tipologie Estrattivi estratti di frasi dei testi originali poco fluidi nella presentazione Astrattivi rifrasatura del testo simile al riassunto generato dalluomo Documento singolo struttura e presentazione coerenti Multi-documento punti di vista e forma eterogenei Generici indipendenti dal contesto applicativo Focalizzati orientati al dominio e/o interessi del fruitore Monolingua analisi grammaticale (POS tagging) Multilingua analisi semantica
7
Metodi Clustering i gruppi rappresentano frasi con significati simili utilizzo di misure di similarità selezione rappresentante per ogni gruppo Grafi i nodi identificano una frase e/o concetto similarità misurata sugli archi individuazione nodi rilevanti (PageRank) Classificatori definizione di classi di concetti apprendimento di un modello da esempi assegnazione di etichette alle frasi 15 25 30 40 20 term a term b term c term d term a term b term a term c term d gruppi di frasi
8
Prospettive future Social interessi degli utenti (opinion mining) sicurezza (sentiment analysis) servizi personalizzati (social reading) Aggiornamento dinamico incremento continuo delle collezioni flusso storico delle informazioni cambiamenti dei gruppi di utenti Nuovi domini applicativi contextual advertising medicina e biologia e-learning
9
In Italia Ricerca di base Definizione di nuove rappresentazioni delle informazioni (itemsets) Nuove metodologie: multilingua aggiornamento dinamico dipendenti dal dominio di interesse Integrazione sorgenti di informazioni esterne: social media ontologie e vocabolari controllati Ricerca industriale Social reading E-learning Opinion mining
10
Nel mondo Chi sarà il prossimo?
11
Bibliografia Garzanti Linguistica: http://www.garzantilinguistica.it/http://www.garzantilinguistica.it/ Mani I. (2001). Automatc summarization, Book, Volume 3 of Natural language processing, Amsterdam/Philadelphia, John Benjamins Publishing Company. Mani, I., & Maybury, M. (ED.). (1999). Advances in Automatic Text Summarization, MIT Press. Oxford Dictionary Online: http://oxforddictionaries.com/http://oxforddictionaries.com/ Radev D., Hovy E., & McKeown K. (2002). Introduction to the special issue on text summarization. Computational Linguistics, 28(4). Rehm, G. & Uszkoreit, H. (2012). The Italian Language in the Digital Age. Sparck-Jones, K. (1999). Automatic summarizing: factors and directions. In I. Mani and M. Maybury(Eds.), Advances in Automatic Text Summarization, MIT Press.
12
Libro Innovative Document Summarization Techniques: Revolutionizing Knowledge Understanding Alessandro Fiori (IRCC, Institute for Cancer Research and Treatment, Italy) The prevalence of digital documentation presents some pressing concerns for efficient information retrieval in the modern age. Readers want to be able to access the information they desire without having to search through a mountain of unrelated data, so algorithms and methods for effectively seeking out pertinent information are of critical importance. Innovative Document Summarization Techniques: Revolutionizing Knowledge Understanding evaluates some of the existing approaches to information retrieval and summarization of digital documents, as well as current research and future developments. This book serves as a sounding board for students, educators, researchers, and practitioners of information technology, advancing the ongoing discussion of communication in the digital age.
13
Contatti Alessandro Fiori Project Manager @ IRCC di Candiolo Docente a contratto presso Politecnico di Torino Web: http://dbdmg.polito.it/wordpress/people/alessandro-fiori/http://dbdmg.polito.it/wordpress/people/alessandro-fiori/ Email: alessandro.fiori@ircc.italessandro.fiori@ircc.it alessandro.fiori@polito.it
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.