Automatic Text Segmentation: TextTiling (Hearst)

Slides:



Advertisements
Presentazioni simili
Fondamenti di Informatica I a.a Fondamenti di Informatica I Presentazione del corso Docenti Monica Bianchini Monica Bianchini Dipartimento di.
Advertisements

1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle.
UNIVERSITÀ DEGLI STUDI DI PARMA
Procedure e funzioni A. Ferrari.
Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF Maria Grazia Pepe - Elisabetta Viti (Biblioteca nazionale centrale di Firenze) 6. Incontro.
Text Representation Ing. Leonardo Rigutini Dipartimento Ingegneria dell’Informazione Rigutini Leonardo – Dipartimento di.
RSA Monica Bianchini Dipartimento di Ingegneria dellInformazione Università di Siena.
Fondamenti di Informatica
1 Informatica Presentazione del corso ENIAC Electronical Numerical Integrator and Calculator Il primo calcolatore elettronico, lENIAC Electronical Numerical.
Sistemi di Supporto alle Decisioni
Automatic Text Processing
Sistemi di supporto alle decisioni 4. Clustering
Sistemi di supporto alle decisioni 2. Features space
Controllo remoto di un robot mobile realizzato con Lego Mindstorms
UNIVERSITÀ DEGLI STUDI DI SIENA FACOLTÀ DI INGEGNERIA.
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Automatic Text Segmentation: Text Relationship Map (Salton 1996) Ing. Leonardo.
Controllo remoto di un robot mobile realizzato con Lego Mindstorms
Nuovi scenari per la Matematica
Eccezioni Dott. Ing. Leonardo Rigutini Dipartimento Ingegneria dellInformazione Università di Siena Via Roma 56 – – SIENA Uff
Programma Dott. Ing. Leonardo Rigutini
Applet Dott. Ing. Leonardo Rigutini Dipartimento Ingegneria dellInformazione Università di Siena Via Roma 56 – – SIENA Uff
Tipi di dato e controllo del flusso Dott. Ing. Leonardo Rigutini Dipartimento Ingegneria dellInformazione Università di Siena Via Roma 56 – – SIENA.
Grafica Dott. Ing. Leonardo Rigutini Dipartimento Ingegneria dellInformazione Università di Siena Via Roma 56 – – SIENA Uff
Apprendimento Non Supervisionato
Processi Aleatori : Introduzione – Parte I
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Problemi e algoritmi Anno Accademico 2009/2010.
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
Modelli e Algoritmi della Logistica
Seminario su clustering dei dati – Parte II
Modelli e Algoritmi per la Logistica
Modelli e Algoritmi per la Logistica
Università degli Studi di Roma La Sapienza
Physically-based Animations of 3D Biped Characters with Genetic Algorithms Università di Roma La Sapienza Relatore: Prof. Marco Schaerf Correlatore: Ing.
Fondamenti di Informatica
Università degli Studi di Perugia - Dipartimento di Ingegneria Industriale Prof. Francesco Castellani -
Prof. Francesco Castellani
Università degli Studi di Perugia - Dipartimento di Ingegneria Industriale Prof. Francesco Castellani -
Università degli Studi di Perugia - Dipartimento di Ingegneria Industriale Prof. Francesco Castellani -
UNIVERSITÀ DEGLI STUDI DI PERUGIA Dipartimento di Ingegneria Industriale Prof. Francesco Castellani Corso di Meccanica Applicata.
UNIVERSITÀ DEGLI STUDI DI PERUGIA Dipartimento di Ingegneria Industriale Prof. Francesco Castellani Corso di Meccanica Applicata.
MOTO ARMONICO SEMPLICE
UNIVERSITÀ DEGLI STUDI DI PERUGIA Dipartimento di Ingegneria Industriale Prof. Francesco Castellani Corso di Meccanica Applicata A.
Intelligenza Artificiale
DIAGRAMMI DI FLUSSO Notazione grafica usata per descrivere in modo intuitivo le azioni di cui è fatto un algoritmo. Viene usata per descrivere i passi.
LA TRASFORMATA DI FOURIER: PROPRIETA’ ed ESEMPI SEZIONE 7
Algoritmo di Dijkstra Università di Catania
Università di Roma – Tor Vergata
Gruppo 11: Ausili Andrea Giovanni Belellixxxxxxxx Polenta Marcoxxxxxxxx Giuseppe Prencipexxxxxxxx Marco Trinastichxxxxxxxx Università Politecnica.
Università di Roma – Tor Vergata
Tesi di Laurea in Ingegneria Meccanica
Trasformata discreta di Fourier: richiami
Effetti fotorealistici
UNIVERSITÀ DEGLI STUDI DI PERUGIA Dipartimento di Ingegneria Industriale Prof. Francesco Castellani Corso di Meccanica Applicata A.
Mauro Valli Libro di testo pag
Corso di Informatica Corso di Laurea in Conservazione e Restauro dei Beni Culturali Gianluca Torta Dipartimento di Informatica Tel: Mail:
Corso di Informatica Corso di Laurea in Conservazione e Restauro dei Beni Culturali Gianluca Torta Dipartimento di Informatica Tel: Mail:
Università degli Studi di Bologna
Lezione n° 12 Università degli Studi Roma Tre – Dipartimento di Ingegneria Corso di Teoria e Progetto di Ponti – A/A Dott. Ing. Fabrizio Paolacci.
Lezione n°24 Università degli Studi Roma Tre – Dipartimento di Ingegneria Corso di Teoria e Progetto di Ponti – A/A Dott. Ing. Fabrizio Paolacci.
Lezione n° 9 Università degli Studi Roma Tre – Dipartimento di Ingegneria Corso di Teoria e Progetto di Ponti – A/A Dott. Ing. Fabrizio Paolacci.
Lezione 3: Esempi di sistemi LTI tempo-continui
Lezione 3: Esempi di sistemi LTI tempo-discreti
Università degli Studi di Roma “La Sapienza” Facoltà di Economia
LONG PROCESSING CON LA DFT Marina Ruggieri, Ernestina Cianca, Modulo di Elaborazione dei Segnali (Colleferro), Nuovo Ordinamento, aa
D.I.Me.Ca. – D.I.Me.Ca. – Università degli Studi di Cagliari Facoltà di Ingegneria Dipartimento di Ingegneria.
Algoritmi e Programmazione (in C) Stefano Cagnoni e Monica Mordonini
Realizzazione di un algoritmo genetico distribuito per l’inversione di modelli di deformazione del suolo (rilevamenti GPS e immagini SAR) di un edificio.
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
SCUOLA POLITECNICA E DELLE SCIENZE DI BASE
המים בגוף האדם. מגישות:קרישטל אירית אנגיל עירית.
Transcript della presentazione:

Automatic Text Segmentation: TextTiling (Hearst) Ing. Leonardo Rigutini Dipartimento di Ingegneria dell’Informazione Università di Siena Via Roma 53 53100 – SIENA – ITALY rigutini@dii.unisi.it Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

Text Tiling Hearst (1994) Segmentazione articoli scientifici segmenti contigui e non sovrapposti Vector Space Model Word repetition Repetition of terms Repetition of label Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

Algoritmo Due passi: Parametro k Calcolo del grado di similitudine tra due blocchi di testo blocco costituito da k sentenze formula del coseno Calcolo dei minimi della funzione (dopo aver plottato i valori di similitudine su un grafico e averli resi smooth) Parametro k Dimensione di un blocco Varia tra testo e testo Come euristica gli è assegnato la lunghezza media di un paragrafo (in sentenze) Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

Tf.tdf tf.tfd (Salton 1988): tf.tdf in TextTiling: Frequenza nel documento/Frequenza nell’intera collezione Termini molto frequenti in un documento e poco nella collezione risultano buoni indicatori di contenuto tf.tdf in TextTiling: Frequenza in un blocco/Frequenza nell’intero documento Termini molto frequenti in un blocco e poco nel documento risultano buoni indicatori di contenuto Termini molto frequenti nel D. ma sparsi hanno pesi piccoli Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

Grado di similitudine Dati due blocchi di testo b1 e b2 si ha: dove: n = numero di termini del documento wt,b= peso tf.tdf assegnato al termine t nel blocco b Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

Es. Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

ogni blocco ha k differenti punti di inizio Smooth Grado di similitudine calcolato tra i blocchi b e b+1 b comprende le sentenze da i a i+k-1 b+1 comprende le sentenze da i+k a i+2k-1 Misura effettuata tra le sentenze i+k-1 e i+k e plottata in corrispondenza x=i+k-1 ogni blocco ha k differenti punti di inizio K grafici Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

Smooth Il valore di sim(x) è la media dei k valori di similitudine in x: Questo equivale ad una convoluzione discreta della funzione di similitudine con hk(i) L’algoritmo utilizza una finestra di dimensione tre Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

Es. Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

Topic Boundary I confini sono determinati individuando i minimi locali del grafico Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

Modifiche: uso di thesaurus Uso di label per parole relative ad un argomento Es. lava, vulcano, eruzione, ecc..  label1 pioggia, nuvole, lampi, ecc..  label2 … Problema Polisemia: una parola ha più significati Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)