Automatic Text Segmentation: TextTiling (Hearst) Ing. Leonardo Rigutini Dipartimento di Ingegneria dell’Informazione Università di Siena Via Roma 53 53100 – SIENA – ITALY rigutini@dii.unisi.it Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)
Text Tiling Hearst (1994) Segmentazione articoli scientifici segmenti contigui e non sovrapposti Vector Space Model Word repetition Repetition of terms Repetition of label Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)
Algoritmo Due passi: Parametro k Calcolo del grado di similitudine tra due blocchi di testo blocco costituito da k sentenze formula del coseno Calcolo dei minimi della funzione (dopo aver plottato i valori di similitudine su un grafico e averli resi smooth) Parametro k Dimensione di un blocco Varia tra testo e testo Come euristica gli è assegnato la lunghezza media di un paragrafo (in sentenze) Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)
Tf.tdf tf.tfd (Salton 1988): tf.tdf in TextTiling: Frequenza nel documento/Frequenza nell’intera collezione Termini molto frequenti in un documento e poco nella collezione risultano buoni indicatori di contenuto tf.tdf in TextTiling: Frequenza in un blocco/Frequenza nell’intero documento Termini molto frequenti in un blocco e poco nel documento risultano buoni indicatori di contenuto Termini molto frequenti nel D. ma sparsi hanno pesi piccoli Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)
Grado di similitudine Dati due blocchi di testo b1 e b2 si ha: dove: n = numero di termini del documento wt,b= peso tf.tdf assegnato al termine t nel blocco b Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)
Es. Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)
ogni blocco ha k differenti punti di inizio Smooth Grado di similitudine calcolato tra i blocchi b e b+1 b comprende le sentenze da i a i+k-1 b+1 comprende le sentenze da i+k a i+2k-1 Misura effettuata tra le sentenze i+k-1 e i+k e plottata in corrispondenza x=i+k-1 ogni blocco ha k differenti punti di inizio K grafici Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)
Smooth Il valore di sim(x) è la media dei k valori di similitudine in x: Questo equivale ad una convoluzione discreta della funzione di similitudine con hk(i) L’algoritmo utilizza una finestra di dimensione tre Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)
Es. Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)
Topic Boundary I confini sono determinati individuando i minimi locali del grafico Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)
Modifiche: uso di thesaurus Uso di label per parole relative ad un argomento Es. lava, vulcano, eruzione, ecc.. label1 pioggia, nuvole, lampi, ecc.. label2 … Problema Polisemia: una parola ha più significati Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)