La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Automatic Text Segmentation: TextTiling (Hearst)

Presentazioni simili


Presentazione sul tema: "Automatic Text Segmentation: TextTiling (Hearst)"— Transcript della presentazione:

1 Automatic Text Segmentation: TextTiling (Hearst)
Ing. Leonardo Rigutini Dipartimento di Ingegneria dell’Informazione Università di Siena Via Roma 53 53100 – SIENA – ITALY Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

2 Text Tiling Hearst (1994) Segmentazione articoli scientifici
segmenti contigui e non sovrapposti Vector Space Model Word repetition Repetition of terms Repetition of label Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

3 Algoritmo Due passi: Parametro k
Calcolo del grado di similitudine tra due blocchi di testo blocco costituito da k sentenze formula del coseno Calcolo dei minimi della funzione (dopo aver plottato i valori di similitudine su un grafico e averli resi smooth) Parametro k Dimensione di un blocco Varia tra testo e testo Come euristica gli è assegnato la lunghezza media di un paragrafo (in sentenze) Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

4 Tf.tdf tf.tfd (Salton 1988): tf.tdf in TextTiling:
Frequenza nel documento/Frequenza nell’intera collezione Termini molto frequenti in un documento e poco nella collezione risultano buoni indicatori di contenuto tf.tdf in TextTiling: Frequenza in un blocco/Frequenza nell’intero documento Termini molto frequenti in un blocco e poco nel documento risultano buoni indicatori di contenuto Termini molto frequenti nel D. ma sparsi hanno pesi piccoli Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

5 Grado di similitudine Dati due blocchi di testo b1 e b2 si ha: dove:
n = numero di termini del documento wt,b= peso tf.tdf assegnato al termine t nel blocco b Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

6 Es. Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

7 ogni blocco ha k differenti punti di inizio
Smooth Grado di similitudine calcolato tra i blocchi b e b+1 b comprende le sentenze da i a i+k-1 b+1 comprende le sentenze da i+k a i+2k-1 Misura effettuata tra le sentenze i+k-1 e i+k e plottata in corrispondenza x=i+k-1 ogni blocco ha k differenti punti di inizio K grafici Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

8 Smooth Il valore di sim(x) è la media dei k valori di similitudine in x: Questo equivale ad una convoluzione discreta della funzione di similitudine con hk(i) L’algoritmo utilizza una finestra di dimensione tre Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

9 Es. Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

10 Topic Boundary I confini sono determinati individuando i minimi locali del grafico Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)

11 Modifiche: uso di thesaurus
Uso di label per parole relative ad un argomento Es. lava, vulcano, eruzione, ecc..  label1 pioggia, nuvole, lampi, ecc..  label2 Problema Polisemia: una parola ha più significati Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst)


Scaricare ppt "Automatic Text Segmentation: TextTiling (Hearst)"

Presentazioni simili


Annunci Google