La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Automatic Text Segmentation: TextTiling (Hearst) Ing. Leonardo Rigutini Dipartimento.

Presentazioni simili


Presentazione sul tema: "Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Automatic Text Segmentation: TextTiling (Hearst) Ing. Leonardo Rigutini Dipartimento."— Transcript della presentazione:

1 Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Automatic Text Segmentation: TextTiling (Hearst) Ing. Leonardo Rigutini Dipartimento di Ingegneria dellInformazione Università di Siena Via Roma – SIENA – ITALY

2 Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Text Tiling Hearst (1994) Segmentazione articoli scientifici –segmenti contigui e non sovrapposti Vector Space Model Word repetition –Repetition of terms –Repetition of label

3 Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Algoritmo Due passi: 1.Calcolo del grado di similitudine tra due blocchi di testo –blocco costituito da k sentenze –formula del coseno 2.Calcolo dei minimi della funzione (dopo aver plottato i valori di similitudine su un grafico e averli resi smooth) Parametro k Dimensione di un blocco Varia tra testo e testo Come euristica gli è assegnato la lunghezza media di un paragrafo (in sentenze)

4 Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Tf.tdf tf.tfd (Salton 1988): –Frequenza nel documento/Frequenza nellintera collezione –Termini molto frequenti in un documento e poco nella collezione risultano buoni indicatori di contenuto tf.tdf in TextTiling: –Frequenza in un blocco/Frequenza nellintero documento –Termini molto frequenti in un blocco e poco nel documento risultano buoni indicatori di contenuto –Termini molto frequenti nel D. ma sparsi hanno pesi piccoli

5 Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Grado di similitudine Dati due blocchi di testo b1 e b2 si ha: dove: n = numero di termini del documento w t,b = peso tf.tdf assegnato al termine t nel blocco b

6 Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Es.

7 Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Smooth Grado di similitudine calcolato tra i blocchi b e b+1 –b comprende le sentenze da i a i+k-1 –b+1 comprende le sentenze da i+k a i+2k-1 Misura effettuata tra le sentenze i+k-1 e i+k e plottata in corrispondenza x=i+k-1 ogni blocco ha k differenti punti di inizio K grafici

8 Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Smooth Il valore di sim(x) è la media dei k valori di similitudine in x: Questo equivale ad una convoluzione discreta della funzione di similitudine con h k (i) Lalgoritmo utilizza una finestra di dimensione tre

9 Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Es.

10 Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Topic Boundary I confini sono determinati individuando i minimi locali del grafico

11 Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Modifiche: uso di thesaurus Uso di label per parole relative ad un argomento Es. –lava, vulcano, eruzione, ecc.. label 1 –pioggia, nuvole, lampi, ecc.. label 2 –… Problema –Polisemia: una parola ha più significati


Scaricare ppt "Ing. Leonardo Rigutini – Automatic Text Segmentation: Text Tiling (Hearst) Automatic Text Segmentation: TextTiling (Hearst) Ing. Leonardo Rigutini Dipartimento."

Presentazioni simili


Annunci Google