La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Automatic Text Segmentation: Text Relationship Map (Salton 1996) Ing. Leonardo.

Presentazioni simili


Presentazione sul tema: "Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Automatic Text Segmentation: Text Relationship Map (Salton 1996) Ing. Leonardo."— Transcript della presentazione:

1 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Automatic Text Segmentation: Text Relationship Map (Salton 1996) Ing. Leonardo Rigutini Dipartimento di Ingegneria dellInformazione Università di Siena Via Roma 53 53100 – SIENA – ITALY rigutini@dii.unisi.it

2 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text Relationship map Salton 1996 Vector space model: D i =(d i1, d i2, …, d it ) d ik = peso del termine T k nel documento D i Sim( D i, D j ) = d ik x d jk Sim viene normalizzata in modo da (0,1) Una volta calcolate le similitudini si costruisce la mappa

3 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text Relationship map Figure 1: Text Relationship Map: articoli di enciclopedia riguardanti lenergia termo-nucleare 11830 17012 17016 19199 22387 8907 0.57 0.38 0.49 0.50 0.23 0.09 0.54 0.33 0.24 Link under 0.01 ignored

4 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Nodi e archi Importanza di un nodo correlata al numero di archi incidenti: Un nodo centrale è caratterizzato da un grande numero di archi Grafo altamente connesso: Molti nodi importanti Trattazione dellargomento omogenea Grafo debolmente connesso: Nodi importanti sparsi Piu argomenti separati (poca omogeneita) Trattazione cronologica, geografica ecc...

5 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Grafo altamente connesso

6 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Grafo scarsamente connesso

7 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Automatic Text Decomposition Studio delle relazioni tra i nodi del grafo Due tipi di analisi: Segmenti unita di testo (nodi) omogenee e contigue, altamente connesse tra loro e poco connesse con i restanti nodi del grafo. Tematiche unita di testo semanticamente omogenee senza vincoli di adiacenza.

8 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text Segments - 1 Trovare gap nelle connessioni tra paragrafi adiacenti Vengono eliminati i collegamenti tra nodi distanti oltre un certo k (Salton pone k=5)

9 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text Segments - 2 Non e garantita la coerenza del tema trattato Molti argomenti possono essere trattati in maniera non lineare Per cercare coerenza bisogna rilassare il vincolo di adiacenza e considerare tutti i collegamenti esistenti Text Theme

10 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text Themes Si considerano i triangoli presenti nel grafo triangolo = insieme di tre nodi mutualmente correlati Ogni triangolo e rappresentato da un vettore centroide C i =(N 1,N 4,N 8 ) dove N k e il nodo k un valore S i che e la media dei vettori del triangolo Fusione dei centroidi: I triangoli vengono fusi quando la similitudine tra coppie di centroidi supera una determinata soglia Il processo si ripete fino a che nessuna fusione e possibile

11 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text Themes - es

12 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Relazioni tra segmenti e temi E possibile calcolare gradi di similitudine: segment-segment informazioni sulla struttura del documento (figura 7) theme-theme informazioni sulla centralita di alcune tematiche e sulla particolarita di altre (figura 8) theme-segment tipo di documento: –singolo tema trattato sotto piu punti di vista –piu temi scorrelati –un tema centrale e vari paragrafi secondari] –ecc...

13 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Segment-segment

14 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Theme-theme

15 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Theme-segment 1.segmenti & temi abbastanza congruenti: Tema sviluppato in maniera lineare parti di testo abbastanza adiacenti Es. –articoli su un singolo argomento –articoli su piu argomenti abbastanza scorrelati e trattati in maniera cronologica (relazione 1 a 1) –Temi trattati sotto piu punti di vista ( T piu S) 2.temi e segmenti non congruenti Argomento sospeso e ripreso in seguito Es. –Introduzione e succesive spiegazioni

16 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Es. singolo tema

17 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Es. Storie multiple

18 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Es. Tema scorrelato dal resto del documento

19 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Es. grande tema centrale e due piccoli approfondimenti

20 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text retrieval Tecniche standard di recupero possono non essere quelle migliori Quando una query riguarda un tema discontinuo nel documento, il recupero di segmenti non e una buona soluzione, ma e meglio restituire un insieme di segmenti Quindi: Per strutture semplici text segment Per strutture complesse text theme

21 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Information retrieval: simple structure

22 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Information retrieval: simple structure

23 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Information retrieval: complex structure

24 Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Information retrieval: complex structure


Scaricare ppt "Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Automatic Text Segmentation: Text Relationship Map (Salton 1996) Ing. Leonardo."

Presentazioni simili


Annunci Google