Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoOvidio Danieli Modificato 11 anni fa
1
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Automatic Text Segmentation: Text Relationship Map (Salton 1996) Ing. Leonardo Rigutini Dipartimento di Ingegneria dellInformazione Università di Siena Via Roma 53 53100 – SIENA – ITALY rigutini@dii.unisi.it
2
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text Relationship map Salton 1996 Vector space model: D i =(d i1, d i2, …, d it ) d ik = peso del termine T k nel documento D i Sim( D i, D j ) = d ik x d jk Sim viene normalizzata in modo da (0,1) Una volta calcolate le similitudini si costruisce la mappa
3
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text Relationship map Figure 1: Text Relationship Map: articoli di enciclopedia riguardanti lenergia termo-nucleare 11830 17012 17016 19199 22387 8907 0.57 0.38 0.49 0.50 0.23 0.09 0.54 0.33 0.24 Link under 0.01 ignored
4
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Nodi e archi Importanza di un nodo correlata al numero di archi incidenti: Un nodo centrale è caratterizzato da un grande numero di archi Grafo altamente connesso: Molti nodi importanti Trattazione dellargomento omogenea Grafo debolmente connesso: Nodi importanti sparsi Piu argomenti separati (poca omogeneita) Trattazione cronologica, geografica ecc...
5
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Grafo altamente connesso
6
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Grafo scarsamente connesso
7
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Automatic Text Decomposition Studio delle relazioni tra i nodi del grafo Due tipi di analisi: Segmenti unita di testo (nodi) omogenee e contigue, altamente connesse tra loro e poco connesse con i restanti nodi del grafo. Tematiche unita di testo semanticamente omogenee senza vincoli di adiacenza.
8
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text Segments - 1 Trovare gap nelle connessioni tra paragrafi adiacenti Vengono eliminati i collegamenti tra nodi distanti oltre un certo k (Salton pone k=5)
9
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text Segments - 2 Non e garantita la coerenza del tema trattato Molti argomenti possono essere trattati in maniera non lineare Per cercare coerenza bisogna rilassare il vincolo di adiacenza e considerare tutti i collegamenti esistenti Text Theme
10
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text Themes Si considerano i triangoli presenti nel grafo triangolo = insieme di tre nodi mutualmente correlati Ogni triangolo e rappresentato da un vettore centroide C i =(N 1,N 4,N 8 ) dove N k e il nodo k un valore S i che e la media dei vettori del triangolo Fusione dei centroidi: I triangoli vengono fusi quando la similitudine tra coppie di centroidi supera una determinata soglia Il processo si ripete fino a che nessuna fusione e possibile
11
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text Themes - es
12
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Relazioni tra segmenti e temi E possibile calcolare gradi di similitudine: segment-segment informazioni sulla struttura del documento (figura 7) theme-theme informazioni sulla centralita di alcune tematiche e sulla particolarita di altre (figura 8) theme-segment tipo di documento: –singolo tema trattato sotto piu punti di vista –piu temi scorrelati –un tema centrale e vari paragrafi secondari] –ecc...
13
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Segment-segment
14
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Theme-theme
15
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Theme-segment 1.segmenti & temi abbastanza congruenti: Tema sviluppato in maniera lineare parti di testo abbastanza adiacenti Es. –articoli su un singolo argomento –articoli su piu argomenti abbastanza scorrelati e trattati in maniera cronologica (relazione 1 a 1) –Temi trattati sotto piu punti di vista ( T piu S) 2.temi e segmenti non congruenti Argomento sospeso e ripreso in seguito Es. –Introduzione e succesive spiegazioni
16
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Es. singolo tema
17
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Es. Storie multiple
18
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Es. Tema scorrelato dal resto del documento
19
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Es. grande tema centrale e due piccoli approfondimenti
20
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Text retrieval Tecniche standard di recupero possono non essere quelle migliori Quando una query riguarda un tema discontinuo nel documento, il recupero di segmenti non e una buona soluzione, ma e meglio restituire un insieme di segmenti Quindi: Per strutture semplici text segment Per strutture complesse text theme
21
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Information retrieval: simple structure
22
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Information retrieval: simple structure
23
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Information retrieval: complex structure
24
Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map Information retrieval: complex structure
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.