La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LATENT SEMANTIC INDEXING. Limiti della ricerca per parole chiave I metodi di ranking tradizionali calcolano lattinenza di un documento ad una query sulla.

Presentazioni simili


Presentazione sul tema: "LATENT SEMANTIC INDEXING. Limiti della ricerca per parole chiave I metodi di ranking tradizionali calcolano lattinenza di un documento ad una query sulla."— Transcript della presentazione:

1 LATENT SEMANTIC INDEXING

2 Limiti della ricerca per parole chiave I metodi di ranking tradizionali calcolano lattinenza di un documento ad una query sulla base della presenza o meno di parole contenute nella query: un termine o è presente o non lo è Nel LSI la ricerca avviene per concetti: ma un concetto non è lastrazione-generalizazzione di un termine (es: golf vestiario) bensì un insieme di termini correlati (golf, maglia, vestito) detti co-occorrenze o dominio semantico

3 Data una collezione di documenti, LSI è in grado di rilevare che alcune n-uple di termini co-occorrono frequentemente (es: n- dimensional, manifold and topology) Se viene fatta una ricerca con n-dimensional, manifold vengono automaticamente recuperati documenti che contengono anche (e eventualmente solo!) topology Dominio Semantico k

4 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Selezione dei documenti basata sul termine Golf Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Base di documenti (20) Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost con il modello keyword vengono estratti 4 documenti

5 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su Golf Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost vediamo quali sono le parole più rilevanti associate a Golf di questi 4 documenti. Esse sono: Car, Topgear and Petrol

6 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su Golf Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost poiché le parole sono pesate anche rispettoal loro idf, risulta che : Car e Topgear sono associate a Golf più di Petrol

7 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su Golf selezione basata sul dominio semantico Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Wheel Topgear GTI Polo Ora cerchiamo ancora nella base di documenti, usando questo insieme di parole che rappresentano il dominio semantico di Golf. La lista ora include un nuovo documento, non catturato sulla base della semplice ricerca per keywords.

8 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su Golf selezione basata sul dominio semantico Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Rank 2617 030 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Wheel Topgear GTI Polo Usando un ranking basato sulla co-occorrenza dei termini possiamo assegnare un miglior ranking ai documenti. Notate che: il documento più rilevante non contiene la parola Golf, e che uno dei documenti che la conteneva scompare (era infatti un senso spuriodi Golf).

9 Un esempio (fasi di elaborazione di un documento nel Vector Model) O'Neill Criticizes Europe on Grants PITTSBURGH (AP) Treasury Secretary Paul O'Neill expressed irritation Wednesday that European countries have refused to go along with a U.S. proposal to boost the amount of direct grants rich nations offer poor countries. The Bush administration is pushing a plan to increase the amount of direct grants the World Bank provides the poorest nations to 50 percent of assistance, reducing use of loans to these nations. o'neill criticizes europe on grants treasury secretary paul o'neill expressed irritation wednesday that european countries have refused to go along with a us proposal to boost the amount of direct grants rich nations offer poor countries the bush administration is pushing a plan to increase the amount of direct grants the world bank provides the poorest nationsto 50 percent of assistance reducing use of loans to these nations 1. Tokenizzazione Documento originale

10 o'neill criticizes europe on grants treasury secretary paul o'neill expressed irritation wednesday that european countries have refused to go along with a US proposal to boost the amount of direct grants rich nations offer poor countries the bush administration is pushing a plan to increase the amount of direct grants the world bank provides the poorest nations to 50 percent of assistance reducing use of loans to these nations 2. Eliminazione Stop Words 3. Stemming information -> inform presidency -> presid presiding-> presid happiness -> happi happily -> happi discouragement -> discourag battles -> battl

11 administrat amount assist bank boost bush countri (2) direct europ express grant (2) increas irritat loan nation (3) o'neill paul plan poor (2) propos push refus rich secretar treasuri US world 4. Costruzione del Vettore di termini

12 Documenti:a b c d e f g h i j k l m n o p q r { 3000 ulteriori colonne } aa 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0... amotd 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0... aaliyah 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0... aarp 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0... ab 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0...... zywicki 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0... 5. Matrice termini-documenti (per tutti i documenti) termini

13 Documenti:a b c d e f g h i j k l m n o p q r { 3000 ulteriori colonne } aa 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0... amotd 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0... aaliyah 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0... aarp 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,321 0 0 0... ab 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0...... zywicki 0 0 0 0 0,4 0 0 0 0 0 0 0 0 0 0 0 0 0... 6) Pesatura dei termini (es. tf*idf normalizzato) termini

14 Osservazione La maggioranza delle celle della matrice sono zero La dimensionalità della matrice è elevata (t) Con i metodi classici ogni documento o query è un vettore in uno spazio t-dimensionale LSI tenta di proiettare questo spazio in uno spazio di dimensione ridotta, in cui, anziché termini, le dimensioni rappresentano co-occorrenze o dominii semantici Tutte le possibili co-occorrenze sarebbero assai di più dei termini singoli: ma il metodo della singular value decomposition utilizzato da LSI consente di eliminare le co-occorrenze non significative

15 Latent Semantic Indexing: concetti Singular Value Decomposition Definisci X come la matrice termini-documenti, con t righe (numero delle keywords) e N colonne (numero dei documenti). Data una qualsiasi matrice txN, esistono 3 matrici T, S e D', tali che: X = T 0 S 0 D 0 ' T 0 e D 0 sono le matrici dei vettori singolari (eigenvectors) sinistro e destro i X T 0 e D 0 le colonne di T 0 e le righe di D 0 definiscono uno spazio ortonormale S 0 è la matrice diagonale dei valori singolari diX

16 Autovalori e autovettori http://www.sosmath.com/matrix/eigen0/eigen0.html http://www.cs.ut.ee/~toomas_l/linalg/lin2/node14.html Definizione: se A è una matrice nxm un vettore C si chiama un autovettore di A se e solo se esiste un numero tale che AC= C,e è detto autovalore e

17 Vettori singolari Matrice aggiunta o coniugata trasposta aij coniugato complesso di aij Se aij (i,j) A*=A T Valori singolari di S:, radici degli autovalori di X T X Vettori singolari destri: n autovettori di X T X Vettori singolari sinistri: m autovettori di XX T Dettagli http://www.cs.utk.edu/~dongarra/etemplates/node18.html

18 Esempio (2) Termini e Documenti Termini Documenti c1c2c3c4c5m1m2m3m4 human100100000 interface101000000 computer110000000 user011010000 system011200000 response010010000 time010010000 EPS001100000 survey010000001 trees000001110 graph000000111 minors000000011 X

19 Decomposizione SVD documenti termi ni

20 S0S0 3.34 2.54 2.35 1.64 1.50 1.31 0.85 0.56 0.36

21 Riduzione del rango Gli elementi diagonali in S 0 sono positivi e decrescenti in grandezza. Si prendono i primi k e gli altri vengono posti a zero. Si cancellano le righe e le colonne zero di S 0 e le corrispondenti righe e colonne di T 0 e D 0. Si ottiene: X X = TSD' Interpretazione Se il valore k è selezionato opportunamente, laspettativa è che la nuova matrice mantenga linformazione semantica di X, ma elimini il rumore derivante dalla sinonimia (perché sensi diversi avranno co-occorrenze diverse) e riconosca la dipendenza fra termini co-occorrenti. ~ ~ ^

22 Selezione dei valori singolari X = t x dt x kk x dk x k k è il numero di valori singolari scelti per rappresentare i concetti nellinsieme dei documenti In genere, k « m. T SD' ^

23 Confronto fra termini XX T = TSD T (TSD T ) T = TSD T DS T T T poichè D è ortonormale = TS(TS) T Per calcolare la cella i, j, si fa il prodotto scalare fra le righe i e j di TS ^ ^ Il prodotto scalare di due righe di X riflette il fatto che due termini abbiano contesti di occorrenza più o meno simili ^

24 Confronto fra documenti X T X = (TSD T ) T TSD T = DS(DS) T Per calcolare le celle i, j, si esegue il prodotto scalare fra le colonne i e j di DS. ^ ^ Il prodotto scalare di due colonne di X ci informa di quanto due colonne abbiano contesti di occorrenza comuni. ^

25 Confronto fra termini e documenti Il confronto fra un termine e un documento è rappresenatto dal valore di una cella X. X = TSD' = TS(DS)' dove S è una matrice diagonale i cui valori sono la radice quadrata dei corrispondenti elementi di S. ^ - - -

26 Esempio: Query Terms Query x q human1 interface0 computer0 user0 system1 response0 time0 EPS0 survey0 trees1 graph0 minors0 Query: "human system interactions on trees" Nello spazio termini-documenti, una query è rappresentata da x q, un vettore t x 1. Nello spazio dei concetti, una query è rappresentata da d q, un vettore 1 x k.

27 Query Per il ranking dei documenti ripetto alla query, semplicemente si considera la query come uno pseudo- documento, e lo si modella come la la prima colonna della matrice (d 0 =q) X Quindi, la prima riga della matrice fornisce il ranking dei documenti ripetto alla query.


Scaricare ppt "LATENT SEMANTIC INDEXING. Limiti della ricerca per parole chiave I metodi di ranking tradizionali calcolano lattinenza di un documento ad una query sulla."

Presentazioni simili


Annunci Google