LATENT SEMANTIC INDEXING
Limiti della ricerca per parole chiave I metodi di ranking tradizionali calcolano lattinenza di un documento ad una query sulla base della presenza o meno di parole contenute nella query: un termine o è presente o non lo è Nel LSI la ricerca avviene per concetti: ma un concetto non è lastrazione-generalizazzione di un termine (es: golf vestiario) bensì un insieme di termini correlati (golf, maglia, vestito) detti co-occorrenze o dominio semantico
Data una collezione di documenti, LSI è in grado di rilevare che alcune n-uple di termini co-occorrono frequentemente (es: n- dimensional, manifold and topology) Se viene fatta una ricerca con n-dimensional, manifold vengono automaticamente recuperati documenti che contengono anche (e eventualmente solo!) topology Dominio Semantico k
Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Selezione dei documenti basata sul termine Golf Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Base di documenti (20) Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost con il modello keyword vengono estratti 4 documenti
Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su Golf Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost vediamo quali sono le parole più rilevanti associate a Golf di questi 4 documenti. Esse sono: Car, Topgear and Petrol
Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su Golf Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost poiché le parole sono pesate anche rispettoal loro idf, risulta che : Car e Topgear sono associate a Golf più di Petrol
Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su Golf selezione basata sul dominio semantico Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Wheel Topgear GTI Polo Ora cerchiamo ancora nella base di documenti, usando questo insieme di parole che rappresentano il dominio semantico di Golf. La lista ora include un nuovo documento, non catturato sulla base della semplice ricerca per keywords.
Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su Golf selezione basata sul dominio semantico Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Rank Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Wheel Topgear GTI Polo Usando un ranking basato sulla co-occorrenza dei termini possiamo assegnare un miglior ranking ai documenti. Notate che: il documento più rilevante non contiene la parola Golf, e che uno dei documenti che la conteneva scompare (era infatti un senso spuriodi Golf).
Un esempio (fasi di elaborazione di un documento nel Vector Model) O'Neill Criticizes Europe on Grants PITTSBURGH (AP) Treasury Secretary Paul O'Neill expressed irritation Wednesday that European countries have refused to go along with a U.S. proposal to boost the amount of direct grants rich nations offer poor countries. The Bush administration is pushing a plan to increase the amount of direct grants the World Bank provides the poorest nations to 50 percent of assistance, reducing use of loans to these nations. o'neill criticizes europe on grants treasury secretary paul o'neill expressed irritation wednesday that european countries have refused to go along with a us proposal to boost the amount of direct grants rich nations offer poor countries the bush administration is pushing a plan to increase the amount of direct grants the world bank provides the poorest nationsto 50 percent of assistance reducing use of loans to these nations 1. Tokenizzazione Documento originale
o'neill criticizes europe on grants treasury secretary paul o'neill expressed irritation wednesday that european countries have refused to go along with a US proposal to boost the amount of direct grants rich nations offer poor countries the bush administration is pushing a plan to increase the amount of direct grants the world bank provides the poorest nations to 50 percent of assistance reducing use of loans to these nations 2. Eliminazione Stop Words 3. Stemming information -> inform presidency -> presid presiding-> presid happiness -> happi happily -> happi discouragement -> discourag battles -> battl
administrat amount assist bank boost bush countri (2) direct europ express grant (2) increas irritat loan nation (3) o'neill paul plan poor (2) propos push refus rich secretar treasuri US world 4. Costruzione del Vettore di termini
Documenti:a b c d e f g h i j k l m n o p q r { 3000 ulteriori colonne } aa amotd aaliyah aarp ab zywicki Matrice termini-documenti (per tutti i documenti) termini
Documenti:a b c d e f g h i j k l m n o p q r { 3000 ulteriori colonne } aa amotd aaliyah aarp , ab zywicki , ) Pesatura dei termini (es. tf*idf normalizzato) termini
Osservazione La maggioranza delle celle della matrice sono zero La dimensionalità della matrice è elevata (t) Con i metodi classici ogni documento o query è un vettore in uno spazio t-dimensionale LSI tenta di proiettare questo spazio in uno spazio di dimensione ridotta, in cui, anziché termini, le dimensioni rappresentano co-occorrenze o dominii semantici Tutte le possibili co-occorrenze sarebbero assai di più dei termini singoli: ma il metodo della singular value decomposition utilizzato da LSI consente di eliminare le co-occorrenze non significative
Latent Semantic Indexing: concetti Singular Value Decomposition Definisci X come la matrice termini-documenti, con t righe (numero delle keywords) e N colonne (numero dei documenti). Data una qualsiasi matrice txN, esistono 3 matrici T, S e D', tali che: X = T 0 S 0 D 0 ' T 0 e D 0 sono le matrici dei vettori singolari (eigenvectors) sinistro e destro i X T 0 e D 0 le colonne di T 0 e le righe di D 0 definiscono uno spazio ortonormale S 0 è la matrice diagonale dei valori singolari diX
Autovalori e autovettori Definizione: se A è una matrice nxm un vettore C si chiama un autovettore di A se e solo se esiste un numero tale che AC= C,e è detto autovalore e
Vettori singolari Matrice aggiunta o coniugata trasposta aij coniugato complesso di aij Se aij (i,j) A*=A T Valori singolari di S:, radici degli autovalori di X T X Vettori singolari destri: n autovettori di X T X Vettori singolari sinistri: m autovettori di XX T Dettagli
Esempio (2) Termini e Documenti Termini Documenti c1c2c3c4c5m1m2m3m4 human interface computer user system response time EPS survey trees graph minors X
Decomposizione SVD documenti termi ni
S0S
Riduzione del rango Gli elementi diagonali in S 0 sono positivi e decrescenti in grandezza. Si prendono i primi k e gli altri vengono posti a zero. Si cancellano le righe e le colonne zero di S 0 e le corrispondenti righe e colonne di T 0 e D 0. Si ottiene: X X = TSD' Interpretazione Se il valore k è selezionato opportunamente, laspettativa è che la nuova matrice mantenga linformazione semantica di X, ma elimini il rumore derivante dalla sinonimia (perché sensi diversi avranno co-occorrenze diverse) e riconosca la dipendenza fra termini co-occorrenti. ~ ~ ^
Selezione dei valori singolari X = t x dt x kk x dk x k k è il numero di valori singolari scelti per rappresentare i concetti nellinsieme dei documenti In genere, k « m. T SD' ^
Confronto fra termini XX T = TSD T (TSD T ) T = TSD T DS T T T poichè D è ortonormale = TS(TS) T Per calcolare la cella i, j, si fa il prodotto scalare fra le righe i e j di TS ^ ^ Il prodotto scalare di due righe di X riflette il fatto che due termini abbiano contesti di occorrenza più o meno simili ^
Confronto fra documenti X T X = (TSD T ) T TSD T = DS(DS) T Per calcolare le celle i, j, si esegue il prodotto scalare fra le colonne i e j di DS. ^ ^ Il prodotto scalare di due colonne di X ci informa di quanto due colonne abbiano contesti di occorrenza comuni. ^
Confronto fra termini e documenti Il confronto fra un termine e un documento è rappresenatto dal valore di una cella X. X = TSD' = TS(DS)' dove S è una matrice diagonale i cui valori sono la radice quadrata dei corrispondenti elementi di S. ^ - - -
Esempio: Query Terms Query x q human1 interface0 computer0 user0 system1 response0 time0 EPS0 survey0 trees1 graph0 minors0 Query: "human system interactions on trees" Nello spazio termini-documenti, una query è rappresentata da x q, un vettore t x 1. Nello spazio dei concetti, una query è rappresentata da d q, un vettore 1 x k.
Query Per il ranking dei documenti ripetto alla query, semplicemente si considera la query come uno pseudo- documento, e lo si modella come la la prima colonna della matrice (d 0 =q) X Quindi, la prima riga della matrice fornisce il ranking dei documenti ripetto alla query.