LATENT SEMANTIC INDEXING

Slides:

Advertisements

Presentazioni simili

Cosa sono? Come si risolvono?

Advertisements

Calcolo vettoriale E.F. Orsega – Università Ca’ Foscari di Venezia

Selezione delle caratteristiche - Principal Component Analysis

FUNZIONI REALI DI DUE VARIABILI REALI

Equazione e grafico Per gli alunni delle terze classi

Equazioni di primo grado

Sistema di riferimento sulla retta

Dipartimento di Economia

L’iperbole Teoria e laboratorio

Capitolo 8 Sistemi lineari.

Autovalori e autovettori

PROPRIETÀ DEI DETERMINANTI

METODI EQUAZIONI DIFFERENZIALI Funzioni che mettono in relazione una variabile indipendente ( es. x), una sua funzione ( es. y = f(x) ) e la.

COORDINATE POLARI Sia P ha coordinate cartesiane

Cinematica del braccio di un robot

Dinamica del manipolatore

Analisi Numerica: AutoValori e Autovettori

Meccanica 2 1 marzo 2011 Cinematica in una dimensione

Meccanica 3 7 marzo 2011 Cinematica in due dimensioni

Analisi Fattoriale Esplorativa

= 2x – 3 x Definizione e caratteristiche

esponente del radicando

Definizione e caratteristiche

Sistemi di supporto alle decisioni 2. Features space

Algebra delle Matrici.

LE FUNZIONI Definizione Campo di esistenza e codominio

Algebra lineare.

Elementi di Matematica

TEORIA RAPPRESENTAZIONALE DELLA MISURA

Teoria e Tecniche del Riconoscimento

LATENT SEMANTIC INDEXING. Limiti della ricerca per parole chiave I metodi di ranking tradizionali calcolano lattinenza di un documento ad una query sulla.

RICHIAMI ELEMENTARI DI ALGEBRA MATRICIALE

Statistica per le decisioni aziendali ed analisi dei costi Modulo II - Statistica per le decisioni Aziendali Richiami di Algebra Matriciale.

Cinematica differenziale

SUPERFICIE NELLO SPAZIO, FORMULE DELLA DIVERGENZA E DI STOKES

SISTEMI D’EQUAZIONI ED EQUAZIONI DIFFERENZIALI LINEARI.

1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.

Sistemi di equazioni lineari

Rotazione di un corpo rigido attorno ad un asse fisso

Teoria e Tecniche del Riconoscimento

Metodi statistici per l'analisi del cambiamento 5/3/ Notazione (simboli) Obbiettivo: occorre che si mantengano le tracce, in merito al punteggio,

Modelli probabilistici

LATENT SEMANTIC INDEXING. Limiti della ricerca per parole chiave I metodi di ranking tradizionali calcolano lattinenza di un documento ad una query sulla.

Corso di Chimica Fisica II 2013 Marina Brustolon

Studente Claudia Puzzo

1 Esempio : Utile per considerare limportanza delle ALTE FREQUENZE nella ricostruzione del segnale, in particolare dei FRONTI di SALITA e di DISCESA (trailing.

Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.

UNIVERSITÀ DEGLI STUDI DI PERUGIA Dipartimento di Ingegneria Industriale Prof. Francesco Castellani Corso di Meccanica Applicata A.A.

Lezione 13 Equazione di Klein-Gordon Equazione di Dirac (prima parte)

Spazi vettoriali astratti Somma e prodotto di n-ple Struttura di R n.

EQUAZIONI DI SECONDO GRADO

ISO METRIE Trasformazioni geometriche uguale distanza

Stabilità per E.D.O. (I): STABILITÀ LINEARIZZATA

Vettori dello spazio bidimensionale (R 2)

Sottospazi vettoriali

Vettori A B VETTORE è un segmento orientato caratterizzato da: C D

LA RETTA Assi cartesiani e rette ad essi parallele

MATEMATICA PER L’ECONOMIA e METODI QUANTITATIVI PER LA FINANZA a. a

DISEQUAZIONI DI II GRADO. Lo studio del segno di un trinomio Considerando che il coefficiente a sia sempre positivo cioè a>0 per risolvere le disequazioni.

APPUNTI DI GEOMETRIA ANALITICA DELLA RETTA

Analisi matematica Introduzione ai limiti

Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.

INTRODUZIONE Il progetto è rivolto ad alunni che frequentano il biennio del Liceo Scientifico, gli argomenti affrontati sono di notevole importanza per.

Raccogliamo x al primo membro e 2 al secondo:

Ancora sulle equazioni di secondo grado….. Equazione di secondo grado completa Relazione tra le soluzioni di un'equazione di secondo grado.

Luoghi di punti In geometria il termine

Prof. Cerulli – Dott. Carrabs

Transcript della presentazione:

LATENT SEMANTIC INDEXING

Limiti della ricerca per parole chiave I metodi di ranking tradizionali calcolano l’attinenza di un documento ad una query sulla base della presenza o meno di parole contenute nella query: un termine o è presente o non lo è Nel LSI la ricerca avviene per concetti: ma un concetto non è l’astrazione-generalizazzione di un termine (es: golf vestiario) bensì un insieme di termini correlati (golf, maglia, vestito) detti co-occorrenze o dominio semantico

Data una collezione di documenti, LSI è in grado di rilevare che alcune n-uple di termini co-occorrono frequentemente (es: gerarchia, ordinamento e classificazione) Se viene fatta una ricerca con gerarchia, ordinamento vengono “automaticamente” recuperati documenti che contengono anche (e eventualmente solo!) classificazione Dominio Semantico k

Selezione dei documenti basata sul termine ‘Golf’ Car Topgear Petrol GTI Clarkson Badge Polo Red Tiger Woods Belfry Tee Selezione dei documenti basata sul termine ‘Golf’ Base di documenti (20) Motor Bike Oil Tourer Bed lace legal button soft cat line yellow wind full sail harbour beach report June Speed Fish Pond gold Koi PC Dell RAM Floppy Core Apple Pip Tree Pea Pod Fresh Green French Lupin Seed May April Office Pen Desk VDU Friend Pal Help Can Paper Paste Pencil Roof Card Stamp Glue Happy Send Toil Work Time Cost con il modello keyword vengono estratti 4 documenti

Selezione basata su ‘Golf’ Car Topgear Petrol GTI Clarkson Badge Polo Red Tiger Woods Belfry Tee Tutti i 20 documenti Motor Bike Oil Tourer Bed lace legal button soft cat line yellow wind full sail harbour beach report June Speed Fish Pond gold Koi PC Dell RAM Floppy Core Apple Pip Tree Pea Pod Fresh Green French Lupin Seed May April Office Pen Desk VDU Friend Pal Help Can Paper Paste Pencil Roof Card Stamp Glue Happy Send Toil Work Time Cost rank dei doc selezionati Car 2 *(20/3) = 13 Topgear Petrol 3 *(20/16) = 4 wf.idf Selezione basata su ‘Golf’ Golf Car Topgear Petrol GTI Clarkson Badge Polo Red Tiger Woods Belfry Tee vediamo quali sono le parole più rilevanti associate a Golf di questi 4 documenti. Esse sono: Car, Topgear and Petrol

Selezione basata su ‘Golf’ Car Topgear Petrol GTI Clarkson Badge Polo Red Tiger Woods Belfry Tee Tutti i 20 documenti Motor Bike Oil Tourer Bed lace legal button soft cat line yellow wind full sail harbour beach report June Speed Fish Pond gold Koi PC Dell RAM Floppy Core Apple Pip Tree Pea Pod Fresh Green French Lupin Seed May April Office Pen Desk VDU Friend Pal Help Can Paper Paste Pencil Roof Card Stamp Glue Happy Send Toil Work Time Cost rank dei doc selezionati Selezione basata su ‘Golf’ Golf Car Topgear Petrol GTI Clarkson Badge Polo Red Tiger Woods Belfry Tee Car 2 *(20/3) = 13 Topgear Petrol 3 *(20/16) = 4 poiché le parole sono pesate anche rispetto al loro idf, risulta che : Car e Topgear sono associate a Golf più di Petrol

Selezione basata su ‘Golf’ Car Topgear Petrol GTI Clarkson Badge Polo Red Tiger Woods Belfry Tee Tutti i 20 documenti Motor Bike Oil Tourer Bed lace legal button soft cat line yellow wind full sail harbour beach report June Speed Fish Pond gold Koi PC Dell RAM Floppy Core Apple Pip Tree Pea Pod Fresh Green French Lupin Seed May April Office Pen Desk VDU Friend Pal Help Can Paper Paste Pencil Roof Card Stamp Glue Happy Send Toil Work Time Cost Ora cerchiamo ancora nella base di documenti, usando questo insieme di parole che rappresentano il “dominio semantico” di Golf . La lista ora include un nuovo documento, non catturato sulla base della semplice ricerca per keywords. Golf Car Topgear Petrol GTI Clarkson Badge Polo Red Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su ‘Golf’ selezione basata sul dominio semantico 2 *(20/3) = 13 3 *(20/16) = 4 Wheel

Selezione basata su ‘Golf’ Car Topgear Petrol GTI Clarkson Badge Polo Red Tiger Woods Belfry Tee Tutti i 20 documenti Motor Bike Oil Tourer Bed lace legal button soft cat line yellow wind full sail harbour beach report June Speed Fish Pond gold Koi PC Dell RAM Floppy Core Apple Pip Tree Pea Pod Fresh Green French Lupin Seed May April Office Pen Desk VDU Friend Pal Help Can Paper Paste Pencil Roof Card Stamp Glue Happy Send Toil Work Time Cost Usando un ranking basato sulla co-occorrenza dei termini possiamo assegnare un miglior ranking ai documenti. Notate che: il documento più rilevante non contiene la parola Golf, e che uno dei documenti che la conteneva scompare (era infatti un senso “spurio”di Golf). rank dei doc selezionati Selezione basata su ‘Golf’ Golf Car Topgear Petrol GTI Clarkson Badge Polo Red Tiger Woods Belfry Tee Car 2 *(20/3) = 13 Topgear Petrol 3 *(20/16) = 4 selezione basata sul dominio semantico Golf Car Topgear Petrol GTI Clarkson Badge Polo Red Tiger Woods Belfry Tee Wheel Rank 26 17 30

Esempio 2

Matrice termini-documenti L

Co-occorrenze dei termini nei documenti Aij è il numero di co-occorrenze nei documenti fra il termine i ed il termine j

A trees,graph = (000001110)T(000000111)=2

Esempio 2 w1 w2 w3 d1 d2 d3 0 1 1 0 1 0 1 0 LLT 1 0 0 0 1 1 1 0 = 2 2 0 2 2 0 0 0 1 w11 w12 w13 w21 w22 w23 w31 w32 w33 w11 w12 w13 w12 w22 w23 w13 w23 w33 Ma wij=wji quindi Simmetrica!

Matrici delle co-occorrenze Se L è una matrice nxm (termini x documenti) Allora: LTL è la matrice le cui righe ai rappresentano le co-occorrenze di termini fra di e dj, per ogni dj. Dato un documento, indica quali sono i documenti più simili. LLT è la matrice le cui righe ai rappresentano le co-occorrenze nei documenti fra ti e tj per ogni tj. Dato un termine, indica quali sono i termini più correlati. Usando, ad esempio, la matrice LLT potrei “espandere” ogni termine con quelli aventi il più alto valore di correlazione (cioè, aggiungere alla query in cui compare la parola w anche quelle che co-occorrono con w più frequentemente)

Osservazione Tutte le possibili co-occorrenze sarebbero assai di più dei termini singoli (detta L la matrice termini-documenti, dovrei calcolare A=LLT). Tuttavia, sebbene la matrice A ha dimensionalità elevata la maggioranza delle celle hanno valore zero Con i metodi classici ogni documento o query è un vettore in uno spazio t-dimensionale LSI tenta di proiettare questo spazio in uno spazio di dimensione ridotta, in cui, anziché termini, le dimensioni rappresentano co-occorrenze o dominii semantici, ma solo quelli preponderanti Tuttavia LSI utilizza per questa riduzione di rango solo strumenti matematici (singular value decomposition, SVD).

LTL Cosa significa “proiettare in uno spazio di concetti” Similarità fra documenti come sim fra vettori nello spazio delle co-occorrenze c13 c23 c123 c13 c23 c12 c123 d1 d2 d3 Similarità fra documenti come diagramma di Venn

Singual value decomposition Come detto, LSI proietta la matrice L termini-documenti in uno spazio concettuale di dimensioni ridotte, dove le dimensioni sono gruppi di concetti che co-occorrono, definendo un “dominio semantico” Il metodo utilizzato per effettuare questa proiezione è la singular value decomposition, un metodo algebrico. Ci occorre un piccolo ripasso di algebra per capire questo metodo.

Ripasso di algebra Autovalori Autovettori Vettori e valori singolari

Autovalori & Autovettori Eigenvectors o autovettori (di una matrice S) (right) eigenvector eigenvalue Esempio Quanti autovalori al massimo ha S? Ha soluzioni non nulle se Se S mxm, questa è un’equazione di grado m in λ che ha al più m soluzioni distinte (le radici del polinomio caratteristico) – possono essere complesse anche se S è reale.

Esempio: calcolo di Eigenvalues and Eigenvectors Def: Un vettore v  Rn, v ≠ 0, è un autovettore di una matrice nn A con corrispondente autovalore , se: Av = v

Polinomio caratteristico Esempio di calcolo Ricorda il determinante di una matrice M 2x2 Polinomio caratteristico 2 e 4 sono i due eigenvalues di A

Approfondimenti http://www.sosmath.com/matrix/eigen0/eigen0.html http://www.cs.ut.ee/~toomas_l/linalg/lin2/node14.html

Significato geometrico di autovalori e autovettori La moltiplicazione di una matrice A mxn per un vettore v è una trasformazione lineare che trasferisce il vettore v dallo spazio Rn a Rm Gli autovettori sono quei vettori la cui direzione non cambia per effetto della trasformazione A

Moltiplicare per una matrice è una trasformazione lineare Av=v In questa trasformazione lineare della Gioconda, l'immagine è modificata ma l'asse centrale verticale rimane fisso. Il vettore blu ha cambiato direzione, mentre quello rosso no. Quindi il vettore rosso è un autovettore della trasformazione e quello blu no. Inoltre, poiché il vettore rosso non è stato né allungato, né compresso, né ribaltato, il suo autovalore è 1 (quindi l’autovalore indica una costante di traslazione dei punti dell’immagine nella direzione blu) . Tutti i vettori sull'asse verticale sono multipli scalari del vettore rosso, e sono tutti autovettori.

Trasformazioni lineari Se v è un vettore qualsiasi, A una matrice nxm (trasformazione lineare), vi gli autovettori di A e i gli autovalori, la trasformazione del vettore è completamente definita da autovalori e autovettori di A:

Riduzione della dimensionalità (o approssimazione di rango k di una matrice) Moltiplicare una matrice per un vettore ha due effetti sul vettore: rotazione (il vettore cambia coordinate) e scalatura (la lunghezza del vettore cambia). La massima compressione e rotazione dipendono dagli autovalori della matrice (vedi formula precedente)

Riduzione della dimensionalità (o approssimazione di rango k di una matrice) Nello schiacciamento e compressione il ruolo principale lo giocano i valori singolari più grandi della matrice (s1 e s2 in figura) Gli autovalori descrivono dunque quanto la matrice distorce (riduce e comprime) il vettore originario

Riduzione della dimensionalità (o approssimazione di rango k di una matrice) Qui invece supponiamo che, invece di ruotare un vettore, ruotiamo un insieme di vettori ortonormali. Se, ad es, di tre autovalori uno lo trascuriamo perché più piccolo, è come se rimuovessimo una dimensione (se invece eliminiamo due autovalori, l’ellissoide si schiaccia su una retta)

Cosa c’entra tutto ciò? Riassumiamo: Se q è il vettore di una query e L è la matrice termini-documenti, il prodotto LTq fornisce una matrice delle similarità fra q e i documenti della collezione, secondo il modello vettoriale standard Ma LTq è una trasformazione lineare, e, se i e vi sono autovalori e autovettori di LT=A, allora Se posso trascurare alcuni autovalori, allora è come se proiettassi q in uno spazio a dimensioni ridotte: ma come? Servono altre definizioni .. ( e ci resta da capire cosa c’entrano le matrici delle co-occorrenze LTL e LLT viste prima)

Valori e vettori singolari Data una matrice L nxm, la radice quadrata degli n autovalori di LTL si dicono valori singolari di L Gli n autovettori di LTL si dicono vettori singolari destri Gli m autovettori di LLT si dicono vettori singolari sinistri E finalmente…

Singular Value Decomposition!! Sia L una matrice nxm Data una matrice nxn, esistono 3 matrici U,  e VT, tali che: L = UVT U e V sono le matrici dei vettori singolari sinistro e destro di L (cioè gli autovettori o eigenvectors di LLT e LTL, rispettivamente) Le colonne di U e le righe di V definiscono uno spazio ortonormale, cioè: U-1=VT  è la matrice diagonale dei valori singolari  di L I valori singolari sono le radici degli autovalori di LLT o LTL (si dimostra che sono uguali). Poiché LLT è SIMMETRICA, i suoi autovalori =  saranno reali decrescenti lungo .

Riduzione del rango in LSI Gli elementi diagonali in  sono positivi e decrescenti in grandezza. Si prendono i primi k e gli altri vengono posti a zero. Si cancellano le righe e le colonne zero di  e le corrispondenti righe e colonne di U e V. Si ottiene: L ≈ U’’VT’ Interpretazione Se il valore k è selezionato opportunamente, l’aspettativa è che la nuova matrice mantenga l’informazione semantica di L, ma elimini il rumore derivante dalla sinonimia (perché sensi diversi avranno co-occorrenze diverse) e riconosca la dipendenza fra termini co-occorrenti. ^

Riduzione del rango t x d t x k k x k k x d ’ V’T = L U’ k è il numero di valori singolari scelti per rappresentare i concetti nell’insieme dei documenti In genere, k « d.

Ma insomma, cosa c’entrano le co-occorrenze???? Abbiamo detto che U,  e V sono matrici degli autovalori e autovettori di LTL e LLT (nonchè valori e vettori singolari di L). Ma come calcoliamo, ad es. gli autovalori di LTL?

Ricordate come è fatta la matrice LTL w11 w12 w13 w12 w22 w23 w13 w23 w33 w11- w12 w13 w12 w22 - w23 w13 w23 w33 - Per trovare gli autovalori, devo calcolare il determinante di: L’equazione caratteristica di terzo grado è data, in questo esempio, da: Che come si vede, contiene prodotti di co-occorrenze: gli autovalori di grandezza maggiore (o vettori singolari di L) saranno determinati dai prodotti di co-occorrenze tutte non nulle

Esempio LLT (ricordate?) 2 2 0 2 2 0 0 0 1 w11 w12 w13 w12 w22 w23 w13 w23 w33 Si vede chiaramente che esistono due dimensioni: quella di w1 e w2 (w12), e quella di w3 Calcolando autovalori e autovettori su: http://www.bluebit.gr/matrix-calculator/calculate.aspx si ottiene il polinomio caratteristico: Con autovalori 4, 1 e 0.

Matrice LLT Autovalori e autovettori reali

La matrice L termini-documenti Autovettori di LLT o vettori singolari sinistri di L Radici degli autovalori di LLT o valori singolari di L Autovettori di LTL o vettori singolari destri

SVD nel LSI: conclusioni Nel modello vettoriale, queries e documenti sono vettori in uno spazio le cui dimensioni sono i termini, considerati fra loro ortonormali, cioè indipendenti fra loro LSI trasferisce questi vettori in uno spazio le cui dimensioni sono concetti, cioè co-occorrenze fra termini La riduzione di rango ha l’effetto di eliminare i concetti poco rilevanti

Riassunto del Procedimento L=UVT dove L nxm Calcola la trasposta LT di L Determina gli autovalori di LT L e ordinali in ordine decrescente. Calcola le radici quadrate. Costruisci la matrice  Calcola gli autovettori di LT L. Questi sono le colonne di V. Genera VT Calcola U=AV-1

Esempio per una matrice termini documenti query L

1. Calcolo UVT

2. Approssimazione di rango 2

3a. Calcolo similarità query-documento Per N documenti, V contiene N righe, ognuna delle quali rappresenta le coordinate del documento di proiettato nella dimensione LSI Una query viene trattata come un documento e anch’essa proiettata nello spazio LSI

3b. L=USVT Se L=UVT si ha anche che V = LTU-1 d = dTU-1 q = qTU-1 Dopo la riduzione di rango k: d = dTUkk-1 q = qTUkk-1 sim(q, d) = sim(qTUkk-1, dTUkk-1)

3c. Calcolo del query vector q = qTUkk-1

Vettori della query e dei documenti nello spazio LSI

Similarità query-documento