LATENT SEMANTIC INDEXING. Limiti della ricerca per parole chiave I metodi di ranking tradizionali calcolano lattinenza di un documento ad una query sulla.

Slides:



Advertisements
Presentazioni simili
Brussels launch of the Association Bruno Trentin-ISF-IRES Fulvio Fammoni President Associazione Bruno Trentin-Isf-Ires (Italy) Brussels, 26 settembre 2013.
Advertisements

Windows Per questa parte: Elementi dell'interfaccia grafica.
Sfogliandomi… Viaggio tra me e me alla scoperta dellaltro… A travel between me and myself discovering the other…
I numeri, l’ora, I giorni della settimana
The Present Simple Form Use.
Simple Past A cura di Mara Cruciani.
1 Le s-espressioni. 2 Un nuovo esempio completo: le s-espressioni Sexpr 4 alberi binari (possibilmente vuoti) che hanno sulle foglie atomi (stringhe)
1 Teaching Cloud Computing and Windows Azure in Academia Domenico Talia UNIVERSITA DELLA CALABRIA & ICAR-CNR Italy Faculty Days 2010.
Relaunching eLene Who are we now and which are our interests.
Modalità di ricerca semantica nelle Biblioteche digitali Maria Teresa Biagetti DIPARTIMENTO DI SCIENZE DOCUMENTARIE LINGUISTICO-FILOLOGICHE E GEOGRAFICHE.
EBRCN General Meeting, Paris, 28-29/11/20021 WP4 Analysis of non-EBRCN databases and network services of interest to BRCs Current status Paolo Romano Questa.
Obiettivo: To be confident when describing yourself and others
Digital cinema: a tale of two worlds? Obhi Chatterjee State aid - Information, communication & media Competition Directorate-General European Commission.
MATLAB.
MATLAB.
MATLAB.
10.2 Aggettivi e pronomi dimonstrativi. Rigoletto is an opera in three acts by Giuseppe Verdi. The Italian libretto was written by Francesco Maria Piave.
1.E un algoritmo ricorsivo: Tutti le istanze di oggetti raggiungibili da un oggetto persistente diventano anchessi persistenti.
Un DataBase Management System (DBMS) relazionale client/server.
MySQL Esercitazioni. Ripasso Connessione a MySQL. Creazione delle basi di dati e delle tablelle. Inserimento dei dati. Interrogazioni.
LATENT SEMANTIC INDEXING
LATENT SEMANTIC INDEXING. Limiti della ricerca per parole chiave I metodi di ranking tradizionali calcolano lattinenza di un documento ad una query sulla.
prompt> java SumAverage
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
1. Conoscere luso delle collezioni in Java Comprendere le principali caratteristiche nelle varie classi di Collection disponibili Saper individuare quali.
Diversity in Europe Queste nazioni hanno in comune a due a due, tre colori molto importanti: Il colore verde indica la speranza; The green color points.
1 Implementazione di Linguaggi 2 PARTE 6 Implementazione di Linguaggi 2 PARTE 6 Massimo Ancona DISI Università di Genova Testo: A.V. Aho, R. Sethi, J.D.Ullman.
Sottoprogrammi e Unità di Compilazione Nicola Fanizzi Laboratorio - Corso di Programmazione (B) C.d.L. in Informatica DIB - Università degli Studi di Bari.
FONDAMENTI DI INFORMATICA III WfMC-1. FONDAMENTI DI INFORMATICA III WfMC-2 WFMC Cose WfMC Workflow Management Coalition (WfMC), Brussels, è unorganizzazione.
Players: 3 to 10, or teams. Aim of the game: find a name, starting with a specific letter, for each category. You need: internet connection laptop.
Compito desame del Svolgimento della Sezione 5: CONTROLLORI Esempio preparato da Michele MICCIO.
PRODOTTO CARTESIANO Otteniamo un prodotto cartesiano quando: viene omessa la condizione di join una condizione di join non è valida tutte le righe della.
FUNZIONI DI GRUPPO Le funzioni di gruppo operano su un set di record restituendo un risultato per il gruppo. AVG ([DISTINCT|ALL] n) media, ignora i valori.
Constraints.
Ricerca di una chiave: Search(x, k) if x == nil or k == x.key return x
Palermo, may 2010 F.Doumaz, S.Vinci (INGV-CNT- Gruppo di telerilevamento)
1 © 2013 Cobra Italia SpA All rights reserved Cobra group website Gennaio 2013.
22 maggio 2002 Avvisi: Ultima lezione: mercoledì 29 maggio II Esonero: mercoledì 5 giugno, ore 10:00.
JavaScript Lezione 5 Tipizzazione ed operazioni tra tipi diversi Istruzioni di input.
Industrie eco-sostenibili Maggiore rispetto della natura utilizzando nuove fonti rinnovabili Rispetto per la natura Prevenzione inquinamento.
Filtered Index and Statistics Filtered Indexes Sergio Govoni
DISPOSITIVI ASIC Application Specific Integrated Circuit De Faveri Martina Classe 3 BET.
PROGETTO “NASTRO FERMI”
I mille volti della formazione dalle-learning allemployergame Novembre 2012 I mille volti della formazione: dalle-learning allemployergame 4° Release Novembre.
DA NATIVI DIGITALI A INTERNAUTI CONSAPEVOLI
Analisi del video: Come può essere così difficile? Dopo aver visto il documentario, sul sito
Tutorial relativo al Mio EBSCOhost. Benvenuti al tutorial dedicato a Mio EBSCOhost, verranno fornite le istruzioni per la configurazione e lutilizzo ottimizzato.
Modulo 1 bis Menù Incolla Esercitazione Un computer è quasi umano, a parte il fatto che non attribuisce i propri errori a un altro computer. (Anonimo)
Innovazioni versione 4 Bari, 17 ottobre Innovazioni versione 4 Il menù dinamico secondo logica operativa Il ruolo dei Ruoli Facilitare la scelta.
Moduli o Form I Moduli permettono all'utente di immettere informazioni...
Perché insegnare statistica a scuola Utilità della Statistica 1.è a fondamento della crescita democratica di un nazione moderna 2.è essenziale per monitorare.
INTERNET Internet è una rete a livello mondiale che permette alle persone di comunicare ed ad accedere a banca dati da qualunque parte del mondo e su qualunque.
Istituzioni di Economia Politica II
Project Review byNight byNight December 6th, 2011.
Istituto Comprensivo di Vimodrone Comenius Project Italy.
Calibrating (Partial Equilibrium) Mathematical Programming Spatial Models Open questions … (filippo arfini) III Workshop PUE&PIEC - Treia (Mc), 3-4 febbraio.
ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Piero Cosi SEZIONE DI PADOVA - FONETICA E DIALETTOLOGIA Via Martiri della libertà, 2 – adova (Italy)
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
SPLICING eliminazione introni unione esoni esone1 introne1 esone2
SUBQUERY Chi ha un salario maggiore di quello di Abel? Occorre scomporre la query in due sotto problemi: MAIN : quali impiegati hanno un salario maggiore.
FOR EVERY CALLOUT THAT YOU WILL SEE IN ENGLISH PROVIDE (IN WRITING) THE CORRECT ITALIAN SENTENCE OR EXPRESSION. REMEMBER TO LOOK AT THE VERBS AND PAY.
Countable and Uncountable Nouns
Each meeting was an opportunity to pause; to listen and to find God in the quiet. Ogni incontro si è presentato come un'opportunità per ascoltare, riflettere.
Present Perfect.
DOMOTIC HOUSE WATER MONITOR Agalbato Francesco Buccheri Antonino.
Collection & Generics in Java
"We firmly believe that the on-the-run issues should command a high liquidity premium in the current environment. But with very high probability, the.
1 An Approximation- Based Data Structure for Similarity Search R. Weber, S. Blott Hermes, 1998 Sistemi Informativi per le Decisioni Diego Cera – Michele.
Impariamo a conoscere le Matrici
Transcript della presentazione:

LATENT SEMANTIC INDEXING

Limiti della ricerca per parole chiave I metodi di ranking tradizionali calcolano lattinenza di un documento ad una query sulla base della presenza o meno di parole contenute nella query: un termine o è presente o non lo è Nel LSI la ricerca avviene per concetti: ma un concetto non è lastrazione-generalizazzione di un termine (es: golf vestiario) bensì un insieme di termini correlati (golf, maglia, vestito) detti co-occorrenze o dominio semantico

Data una collezione di documenti, LSI è in grado di rilevare che alcune n-uple di termini co-occorrono frequentemente (es: n- dimensional, manifold and topology) Se viene fatta una ricerca con n-dimensional, manifold vengono automaticamente recuperati documenti che contengono anche (e eventualmente solo!) topology Dominio Semantico k

Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Selezione dei documenti basata sul termine Golf Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Base di documenti (20) Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost con il modello keyword vengono estratti 4 documenti

Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su Golf Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost vediamo quali sono le parole più rilevanti associate a Golf di questi 4 documenti. Esse sono: Car, Topgear and Petrol

Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su Golf Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost poiché le parole sono pesate anche rispettoal loro idf, risulta che : Car e Topgear sono associate a Golf più di Petrol

Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su Golf selezione basata sul dominio semantico Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Wheel Topgear GTI Polo Ora cerchiamo ancora nella base di documenti, usando questo insieme di parole che rappresentano il dominio semantico di Golf. La lista ora include un nuovo documento, non catturato sulla base della semplice ricerca per keywords.

Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee rank dei doc selezionati Selezione basata su Golf selezione basata sul dominio semantico Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Rank Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Petrol Topgear GTI Polo Tutti i 20 documenti Motor Bike Oil Petrol Tourer Bed lace legal Petrol button soft Petrol cat line yellow wind full sail harbour beach report Petrol Topgear June Speed Fish Pond gold Petrol Koi PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree Pea Pod Fresh Green French Lupin Petrol Seed May April Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Paper Petrol Paste Pencil Roof Card Stamp Glue Happy Send Toil Petrol Work Time Cost Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Wheel Topgear GTI Polo Usando un ranking basato sulla co-occorrenza dei termini possiamo assegnare un miglior ranking ai documenti. Notate che: il documento più rilevante non contiene la parola Golf, e che uno dei documenti che la conteneva scompare (era infatti un senso spuriodi Golf).

Un esempio (fasi di elaborazione di un documento nel Vector Model) O'Neill Criticizes Europe on Grants PITTSBURGH (AP) Treasury Secretary Paul O'Neill expressed irritation Wednesday that European countries have refused to go along with a U.S. proposal to boost the amount of direct grants rich nations offer poor countries. The Bush administration is pushing a plan to increase the amount of direct grants the World Bank provides the poorest nations to 50 percent of assistance, reducing use of loans to these nations. o'neill criticizes europe on grants treasury secretary paul o'neill expressed irritation wednesday that european countries have refused to go along with a us proposal to boost the amount of direct grants rich nations offer poor countries the bush administration is pushing a plan to increase the amount of direct grants the world bank provides the poorest nationsto 50 percent of assistance reducing use of loans to these nations 1. Tokenizzazione Documento originale

o'neill criticizes europe on grants treasury secretary paul o'neill expressed irritation wednesday that european countries have refused to go along with a US proposal to boost the amount of direct grants rich nations offer poor countries the bush administration is pushing a plan to increase the amount of direct grants the world bank provides the poorest nations to 50 percent of assistance reducing use of loans to these nations 2. Eliminazione Stop Words 3. Stemming information -> inform presidency -> presid presiding-> presid happiness -> happi happily -> happi discouragement -> discourag battles -> battl

administrat amount assist bank boost bush countri (2) direct europ express grant (2) increas irritat loan nation (3) o'neill paul plan poor (2) propos push refus rich secretar treasuri US world 4. Costruzione del Vettore di termini

Documenti:a b c d e f g h i j k l m n o p q r { 3000 ulteriori colonne } aa amotd aaliyah aarp ab zywicki Matrice termini-documenti (per tutti i documenti) termini

Documenti:a b c d e f g h i j k l m n o p q r { 3000 ulteriori colonne } aa amotd aaliyah aarp , ab zywicki , ) Pesatura dei termini (es. tf*idf normalizzato) termini

Osservazione La maggioranza delle celle della matrice sono zero La dimensionalità della matrice è elevata (t) Con i metodi classici ogni documento o query è un vettore in uno spazio t-dimensionale LSI tenta di proiettare questo spazio in uno spazio di dimensione ridotta, in cui, anziché termini, le dimensioni rappresentano co-occorrenze o dominii semantici Tutte le possibili co-occorrenze sarebbero assai di più dei termini singoli: ma il metodo della singular value decomposition utilizzato da LSI consente di eliminare le co-occorrenze non significative

Latent Semantic Indexing: concetti Singular Value Decomposition Definisci X come la matrice termini-documenti, con t righe (numero delle keywords) e N colonne (numero dei documenti). Data una qualsiasi matrice txN, esistono 3 matrici T, S e D', tali che: X = T 0 S 0 D 0 ' T 0 e D 0 sono le matrici dei vettori singolari (eigenvectors) sinistro e destro i X T 0 e D 0 le colonne di T 0 e le righe di D 0 definiscono uno spazio ortonormale S 0 è la matrice diagonale dei valori singolari diX

Autovalori e autovettori Definizione: se A è una matrice nxm un vettore C si chiama un autovettore di A se e solo se esiste un numero tale che AC= C,e è detto autovalore e

Vettori singolari Matrice aggiunta o coniugata trasposta aij coniugato complesso di aij Se aij (i,j) A*=A T Valori singolari di S:, radici degli autovalori di X T X Vettori singolari destri: n autovettori di X T X Vettori singolari sinistri: m autovettori di XX T Dettagli

Esempio (2) Termini e Documenti Termini Documenti c1c2c3c4c5m1m2m3m4 human interface computer user system response time EPS survey trees graph minors X

Decomposizione SVD documenti termi ni

S0S

Riduzione del rango Gli elementi diagonali in S 0 sono positivi e decrescenti in grandezza. Si prendono i primi k e gli altri vengono posti a zero. Si cancellano le righe e le colonne zero di S 0 e le corrispondenti righe e colonne di T 0 e D 0. Si ottiene: X X = TSD' Interpretazione Se il valore k è selezionato opportunamente, laspettativa è che la nuova matrice mantenga linformazione semantica di X, ma elimini il rumore derivante dalla sinonimia (perché sensi diversi avranno co-occorrenze diverse) e riconosca la dipendenza fra termini co-occorrenti. ~ ~ ^

Selezione dei valori singolari X = t x dt x kk x dk x k k è il numero di valori singolari scelti per rappresentare i concetti nellinsieme dei documenti In genere, k « m. T SD' ^

Confronto fra termini XX T = TSD T (TSD T ) T = TSD T DS T T T poichè D è ortonormale = TS(TS) T Per calcolare la cella i, j, si fa il prodotto scalare fra le righe i e j di TS ^ ^ Il prodotto scalare di due righe di X riflette il fatto che due termini abbiano contesti di occorrenza più o meno simili ^

Confronto fra documenti X T X = (TSD T ) T TSD T = DS(DS) T Per calcolare le celle i, j, si esegue il prodotto scalare fra le colonne i e j di DS. ^ ^ Il prodotto scalare di due colonne di X ci informa di quanto due colonne abbiano contesti di occorrenza comuni. ^

Confronto fra termini e documenti Il confronto fra un termine e un documento è rappresenatto dal valore di una cella X. X = TSD' = TS(DS)' dove S è una matrice diagonale i cui valori sono la radice quadrata dei corrispondenti elementi di S. ^ - - -

Esempio: Query Terms Query x q human1 interface0 computer0 user0 system1 response0 time0 EPS0 survey0 trees1 graph0 minors0 Query: "human system interactions on trees" Nello spazio termini-documenti, una query è rappresentata da x q, un vettore t x 1. Nello spazio dei concetti, una query è rappresentata da d q, un vettore 1 x k.

Query Per il ranking dei documenti ripetto alla query, semplicemente si considera la query come uno pseudo- documento, e lo si modella come la la prima colonna della matrice (d 0 =q) X Quindi, la prima riga della matrice fornisce il ranking dei documenti ripetto alla query.