1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.

Slides:

Advertisements

Presentazioni simili

1 I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI.

Advertisements

Selezione delle caratteristiche - Principal Component Analysis

L’algoritmo PageRank.

Strutture dati per insiemi disgiunti

Disegna un quadrato di 8 quadretti per lato

Le distribuzioni di probabilità continue

Agenda per oggi VETTORI! 1.

1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle.

COORDINATE POLARI Sia P ha coordinate cartesiane

Introduzione Cosa sono le reti di Petri?

Elettrostatica 3 23 maggio 2011

Interferenza Diffrazione (Battimenti)

Progettini BDM su Crossword Solving 06 Giugno 2006 Marco Ernandes

Sistemi di supporto alle decisioni 2. Features space

Algebra delle Matrici.

IL CAMPO ELETTRICO DEFINIZIONE DI CAMPO ELETTRICO

ELETTROMAGNETISMO APPLICATO ALL'INGEGNERIA ELETTRICA ED ENERGETICA

Sistemi e Tecnologie della Comunicazione

Teoria e Tecniche del Riconoscimento

Apprendimento Non Supervisionato

LATENT SEMANTIC INDEXING

Esercizi di esonero (a.a. 2007/2008) Compito C, terzo esercizio Data una sequenza di caratteri s1 ed una stringa s2 diciamo che s1 è contenuta in s2 se.

LATENT SEMANTIC INDEXING. Limiti della ricerca per parole chiave I metodi di ranking tradizionali calcolano lattinenza di un documento ad una query sulla.

Process synchronization

Process synchronization

RICHIAMI ELEMENTARI DI ALGEBRA MATRICIALE

MODELLO DI REGRESSIONE LINEARE MULTIPLA

Statistica per le decisioni aziendali ed analisi dei costi Modulo II - Statistica per le decisioni Aziendali Richiami di Algebra Matriciale.

La molecola H 2 z x 12 r 1A A B R r1r1 r 2B r2r2 r 2A r 1B mol1-1.

Capitolo 9 Il problema della gestione di insiemi disgiunti (Union-find) Algoritmi e Strutture Dati.

Flusso Massimo Applicazione di algoritmi

Sistemi di equazioni lineari

BIOINGEGNERIA S. Salinari Lezione 8. RETI AD APPRENDIMENTO NON SUPERVISIONATO Le reti ad apprendimento non supervisionato debbono essere in grado di determinare.

D2I - Tema 3: Data Mining Stato di avanzamento Roma 11/10/2002.

Cinematica del punto Descrivere il moto

Metodi statistici per l'analisi del cambiamento 5/3/ Notazione (simboli) Obbiettivo: occorre che si mantengano le tracce, in merito al punteggio,

Modelli probabilistici

Corso di Chimica Fisica II 2013 Marina Brustolon

Esercizi C su array e matrici

Esercizio 1 casi titolo di studio 1medie 2elementari 3medie 4 5superiori 6 7medie 8laurea 9superiori 10laurea Considerando la seguente matrice di dati,

Frequency Domain Processing Francesca Pizzorni Ferrarese 17/03/2010.

INTRODUZIONE A MATLAB.

Applicazioni di modelli matematici alla ricerca semantica

Elementi di Informatica di base

INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.

Sistema di interrogazione intelligente di

Motori di Ricerca presente e futuro prossimo

TRASFORMAZIONI GEOMETRICHE

ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,

Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.

1101 = x 10 x 10 x x 10 x = CORRISPONDENZE

Efficient Region- Based Image Retrieval di Roger Weber e Michael Mlivoncic Swiss Federal Institute of Technology (ETH) Presentazione di Laura Galli, Mauro.

Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.

DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Lab 5 – Info B Marco D. Santambrogio – Riccardo Cattaneo –

14 marzo 2002 Avvisi:.

UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.

Modelli di Illuminazione

Trasformazioni Daniele Marini.

Studio degli indici per query di similarità basati su matrici di distanze Esame di Sistemi Informativi per le Decisioni L-S Presentato da: Ing. Marco Patella.

N Come si può rappresentare un numero Naturale su una retta?

Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.

Self-Organizing Map (SOM Kohonen, 1981) è una tecnica di visualizzazione dei dati multidimensionali SOM è una mappa mono- (bi-)dimensionale che rappresenta.

L’Analisi delle Corrispondenze. Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o.

Transcript della presentazione:

1 Querying - Parte II Modelli per la ricerca

2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza unitaria. Si ottiene uno spazio vettoriale i termini sono gli assi i documenti vivono nel VS anche se si fa stemming, si possono avere emormi dimensioni! (soprattutto nel caso multilingua dei motori di ricerca)

3 Intuizione Postulato: Documenti che sono vicini nel vector space sono simili. t 1 D2 D1 D3 D4 t 3 t 2 x y

4 Exercizio Organizza opportunamente gli indici inversi per supportare la similiarità coseno Discuti lalgoritmo per rispondere ad una generica query.

5 Perché Usare il VS? Idea Base: Una query è vista come un piccolo documento. Le queries diventano vettori nello stesso spazio dei documenti. Possiamo misurare il coseno tra la query ed ogni documento … il rank alto corrisponde a coseno alto.

6 Ranking Coseno Efficiente Il Ranking è il calcolo dei k doc. più vicini alla query k più alti coseni query-doc. Ranking efficiente: Calcola un singolo coseno in modo efficiente. Scegli i k più alti coseni in modo efficiente.

7 Calcolo di singolo coseno Per ogni term. i del doc j, momorizza tf ij. Più in generale considerare idf i. Accumola la somma per componenti omologhe

8 I più Alti k Coseni Tipicamente vogliamo i k doc con ranking più alto non ordinare tutto! scopri solo i k più alti.

9 Candidati Term-wise Preprocessing: Pre-calcola, per ogni term, i suoi k docs più vicini (ogni termine come 1-term query.). Risultato: lista dei preferiti per ogni term. Ricerca: Per ogni t-term query, prendi lunione delle loro t liste dei preferiti - chiamala S. Calcola i coseni tra la query e i soli docs in S, e prendi i top k.

10 Esercizio Analizza in dettaglio i calcoli: Proponi un semplice esempio in cui il metodo illustrato fornisce un valore errato di ranking rispetto al coseno vero.

11 Raggruppamento Fase di pre-processing: prendi n docs casuali (leaders) Per ogni altro doc, pre-calcola il leader più vicino Docs attaccati al leader: seguaci; Ragionevole: ogni leader ha ~ n seguaci. Elaborazione query: Data Q, trova il più vicino leader L. Cerca k i più vicini docs fra i seguaci di L.

12 Visualizzazione Query LeaderSeguace

13 Dimensionality reduction Perché non impaccare i vettori in un numero minore di dimensioni (diciamo ) preservando le distanze? Questo incrementa la velocità del coseno! Due metodi: Random projection. Latent semantic indexing.

14 Latent semantic indexing E una tecnica per riduzione dimensioni Random projection è data-independent LSI è data-dependent Elimina assi ridondanti Mette assieme assi correlati elaboratore e calcolatore

15 Idea di Base di LSI Pre-elabora doc. mediante la tecnica Singular Value Decomposition. Qual è leffetto? Si crea un nuovo vector space Le queries sono gestite in questo nuovo vector space (molto più piccolo)

16 Decomp. Valori Singolari Matrice della collezione: m n matrix of terms docs, A. A has rank r m,n. matrice di correlazione term-term T=AA t T è quadrata, simmetrica m m. matrice di correlazione doc-doc D=A t A. D è quadrata, simmetrica n n.

17 Autovettori P, matrice m r di autovettori di T. R, matrice n r di autovettori di D. A può decomporsi come A = PQR t Q è diagonale con autovalori di AA t ordinati per valore decrescente.

18 Decomposizione = A PQRtRt m nm rr r n

19 Riduzione di dimensione Per qualche s << r, azzero tutti gli s più grandi autovalori di Q. Denoto Q s la versione di Q ridotta. E normale che s sia qualche centinaia, mentre r e dellordine decine di migliaia. Dunque A s = P Q s R t Risulta che A s è una buona approssimazione di A.

20 Visualizzazione = AsAs PQsQs RtRt 0 Le colonne di A s representano i doc, ma in s<<m dimensioni. 0 0

21 Importanti Risultati Le distanze relative tra doc sono (approssimativamente) preservate dalla proiezione: Di tutte le matrici m n rank s, A s è la migliore approssimazione di A.

22 Doc-doc similarities A s A s t è una matrice di similiarità doc-doc: il termine (j,k) è una misura di similiarità dei documenti j e k.

23 Intuizione Si fa più che semplice riduzione dimens.: I doc con molti termini in overlapping vanno assieme I termini vengono raggruppati. Dunque calcolatore ed elaboratore vengono raggruppati perche co-occorrono in doc con fax, stampante, mouse, etc.

24 Query processing Una query è un piccolo doc: sia la riga 0 di A s. Le coordinate nella linea 0 di A s A s t restituiscono la similarità della query con ogni doc. Coordinata (0,j) è lo score di doc j sulla query.

25 Esempio Human interface computer user system response time EPS survey trees graph minors

26 Complementi per la lezione Implementazione del ranking coseno : I.H. Witten, A. Moffat, and T.C. Bell, M.G., 4.6 (molti dettagli in più per chi vuole approfondire) Latent semantic indexing : articolo di S. Deerwester et al (1990)

27 Letture correlate Un articolo introduttivo che discute criticamente i concetti di base dellinformation retrieval dal titolo What Do People Want from Information Retrieval? roft.html