1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle.

Slides:



Advertisements
Presentazioni simili
Definitezza Vogliamo poter richiedere la “definitezza” delle funzioni
Advertisements

Fondamenti di Informatica
TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
Processi Aleatori : Introduzione – Parte II
DBMS (DataBase Management System)
SQL applicato a SQL Server
Corsi per il personale Bicocca-Insubria
Determinanti del primo ordine
COORDINATE POLARI Sia P ha coordinate cartesiane
LE MATRICI.
Frontespizio Economia Monetaria Anno Accademico
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
Lez. 3 - Gli Indici di VARIABILITA’
ELETTROMAGNETISMO APPLICATO ALL'INGEGNERIA ELETTRICA ED ENERGETICA
6. Catene di Markov a tempo continuo (CMTC)
Reaching Definitions. Tino CortesiTecniche di Analisi di Programmi 2 Reaching definitions Dato un punto del programma, quali sono i comandi di assegnamento.
Semantiche dei linguaggi di programmazione
Esercitazioni su circuiti combinatori
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati.
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati.
EIE 06/07 II / 1 Strumenti delle politiche agricole in economia aperta equilibrio di mercato in economia aperta politiche di un paese importatore politiche.
U V U V (a) |cfc|=2 prima e dopo (b) |cfc|=2 prima e |cfc|=1 dopo
ANALISI DEI GRUPPI seconda parte
Corso di Informatica (Basi di Dati)
Corso di Informatica (Programmazione)
Corso di Informatica (Programmazione)
Marco Gori, Università di Siena anno accademico
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
Seminario su clustering dei dati – Parte II
CONTROLLO DI SUPPLY CHAIN MEDIANTE TECNICHE H-INFINITO E NEGOZIAZIONE
Information Retrieval
Modelli probabilistici
Relevance Feedback. Query Expansion. Argomenti 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion - Usando un thesaurus.
Istruzioni di selezione in Java Programmazione Corso di laurea in Informatica.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
La rappresentazione dellinformazione. 7-2 Digitalizzare linformazione Digitalizzare: rappresentare linformazione per mezzo di cifre (ad es: da 0 a 9)
1 © 1999 Roberto Bisiani Rappresentazione delle informazioni n Occorre un codice n Legato alla tecnologia usata Robustezza Semplicita Economicita.
Labortaorio informatica 2003 Prof. Giovanni Raho 1 INFORMATICA Termini e concetti principali.
SISTEMI LINEARI TEMPO INVARIANTI SEZIONE 7
2 3 4 RISERVATEZZA INTEGRITA DISPONIBILITA 5 6.
Definizione di determinante
Elementi di Informatica di base
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
Motori di Ricerca presente e futuro prossimo
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
2000 Prentice Hall, Inc. All rights reserved. Capitolo 10 (Deitel) Strutture, unioni ed enumerazioni Sommario Introduzione Definire le strutture.
SCOPRI LA TABELLINA click Trova la regola nascosta… click
Calcolo Parallelo e Distribuito
1 Questionario di soddisfazione ATA - a. sc. 2008/09 Il questionario è stato somministrato nel mese di aprile Sono stati restituiti 29 questionari.
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
1101 = x 10 x 10 x x 10 x = CORRISPONDENZE
Discovering Relative Importance of Skyline Attributes Gruppo 8 Altobelli Andrea (Relatore) Ciotoli Fabio Denis Mindolin, Jan Chomicki.
1 Questionario di soddisfazione Studenti - a. sc. 2008/09 Il questionario è stato somministrato dal mese di aprile al mese di maggio Sono stati restituiti.
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
Multimedia Information Retrieval
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Come affrontare un problema… Marco D. Santambrogio – Ver. aggiornata al 18 Ottobre.
Ad opera di: Matteo Donatelli e Maurizio Di Paolo Presentazione su : Elettropneumatica 1.
1Piero Scotto - C14. Finalità del corso Programma Materiale Requisiti Spendibilità 2Piero Scotto - C14.
Relevance Feedback & Query Expansion. Tema: come migliorare la recall di una query? 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion.
Pippo.
Bando Pittori e Scultori in Piemonte alla metà del ‘700
TRASFORMATA DI FOURIER
Modulo 5 - Database. Contenuti della lezione 5.1.1Concetti Fondamentali 5.1.2Organizzazione di un Database 5.1.3Relazioni 5.2.1Lavorare con i database.
alberi completamente sbilanciati
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Come affrontare un problema… Marco D. Santambrogio – Ver. aggiornata al 21 Agosto.
1 Microsoft Access Gruppo di lavoro Alberti, Boldi, Gaito, Grossi, Malchiodi, Mereghetti, Morpurgo, Rosti, Palano, Zanaboni Informatica per laurea triennale.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Transcript della presentazione:

1 Querying Modelli per la ricerca

2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle queries la funzione di retrieval Due classi di modelli Boolean Modelli spazio query

3 Documento: insieme di keywords Queries: espressioni Boolean Ricerca: Ok se le keywords satisfano la query Boolean Si può aggiungere: diverse strategie stopword removal e stemming mantere diverse informazioni ausiliarie nellindice e usare diversi metodi di implementazione Modello Boolean

4 E il più popolare facile da comprendere sfrutta il vantaggio del calcolo proposizionale Implemtazioni efficienti identif. documenti con una certa parola supporto di strut. ausiliarie, e.g., forward index per la cancellazione I MB si possono estendere per includere ranking (non facile) MB: Aspetti Positivi

5 Molto rigido E difficile esprimere domande complesse documenti recuperati tutti i documenti che soddisfano possono essere recup. Non è facile fare ranking delle uscite tutti i documenti soddisfano la query nello stesso modo E difficile implementare relevance feedback E un difficile problema di inferenza induttiva MB: Aspetti Negativi

6 Un Esempio Valutazione di Blair & Maron [CACM, March 1985] 40,000 documenti legali. STAIRS (IBM 70s) - usato da avvocati. Interazione con operatori per la migliore formulazione della Boolean Interazione finchè il risultato è soddisfacente Media: Precisione =20% Recall = 80%

7 Un documento è una lista di keywords La similiarità è basata sulla frequenza di occorrenza Gli utenti specificano un insieme di termini desiderati con pesi opzionali Weighted query terms : Q = database 0.5; text 0.8; information 0.2 Unweighted query terms : Q = database; text; information Non ci sono conditioni Boolean nella query Si può supportare relevance feedback Un po di Statistica...

8 Come determinare le parole importanti in un documento? Come determinare il grado di importanza della parola nel documento e nellintera collezione? Come stabilire il grado di similiarità? Se ho ambienti con hyperlinks … come stabilire glli effetti dei links, della struttura e del formato(grassetto, lampeggiante...)? Problemi...

9 Il Modello Vector-Space Ci sono T termini distinti (index terms o vocabolario) architecture bus computer database …. xml computer science bibloteca vocabolario Per ora: Solo termini singoli, non frasi

10 Modello Vector Space I termini sono incorrelati (ortogonali) e formano il vector space computer science business CS biblioteca Tutto ciò che risulta importante Ma cè in realtà correlazione tra i termini...

11 Il Modello Vector-Space Un esempio a due termini d i = 0, 0 (Non contiene parole del vocabolario) d j = 0, 0.7 (contiene una della due parole) d k = 1, 2 (contiene entrambe le parole) Così per 3 termini … ecc... Un documento o una query si possono rappresentare come combinazioni lineari di termini

12 Reppresentazione Grafica Esempio: D 1 = 2T 1 + 3T 2 + 5T 3 D 2 = 3T 1 + 7T 2 + T 3 Q = 0T 1 + 0T 2 + 2T 3 T3T3 T1T1 T2T2 D 1 = 2T 1 + 3T 2 + 5T 3 D 2 = 3T 1 + 7T 2 + T 3 Q = 0T 1 + 0T 2 + 2T E D 1 o D 2 più simile a Q? Come si misura il grado di similitudine?

13 Collezione dei Documenti Collezione documenti: matrice T 1 T 2 …. T t D 1 d 11 d 12 … d 1t D 2 d 21 d 22 … d 2t : : : : D n d n1 d n2 … d nt

14 Misura di Similiarità Misura Similiarità: grado di similiarità tra coppie di vettori N.B.: queries e documenti sono vettori! Qual è la migliore funzione (se ne esiste una valida per tutte le stagioni!) Si possono stabilire soglie per controllare la dimensione del retrieved set Come usare info di relevance feedback?

15 Il Prodotto Scalare sim ( D i, Q ) = d ik q k ) d ik è il peso del termine k nel documento i e q k è il peso del termine k nella query Vettori binari: numero di matched query terms nel documento

16 Inner Product -- Examples Binary: D = 1, 1, 1, 0, 1, 1, 0 Q = 1, 0, 1, 0, 0, 1, 1 sim(D, Q) = 3 retrieval database architecture computer text management information D 1 = 2T 1 + 3T 2 + 5T 3 D 2 = 3T 1 + 7T 2 + T 3 Q = 0T 1 + 0T 2 + 2T 3 sim(D 1, Q) = 2*0 + 3*0 + 5*2 = 10 sim(D 2, Q) = 3*0 + 7*0 + 1*2 = 2

17 Proprietà prod. scalare Favorisce documenti lunghi documenti lunghi cresce linearmente … Interessante lortogonalità: un documento che parla della torta mantovana ha verosimilmente prod. Scalare nullo con uno che parla di basket!

18 Normalizzazione coseno D 1 = 2T 1 + 3T 2 + 5T 3 CosSim(D 1, Q) = 5 / 38 = 0.81 D 2 = 3T 1 + 7T 2 + T 3 CosSim(D 2, Q) = 1 / 59 = 0.13 Q = 0T 1 + 0T 2 + 2T 3 t3t3 t1t1 t2t2 D1D1 D2D2 Q D 1 è 6 volte meglio di D 2 con il coseno ma solo 5 volte meglio con il prodotto scalare CosSim(D i, Q) =

19 Altre Similiarità. D 1 = 2T 1 + 3T 2 + 5T 3 Sim(D 1, Q) = 10 / ( ) = 10/32 = 0.31 D 2 = 3T 1 + 7T 2 + T 3 Sim(D 2, Q) = 2 / (59+4-2) = 2/61 = 0.04 Q = 0T 1 + 0T 2 + 2T 3 D 1 è 9.5 volte meglio di D 2 Qual è la differenza rispetto al cos? Coeff. Jaccard :

20 Versioni Binarie Prodotto Scalare: Coseno: Jaccard : d i e q k qui sono insiemi di keywords d i e q k qui sono vettori

21 Term Weights tf ij = frequenza del termine j nel documento i df j = document frequency del termine j = no. documenti che contengono il term j idf j = inverse document frequency del termine j = log 2 (N/ df j ) (N: numero doc. collez.) Inverse document frequency -- un indicatore di termini discriminatori: non servono termini che sono in tutti i documenti!

22 Term Weight Tipico peso w ij = tf ij idf j = tf ij log 2 (N/ df j ) Alto peso: termini frequenti nel documento e rari nella collezione Un altro peso: w ij = (tf ij /max l {tf lj }) idf j = (tf ij /max l {tf lj }) log 2 (N/ df j ) max l {tf lj } è la term frequency del più frequente termine nel documento j

23 system computer database science D 2, 4 D 5, 2 D 1, 3 D 7, 4 Index terms df D j, tf j Opzionali: possono risiedere su file separato posting postings list Implementazione

24 7, 4 5, 2 1, 3 2, Parole e documenti: 16-bit o 32-bit key content Come rappresentare tf max ? Come gestire la cancellazione di doc.? Perché non memorizzare direttamente idf? Serve un forward index: Dato un documento, restituisce i terms che contiene e, forse, il suo più alto tf. Implementazione

25 Ranking con op. Boolean Si filtra prima con Boolean, poi si fa ranking nel vector-space Combinazione Boolean e Vector-Space Boolean filter ranking documenti Vector-space query resultati Boolean query

26 Complementi per la lezione Indici inversi: I.H. Witten, A. Moffat, and T.C. Bell, Managing Gigabytes, Compressing and Indexing Documents and Images, Morgan kauffmann, 1999 chapter 4