Motori di Ricerca presente e futuro prossimo

Slides:



Advertisements
Presentazioni simili
Training On Line - CONP. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Pluriennali > Nuova Richiesta Si accede alla pagina di Richiesta.
Advertisements

Rappresentazioni numeriche
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
L’algoritmo PageRank.
Algoritmi e Strutture Dati
1 MeDeC - Centro Demoscopico Metropolitano Provincia di Bologna - per Valutazione su alcuni servizi erogati nel.
Fondamenti di Informatica
II° Circolo Orta Nova (FG)
1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle.
Capitolo 8 Sistemi lineari.
File System Cos’è un File System File e Directory
Informatica Generale Alessandra Di Pierro
Frontespizio Economia Monetaria Anno Accademico
Training On Line – CONA. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Annuali > Nuova Richiesta Si accede alla pagina di Richiesta.
LENERGIA ELETTRICA NEL MONDO: CRESCE IL PESO DI CARBONE E GAS Carbone 38,4%38,2%38,0%39,0%38,7%39,1%40,3%39,8%40,3%41,0%41,6%41,0%
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Realizzazione del file system
Alberi binari di ricerca
"In Internet non siamo in grado di selezionare, almeno a colpo docchio, fra una fonte credibile e una folle. Abbiamo bisogno di una.
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
Capitolo 1 Unintroduzione informale agli algoritmi Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
Algoritmi e Strutture Dati
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati.
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
Process synchronization
File.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Capitolo 12 Minimo albero ricoprente: Algoritmi di Prim e di Borůvka Algoritmi.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie.
Capitolo 9 Il problema della gestione di insiemi disgiunti (Union-find) Algoritmi e Strutture Dati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie.
Capitolo 7 Tavole hash Algoritmi e Strutture Dati.
Processi Aleatori : Introduzione – Parte I
1 7 febbraio 2007 Svolgimento Si sa che da cui a luglio = 8,2/1,018 = 8,055 Si procede, poi, nel modo seguente: a agosto = 8,055 1,035 = 8,337. …
Canale A. Prof.Ciapetti AA2003/04
Indagine trimestrale sulla industria manifatturiera in provincia di Ravenna - Imprese con oltre 10 addetti - II trimestre e I semestre 2003 Ravenna, 15.
Algoritmi e strutture dati
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
Corso di Informatica per Giurisprudenza
Tabelle hash.
Algoritmi e Strutture Dati
Convertitore A/D e circuito S/H
1 Modulo II – Dettagli Deve: (1)Scorrere tutti gli elementi del dizionario (usare la lista ls della table ) (2)Per ogni elemento del dizionario: (2.1)
1 EFFETTO AMBIENTE: COME CAMBIA IL NOSTRO STILE DI VITA Presentazione dei risultati della ricerca condotta da in collaborazione con 14 giugno 2007.
Master universitario di II livello in Ingegneria delle Infrastrutture e dei Sistemi Ferroviari Anno Accademico 2012/2013 Cultura dimpresa, valutazione.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Cos’è un problema?.
Lezione 6 Encoder ottici
LItalia vista dallEuropa Considerazioni su uno studio comparativo delleducazione matematica in Europa Periodico di Matematiche Biagio Beatrice
“QUESTIONARIO SUL GRADIMENTO”
Educare al multimediale 1 – Verso il digitale 2 Presentazione a cura di Gino Roncaglia Prima parte: Informazione in formato digitale.
RAPPRESENTAZIONE DELL'INFORMAZIONE
Studio di euristiche per il miglioramento di algoritmi di ranking per il World-Wide Web Università degli Studi di Milano Corso di Laurea in Informatica.
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
Elementi di Informatica di base
ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE.
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
1 Mod. Informatica amica Esperto: prof. G. Sciacca Tutor: prof. R. Paparcone C1 - FSE – 629 Ann
2000 Prentice Hall, Inc. All rights reserved. Capitolo 6 (Deitel) I vettori Sommario Introduzione Vettori Dichiarazione di vettori 6.4.
Orientamento universitario
INTERACTIVE PDF Develove S.r.l. Presentazione del sistema WEB di pubblicazione e di estrapolazione di contenuti da file PDF.
Diagrammi 2D e 3D Funzioni di ordine superiore
Motori di Ricerca presente e futuro prossimo
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
Atzeni, Ceri, Paraboschi, Torlone Basi di dati McGraw-Hill,
Pippo.
Architettura Centralizzata di un DBMS Relazionale
Capitolo 7 Tavole hash Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
Implementazione di dizionari Problema del dizionario dinamico Scegliere una struttura dati in cui memorizzare dei record con un campo key e alcuni altri.
Transcript della presentazione:

Motori di Ricerca presente e futuro prossimo Cosa è una Lista Invertita ? Paolo Ferragina, Università di Pisa

Indicizzatore: il “cuore” del motore Come organizzare l’informazione disponibile nell’archivio per rispondere velocemente ed efficacemente alle interrogazioni poste dall’utente ? Informazione = Pagine e hyperlinks, PS, PDF, PPT,… Interrogazione = insieme di parole chiave Es. Quali opere di Shakespeare contengono le parole (Brutus AND Caesar AND NOT Calpurnia) ? Paolo Ferragina, Università di Pisa

Matrice binaria dei termini-documenti 1 0 1 1 1 1 1 se l’opera contiene la parola, 0 altrimenti Per rispondere a Q=[Brutus AND Caesar AND NOT Calpurnia] Prendiamo i vettori di Brutus, Caesar, Calpurnia Complementiamo il vettore di Calpurnia Eseguiamo l’AND logico bit-a-bit Paolo Ferragina, Università di Pisa

Spazio occupato ? Consideriamo la seguente situazione: Un milione di documenti Ogni documento è di circa 6 Kb, e circa mille termini distinti In totale abbiamo bisogno di 6Gb di dati Se il numero totale di termini distinti è 500,000 allora La matrice [Term x Doc] è grande 500 K x 1 Mil = 500Gb …ma non più di 1M * 1,000 = 1Gb di uno Una migliore rappresentazione ? più efficiente in spazio che assegni una “rilevanza” a ogni risposta (documento) Paolo Ferragina, Università di Pisa

Le Liste Invertite Doc 2 Doc 1 I documenti sono analizzati per estrarre i termini e questi sono memorizzati insieme al corrispondente DocID So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious Doc 1 I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. Paolo Ferragina, Università di Pisa

Ordiniamo tutti i termini in modo lessicografico per formare il Dizionario Paolo Ferragina, Università di Pisa

Le occorrenze dello stesso termine nello stesso documento DocID Freq ambitious 2 1 be brutus capitol caesar did enact hath I i' it julius killed let me noble so the told you was with Le occorrenze dello stesso termine nello stesso documento sono “fuse insieme” incrementando opportunamente il valore della frequenza del termine Paolo Ferragina, Università di Pisa

Tutte le info suddivise in due file: Dizionario e Posting list memorizzate su disco DocID Freq 2 1 Term # tot docs Tot Freq ambitious 1 be brutus 2 capitol caesar 3 did enact hath I i' it julius killed let me noble so the told you was with Paolo Ferragina, Università di Pisa

Memorizzazione delle posting list Un termine come Calpurnia occorre forse in un documento su un milione, e quindi possiamo codificarlo con molti bit (log2 1M ~ 20). Un termine come the occorre probabilmente in ogni documento, quindi dovremmo usare pochi bit (20 troppi). Soluzione: ordiniamo la posting list di ogni termine per docID Brutus: 33, 47, 97, 107, 115, …  : 33, 14, 50, 10, 8, … …e speriamo che gran parte dei valori da rappresentare siano piccoli e richiedano dunque pochi bit. Paolo Ferragina, Università di Pisa

Risoluzione di una interrogazione ? casa Pisa Q espanse Posting lists (g-coded) Dizionario 9, 15, 16, 20, 50, 59, ... 1, 3, 15, 21, 72, 172, 173, ... 9, 6, 1, 4, 30, 9, ... 1, 2, 12, 6, 51, 100, 1, ... abaco abate cane casa pisa zanna Archivio Pagine 3 2 1 15 Paolo Ferragina, Università di Pisa

Ricerca per Frase: 45% delle ricerche [Aprile 2003] Interrogazione “Paolino Paperino” Non è più sufficiente la coppia <docID, freq> Ma occorre avere informazioni più dettagliate <# docs contenenti il termine corrispondente; doc1: pos1, pos2, pos3, … ; doc2: pos1, pos2, pos3, … ; … > Possiamo ancora comprimere la posting lists, agendo su due livelli: documenti e posizioni Paolo Ferragina, Università di Pisa

Come risolvere una “phrase query” Si estraggono le posting list dei termini: Paolino, Paperino Troviamo i documenti che contengono tutte le parole presenti nell’interrogazione Esaminiamo le posizioni delle occorrenze e garantiamo che siano consecutive nel documento Paolino: 2:1,17,74,222,551; 4:8,27,101,429,433; 7:13,23; ... Paperino: 1:17,19; 4:17,191,291,430,436; 5:14,19,101; ... Paolo Ferragina, Università di Pisa