Studio di euristiche per il miglioramento di algoritmi di ranking per il World-Wide Web Università degli Studi di Milano Corso di Laurea in Informatica.

Slides:



Advertisements
Presentazioni simili
Presentazione della tesi di laurea di Flavio Casadei Della Chiesa Newsletter: un framework per una redazione web.
Advertisements

TIC per ricerca e condivisione dell'informazione
L’algoritmo PageRank.
IlTrovatore S.p.a. IlTrovatore RemoteSearch IlTrovatore mette a disposizione di portali Internet, piccole e medie imprese, tutto il suo know-how nel settore.
Informatica Modulo 4 – Ricerca di informazioni nel web.
INTERNET : ARPA sviluppa ARPANET (rete di computer per scopi militari)
Definizione e tipi di implementazione
Per non insabbiarsi … tra il Tigri e lEufrate Ovvero come cercare cartografie imparando ad usare Internet (senza incartarsi …) ESEMPIO 1C – ricaduta.
1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.
Progetto e realizzazione del software "Solar Data Manager"
Dicono che viaggiare sviluppi lintelligenza e ci si dimentica sempre di dire che lintelligenza bisogna averla già prima Gilbert Keith Chesterton NAVIGARE.
Costruire una Home Page La homepage rappresenta la vostra faccia nel mondo. I vostri clienti prima di iniziare qualche affare con voi cercheranno la vostra.
TESTO ARGOMENTATIVO PASSI SMONTAGGIO SCHEMA 2. RICONOSCIMENTO PARTI
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
di Luciana Marini e Stefano Minozzi
Introduzione allinformatica. Cosè linformatica ? Scienza della rappresentazione e dellelaborazione dellinformazione ovvero Studio degli algoritmi che.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: è meglio Google o Pubmed? CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI-
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: i motori di ricerca e la gestione dellinformazione biomedica CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE.
Computer Graphics Marco Tarini Università dellInsubria Facoltà di Scienze MFN di Varese Corso di Laurea in Informatica Anno Accademico 2005/06 Lezione.
Sistemi Multimediali II Marco Tarini Università dellInsubria Facoltà di Scienze MFN di Varese Corso di Laurea in Informatica Anno Accademico 2004/05 Lezione.
La Ricerca in Rete Danco Singer novembre 2002 novembre 2002 Master in Editoria Multimediale La Ricerca in Rete: strategie di navigazione.
Calcolo di PageRank: esercizio
UNIVERSITA DEGLI STUDI DI MILANO Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Anna Mercuriali A. A
INTERNET 1. WWW WWW, World Wide Web è unenorme banca dati mondiale, distribuita su un grandissimo numero di locazioni (siti), collegati fra loro da reti.
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Concetti di base IR spiegati con l'esempio di Google.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Lavoro svolto da Veronica Mancin
Motori di ricerca: Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da lui stesso raccolti e restituisce un indice dei.
RISORSE WEB Internet Per un uso consapevole delle risorse della Rete
Modulo 7 – reti informatiche u.d. 3 (syllabus – )
Scrivere per il web Consigli pratici per lo sviluppo di contenuti, a cura di Aliacom.it.
Applicazioni di modelli matematici alla ricerca semantica
Internet L’essenziale.
Sviluppo di un motore di ricerca: un esempio reale, Ubi
Motori di Ricerca presente e futuro prossimo
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
Motori di Ricerca presente e futuro prossimo
Domande rivolte: 1.Chi eravate nel 1998, quando avete fondato Google? 2.Qual era il vostro obiettivo? 3.Volevate diventare ricchi? 4.Qual è stata.
Valutazione delle prstazioni di un sistema di retrieval
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
Web Communities and their identificaton
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
3 gennaio 2007 VOLUMI E GENEALOGIA La nuova generazione.
Complessità di un algoritmo
Interrogare il database
Il progetto AlmaDiploma - AlmaOrièntati
TROVA FILM Progetto di Tecnologie Web anno accademico 2013/2014 DEL VECCHIO GIANLUCA IOVINO PASQUALE
Prof.ssa Stella Beccaria a.s. 2013_2014
Diventa blogger Analisi degli obiettivi Piattaforma Wordpress Francesca Sanzo -
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
Vettori (a una dimensione)
1 COSA SERVE PER COLLEGARSI? - UNA SCHEDA DI RETE La scheda di rete è il componente che collega il nostro computer con la rete locale (LAN). Il collegamento.
Microsoft Word Lezione 6 Riccardo Sama' Copyright  Riccardo Sama'
CHI SONO I NOSTRI CONCORRENTI
InternetInternet Sede: Salvo D’acquisto 2010/2011 Docente: Vito Monno.
Tecnologie Informatiche ed Elettroniche per le Produzioni Animali (corso TIE) CORSO LAUREA MAGISTRALE IN SCIENZE E TECNOLOGIE DELLE PRODUZIONI ANIMALI.
Titolo della sezione Eventuale sottotitolo Formazione Volontari SCN 2011 Centro Linguistico di Ateneo - Mediateca Motori di ricerca non solo Google.
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Comunicazione Multimediale Letizia Catarini. La differenza tra un motore di ricerca e una directory La differenza tra un motore di ricerca e una directory.
Sommario Analisi del dominio: i sistemi per la localizzazione
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
Indice CORSO INTERNET PRATICO A CURA DI LEONARDO CERRI MAGALI’ BONGIOVANNI.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
Gli indirizzi delle pagine Web Prof. Cristina Sanvito e Renzo Didoni.
Cercare In Internet. Cercare in Rete La scuola ha un ruolo preciso in relazione a quella che nei paesi anglosassoni viene denominata: Information Literacy.
Andrea Santo Sabato Seo Senior MediaSoft s.r.l. E Tourism: SEO/SEM e Web Strategy.
Come si scrive un COMUNICATO STAMPA?. DI COSA SI TRATTA? Un comunicato stampa è un messaggio che un’azienda o un’associazione invia ai mezzi di comunicazione.
Come migliorare le prestazioni di un codice di dinamica molecolare.
Transcript della presentazione:

Studio di euristiche per il miglioramento di algoritmi di ranking per il World-Wide Web Università degli Studi di Milano Corso di Laurea in Informatica Marco Olivo, A.A. 2002/2003

Linee di sviluppo Due linee direttrici di ricerca: Ideazione e realizzazione di nuovi algoritmi di ranking per il recupero più mirato di informazione Ideazione e realizzazione di nuovi algoritmi di ranking per il recupero più mirato di informazione Tecniche per laggregazione di risultati e per la valutazione efficiente dei match Tecniche per laggregazione di risultati e per la valutazione efficiente dei match Marco Olivo, A.A. 2002/2003

Algoritmi di ranking già esistenti Implementazione di algoritmi già esistenti: PageRank, Proximity PageRank funziona sul grafo: più una pagina è puntata, più è rilevante (misura esogena della popolarità) PageRank funziona sul grafo: più una pagina è puntata, più è rilevante (misura esogena della popolarità) Proximity funziona sul testo: più nella pagina le parole richieste sono vicine, più la pagina è rilevante (misura endogena dellimportanza, relativamente alla richiesta) Proximity funziona sul testo: più nella pagina le parole richieste sono vicine, più la pagina è rilevante (misura endogena dellimportanza, relativamente alla richiesta) Marco Olivo, A.A. 2002/2003

… da soli non bastano Problema: PageRank + Proximity non bastano: i risultati sono piuttosto scarsi e deludenti Soluzione: servono (anche) altre tecniche, quali punteggio ai titoli, punteggio alle URL, punteggio al testo con cui le pagine sono riferite (ancore) Marco Olivo, A.A. 2002/2003

Nuovi algoritmi di ranking: TitleRank Si assegna un punteggio ai titoli delle pagine: i titoli sono spesso un riassunto del contenuto delle pagine Si assegna un punteggio ai titoli delle pagine: i titoli sono spesso un riassunto del contenuto delle pagine Il punteggio viene assegnato in maniera dipendente dalla prossimità: più le parole richieste sono vicine nel titolo, più il punteggio della pagina è elevato Il punteggio viene assegnato in maniera dipendente dalla prossimità: più le parole richieste sono vicine nel titolo, più il punteggio della pagina è elevato Marco Olivo, A.A. 2002/2003

Nuovi algoritmi di ranking: URLRank Cercando il nome di un sito si desidera di solito vedere comparire il dominio associato: va dato un punteggio anche agli indirizzi comune di milano Si ricercano le parole contenute nelle URL tramite un TST (ternary search tree) Si ricercano le parole contenute nelle URL tramite un TST (ternary search tree) Si assegna un punteggio basato sulla prossimità Si assegna un punteggio basato sulla prossimità Marco Olivo, A.A. 2002/2003

Nuovi algoritmi di ranking: AnchorRank Le pagine a volte sono note per qualcosa che non dicono esplicitamente di trattare agenzia stampa ansa sono le pagine che vi si riferiscono ad usare queste parole nelle ancore sono le pagine che vi si riferiscono ad usare queste parole nelle ancore bisogna estrarre il testo dalle ancore per trovare le pagine corrette bisogna estrarre il testo dalle ancore per trovare le pagine corrette Marco Olivo, A.A. 2002/2003

Aggregazione Problema: come aggregare i punteggi dei vari algoritmi? Idea: generare una combinazione lineare di risultati Pregi: è facile effettuare esperimenti variando i coefficienti è facile effettuare esperimenti variando i coefficienti pulizia di progettazione pulizia di progettazione Marco Olivo, A.A. 2002/2003

Valutazione veloce (1) Problema: cercare tutte le pagine che contengono una parola può essere costoso Due motivi: la parola è presente in molti documenti (es. milano) la parola è presente in molti documenti (es. milano) la parola è presente più volte nei documenti (es. la) la parola è presente più volte nei documenti (es. la) Marco Olivo, A.A. 2002/2003

Valutazione veloce (2) Soluzione: la valutazione dei match (Proximity) deve essere tagliata oltre una certa soglia (è meglio se le pagine sono ordinate in maniera decrescente secondo un punteggio statico, ad es. PageRank) si usano operatori lazy per trovare i match si usano operatori lazy per trovare i match Ci interessano i primi N risultati con una precisione data: quando tagliare? simulazione con query fittizie simulazione con query fittizie Marco Olivo, A.A. 2002/2003

Valutazione veloce (3) Per esempio, se ci interessano i primi 400 risultati di PageRank + Proximity con precisione 95%: Marco Olivo, A.A. 2002/2003 inviluppo convesso inviluppo convesso approssimazione approssimazione

Demo 20M+ di pagine web tratte da.it 20M+ di pagine web tratte da.it 5 giorni per recuperarle 5 giorni per recuperarle 2 giorni macchina per indicizzarle 2 giorni macchina per indicizzarle proviamoproviamo qualche interrogazione… proviamo Marco Olivo, A.A. 2002/2003

Conclusioni sviluppati algoritmi per migliorare la ricerca sviluppati algoritmi per migliorare la ricerca sviluppata tecnica per aggregare i risultati restituiti da questi algoritmi sviluppata tecnica per aggregare i risultati restituiti da questi algoritmi sviluppate tecniche di valutazione veloce dei match sviluppate tecniche di valutazione veloce dei match implementazione completa delle tecniche suddette in un motore di ricerca sperimentale implementazione completa delle tecniche suddette in un motore di ricerca sperimentale Grazie per lattenzione Marco Olivo, A.A. 2002/2003