Raccolta, ranking e query delle pagine di un webgraph Ilaria Bordino.

Slides:



Advertisements
Presentazioni simili
Training On Line - CONP. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Pluriennali > Nuova Richiesta Si accede alla pagina di Richiesta.
Advertisements

Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
Strutture dati per insiemi disgiunti
1 Tutto su liceoclassicojesi.it 1° Incontro sulla gestione di liceoclassicojesi.it.
1 MeDeC - Centro Demoscopico Metropolitano Provincia di Bologna - per Valutazione su alcuni servizi erogati nel.
TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
Consumare Web Service Andrea Saltarello
Epto (A) LordScinawa Dimmi il tuo numero e ti dirò dove sei 1.
Corsi per il personale Bicocca-Insubria
1 Informatica Generale Susanna Pelagatti Ricevimento: Mercoledì ore presso Dipartimento di Informatica, Via Buonarroti,
Frontespizio Economia Monetaria Anno Accademico
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
Training On Line – CONA. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Annuali > Nuova Richiesta Si accede alla pagina di Richiesta.
Training On Line - Report. 2 Report storico Da menu: Reportistica -> Report storico Si accede alla pagina di selezione del report storico.
Implementazione dell algortimo di Viterbi attraverso la soluzione del problema di cammino mi- nimo tramite software specifico. Università degli studi di.
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Lab 5 – Info B Marco D. Santambrogio – Riccardo Cattaneo –
Programmazione 1 9CFU – TANTE ore
Canale A. Prof.Ciapetti AA2003/04
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
Realizzazione e caratterizzazione di una semplice rete neurale per la separazione di due campioni di eventi Vincenzo Izzo.
MG4J – Managing GigaBytes for Java Indicizzazione ed interrogazione di una collezione di documenti Esercitazione Ilaria Bordino Sapienza Università di.
Ranking di pagine Web Ilaria Bordino, Yahoo! Research Barcelona
Esercitazione 2 Ranking di pagine Web Ilaria Bordino Ilaria Bordino e Debora Donato Corso di Ricerca dell'informazione nel Web - A.A. 2006/2007.
Ranking di pagine Web Debora Donato. Pagina 2 Ranking delle pagine Raccolta delle pagine html; Costruzione del webgraph; Transformazione dei dati in un.
Il linguaggio Fortran 90: 4. Array: Vettori e Matrici
Ranking di pagine Web Ilaria Bordino, Yahoo! Research Barcelona Ida Mele, Sapienza Universita di Roma.
Hadoop: introduzione (1)
MG4J – Managing GigaBytes for Java Indicizzazione ed interrogazione di basi documentali Ilaria Bordino Yahoo! Research, Barcelona.
Calcolo di PageRank: esercizio
Crawling Ida Mele Sapienza Università di Roma Ilaria Bordino Ida Mele
CORSO DI RICERCA BIBLIOGRAFICA 4. giornata (20 marzo 2008) Web of Science Beilstein e Gmelin Crossfire.
Master universitario di II livello in Ingegneria delle Infrastrutture e dei Sistemi Ferroviari Anno Accademico 2012/2013 Cultura dimpresa, valutazione.
Ranking di pagine Web Ilaria Bordino Ranking di pagine web.
La partita è molto combattuta perché le due squadre tentano di vincere fino all'ultimo minuto. Era l'ultima giornata del campionato e il risultato era.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Scritte scritte scritte scritte scritte scritte scritte Scritte scritte Titolo.
Laboratorio di Informatica
Cos’è un problema?.
Seminario Swarm Seminario su Swarm Pietro Terna web.econ.unito.it/terna.
Sistemi Operativi - Introduzione 1 Il sistema operativo UNIX Dettagli e comandi avanzati Niccolò Battezzati Politecnico di Torino Dip. Automatica e Informatica.
Analisi di Immagini e Dati Biologici
19 Lezione 21/5/04 Composizione dell'immagine 1 COMPOSIZIONE DELLIMMAGINE.
Portale Capacità STOGIT
2 3 4 RISERVATEZZA INTEGRITA DISPONIBILITA 5 6.
Melfi, 1 aprile 2011 – MediaShow 1 Social Network: possibilità di uso consapevole nella didattica Uso, consapevolezza, opportunità, proposte Caterina Policaro.
Test Reti Informatiche A cura di Gaetano Vergara Se clicchi sulla risposta GIUSTA passi alla domanda successiva Se clicchi sulla risposta ERRATA passi.
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
ISOIVA (LOCALE) TO ISOIVA (WEB) RIPARTIZIONE INFORMATICA UFFICIO APPLICATIVI AMMINISTRATIVI 13/04/2011 UNIVERSITÀ DEGLI STUDI DI FERRARA 1.
ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
QUIZ – PATENTE EUROPEA – ESAME WORD
Un trucchetto di Moltiplicazione per il calcolo mentale
Fondamenti delle Reti di Computer Seconda parte Carasco 15/04/2010.
21 marzo 2002 (ri-)Avvisi: Giovedi 28 marzo la lezione e sospesa. Nuovo indirizzo di Spedire messaggi e esercizi solo.
1 Ly-LAB Sistema di gestione dei dati analitici di laboratorio.
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
14 marzo 2002 Avvisi:.
Esempi risolti mediante immagini (e con excel)
Bando di Residenza Cap Scheda ENTE 3ROL - Richieste On Line.
1Piero Scotto - C14. Finalità del corso Programma Materiale Requisiti Spendibilità 2Piero Scotto - C14.
Sviluppare un programma in C che, dato un array da 100 elementi interi caricato con numeri casuali compresi tra [10,100], sia in grado di cercare il valore.
Ant Che cos’è Come si utilizza Funzionalità principali
CMDBuild: un progetto open source di supporto alla gestione ICT Esempi di workflow implementati in ottica ITIL CMDBuild è un progetto di: Tecnoteca srl.
NO WASTE Progetto continuità scuola primaria scuola secondaria Salorno a.s. 2013_
METODI DI RAPPRESENTAZIONE TECNICA
A.P. cat. B - 1 Per chi vuole: Libro di testo D.P. Curtis, K. Foley, K. Sen, C. Morin Informatica di base 2° edizione Mc Graw-Hill Companies.
1 Microsoft Access Gruppo di lavoro Alberti, Boldi, Gaito, Grossi, Malchiodi, Mereghetti, Morpurgo, Rosti, Palano, Zanaboni Informatica per laurea triennale.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Transcript della presentazione:

Raccolta, ranking e query delle pagine di un webgraph Ilaria Bordino

Pagina 2 Programma della lezione Nutch: un motore di ricerca configurabile dallutente Esecuzione di Pagerank sul grafoDIS; Esecuzione di HITS sul grafoDIS; Indicizzazione delle pagine html del grafo DIS in MG4J; Query da riga di comando usando MG4J;

Pagina 3 db Link structure IPS RankPR Nutch ParserDB WEB readdb graph.txt txt2IPS PageRank HITS RankHITS getfiles files MG4J RankMG4J Query

Pagina 4 db Link structure IPS RankPG Nutch ParserDB WEB readdb graph.txt txt2IPS PageRank HITS RankHITS getfiles files MG4J RankMG4J Query

Pagina 5 Nutch: motore di ricerca configurabile dall'utente Permette la raccolta delle pagine, lindicizzazione e linterrogazione delle pagine web. INPUT: un set di pagine html OUTPUT: motore di ricerca sulle pagine raccolte USO: raccolta di pagine e ricerca sulla collezione indicizzata

Pagina 6 Nutch: download Disponibile gratuitamente in –Tutorial: –Presentazione generale del codice: – Ultimaversione: (il file nutch-0.7.tar.gz)

Pagina 7 Nutch: configurazione Java 1.4.x ( – Tomcat di Apache 4.x ( – Almeno un gigabyte su disco; – Connessione Internet veloce;

Pagina 8 Nutch: configurazione Inizializzare NUTCH_JAVA_HOME con la directory radice di Java. –edit.bashrc per inserire export NUTCH_JAVA_HOME =/usr/local/lib/j2sdk1.4.2_03 –MAC OS: export NUTCH_JAVA_HOME=/Library/Java/Home Aggiungere nutch/bin al PATH –edit.bashrc per inserire export PATH =$ PATH:nutch/bin

Pagina 9 Raccolta delle pagine del DIS Creare il file urls nella directory public/infoRetr/nutch con linsieme iniziale di pagine html. –Ex: Modificare il file nutch-0.6/conf/crawl-urlfilter.txt per personalizzare la raccolta Aggiungere +^ limitare la raccolta alle pagine al dominio dis.uniroma1.it

Pagina 10 Raccolta delle pagine del DIS Lista di parametri: nutch crawl –-dir : directory dove saranno memorizzati i resultati della raccolta –-depth : profondita dei path a partire dalla pagina radice –delay : intervallo di tempo, in secondi, fra due consecutive richieste su uno stesso host. –-threads : numero di threads eseguiti in parallelo Esecuzione del crawl: – nutch crawl urls –dir mycrawl –depth 3 >& mycrawl.log – NON ESEGUIRE A LEZIONE

Pagina 11 db Link structure IPS RankPG Nutch ParserDB WEB readdb graph.txt txt2IPS PageRank HITS RankHITS getfiles files MG4J RankMG4J Query

Pagina 12 Nutch WedDB Permette di estrarre webgraph dalle pagine raccolte; DB puo essere aggiornato con nuovi dati; Usata per consultare i dati nel DB (html) Si usa WebDBReader (net.nutch.db.WebDBReader)

Pagina 13 Classe WebDBReader: metodi

Pagina 14 Interrogazione del DB –nutch readdb: comando usato per esaminare campi arbitrari del db ; –Eseguire: nutch readdb per vedere le opzioni –Dimensione del webgraph: nutch readdb mycrawl/db –stats (sembra dare un errore: il numero di archi e incorretto) –Lista dei links: nutch readdb mycrawl/db –dumplinks –Pagine con ranking piu' alto: nutch readdb mycrawl/db –toppages 2

Pagina 15 db Link structure IPS RankPG Nutch ParserDB WEB readdb graph.txt txt2IPS PageRank HITS RankHITS getfiles files MG4J RankMG4J Query

Pagina 16 Output di readdb sul webgraph from to to to to to to from to to from to

Pagina 17 db Link structure IPS RankPG Nutch ParserDB WEB readdb graph.txt txt2IPS PageRank HITS RankHITS getfiles files MG4J RankMG4J Query

Pagina 18 Parsing del webgraph –graphExtractor.pl: un parser scritto in perl per estrarre il webgraph –Uso: graphExtractor.pl input-fileName output-fileName –./graphExtractor.pl dis0905.crl dis0905.txt –Dis0905edges: lista dei archi del grafo –Dis0905nodes: lista dei nodi del grafo e sue rispettivi html page

Pagina 19 Lista degli archi –more dis0905.txtedges –1 2 –13 –4 5 –4 6 –5 22 –5 791 –5 792 –5 793 –5 794 –6 22 – – – – – –7 8 –7 9

Pagina 20 Lista dei nodi: id e url more dis0905.txtnodes 1 2http://

Pagina 21 db Link structure IPS RankPG Nutch ParserDB WEB readdb graph.txt txt2IPS PageRank HITS RankHITS getfiles files MG4J RankMG4J Query

Pagina 22 Uso di PageRank - sudo apt-get install libstdc glibc2.2 –(per usare la libreria DIS con gcc 4) –INPUT: il grafo in formato IPS –OUTPUT: ranking delle pagine secondo lalgoritmo pagerank –Uso: pagerank columns > pr-printFile

Pagina 23 Uso di PageRank InputFile: base-name del file in formato IPS prob: probabilita di scegliere una pagina vicina (e non saltare a altra pagina) residual: pagerank si ferma se il residuo e piu piccolo di residual maxIter: numero massimo di iterazioni eseguite per pagerank;

Pagina 24 Uso di PageRank Pr-report: file con i risultati di pagerank columns: stampa vari tipi di informazione: –N: colonna con lid del nodo; –I: colonna con lindegree del nodo; –O: colonna con loutdegree del nodo; –P: colonna con il rank del nodo; Pr-printFile: stampa di varie statistiche su Pagerank (correlazione Indegree/Outdegree, correlazione Indegree/Pagerank, ecc.)

Pagina 25 Esecuzione di PageRank –../../bin/pagerank 100 graph-ips-name.%d pr-report.%d NIOP > pr-print.txt –File generati: ls pr* Pr-report*listNodes.txt: nodeID, indegree, outdegre, e page rank values per ogni node Pr-results*pr_distrib.txt.: valori de PR e numero di nodi con il rispettivo valori di PR Pr-results*.report.txt.: statistiche sul i risultati

Pagina 26 more pr-report-dis.0.listNodes.txt – NODE INDEG OUTDEG PR(0..1) PR(0..N)

Pagina 27 Analisi dei risultati –Larger indegree: sort –n –r –k2,3 pr-report-dis listNodes.txt > pr-sorted.txt | more pr-sorted.txt –Larger rank: sort –n –r –k4 pr-report-dis listNodes.txt > valoriPR.txt –sort: comando linux per ordinare valori -n: ordina secondo valori numerici -r: ordine inverso (decrescente) -k: numero d'ordine delle colonne in base a cui ordinare –more: comando linux che mostra i risultati una schermata alla volta

Pagina 28 Analisi dei risultati –Osservare: pagine in ordine crescente di indegree pagine in ordine crescente di outdegree pagine in ordine decrescente di outdegree

Pagina 29 Analisi dei risultati –awk BEGIN {while(getline>0) printf(%d %d %d %lf %lf\n,$1,$2,$3,$4,$5)} pr-report-dis listNodes.txt | sort –n –r –k4 > pr-valori.txt –more pr-valori.txt –awk: linguaggio di programmazione per text-processing. Utile per modificare testo.

Pagina 30 more pr-report-dis.0.pr_distrib.txt – ================================================== Values grouped by 25 (unit e-08) %unit e-08 %PageRank %num nodes e e e e e e e e e e e e e e e e e e

Pagina 31 Visualizzazione dei risultati –Stampa la distribuizione: awk 'BEGIN {getline;getline;getline;getline;while(getline>0 && $2>0) printf("%.25f %lf\n",$1,$2);}' pr-report-dis.0.pr_distrib.txt > pr-distr.txt –Gnuplot: programma a linea di comando per produrre grafici 2D e 3D. –Per entrare nellambiente: gnuplot –gnuplot> plot pr-distr.txt using 1:2 w p –gnuplot> set logscale –gnuplot> replot –gnuplot> quit

Pagina 32 Distribuzione di PageRank

Pagina 33 Uso di HITS –INPUT: grafo in formato IPS –OUTPUT: ranking delle pagine secondo lalgoritmo hits –Uso: hits –Nota: programma interattivo: parametri forniti da std input InputFile: GraphName.%d maxResidual: hits si ferma se il residuo e piu piccolo di maxResidual maxIter: numero massimo di iterazioni

Pagina 34 Esecuzione di HITS –../../bin/hits –Insert graph name: graphName.%d –Insert maxResidual: –Insert maxIteration: 50

Pagina 35 File generati –hits_distrib_AUTH.txt: valori di authority e numero di nodi con il suddetto valore. –hits_distrib_HUBS.txt: valori di hubs e numero di nodi con il suddetto valore. –hits_distrib_INDEG.txt: distribuzione dell indegree –hits_report_correlaz.txt: risultati della correlazione –hub.listNodes.txt: risultati di hits

Pagina 36 more auth0.listNodes.txt – e e e e e e e e e e e e e e e e e e e e e e e+01

Pagina 37 Analisi dei risultati –awk BEGIN {no=0;while(getline>0) printf(%ld %.25f\n,++no,$1)} auth0.listNodes.txt > valHits.txt –sort –n –r –k2 valHits.txt | more

Pagina 38 sort –n –r –k2 valHits.txt | more –

Pagina 39 db Link structure IPS RankPG Nutch ParserDB WEB readdb graph.txt txt2IPS PageRank HITS RankHITS getfiles files MG4J RankMG4J Query

Pagina 40 Download delle pagine html –Procediamo all' indicizzazione delle pagine raccolte da Nutch mediante MG4J. –Le pagine devono essere precedentemente scaricate, visto che non e possible ottenerle dal db di Nutch –Generare un file di testo con le pagine che devono essere raccolte: cut -f2 dis0905.txtnodes > pagesList.txt –Scaricare le pagine: wget -N pagine -i pagesList.txt

Pagina 41 db Link structure IPS RankPG Nutch ParserDB WEB readdb graph.txt txt2IPS PageRank HITS RankHITS getfiles files MG4J QueryMG4J Query

Pagina 42 Impostazione del Classpath per MG4J – export CLASSPATH=$CLASSPATH:/Public/infoRetr/mg4j/BeanShell/bsh- 2.0b2.jar:/Public/infoRetr/mg4j/mg4j jar:/Public/infoRetr/mg4j/colt.jar:/Public/infoRetr/mg4j/ jakarta-commons- collections.jar:/Public/infoRetr/mg4j/jal.jar:/Public/infoRetr/ mg4j/jsap.jar:/Public/infoRetr/mg4j/mysql-connector- java.jar:/Public/infoRetr/mg4j/fastutil.jar:/Public/infoRetr/mg 4j/jakarta-commons- io.jar:/Public/infoRetr/mg4j/javacc.jar:/Public/infoRetr/mg4j/l ibreadline- java.jar:/Public/infoRetr/mg4j/pdfbox.jar:/Public/infoRetr/mg4j /gnu.getopt.jar:/Public/infoRetr/mg4j/jakarta-commons- lang.jar:/Public/infoRetr/mg4j/javamail/mailapi.jar:/Public/inf oRetr/mg4j/servletapi5.jar:/Public/infoRetr/mg4j/jaf.jar:/Publi c/infoRetr/mg4j/jakarta-commons- logging.jar:/Public/infoRetr/mg4j/jetty5/jetty5.jar:/Public/inf oRetr/mg4j/mstor.jar:/Public/infoRetr/mg4j/tagsoup.jar:/Public/ infoRetr/mg4j/log4j.jar:/Public/infoRetr/mg4j/velocity.jar

Pagina 43 Indicizzazione delle pagine html – Costruzione della base documentale: find../htmlDIS -type f | java it.unimi.dsi.mg4j.document.FileSetDocumentCollectio n -f it.unimi.dsi.mg4j.document.HtmlDocumentFactory htmldis.collection –Creazione dellindice: java -Xmx512M it.unimi.dsi.mg4j.tool.Index -- downcase -S htmldis.collection collectionDIS

Pagina 44 MG4J: Scorer – Tra gli scorer di MG4J : – clarkeComarckScorer: documentazione in Class ClarkeCormarkScorer di MG4J – DocumentRankScorer: assegna un rank pre-calcolato alle pagine. Il default e il resultato di query booleana: le pagine sono ritornate in ordine crescente di suei ID.

Pagina 45 Interrogazione da riga di comando – java it.unimi.dsi.mg4j.query.Query –help –Uso: java Query -c collection collectionBaseName1 collectionBaseName2 –java -Xmx512M it.unimi.dsi.mg4j.query.Query -c htmldis.collection collectionDIS-text collectionDIS-title –[!help]>Dipartimento –Redirezionare la query su un file di output (outFile) –grep "Document #" outFile | more

Pagina 46 db Link structure IPS RankPG Nutch ParserDB WEB readdb graph.txt txt2IPS PageRank HITS RankHITS getfiles files MG4J RankMG4J Query