Argomenti – Lezione 8 Modulo III --- Calcolo del PageRank Modulo IV --- Costruzione del Dizionario Globale delle Parole.

Slides:



Advertisements
Presentazioni simili
DISTRIBUZIONE BINOMIALE (cenni) DISTRIBUZIONE NORMALE
Advertisements

L’algoritmo PageRank.
Come si crea un Sito Web a cura del Prof. Sampognaro Giuseppe
Linearizzazione di un sensore
Informatica Modulo 4 – Ricerca di informazioni nel web.
Implementazione del problema della approssimazione ai minimi quadrati
MATEMATICA PER LECONOMIA CORSO SERALE I° modulo Prof.ssa A. Ghiraldini II° modulo Prof. F. Di Gennaro III° modulo Prof.ssa D. Tondini.
1 Il punto di vista Un sistema è una parte del mondo che una persona o un gruppo di persone, durante un certo intervallo di tempo, sceglie di considerare.
Fisica 2 18° lezione.
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Definizioni Chiamiamo esperimento aleatorio ogni fenomeno del mondo reale alle cui manifestazioni può essere associata una situazione di incertezza. Esempi:
Insiemi disgiunti.
FONDAMENTI DI INFORMATICA III A3A1-1 Realtà e Modello MODELLI E METODOLOGIE PER LA PROGETTAZIONE LOGICA DI SISTEMI INFORMATIVI PER LUFFICIO Argomento 3.
LEGGE DELLA CIRCUITAZIONE
Metodi e tecniche per lE-Tutor nella scuola Modulo 1 – Tecnologie didattiche e comunicazione multimediale APG Attività pratica guidata 16/2/2008.
I.C. “G.B. MARINO”.
Calcolo di PageRank: esercizio
CAPITOLO 19 L’avversione al rischio e l’utilità attesa
STATISTICA a.a DISTRIBUZIONE BINOMIALE (cenni)
Corso di Tecnica delle Costruzioni – I° Modulo – A/A
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Formule (linguaggi elementari). PRIMA Occorre sapere che cosè un termine.
Impostazione Assiomatica del Calcolo della Probabilità
LEZIONE 7 FALLIMENTI DI MERCATO: ASIMMETRIE INFORMATIVE E
Il sito web del nostro Istituto è raggiungibile da uno qualsiasi dei seguenti indirizzi: www2.itcmajorana.it
Lezione 3 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lavoro svolto da Veronica Mancin
Lezione 8 Numerosità del campione
Obiettivi dellinterfaccia Web Una buona interfaccia web deve assolvere a diverse funzioni: far percepire i contenuti permettere di individuare.
Modulo 7 – reti informatiche u.d. 3 (syllabus – )
REGOLAMENTO DEL BLOG Delle semplici regole per non usare male delle risorse così importanti!
Un modo nuovo di imparare
GEAFER- Istruzioni per l’uso del Registro On Line delle Lezioni
Piccole lezioni di geometria
Internet Ricerche nel web Gli indici sistematici (directory)
Support-Guide per la ricerca nella banca dati delle attrezzature d‘officina sulla piattaforma GOTIS GSP 08/2013 Titel der Präsentation in 9 pt CorpoS Regular.
CONFRONTO TRA QUADRI DI RIFERIMENTO.
Attività e strategie di web marketing. Fate clic per aggiungere un titolo.
Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione.
Algoritmi e linguaggi per bioinformatica – MODULO ALGORITMI (2010/2011) Laurea magistrale in Bioinformatica e biotecnologie mediche.
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
Obiettivi della sessione
DALLA PAROLA CHIAVE ALLE MIE PAROLE
Il Web è un mezzo a ricezione variabile Variabilità hardware (computer, monitor) Variabilità connessione (più o meno veloce) Variabilità delle preferenze.
Le variabili casuali e la loro distribuzione di probabilità Generalmente, lanciando un dado, si considera il valore numerico della faccia uscita.
Impostazione Assiomatica del Calcolo della Probabilità
ERGON WEB INFOPOINT Nuovo Sistema Rilevazione Presenze
ERGON WEB INFOPOINT Nuovo Sistema Rilevazione Presenze
Nuova modalità di accesso ad e-Pas
E’ il moto di un punto materiale che si muove lungo una linea retta
Laurea Ing EO/IN/BIO;TLC D.U. Ing EO 10 PROBABILITA’ E VARIABILI ALEATORIE.
Social Media, SEO & Web Marketing SuperSummit! 2013 Il futuro della pubblicità online Davide “Tagliaerbe” Pozzi –
Che cos’ è un ipertesto Progettazione e realizzazione di ipertesti
Asse delle y origine Asse delle x
HR Global Portal apre una finestra su e-Pas La nuova modalità di accesso ad e-Pas Giugno 2014.
Analisi e Gestione del Rischio Lezione 7 Prodotti con pay-off non lineare.
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
Percorso guidato alla donazione per la realizzazione del progetto link:
Con questo motore di ricerca si arriva a guadagnare fino a 10/15 euro al giorno: è tutto gratuito e paga 2 cent di sterlina. Una volta effettuata la registrazione.
QUALSIASI ORGANISMO VIVENTE COMUNICA
Dispositivi Mobili per Sentiment Analysis
Sistemi Bibliotecari Integrati (SBI) Genova, Biblioteca Civica Berio Sala dei Chierici 20 giugno 2008.
Creare una tabella di questo tipo:
Argomenti Lezione 05/03/2016 Ripasso inserimento articolo Utilizzo funzione editor “Leggi tutto” Ripasso inserimento link a contenuti interni al sito Gestione.
DOPO L’ACCESSO CON NOME UTENTE E PASSWORD DAL FRONT-END E’ POSSIBILE PASSARE AL BACK-END ATTRAVERSO LA BARRA D’AMMINISTRAZIONE IN ALTO DOPO L’ACCESSO CON.
ELEMENTI DI CALCOLO DELLE PROBABILITA’. Evento Aleatorio Un evento si dice aleatorio se può o non può verificarsi (Alea in greco vuol dire dado)
PRESENTAZIONE FORMAZIONE SUPPORTO.
1 a cura di MENNITI Prof. Salvatore LIMITI DI FUNZIONI con il Foglio Elettronico Excel.
Transcript della presentazione:

Argomenti – Lezione 8 Modulo III --- Calcolo del PageRank Modulo IV --- Costruzione del Dizionario Globale delle Parole

PageRank -- Ripasso Prima Approssimazione al Calcolo del PageRank T1 T2 Tk A A PR(A) = Pr(T1)/C(T1) + PR(T2)/C(T2) Pr(Tk)/C(Tk) PR(A) = Page Rank di A Pr(Ti) = Page Rank di Ti C(Ti) = numero di link in uscita di Ti

Cosa Cattura il PageRank ? PageRank fornisce un modello di comportamento di un utente che clicca in maniera aleatoria da un pagina allaltra. Lidea è che un utente visita una certa pagina con una probabilità data dal valore di PageRank di quella pagina. Quindi la probabilità che un utente clicchi su una pagina è data unicamente dal numero di pagine con un link a quella pagina. Ed è per questo che il pagerank viene diviso per il numero totale di pagine.

Una seconda approssimazione per Pagerank Si vuole catturare lidea che un utente non continua a cliccare aleatoriamente allinfinito, ma ad un certo punto salta in maniera aleatoria ad una pagina qualsiasi. Si introduce nella formula un fattore d, con 0<d<1 per implementare questa idea PR(A) = (1-d)+d*(PR(t1)/C(T1) + PR(T2)/C(T2) Pr(Tk)/C(Tk)) il termine (1-d) cattura la probabilità che un utente salti ad un pagina qualunque. Tanto più alto è d, tanto più alta è la probabilità che un utente continui a seguire aleatoriamente i link. Un valore consigliato per d è: d=0.85

Un esempio A A C C B B d=0.5 PR(A)= *PR(C) PR(B)= *(PR(A)/2) PR(C)= *(PR(A)/2+Pr(B)) PR(A) = 14/13 = PR(B) = 10/13 = PR(C) = 15/13 = Risolviamo Nota: la somma dei PageRank = numero totale di pagine

Cosa fare in generale ? Due Problemi: Quando vi sono moltissime pagine non e possibile trovare una soluzione manualmente Casi ricorsivi A A C C B B PR(A) = *(PR(A)/3+PR(C))

Calcolo del PageRank per approssimazioni successive Idea: Si suppongono dati dei valori iniziali per i pagerank di tutte le pagine (1,1,......,1) Partendo da questi valori si continua iterativamente a calcolare il PageRank di tutte le pagine fin quando la differenza tra il valore precedente e il successivo di tutti i PageRank è minore di una certa precisione che fissiamo a priori

Approssimazioni successive: Esempio IterazionePR(A)PR(B)PR(C) = <

Calcolo del PageRank come un intero Nel nostro caso, con poche pagine,scaleremo linearmente i valori del PageRank. Maggiori dettagli nelle specifiche. Scaling: logaritmo in base 6 PageRank Intero PageRank Calcolato 0/ / / / / , /101, , /106, , /1041, , /10251, ,511, /101,511, ,069, /109,069, × N

Cosa fare nel Modulo III Costruire un vettore di reali di dimensione pari al numero di pagine analizzate. Inizializzarlo tutto a 1 Applicare lalgoritmo iterativo per approssimazioni successive per calcolare i PageRank di tutte la pagine usando le informazioni sul grafo dei link salvate per ogni pagina in lista_in e lista_out.

Quando fermare literazione ? #define EPSILON double PR[NUMPAGE], aux[NUMPAGE]; double maxdiff(double PR[],double aux[]){...../* calcola max(PR[i]-aux[i])*/ } while maxdiff(PR,aux)< EPSILON{..... /* Aggiorna PR */ }

Modulo IV – Dizionario Globale Obbiettivo Costruire un dizionario di tutte le (differenti) parole che compaiono in tutte gli ipertesti. Per ognuna di tali parole avremo le seguenti informazioni: tutti gli ipertesti in cui compaiono per ognuno di tali ipertesti la hitlist corrispondente alla parola

Aspetti implementativi Per implementare il dizionario globale useremo un tabella hash. Useremo quindi le dichiarazioni e i metodi di hashtab.h e hashtab.c. Le collisioni verranno gestite con il metodo delle liste di collisioni. Ogni entry del dizionario globale Il campo key prenderà il valore della parola Il campo info conterrà le informazioni descritte prima. (dettagli più avanti)

Il campo info nel dizionario globale Ad ogni parola nel dizionario globale dobbiamo associare una lista delle pagine in cui compare PARk = parola k-esima PAGi = puntatore allelemento del dizionario delle pagine corrispondente lla pagina i-esima. EDL(k,i) = puntatore allelemento del dizionario locale della pagina i-esima corrispondente alla parola PARk. Nota che accediamo alla HitList di PARk nella pagina i-esima. Entry Dizionario Globale PARk PAGi EDL(k,j) PAGj EDL(k,i) PAGl EDL(k,l) Campo info

Cosa fare nel Modulo IV Alto livello Scorrere il dizionario delle pagine. Per ogni pagina, esaminare il suo dizionario locale Data la parola PARk della pagina PARi, aggiornare il dizionario globale

Scorrere il Dizionario delle Pagine Come per la creazione del grafo dei link possiamo usare la lista di tutti gli elementi del dizionario delle pagine contenuto nel campo ls della struct table

Esaminare il Dizionario Locale Supponiamo di analizzare la pagina PAGi Per analizzare il dizionario locale scorriamo la lista formata dalla struct elem_diz_loc

Aggiornare il Dizionario Globale (DG) Supponiamo di analizzare la pagina PAGi e che la parola attuale nel dizionario locale di PAGi e PARk. Per aggiornare il dizionario globale: calcoliamo la posizione di PARk nel DG (usando la funzione hash). Aggiungiamo un nuovo elemento (puntatore a PAGi e puntatore a PARk) alla lista (al più vuota perché è la prima volta che vediamo PARk) nel DG che forma il campo info della parola PARk. Attenzione alla gestione delle collisioni