COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.

Slides:



Advertisements
Presentazioni simili
Reti sociali Reti sociali.
Advertisements

L’algoritmo PageRank.
Strutture dati per insiemi disgiunti
Corso di Fondamenti di Informatica
Informatica Generale Alessandra Di Pierro
6. Catene di Markov a tempo continuo (CMTC)
Introduzione Cosa sono le reti di Petri?
1 Il punto di vista Un sistema è una parte del mondo che una persona o un gruppo di persone, durante un certo intervallo di tempo, sceglie di considerare.
Algoritmi e Strutture Dati
1 Area Comunicazione e Sviluppo Web09/10/2003Sito Web Provincia di Torino Provincia di Torino Area Relazioni e Comunicazione 1 01/12/03 Portale della Provincia.
Breath-first search Visita in ampiezza di un grafo Algoritmo Esempio
Breath-first search Visita in ampiezza di un grafo Algoritmo Esempio
6. Catene di Markov a tempo continuo (CMTC)
Dinamica del punto Argomenti della lezione
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Strutture dati per.
Algoritmi e Strutture Dati
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 05/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
U V U V (a) |cfc|=2 prima e dopo (b) |cfc|=2 prima e |cfc|=1 dopo
Il problema del minimo albero ricoprente in un grafo con archi privati
Capitolo 11 Grafi e visite di grafi Algoritmi e Strutture Dati.
Algoritmi e Strutture Dati
Visite di grafi Algoritmi e Strutture Dati. Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw.
Algoritmi e Strutture Dati
Capitolo 11 Grafi e visite di grafi Algoritmi e Strutture Dati.
Flusso Massimo Applicazione di algoritmi
Cammini minimi Algoritmo SPT.Acyclic
Flusso Massimo Applicazione Algoritmi Esercizio 1 Sia dato la seguente rete di flusso, in cui la sorgente è il nodo 1 e la destinazione è il nodo 6. I.
Metodi e tecniche per lE-Tutor nella scuola Modulo 1 – Tecnologie didattiche e comunicazione multimediale APG Attività pratica guidata 16/2/2008.
1 2. Analisi degli Algoritmi. 2 Algoritmi e strutture dati - Definizioni Struttura dati: organizzazione sistematica dei dati e del loro accesso Algoritmo:
Architettura del World Wide Web
Grafi.
Introduzione1 Algoritmi e strutture dati - Definizioni Struttura dati: organizzazione sistematica dei dati e del loro accesso Algoritmo: procedura suddivisa.
Calcolo di PageRank: esercizio
Comunicazione on-line, reti e virtualità Matteo Cristani.
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Crawling Saverio Caminiti.
Concetti di base IR spiegati con l'esempio di Google.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Lavoro svolto da Veronica Mancin
RISORSE WEB Internet Per un uso consapevole delle risorse della Rete
Corso di Informatica per Giurisprudenza Lezione 7
Social network Internet. Eun sito web di reti sociali, ad accesso gratuito. È il secondo sito più visitato al mondo, preceduto solo da Google. Il.
Studio di euristiche per il miglioramento di algoritmi di ranking per il World-Wide Web Università degli Studi di Milano Corso di Laurea in Informatica.
Applicazioni di modelli matematici alla ricerca semantica
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
INFORMATICA MATTEO CRISTANI.
Prof. Cerulli – Dott.ssa Gentili
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
INFORMATICA PER IL COMMERCIO ELETTRONICO MATTEO CRISTANI.
Prof. Cerulli – Dott.ssa Gentili
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
PARTE PRIMA: Reti Cablate
Algoritmi e Strutture Dati
2. Grafi.
Fondamenti delle Reti di Computer Seconda parte Carasco 15/04/2010.
COMUNICAZIONE ONLINE, RETI E VIRTUALITA’
INFORMATICA PER IL COMMERCIO ELETTRONICO
INFORMATICA MATTEO CRISTANI.
INFORMATICA PER IL COMMERCIO ELETTRONICO
Web Communities and their identificaton
Pippo.
Grafi CORDA – Informatica A. Ferrari Testi da Marco Bernardo Edoardo Bontà Dispense del Corso di Algoritmi e Strutture Dati.
Creato da Riccardo Nuzzone
Università Roma Tre Corso di laurea magistrale CINEMA TELEVISIONE E PRODUZIONE MULTIMEDIALE Corso “Media digitali: Televisione, video, Internet” Docente:
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
InternetInternet Sede: Salvo D’acquisto 2010/2011 Docente: Vito Monno.
HTML. Notizie storiche Tim Berners-Lee stava cercando un modo per gestire e distribuire fra i colleghi grandi quantità d'informazioni e nel 1989 propose.
Olimpiadi di Informatica 2010 Giornate preparatorie
SEMINARIO WEB PROMOTION: I MOTORI DI RICERCA Letizia Catarini.
I NTERNET Rete interconnessa che permette il collegamento tra due host eterogenei, appartenenti a reti differenti separati anche da grande distanze. Internet.
Transcript della presentazione:

COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI

INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 LA RETE INTERNET LEZ. 3 IL WEB LEZ. 4 LA POSTA ELETTRONICA LEZ. 5 LE RETI P2P LEZ. 6 CLASSI DI APPLICAZIONI WEB LEZ. 7 PORTALI E MOTORI DI RICERCA LEZ. 8 I SOCIAL NETWORKS LEZ. 9 CONCETTO DI IPERTESTO LEZ. 10 PROGETTO DI IPERTESTI LEZ. 11 IL LINGUAGGIO HTML LEZ. 12 ESERCITAZIONE SU HTML LEZ. 13 LABORATORIO DI SVILUPPO DI PAGINE WEB LEZ. 14 LABORATORIO DI SVILUPPO DI PAGINE WEB LEZ. 15 WEB 2.0 LEZ. 16 LABORATORIO DI SVILUPPO WEB 2.0 LEZ. 17 LABORATORIO DI SVILUPPO WEB 2.0 LEZ. 18 SOMMARIO DEL CORSO

AGENDA TIPI DI SITI WEB CLASSIFICAZIONE DELLE FUNZIONI DI UN SISTEMA BASATO SU WEB MISURE SUL WEB AUTORITY HUBNESS PAGERANK

LE DIMENSIONI DEL WEB Difficili da valutare; comunque, il grafo è enorme. Numero di nodi(=documenti): 2/4 miliardi (escludendo le pagine non accessibili). Numero di archi: 60/100 miliardi. Numero di host: 100/200 milioni. Numero di utenti: 500/800 milioni.

GRAFO

SMALL WORLD COMPONENTE GIGANTE Comprende circa il 30% delle pagine. Stime del diametro: orientato=20/30; non orientato=10/17.

SMALL WORLD COMPONENTI SORGENTE Costituiscono circa il 24% Puntano (direttamente o indirettamente) verso la componente gigante, ma … … non sono raggiungibili dalla componente gigante. Sono le pagine reiette.

SMALL WORLD COMPONENTI POZZO Costituiscono circa il 24% Sono raggiungibili dalla componente gigante, ma … … da esse non si può tornare indietro. In questa categoria rientra la maggior parte dei documenti senza link.

SMALL WORLD COMPONENTI ISOLATE E TENTACOLI Costituiscono circa il 24% Sono raggiungibili dalla componente gigante, ma … … da esse non si può tornare indietro. In questa categoria rientra la maggior parte dei documenti senza link.

TIPI DI SITI WEB SITI REFERENZIALI SITI DI RIFERIMENTO

CLASSIFICAZIONE DELLE FUNZIONI Un sito si dice referenziale se è un punto daccesso alla rete, ovvero se a partire da quel sito è possibile raggiungere una rilevante quantità di siti Un sito è di riferimento se è riferito da numerosi siti della rete PROBLEMA: Tenere conto di entrambi gli aspetti Un sito referenziale è tale se si possono raggiungere siti di riferimento Un sito è di riferimento se viene raggiunto da numerosi siti referenziali.

PAGERANK Si può pensare allinsieme dei documenti presenti sul Web come a un grafo, in cui: i nodi sono gli URL; cè un arco fra il nodo x e il nodo y quando la pagina che corrisponde allURL x contiene un link verso lURL y. Questo grafo è chiamato grafo del Web. Ovviamente, si tratta di un grafo dinamico, che cambia in continuazione.

PAGERANK: PRELIMINARI – LE COMPONENTI CONNESSE Dato un grafo orientato G=(V,E), definiamo una relazione fra i nodi, ponendo x y quando esistono un cammino da x a y e un cammino da y a x. La relazione è una relazione di equivalenza, le cui classi sono dette componenti (fortemente) connesse del grafo. È possibile costruire il grafo ridotto G*, che ha come nodi le componenti connesse, e ha un arco fra la componente C 1 e la componente C 2 quando esiste un arco che va da un nodo di C 1 a un nodo di C 2.

PERCHE SERVONO LE MISURE DEL WEB? La ricerca di informazioni è diventata sempre più difficile, per vari motivi: dimensioni; mancanza di semantica (tentativi di realizzare il Web semantico) e struttura; qualità di informazione estremamente eterogenea; i documenti sono soggetti a rapida modifica. Per tali motivi, circa l80% degli utenti utilizza abitualmente i motori di ricerca.

CHE COSA MISURIAMO? Dato un insieme P di pagine e una query Q, definire una funzione r Q : P R che associ, ad ogni pagina, un numero reale (rank), che indica il grado di rilevanza di quella pagina a fronte di quella query. Tecniche di ranking basate su: analisi del contenuto testuale (Altavista); analisi della struttura dei link (Google).

HITS È una procedura di misura simile a pagerank Ha avuto un certo successo negli anni 90 ma oggi non è più in voga Si basa su due misure specifiche: Authority Hubness

AUTORITY ED HUBNESS Ogni pagina ha due punteggi: a i punteggio autority h i punteggio hub Una pagina è una buona authority se è riferita da buoni hub. Una pagina è un buon hub se contemporaneamente riferisce buone authority su uno stesso argomento.

AUTHORITY ED HUBNESS Se la pagina p punta a pagine con un alto valore come autority deve ricevere un alto punteggio come hub Se p è riferita da molte pagine che hanno un alto punteggio come hub, allora deve ricevere un alto punteggio come authority

MISURE HITS è basato sulliterazione per aggiornamento di x ed y mediante gli operatori qui sopra indicati Le iterazioni qui sopra terminano quando non avviene più alcuna significativa modifica ai valori di x ed y La convergenza è veloce

PAGERANK PageRank è un algoritmo di ranking con le seguenti caratteristiche: assegna a ciascuna pagina i un rank R i in modo statico, cioè indipendente dalla query: data una query Q, si determineranno le pagine che soddisfano la query, e queste pagine verranno ordinate in base al loro rank; determina limportanza di una pagina esclusivamente sulla base dei link, e non del contenuto testuale: si basa sullidea che il contenuto non è autodescrittivo, e che il conferimento di importanza di una pagina è un processo esogeno. È alla base dellalgoritmo di ranking usato da Google.

LIDEA DEL PAGERANK Una pagina è tanto più importante quanto più numerose sono le pagine che la puntano. Se R i indica limportanza (rango) di una pagina i, essa distribuisce la propria importanza in modo uniforme alle pagine che punta: dove j i indica la presenza di un link da j a i, e N j è il numero di link contenuti nella pagina j. Esiste una (unica) soluzione allequazione di ricorrenza? Solo se il grafo è fortemente connesso!

MISURA AMMORBIDITA Per garantire che il grafo sia fortemente connesso, si introduce un fattore che corrisponde a supporre dei link random al grafo: dove N è il numero di pagine. Il rango della pagina i è determinato in parte (cioè, per una frazione 1- ) dalle pagine che puntano i, e in parte (frazione ) è acquisito gratuitamente (come per effetto della presenza di archi da tutte le pagine alla pagina i). [0,1]: di solito 0,15 (fattore di spargimento).