Come contare gli utenti? Le basi tecnologiche per rilevare gli utenti di un sito Collezioni digitali di periodici in Italia e in Europa: standard, applicazioni,

Slides:



Advertisements
Presentazioni simili
Prof. Carla Fanchin – L.S. Tron
Advertisements

Cos’è la posta elettronica
3 ottobre 2000Consiglio Nazionale delle Ricerche Progetto Biblio MIME 1 Consiglio Nazionale delle Ricerche Area di Ricerca di Bologna Istituto per le Applicazioni.
1 Consorzio interuniversitario per le Applicazioni del Supercalcolo Per Università e Ricerca Stelline 2008 Sala Volta, venerdì 7 marzo 2008 Seminario:
Gli ipertesti del World Wide Web Funzionamento e tecniche di realizzazione a cura di Loris Tissìno (
Corso di Fondamenti di Informatica
Modulo 5 - posta elettronica
RETI INFORMATICHE Una panoramica su Internet WS_FTP
INTERNET : ARPA sviluppa ARPANET (rete di computer per scopi militari)
IL LINGUAGGIO HTML Il linguaggio html. Il linguaggio html. Utilizzo dei tag. Utilizzo dei tag. Script Browser I link I link Caricamento dei dati sul server.
Mantenimento dello stato Laboratorio Progettazione Web AA 2009/2010 Chiara Renso ISTI- CNR -
Connessione con MySQL.
IL NOSTRO LABORATORIO Di INFORMATICA. Nel nostro laboratorio abbiamo 24 postazioni con dei computer di tipo Desktop con queste caratteristiche: Sistema.
IL NOSTRO LABORATORIO Di INFORMATICA. Presentazione Nel nostro laboratorio abbiamo 24 postazioni con dei computer di tipo Desktop con queste caratteristiche:
I modelli di riferimento OSI e TCP/IP
Responsabile: Ing. Daniele Bocci CORSO INTEGRATO DI INFORMATICA Master in Management Infermieristico.
Cosè Internet E una rete che consente la comunicazione tra computer di diverso tipo dislocati in qualsiasi località del mondo.
Architettura del World Wide Web
Posta elettronica ( ) chiocciola" comunemente letta at Identificativo dellutente Identificativo del computer centrale sul quale risiede.
CORSO DI INFORMATICA LAUREA TRIENNALE-COMUNICAZIONE & DAMS
Corso di Informatica A.A
Il protocollo ftp.
23 novembre 2000IAT-CNR Progetto Biblio MIME 1 Consiglio Nazionale delle Ricerche Area di Ricerca di Bologna Istituto per le Applicazioni Telematiche di.
RETI E INTERNET.
RISORSE WEB Internet Per un uso consapevole delle risorse della Rete
Posta elettronica : per iniziare : per iniziare Primi passi con la posta elettronica Primi passi con la posta elettronica
4 Cosa è una rete? ã Punto di vista logico: sistema di dati ed utenti distribuito ã Punto di vista fisico: insieme di hardware, collegamenti, e protocolli.
Modelli ed Applicazioni di Reti di Calcolatori L-S Anno Accademico Università degli Studi di Bologna Ing. Fabio Tarantino –
ASP Lezione 1 Concetti di base. Introduzione ad ASP ASP (che è la sigla di Active Server Pages) è un ambiente di programmazione per le pagine web. La.
Corso di PHP.
Corso di Informatica per Giurisprudenza Lezione 7
Social network Internet. Eun sito web di reti sociali, ad accesso gratuito. È il secondo sito più visitato al mondo, preceduto solo da Google. Il.
Modulo 7 – reti informatiche u.d. 2 (syllabus – )
Modulo 7 – reti informatiche u.d. 1 (syllabus – )
Guida IIS 6 A cura di Nicola Del Re.
Test Reti Informatiche A cura di Gaetano Vergara Se clicchi sulla risposta GIUSTA passi alla domanda successiva Se clicchi sulla risposta ERRATA passi.
Server Web in una rete Windows Sommario Meccanismi di accesso remoto Meccanismi di accesso remoto Introduzione ai Server Web Introduzione ai Server.
AICA Corso IT Administrator: modulo 4 AICA © EUCIP IT Administrator Modulo 4 - Uso Esperto della Rete Risoluzione dei Problemi e Analisi del Traffico.
Corso di Informatica A.A Corso di Informatica Laurea Triennale - Comunicazione&Dams Dott.ssa Maria Vittoria Avolio Laurea.
1 Ripassino Reti di Computer Carasco 19/02/ Che cosa è una rete informatica? Una rete informatica è un insieme di computer connessi tra di loro.
Applicazioni Web HTTP, HTML e CSS Elaborato da Gianluca Lauteri e Daniele Filannino.
Creare pagine web Xhtlm. Struttura di una pagina.
Gianpaolo Cecere Introduzione
Sicurezza Informatica. Conoscere ed evitare! 2/19 I Virus e le truffe informatiche.
Modulo 2 - U.D. 3 - L.4 Ernesto Damiani - Sistemi di eleborazione dell'informazione.
BIOINFO3 - Lezione 101 GLI IPERTESTI Una delle innovazioni introdotte da HTML e dal WWW in generale, rispetto ad un testo normale è sicuramente la possibilità
Università degli studi di Roma la Sapienza --- Laboratorio di Basi di Dati II - a.a. 2003/04 Presentato da: CAU Simone Matricola:
Configurazione di una rete Windows
Amministrazione della rete: web server Apache
ASP – Active Server Pages - 1 -Giuseppe De Pietro Introduzione ASP, acronimo di Active Server Pages, sta ad indicare una tecnologia per lo sviluppo di.
Applicazione Web Informatica Abacus Informatica Classe VIA 2008/2009 N.Ceccon INF (01) Revisione 4.0 settembre 2008.
L’architettura a strati
Corso Web CSV – Andiamo on-line 1 Andiamo on-line Corso di formazione Elementi base per la costruzione di un sito web.
FTP File Transfer Protocol
Creato da Riccardo Nuzzone
Realizzazione Sito Web
Internet e HTML Diffusione di informazioni mediante la rete Internet.
1 Storia di Internet Internet non è un’invenzione degli anni ’90….. Nata dagli studi di un’agenzia detta ARPA (Advanced Research Projects Agency) Internet.
Eprogram informatica V anno. ASP.NET Introduzione ASP.NET (Active Server Page) è il linguaggio che, sfruttando la tecnologia.NET, permette di: -scrivere.
InternetInternet Sede: Salvo D’acquisto 2010/2011 Docente: Vito Monno.
TW Asp - Active Server Pages Nicola Gessa. TW Nicola Gessa Introduzione n Con l’acronimo ASP (Active Server Pages) si identifica NON un linguaggio di.
Sistemi di elaborazione dell’informazione Modulo 3 -Protocolli applicativi Unità didattica 4 -Protocolli del Web Ernesto Damiani Lezione 1 – World Wide.
Servizi Internet Claudia Raibulet
Informatica Lezione 8 Psicologia dello sviluppo e dell'educazione (laurea magistrale) Anno accademico:
Lezione 6: Form.  In alcuni documenti HTML può essere utile creare dei moduli (form) che possono essere riempiti da chi consulta le pagine stesse (es.
Cercare In Internet. Cercare in Rete La scuola ha un ruolo preciso in relazione a quella che nei paesi anglosassoni viene denominata: Information Literacy.
Applicazione Presentazione Sessione Trasporto Rete Data link Fisico OSI Processo / Applicazione Trasporto Rete- Internet Interfaccia di.
INTERNET E INTRANET Classe VA SIA. La Storia di INTERNET ’ – ARPANET 1969 – anno di nascita università Michigan - Wayne 1970 – – INTERNET.
1 Il livello transport. Concetti fondamentali - Canale logico e canale fisico 2 Quando un segnale deve essere trasmesso, viene inviato su un Canale, cioè.
Alessio Sanchini Cl. 1B A.S. 2014/2015. Introduzione ARPAnet World Wide Web. Diffusione L’evoluzione Internet.
Transcript della presentazione:

Come contare gli utenti? Le basi tecnologiche per rilevare gli utenti di un sito Collezioni digitali di periodici in Italia e in Europa: standard, applicazioni, valutazioni, prospettive Arco (TN) Novembre 2007 Zeno Tajoli –

16.Nov.072 Abstract In questo workshop si vuole illustrare le basi e le problematiche connesse alla rilevazione degli utenti di un sito, le loro caratteristiche, le operazioni che compiono. Per compiere queste rilevazioni si illustrera' come funziona in generale la comunicazione tra un utente e un sito e come gli utenti siano anonimi, ma lascino sempre dei dati, che una volta interpretati, possono dire molto di loro. In particolare verranno illustrate le problematiche sottese a queste operazioni,per permettere al bibliotecario di capire meglio cosa significano esattamente i dati forniti dai software che valutano l'uso di risorse digitali accessibili a tutti gli utenti di Internet.

16.Nov.073 Prerequisiti Uso di Internet Generica conoscenza dei PC Interesse a guardare dietro le quinte Nessun vero background tecnico richiesto Si parte dalla base

16.Nov.074 Punti salienti Come si comunica ? Che informazioni ho ? Come estrarre i dati. Superare i limiti presentati Un esempio

16.Nov.07 - Da Informatica di base di R.Gaeta 5 Come si comunica ? Sono necessari meccanismi software per permettere ai vari computer di dialogare di gestire la comunicazione protocolli (convenzioni) di comunicazione meccanismi di indirizzamento (come identificare un computer) spedizione sulle connessioni opportune

16.Nov.07 - Da Informatica di base di R.Gaeta 6 Come si comunica ? invio e ricezione di messaggi verifica correttezza dei messaggi durante la trasmissione protezione dei messaggi (per evitare intercettazione) ottimizzazione della comunicazione gestione del traffico sulla rete

16.Nov.07 - Da Informatica di base di R.Gaeta 7 Come si comunica ? Un protocollo umano e un protocollo di reti di computer: 1) Ciao 2) Ciao 3) Hai lora? 4) 2:00 a) TCP connection b) request c) TCP connection d) reply. e) Get f) Domanda: Altri protocolli umani?

16.Nov.07 - Da "Informatica di base" di R. Gaeta 8 Come si comunica ?

16.Nov.07 - Da Informatica di base di R.Gaeta 9 Come si comunica ?

16.Nov.07 - Da Informatica di base di R.Gaeta 10 Come si comunica ?

16.Nov.07 - Da Informatica di base di R.Gaeta 11 Come si comunica ?

16.Nov.07 - Da Informatica di base di R.Gaeta 12 Come si comunica ?

16.Nov.0713 Come si comunica ? Application Transport Internet Nw Interface di rete Messaggi o streams Pacchetti TCP Datagrams IP Frames specifici hardware Il www in realtà usa due protocolli, il TCP e lIP

16.Nov.0714 Come si comunica ? Il protocollo IP protocollo che lavora con pacchetti (datagram) indipendenti e di formato predefinito i nodi possono eliminare datagram se mancano le risorse nessun algoritmo di correzione sui datagram frammentazione lungo la stradae riassemblaggio gestito alla destinazione nessuna garanzia di instradamento dei datagram riconfigurazione automatica della strada percorsa in caso di malfunzionamenti distruzione dei datagram se ripetitivi

16.Nov.07 - Da Informatica di base di R.Gaeta 15 Come si comunica ?

16.Nov.07 - Da Informatica di base di R.Gaeta 16 Come si comunica ?

16.Nov.07 - Da Informatica di base di R.Gaeta 17 Come si comunica ?

16.Nov.07 - Da Informatica di base di R.Gaeta 18 Come si comunica ?

16.Nov.0719 Come si comunica ? Una struttura di comunicazione complessa Dimensionabile da 2 a n sistemi Senza preconoscenza di tutta la struttura Senza totale anonimato Senza totale sicurezza di chi è e cosa ha realmente ricevuto

16.Nov.0720 Come si comunica ? La comunicazione è tra macchine Il dato fondamentale è l IP Ma non tutti lhanno fisso I grandi fornitori di connettività (TIM, AOL, Tiscali, etc.) ne hanno un pool che fanno usare, girandoli, tra gli utenti finali Anche server con IP dinamico (Dynamic DNS)Dynamic DNS

16.Nov.0721 Che informazioni ho ? Browser utente Server Files di log

16.Nov.0722 Che informazioni ho ? Via via che la comunicazione client/server va avanti, il server scrive quanto avviene su un file Di norma i file sono due, Il primo per le operazioni normali Il secondo per quanto ha causato errori Si analizzerà quanto fa il server web Apache 2, simile é il comportamento di IIS di Microsoft

16.Nov.0723 Che informazioni ho ? xx "-" "-" [11/Nov/2007:06:43: ] "GET /archive/ / HTTP/1.1" " PT&lr=lang_pt&start=170&sa=N" "Mozilla/4.0(MSIE 6.0) xx "-" "-" [11/Nov/2007:06:43: ] "GET /eprints.css HTTP/1.1" " " Mozilla/4.0(MSIE 6.0)" " xx "-" "-" [11/Nov/2007:06:43: ] "GET /images/imatge.jpg HTTP/1.1" " " Mozilla/4.0(MSIE 6.0)" xx "-" "-" [11/Nov/2007:06:43: ] "GET /images/mon.jpg HTTP/1.1" " "Mozilla/4.0(MSIE 6.0)" xx "-" "-" [11/Nov/2007:06:43: ] "GET /images/dibuix.jpg HTTP/1.1" " "Mozilla/4.0(MSIE 6.0)" xx "-" "-" [11/Nov/2007:06:43: ] "GET /images/reflink.png HTTP/1.1" " "Mozilla/4.0(MSIE 6.0)" xx "-" "-" [11/Nov/2007:06:43: ] "GET / .js HTTP/1.1" " " Mozilla/4.0(MSIE 6.0)" yy "-" "-" [11/Nov/2007:06:43: ] "GET /7876/ HTTP/1.1" "-" "Mozilla/5.0 Firefox/ "

16.Nov.0724 Che informazioni ho ? IP-address remoto IP-address locale Dimensione della risposta (senza gli header) Dati del cookie inviato dal browser Tempo per gestire la richiesta sul server Variabili interne del server Nome del file inviato Protocollo di richiesta Informazioni che il browser dà di se stesso Che lingua richiede Che set di caratteri usa Che pagina ha visto prima Come si chiama il software del browser Altre informazioni molto variabili tra i diversi software LogNome dellutente remoto se autenticato Il modo di fare la richiesta

16.Nov.0725 Che informazioni ho ? Le intestazioni inviate nella risposta La porta di comunicazione I numeri interni del servizio nella memoria (PID) La parte domanda di una richiesta ricevuta La richiesta ricevuta Lo status della comunicazione Lora in cui si è ricevuta la richiesta Nome associato al LogName dellutente remoto se autenticato La richiesta ricevuta senza la eventuale parte domanda Nome del server Status della connessione dopo linvio di quanto chiesto Bytes ricevuti tutto compreso Bytes inviati tutto compreso Riferimento completi: RFC 2616 e modulo Apache 2 mod_log_config

16.Nov.0726 Che informazioni ho ? xx "-" "-" [11/Nov/2007:06:43: ] "GET /archive/ / HTTP/1.1" " PT&lr=lang_pt&start=170&sa=N" "Mozilla/4.0(MSIE 6.0) Da IP xx un browser MSIE chiama eprints.rclis.org e chiede la home di 11300, viene da una query su google, la richiesta è andata buon fine e sono stati inviati bytes xx "-" "-" [11/Nov/2007:06:43: ] "GET /eprints.css HTTP/1.1" " " Mozilla/4.0(MSIE 6.0) Sempre allo stesso inviato con sucesso il file eprints.css xx "-" "-" [11/Nov/2007:06:43: ] "GET /images/imatge.jpg HTTP/1.1" " " Mozilla/4.0(MSIE 6.0) Sempre allo stesso inviato con sucesso il file imatge.jpg xx "-" "-" [11/Nov/2007:06:43: ] "GET /images/mon.jpg HTTP/1.1" " "Mozilla/4.0(MSIE 6.0)" Sempre allo stesso inviato con sucesso il file mon.jpg Vari invii di diversi files allo stesso IP

16.Nov.0727 Che informazioni ho ? yy "-" "-" [11/Nov/2007:06:43: ] "GET /7876/ HTTP/1.1" "-" "Mozilla/5.0 Firefox/ Connessione con sucesso di un altro IP I log di esempio hanno questa sintassi: "%h \"%l\" \"%u\" %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\ I dati sono in stretto ordine di tempo Dunque si accavallano lun con laltro

16.Nov.0728 Come estraggo i dati. Ma quando finisce la sessione ? Posso collegare i vari passi dellutente ? Se ritorna lo stesso IP è la stessa macchina ? Stessa macchina = stessa persona ?

16.Nov.0729 Come estraggo i dati. I raggruppamenti e le successive analisi si fanno sfruttando di base: Il valore dellIP Lorario delloperazione La fine sessione viene definita attraverso unintervallo temporale minimo tra una nuova eveninza dello stesso IP Un limite dice che è lo stesso utente che fa una nuova sessione Un secondo limite dice che è un utente diverso. Un esemipio: Tra 0 e 5 minuti: stesso utente e stessa sessione Tra 5 minuti e 1 ora: stesso utente ma diversa sessione Otre 1 ora: diverso utente

16.Nov.0730 Come estraggo i dati. La gestione dei limiti temporali è il passaggio cruciale le elaborazione. I dati sui files e su quanto è stato inviato sono dunque precisi e certi I dati sugli utenti sono dunque delle stime. Diversi software usano diversi algoritmi per queste stime

16.Nov.0731 Come estraggo i dati. Stessa macchina non è stessa persona Si vogliono vedere le visite di una persona Dunque quando si supera il limite massimo, uno stesso utente o un utente diverso per noi pari sono.

16.Nov.0732 Come estraggo i dati. Non sempre dietro una macchina cè una persona Ci sono software che scaricano dal web per vari motivi (robots/spiders/ agents/etc.) Bisogna inferire dal loro comportamento che sono software Una volta identificati si riconoscono successivamente usando IP e nome del software di browsing La lista dei robots va costantemente aggiornata Vi sono anche scaricatori massivi usati dalle persone, i cosidetti site downloader Di norma sono considerati come i robots

16.Nov.0733

16.Nov.0734

16.Nov.0735

16.Nov.0736 Come estraggo i dati. Diversi soft. su stessi dati = diverse stime WEBALIZER: ANALOG: AWSTATS: Sono software generali che vanno bene per ogni sito

16.Nov.0737 Come estraggo i dati. Localizzare tramite lIP Possibile tramite studi su quanto riferito dai gestori alle autorità che gestiscono Internet Le opzioni gratuite sono una versione limitata di dati commenrciali Anche questa e una stima il cui risultato è diverso tra i vari software

16.Nov.0738 Come estraggo i dati. AlienIP: GeoIP: location location Geovisite: HostIP.info:

16.Nov.0739 Superare i limiti presentati I cookies File di testo inviati dal server alla prima connessione. Il server può controllare sul browser la presenza o assenza del suo cookie Il browser può bloccarli Lutente puo cancellarli Sono abbastanza temuti dagli utenti che li cancellano spesso Spesso usati per estrarre dati sulla navigazione in generale da agenzie pubblicitarie. Questultima tipologia è molto avversata dagli utenti

16.Nov.0740 Superare i limiti presentati Uso delle sessioni anonime Usabile se invece di pagine statiche si ha un sito con pagine dinamiche Tengo nota dellhand-shake con il gestionale del sito Scrivo in un db un identificativo di sessione e ci collego le attività rilevanti Chiudo la sessione quando non ho attività da quella fonte che ha fatto lhand-shake dopo un x temporale (15-60 minuti) Preciso nel rilevare gli inizi Preciso nel rilevare lattività Leggera imprecisione nella chiusura Non lega tra loro le diverse visite Non distingue persone/robots

16.Nov.0741 Superare i limiti presentati Uso sessioni non anonime Sempre per siti dimanici Sempre con lappoggio di un db Ogni utente e perfettamente identificato Solo persone, no robots Le varie visite si collegano tra loro Le persone non amanno dover ricordare una userid/password Voglia di anonimato diffusa Non si è presenti sui motori di ricerca [Elsevir ci riesce con accordi ad hoc con goggle scholar] Si esce da quello che è il web normale

16.Nov.07 - © di Shyni Stat42 Superare i limiti presentati Portare i dati su una terza parte

16.Nov.0743 Superare i limiti presentati Si inserisce del codice javascritpt in tutte le pagine E il browser dellutente che manda i dati alla terza parte I robots non hanno javscripts e dunque sono esclusi Può lasciare un traccia sul Pc dellutente meno invadente dei cookies Si usa lexpertise e i mezzi di una grande organizzazione Posso esserci problemi di caricamento e di rete usando anche un server di terzi

16.Nov.0744 Superare i limiti presentati Google analytics: HiStats: ShymyStat: Site Meter:

16.Nov.0745 Un esempio Le statistiche in batch di E-LIS per items Punto di partenza: un singolo items Es: =show_detail_eprint&id= =show_detail_eprint&id=6656 I dati che si vogliono sono: Quanto volte sono stati letti i metadati (views) Quante volte sono stati scaricai i full-texts (downloads) Non considerare i downloads multipli Non considerare i robots

16.Nov.0746 Un esempio Si opera sui logs di apache Troppo complesso gestire le sessioni anonime Si contano le righe con una specifica azione dellapplicazione Si fanno de controlli sulla distanza temporale dello stessa azione fatta dallo stesso IP Si escludono i robots via lista fissa aggiornata periodicamente

16.Nov.0747 Un esempio xx "-" "-" "- " "GET /archive/ / HTTP/1.1" 200 […] Questa è lindicazione di un view xx "-" "-" "-" "GET /archive/ /01/deposito.pdf HTTP/1.1" 200 […] Questa è lindicazione di un download Per essere contate due volte le stesse operazioni devono essere distanziate di 180 secondi

16.Nov.0748

16.Nov.0749

16.Nov.0750 Un esempio Punti problematici La geolocalizzazione La lista dei robots non si aggiorna automaticamente Notevole spazio necessario sul server Soluzione non confrontabile con indicatori di utilizzo sito standard, dunque compresenza di statistiche dovute a webanalizer (a partire da )

16.Nov.0751 DOMANDE ?

16.Nov.0752 Link utili Informatica di base, R. Gaeta, 2004 URL: CA/INF-0304/#Lucidi URL: CA/INF-0304/#Lucidi modulo Apache 2 mod_log_config: g_config.html g_config.html RFC 2616: html html Sul dynamic DNS: