Hadoop: introduzione (1)

Slides:



Advertisements
Presentazioni simili
XmlBlackBox La presentazione Alexander Crea 11 Aprile 2010 La presentazione Alexander Crea 11 Aprile 2010.
Advertisements

SVILUPPATO DA MIT Libraries e Hewlett-Packard (HP)
Shell: variabili di sistema PATH HOME USER PWD SHELL HOSTNAME HOSTTYPE Per visualizzare il valore di tutte le variabili dambiente si usa il comando set.
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Lab 1: Marzo 2013 Marco D. Santambrogio – Gianluca Durelli -
Compilazione di Programmi C/C++
Programmazione in Java
Code::Blocks Ambiente di sviluppo.
Commenti C#.
I linguaggi di programmazione
Usare Apache Axis.
Java2 Esercitazioni del corso di Sistemi Informativi Marina Mongiello
DLL: Dynamic Linking Library
Dr. Giovanni Stracquadanio
XmlBlackBox La presentazione Alexander Crea 7 Giugno 2010 La presentazione Alexander Crea 7 Giugno 2010.
Giuseppe Fabio Fortugno.
Programmazione Procedurale in Linguaggio C++
Programmazione Procedurale in Linguaggio C++
Limplementazione del database Oracle in Aleph500 Udine, marzo 2001.
APPLICAZIONI E BASI DATI DISTRIBUITE
Process synchronization
Laboratorio di Linguaggi note sull'uso dell' IDE DevC++ Marco Tarini Università dellInsubria Facoltà di Scienze Matematiche, Fisiche e Naturali di Varese.
1 Corso di Informatica (Programmazione) Lezione 6 (31 ottobre 2008) Introduzione a Java: primo programma, installazione dellambiente di sviluppo, compilazione.
Corso di Laurea in Biotecnologie Informatica (Programmazione)
OPEN OFFICE e IMPRESS Masucci Antonia Maria.
Installazione pacchetti sotto Linux. Linux: Installare le applicazioni Adesso che abbiamo configurato Linux vogliamo imparare a installare qualche programma.
Guida Linux Molto rapida…. Due parole sullambiente grafico Potete usare: KDE o GNOME Si sceglie prima di mettere la password. Questione di gusti…
Laboratorio 1: Usare Linux. File system Il file system è la componente del sistema operativo che si occupa della gestione di file e cartelle Con laccount.
Esercitazione 2 Ranking di pagine Web Ilaria Bordino Ilaria Bordino e Debora Donato Corso di Ricerca dell'informazione nel Web - A.A. 2006/2007.
Ranking di pagine Web Ilaria Bordino, Yahoo! Research Barcelona Ida Mele, Sapienza Universita di Roma.
Calcolo di PageRank: esercizio
Un introduzione a Java Ant per lutilizzo con Swarm Marco Lamieri 13/04/2004.
Primi programmi in Java
Shell: variabili di sistema PATH HOME USER PWD SHELL HOSTNAME … Per visualizzare il valore di tutte le variabili dambiente si usa il comando set.
Organizzazione della Memoria (Unix) Text contiene le istruzioni in linguaggio macchina del codice eseguibile, può essere condiviso in caso di processi.
1 LINUX: struttura generale The layers of a UNIX system. User Interface.
Sistemi Operativi - Introduzione 1 Il sistema operativo UNIX Dettagli e comandi avanzati Niccolò Battezzati Politecnico di Torino Dip. Automatica e Informatica.
Corso di PHP.
C# LE BASI 2007 Prima lezione - Introduzione.
Il compilatore Dev-C++
e per generare Bibliografie
Sistemi Operativi – La shell Salvatore Campagna Politecnico di Torino Dipartimento di Automatica.
Modulo 7 – reti informatiche u.d. 3 (syllabus – )
Fare clic per modificare lo stile del titolo Fare clic per modificare stili del testo dello schema – Secondo livello Terzo livello – Quarto livello » Quinto.
Guida IIS 6 A cura di Nicola Del Re.
Windows Server 2003 R2 Distributed File System Andrea Candian.
Introduzione a XI Conferenza nazionale di Statistica febbraio 2013 Pillole formative di statistica.
Fondamenti di JSP: Introduzione
BIOINFO3 - Lezione 111 CGI-BIN CGI-BIN sono chiamati i programmi la cui esecuzione può essere richiesta attraverso il WEB. Il server web (httpd) della.
BIOINFO3 - Lezione 301 CGI-BIN Abbiamo visto che CGI-BIN sono chiamati i programmi la cui esecuzione può essere richiesta attraverso il WEB. In particolare.
Milano, 10 Dicembre 2013 Informatica B Informatica B Matlab Laboratorio del 10/12/2013 Responsabili di laboratorio: Gianluca Durelli:
Amministrazione della rete: web server Apache
Lezione 1 Approccio al sistema operativo : la distribuzione Knoppix Live Cd Knoppix 3.6 Interfacce a caratteri e grafica: console e windows manager File.
Ant Che cos’è Come si utilizza Funzionalità principali
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Lab 1: Marzo 2014 Marco D. Santambrogio – Gianluca Durelli -
Introduzione. Introduzione Un’applet Java: Una applet ("applicazioncina") è una applicazione non autonoma, ma pensata per far parte di una pagina Internet.
PHP - PHP: Hypertext Preprocessor. Introduzione PHP (acronimo ricorsivo per "PHP: Hypertext Preprocessor") è un linguaggio di scripting general-purpose.
JAVA Per iniziare. Verificare installazione javac –version java –version Cercare i files e sistemare eventualmente il path.
Vannucci Roberto (5BM), De Nardin Axel (5AM)
Il linguaggio PHP.
ROOT Tutorial.
OpenProj: una valida alternativa a MS Project
Docente: G. Ianni Esercitatori: A. Martello (Sistemi Operativi), V. Lio (Reti) Sito del corso: Google ‘sistemi operativi e reti unical’ Gruppo FB («Sistemi.
Arduino: introduzione alla programmazione
© Copyright NTT DATA Italia – All Rights Reserved The information contained in this document is the property of NTT DATA Italia S.p.A. and the addressee.
TW Asp - Active Server Pages Nicola Gessa. TW Nicola Gessa Introduzione n Con l’acronimo ASP (Active Server Pages) si identifica NON un linguaggio di.
Tecnologie lato Server: i Server Web © 2005 Stefano Clemente I lucidi sono in parte realizzati con materiale tratto dal libro di testo adottato tradotto.
I Sistemi Operativi. Che cosa sono? Il sistema operativo è un software di base che fa funzionare il computer. I Sistemi operativi più importanti sono:
Istruzioni per aggiornamento driver consolle Coloro che avessero aggiornato il proprio Mac o avessero acquistato un Mac con sistema operativo “El Capitain”
Programmazione orientata agli Oggetti Introduzione a Java.
Transcript della presentazione:

Sapienza Università di Roma Hadoop Ida Mele Sapienza Università di Roma Ranking di pagine web Esercizi

Hadoop: introduzione (1) Apache Hadoop: http://hadoop.apache.org/ Framework che supporta calcolo distribuito, affidabile e scalabile. Inspirato a MapReduce di Google, permette di lavorare con migliaia di nodi e patabyte di dati. Open-source. Principali utilizzatori di Hadoop sono: Yahoo!, AOL, Ebay, Facebook, Linkedin e Twitter. Ranking di pagine web Esercizi 1

Hadoop: introduzione (2) Il progetto include i seguenti sottoprogetti: Hadoop Common: utility che supportano gli altri sottoprogetti di Hadoop. Include: FileSystem, RPC, e librerie per la serializzazione. HDFS (Hadoop Distributed File System): file system distribuito. HDFS crea multiple repliche di blocchi di dati e le distribuisce su un cluster di nodi consentendo calcoli rapidi e grande affidabilità. Hadoop MapReduce: un framework software per il calcolo distribuito su grandi quantità di dati. Ranking di pagine web Esercizi 2

Hadoop: installazione e configurazione (1) Scaricare l’ultima release stabile di Hadoop: http://hadoop.apache.org/common/releases.html Configurazione: File conf/hadoop-env.sh Specificare le variabili d’ambiente: LINUX: export JAVA_HOME=/usr/local/lib/... MAC OS: export JAVA_HOME=/Library/Java/Home Nota: devono sempre essere controllate le impostazioni locali della vostra macchina. Ranking di pagine web Esercizi 3

Hadoop: installazione e configurazione (2) File conf/hadoop-env.sh Opzionale: Specificare la massima quantità di memoria assegnabile a Java heap: # The maximum amount of heap to use, in MB. Default is 1000. export HADOOP_HEAPSIZE=2000 Ranking di pagine web Esercizi 4

Hadoop: installazione e configurazione (3) File core-site.xml Opzionale: specificare la directory in cui Hadoop andrà a scrivere l'output temporaneo <property> <name>hadoop.tmp.dir</name> % Sostituire questo valore con la directory specificata <value>/tmp/hadoop-tmp-${user.name}</value> <description>A base for other temporary directories.<description> </property> Ranking di pagine web Esercizi 5

Hadoop: esempio WordCounter (1) Scaricare dal sito WordCounter.jar e text.txt Copiare nella directory di Hadoop WordCounter.jar Creare nella directory di Hadoop la cartella einput. Copiare il file text.txt in einput. Posizionarsi nella directory di Hadpop e lanciare il comando: bin/hadoop jar WordCounter.jar mapred.WordCount einput/ eoutput/ Ranking di pagine web Esercizi 6

Hadoop: esempio WordCounter (2) L’opzione jar permette di specificare il file .jar con il codice da eseguire. Eseguiamo la classe WordCount del package mapred Il programma WordCount richiede di specificare la directory contenente i dati di input (einput) e la directory in cuiverrà scritto l'output (eoutput). Attenzione: la directory di output non deve esistere altrimenti Hadoop segnalerà il seguente errore: Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException : Output directory file: …../eoutput already exists Ranking di pagine web Esercizi 7

Hadoop: esempio WordCounter (3) Per leggere il risultato digitare il comando: more eoutput/part-00000 Se si vogliono ordinare i termini per frequenze decrescenti usare: sort -k2 -n -r eoutput/part-00000 Ranking di pagine web Esercizi 8

Hadoop: esempio WordCounter (4) Risultato sort: Ashley 4 was 3 sale 3 said 3 new 3 his 3 be 3 as 3 …. the 26 to 15 of 14 in 9 and 9 a 9 that 7 on 7 is 7 he 6 has 6 had 6 for 6 at 6 are 6 who 5 players 5 have 5 club 5 been 5 The 5 not 4 Ranking di pagine web Esercizi 9