La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Hadoop Ida Mele Sapienza Università di Roma. Hadoop: introduzione (1) Apache Hadoop: – – Framework.

Presentazioni simili


Presentazione sul tema: "Hadoop Ida Mele Sapienza Università di Roma. Hadoop: introduzione (1) Apache Hadoop: – – Framework."— Transcript della presentazione:

1 Hadoop Ida Mele Sapienza Università di Roma

2 Hadoop: introduzione (1) Apache Hadoop: – – Framework che supporta calcolo distribuito, affidabile e scalabile. – Inspirato a MapReduce di Google, permette di lavorare con migliaia di nodi e patabyte di dati. – Open-source. Principali utilizzatori di Hadoop sono: Yahoo!, AOL, Ebay, Facebook, Linkedin e Twitter. Pagina 1

3 Hadoop: introduzione (2) Il progetto include i seguenti sottoprogetti: – Hadoop Common: utility che supportano gli altri sottoprogetti di Hadoop. Include: FileSystem, RPC, e librerie per la serializzazione. – HDFS (Hadoop Distributed File System): file system distribuito. HDFS crea multiple repliche di blocchi di dati e le distribuisce su un cluster di nodi consentendo calcoli rapidi e grande affidabilità. – Hadoop MapReduce: un framework software per il calcolo distribuito su grandi quantità di dati. Pagina 2

4 Hadoop: installazione e configurazione (1) Scaricare lultima release stabile di Hadoop: – Configurazione: – File conf/hadoop-env.sh Specificare le variabili dambiente: LINUX: export JAVA_HOME=/usr/local/lib/... MAC OS: export JAVA_HOME=/Library/Java/Home Nota: devono sempre essere controllate le impostazioni locali della vostra macchina. Pagina 3

5 Hadoop: installazione e configurazione (2) Configurazione: – File conf/hadoop-env.sh Opzionale: Specificare la massima quantità di memoria assegnabile a Java heap: # The maximum amount of heap to use, in MB. Default is export HADOOP_HEAPSIZE=2000 Pagina 4

6 Hadoop: installazione e configurazione (3) Configurazione: – File core-site.xml Opzionale: specificare la directory in cui Hadoop andrà a scrivere l'output temporaneo hadoop.tmp.dir % Sostituire questo valore con la directory specificata /tmp/hadoop-tmp-${user.name} A base for other temporary directories. Pagina 5

7 Hadoop: esempio WordCounter (1) Scaricare dal sito WordCounter.jar e text.txt Copiare nella directory di Hadoop WordCounter.jar Creare nella directory di Hadoop la cartella einput. Copiare il file text.txt in einput. Posizionarsi nella directory di Hadpop e lanciare il comando: bin/hadoop jar WordCounter.jar mapred.WordCount einput/ eoutput/ Pagina 6

8 Hadoop: esempio WordCounter (2) Lopzione jar permette di specificare il file.jar con il codice da eseguire. Eseguiamo la classe WordCount del package mapred Il programma WordCount richiede di specificare la directory contenente i dati di input (einput) e la directory in cuiverrà scritto l'output (eoutput). Attenzione: la directory di output non deve esistere altrimenti Hadoop segnalerà il seguente errore: Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException : Output directory file: …../eoutput already exists Pagina 7

9 Hadoop: esempio WordCounter (3) Per leggere il risultato digitare il comando: more eoutput/part Se si vogliono ordinare i termini per frequenze decrescenti usare: sort -k2 -n -r eoutput/part Pagina 8

10 Hadoop: esempio WordCounter (4) the26 to15 of14 in9 and9 a9 that7 on7 is7 he6 has6 had 6 for 6 at6 are6 who5 players5 have5 club5 been5 The5 not4 Risultato sort: Ashley 4 was3 sale3 said3 new3 his3 be3 as3 …. Pagina 9


Scaricare ppt "Hadoop Ida Mele Sapienza Università di Roma. Hadoop: introduzione (1) Apache Hadoop: – – Framework."

Presentazioni simili


Annunci Google