La Farm di Atlas a Roma 1 Outline Architettura della farm Architettura della farm Installazione Installazione Monitoring Monitoring Conclusioni Conclusioni.

Slides:



Advertisements
Presentazioni simili
Cluster openMosix Linux Day ’04 Caserta Ing. Diego Bovenzi.
Advertisements

Installazione e Configurazione di un Sistema di Calcolo Distribuito operante sotto Linux INFN – Laboratori Nazionali Frascati Stage estivi 2006 Matteo.
Giuseppe Fabio Fortugno.
NetSaint: una soluzione OpenSource per il network monitoring
Progetto Speciale Prototipo Tier1 F. Ruggieri INFN – CNAF I Workshop CMS Italia del SW e Computing Roma 22 Novembre 2001.
WP 2.4 al Cnaf Cnaf 13/11/00 P.M Hardware: - 12 PC Rack mountable IBM XSeries 330 (1U) 2 processori Pentium III 800 Mhz, FSB 133 Mhz 512 MB Mem Ecc, Controller.
Giornata di incontro con i Borsisti GARR, Roma, Andrea Petricca Problematiche di rete nella sperimentazione di file-system distribuiti su WAN.
Struttura dei sistemi operativi (panoramica)
La facility nazionale Egrid: stato dell'arte Egrid-Team Trieste, 9 ottobre 2004.
Test sul Cisco VPN Concentrator
Linux Riunione Referenti-CCL 2-Luglio Utilizzo di Linux Principale (unica) piattaforma di calcolo per HEP Grid Supportato dalle maggiori industrie.
Gruppo Directory Services Rapporto dell'attivita' svolta - Marzo 2000.
Michele Michelotto INFN-Padova
Il Tutorial INFN-GRID/EDG di Torino Testbed INFN-GRID.
LNL M.Biasotto, Bologna, 13 dicembre La farm di Legnaro Massimo Biasotto – INFN LNL.
LNL M.Biasotto, Bologna, 13 dicembre Installazione automatica Massimo Biasotto – INFN LNL.
LNL M.Biasotto, Bologna, 18 ottobre La farm CMS di Padova - Legnaro Proposta di acquisto hardware 2° semestre 2001.
LNL CMS M.Biasotto, Firenze, 22 maggio Hardware e tools di installazione Massimo Biasotto INFN – Lab. Naz. di Legnaro.
1 M. Biasotto – Legnaro, 22 Dicembre 2005 Prototipo Tier 2 di Legnaro-Padova INFN Legnaro.
E. Ferro / CNAF / 14 febbraio /13 GRID.it servizi di infrastruttura Enrico Ferro INFN-LNL.
Alessandro De Salvo – Status del Tier2 di Atlas a Roma 1 – MDT Meeting – Pavia, 30 settembre – 1 ottobre 2002 Fibra ottica (Lab Atlas) Network Switch 3COM.
5 Feb 2002Stefano Belforte – INFN Trieste calcolo per CDF in Italia1 Calcolo per CDF in Italia Prime idee per lanalisi di CDF al CNAF Numeri utili e concetti.
1 Installazione da rete Introduzione Configurazione del server NFS Cosa serve sul client Configurazione kickstart.
Benigno Gobbo – INFN Trieste 1 CSNI 21 maggio 2001 Stato della farm di COMPASS-TS CSNI Roma, 21 maggio 2001 Benigno Gobbo INFN Trieste
Servizi Grid ed agenti mobili : un ambiente di sviluppo e delivering
Architettura di storage ad alta affidabilita e bilanciamento di carico per volumi centrali e di esperimento A.Brunengo, M.Corosu INFN Sezione di Genova.
Alessia Tricomi Università & INFN Catania
LNL GM, CNAF, 18 ottobre INFN-Farm Management Toolkit 1.Fabric Management per DataGrid e INFNGrid 2.Definizione dei requisiti degli esperimenti.
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Sicurezza nella Sezione INFN di Bologna Franco Brasolin Servizio Calcolo e Reti Sezione INFN di Bologna Riunione Referenti – Bologna 17 Novembre 2003 –
Extreme Cluster Administration Toolkit Alberto Crescente, INFN Sez. Padova.
RHCS XEN Cluster Dael Maselli – Workshop CCR – Maggio 2009.
LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
Condor standard. Sistema Batch. Tool di installazione D. Bortolotti,P.Mazzanti,F.Semeria Workshop Calcolo Paestum 9-12 Giugno 2003.
LNF Farm E. V. 9/8/2006. Hardware CE, LCFG, HLR, 3 WN: DL 360 1U; SE: DL 380 2U 5 WN: BL 25 P In totale 25 jobs general purpuse (coda Atlas) + una coda.
L. Servoli - CCR Roma 15 marzo Il progetto High Availability D. Salomoni - CNAF L. Servoli - INFN Perugia.
Sistemi operativi di rete Ing. A. Stile – Ing. L. Marchesano – 1/18.
Antivirus per mailserver: RAV Antivirus & altri Marco De Rossi – “Workshop sulle problematiche di calcolo e reti nell'INFN” 6-9 Maggio La Biodola.
Istituto Nazionale di Fisica Nucleare La Biodola, Isola d’Elba, 6-9 maggio 2002 AFS: Status Report WS CCR R.Gomezel Workshop sulle problematiche.
Meeting CCL-Referenti Stato dell’arte. 28 Aprile 2004 P.Mazzanti.
Workshop CCR Otranto - giugno 2006 Gruppo storage CCR Status Report Alessandro Brunengo.
Alessandro Tirel - Sezione di Trieste Storage Area Network Riunione gruppo Storage Padova, 5 ottobre 2005.
Grid nelle sezioni: Milano Luca Vaccarossa INFN – Sezione di Milano Workshop sulle Problematiche di Calcolo e Reti nell'INFN.
Meeting Referenti Sicurezza Network Franco Brasolin Servizio Calcolo e Reti Sezione INFN di Bologna Meeting Referenti – Bologna 28 Aprile 2004 – F. Brasolin.
Report HEPiX Spring meeting 2002 Workshop sulle problematiche di calcolo e reti nell'INFN 6-9 Maggio 2002 La Biodola - Isola d'Elba Silvia Arezzini.
Federico Ruggieri INFN-CNAF Commissione Scientifica Nazionale I Lecce 24 Settembre 2003 Il Progetto TIER1 Status Update.
CMS 1 M. Biasotto – Bologna 20/01/2005 Infrastruttura di calcolo per CMS-Italia M.Biasotto – INFN Legnaro e i gestori dei centri CMS Italia.
La Farm di Alice a Torino Workshop sulle problematiche di calcolo e reti Isola d’Elba 6-9 maggio 2002 Mario Sitta (Università del Piemonte Orientale e.
LNL CMS M.Biasotto, Bologna, 28 maggio Upgrade farm a RH-7.3  Due anni fa la farm era stata installata usando una versione customizzata di ANIS.
Enrico Mazzoni, INFN Pisa Workshop CCR La Biodola May 6-10, Sistema di Stampa INFN Sezione di Pisa Presentato da Enrico Mazzoni, INFN Pisa per.
Dael Maselli – Workshop CCR – Maggio  SAN  Red Hat Cluster Suite ◦ RedHat Enterprise, Scientific Linux o CentOS  XEN.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
Corso linux RiminiLUG presenta Rete a bassissimo budget per il piccolo ufficio architettura di rete LTSP in contesti professionali corso linux 2008.
Roberto Covati INFN di Parma. Workshop CCR/INFN GRID Palau maggio Sommario VmWare Server (in produzione dal 2004 al 2008) VmWare Infrastructure.
Roberto Covati – Roberto Alfieri INFN di Parma. Incontri di lavoro CCR dicembre Sommario VmWare Server (in produzione dal 2004) VmWare ESX.
Riunione PRIN STOA - Bologna - 18 Giugno 2014 Testbed del T2 distribuito Napoli-Roma Dr. Silvio Pardi INFN-Napoli Riunione PRIN STOA – Bologna 18 Giugno.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
High Avaliability with RHCS HA INFN CNAF 22 Marzo 2006 Bologna Ricci Pier Paolo, on behalf of INFN TIER1 Staff
DA e controlli DAFNE Riccardo Gargana Frascati 13/12/ /12/13.
Sistema di monitoraggio integrato Introduzione a cura di P. Mastroserio Servizio Calcolo & Reti Infn-Napoli P. Mastroserio Workshop CCR - INFN Grid Acireale.
Attività e servizi di calcolo a Roma Tor Vergata R. Kwatera, R. Lulli, R. Sparvoli Roma Tor Vergata.
Progetto iSCSI Report alla CCR 12-13/12/2006 Alessandro Tirel – Sezione di Trieste.
Test di storage a 10 Gbps proposta. Storage server a 10Gbps Si vuole vedere quali prestazioni si possano ottenere da server connessi a 10 GE –capacita’
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
Alessandro Tirel - Sezione di Trieste Storage servers & TCP Tuning Proposta di studio delle problematiche connesse alla fornitura di servizi di storage.
Aggiornamento AFS R.Gomezel Commissione Calcolo e Reti Presidenza 5/10/2010-7/10/2010.
La gestione della rete e dei server. Lista delle attività  Organizzare la rete  Configurare i servizi di base  Creare gli utenti e i gruppi  Condividere.
Transcript della presentazione:

La Farm di Atlas a Roma 1 Outline Architettura della farm Architettura della farm Installazione Installazione Monitoring Monitoring Conclusioni Conclusioni A. De Salvo, A. Di Mattia, L. Luminari, F. Marzano, A. Spanu Workshop CCR – La Biodola 6-9 maggio 2002

Alessandro De Salvo – La Farm di Atlas a Roma 1 – Workshop CCS– La Biodola 6-9 maggio 2002 Fibra ottica (Lab Atlas) Network Switch 3COM SuperStack II 3300 TM Gigabit Ethernet link Fast Ethernet Link Switch 3COM SuperStack II TB Storage G-Force RI SCSI Ultra160 Storage G-Force ZD-X-3I 0.8 TB L’architettura della farm (2002) 5 x Server SuperMicro 6010H Server Gigabyte GS-SR x Dual P3 1 GHz 11 x Dual P3 800 MHz Server SuperMicro 6040H Server SuperMicro 6010H 4 nodi GRID (CE,SE,WN,WN)

Alessandro De Salvo – La Farm di Atlas a Roma 1 – Workshop CCS– La Biodola 6-9 maggio 2002 Installazione Nodi non GRID –Installazione via RedHat kickstart –IP dinamico attraverso l’utilizzo del server DHCP di sezione –Kickstart via rete (RedHat 6.2/7.X) Le macchine client dotate di GE effettuano il kickstart direttamente dall’interfaccia Gigabit Ethernet –Il kickstart server è connesso allo switch tramite Gigabit Ethernet Tempo medio di installazione della Farm (in parallelo): 20 min. Nodi GRID –Installazione via LCFG –IP dinamico attraverso il server LCFG –EDG –1 CE, 1 SE, 2 WN

Alessandro De Salvo – La Farm di Atlas a Roma 1 – Workshop CCS– La Biodola 6-9 maggio 2002 Installazione (2) Problemi con RAID Promise FastTrak100 LT –RedHat Linux 6.2/7.0 Driver Promise (binary only) per kernel 2.2.x –RedHat Linux 7.1/7.2 Driver Promise sperimentale (binary only) per kernel 2.4.2/2.4.7 Per l’installazione del kernel (ultima versione redhat, supporto ext3 e bugfixes) non è disponibile ancora il driver (e non si sa neanche se lo sarà mai)! Il kernel della RedHat supporta parzialmente le devices FastTrak100 LT (alcune opzioni di compilazione non sono attivate) –Rebuild del kernel e update degli RPM –Rebuild del kernel (  kernel a) e update degli RPM Il disco di boot via rete della RedHat è creato con il kernel-BOOT-2.4.7, che non supporta il FastTrak100 LT –Update del dischetto di boot via rete (  kernel-BOOT a) e customizzazione di anaconda per Atlas (logo, rpmlist, opzioni di installazione) –Creazione di una serie di script per una più facile customizzazione di anaconda

Alessandro De Salvo – La Farm di Atlas a Roma 1 – Workshop CCS– La Biodola 6-9 maggio 2002 Installazione (3) Problemi con l’interfaccia Gbit Ethernet Intel e1000 –Il driver incluso nella distribuzione della RedHat non è utilizzabile per questo tipo di hardware –Compilazione del codice fornito da Intel e generazione degli RPMs per RedHat 6.x e 7.x –Inclusione del driver corretto (modulo di BOOT) nel dischetto di kickstart Le macchine dotate di interfaccia e1000 possono direttamente effettuare l’installazione via rete tramite interfaccia Gbit.

Alessandro De Salvo – La Farm di Atlas a Roma 1 – Workshop CCS– La Biodola 6-9 maggio 2002 Software environment Sistemi Operativi: –Gigabyte GS-SR101: RedHat Linux 7.0 (CASPUR) [RedHat Linux 7.2 (custom, CASPUR based)] –Supermicro 6010H/6040H: RedHat Linux 6.2 (CASPUR) –Supermicro utilizzate per GRID: RedHat Linux 6.2 (CERN) via LCFG Scheduler (batch system) –DQS v3.3.2 (Standalone) –OpenPBS 2.3 (GRID) AFS –Il client AFS è installato su tutti i nodi non GRID Software specifico Atlas –Il software e le librerie runtime di Atlas sono disponibili attraverso AFS e/o installazione locale –I nodi GRID hanno gli RPMs del kit di Atlas v1.3.0 installati (a breve upgrade alla versione 3.0.1/3.1.0) Grid software –INFN globus toolkit v1.2 (+ librerie di bypass – Silvia Resconi/Francesco Prelz) –EDG (European DataGrid) software (Globus 2) sui nodi GRID. Nodi di accesso –Storicamente classis01 è la macchina di front-end (public access via ssh) –Sistema multi-server tramite l’alias classis.roma1.infn.it

Alessandro De Salvo – La Farm di Atlas a Roma 1 – Workshop CCS– La Biodola 6-9 maggio 2002 Farm management Ogni due ore ogni nodo (cron) provvede all’esecuzione dello script centrale di configurazione e update presente sul server di kickstart –File passwd/shadow –Abilitazione dei servizi –Configurazione del firewall –Update degli scripts di configurazione –Check dei mounts via NFS –Configurazione dei demoni del sistema di code –Gestione degli upgrades/installazione degli RPM Il server di kickstart può in ogni momento forzare l’update delle configurazioni delle macchine o eseguire comandi contemporaneamente su tutto il cluster

Alessandro De Salvo – La Farm di Atlas a Roma 1 – Workshop CCS– La Biodola 6-9 maggio 2002 Monitoring (1) MRTGMonitoring via MRTG –I valori delle grandezze da misurare sono ottenuti tramite SNMP Estensione dell’albero di SNMP base –Temperatura delle CPUs via lmsensors –%CPU –% uso del sistema di code –I grafici prodotti sono pubblicati su web Esempio:

Alessandro De Salvo – La Farm di Atlas a Roma 1 – Workshop CCS– La Biodola 6-9 maggio 2002 Monitoring (2) GangliaCluster monitoring via Ganglia –Overall monitoring del cluster –Ogni nodo esegue il demone gmond che comunica con il server di monitoring via multicast –Possibilità di espansione delle metriche da misurare (gmetric)

Alessandro De Salvo – La Farm di Atlas a Roma 1 – Workshop CCS– La Biodola 6-9 maggio 2002 Monitoring (3) NetsaintMonitoring via Netsaint –Accessibile solo ai gestori della farm –Alert via su eventuali problemi

Alessandro De Salvo – La Farm di Atlas a Roma 1 – Workshop CCS– La Biodola 6-9 maggio 2002 Conclusioni 28 Nodi di calcolo Dual Processor + 2 Servers (~2.5 kSPECint95)28 Nodi di calcolo Dual Processor + 2 Servers (~2.5 kSPECint95) Installazione via kickstartInstallazione via kickstart –RedHat 6.2/7.0 CASPUR –RedHat 7.2 custom (CASPUR based) Utilizzo di 4 macchine della farm per EDGUtilizzo di 4 macchine della farm per EDG –Installazione via LCFG Monitoring via MRTG/RRDtool, Ganglia, NetsaintMonitoring via MRTG/RRDtool, Ganglia, Netsaint

Alessandro De Salvo – La Farm di Atlas a Roma 1 – Workshop CCS– La Biodola 6-9 maggio 2002 Statistiche Users (Roma1/2/3, Frascati, MI, PV, CS)41 Users “attivi”12 Utilizzo medio della farm via batch (da )~25 % Spazio disco usato332 GB (81%) Hackers3 Recovery time (hacker 1/2/3)72 h / 24 h / 45 min Problemi al raid3 [t perso = ~15g] Problemi ai nodi di calcolo1 [t perso = ???] Ventole di raffreddamento> 20 [t perso = 0]

Alessandro De Salvo – La Farm di Atlas a Roma 1 – Workshop CCS– La Biodola 6-9 maggio 2002 Spazio Disco Spazio disco (dati + utenti)Spazio disco (dati + utenti) Aree di backupAree di backup –2 dischi SCSI da 36 GB su classis01 (+ altri 3 dischi da 36 GB su altre macchine) –Backup delle home directories via Arkeia –Crash recovery con tar (Crash recovery con mkCDrec in fase di test) ModelloMount PointDimensione [GB]Utilizzo [%] G-Force RIclassis01:/home3093 G-Force RIclassis01:/storage/data G-Force RIclassis01:/storage/data G-Force ZD-X-3Iclassis02:/storage/data3~350 GB0 G-Force ZD-X-3Iclassis02:/storage/data4~350 GB0