CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.

Slides:



Advertisements
Presentazioni simili
STRUTTURA DEL SISTEMA OPERATIVO
Advertisements

Unità D2 Database nel web. Obiettivi Comprendere il concetto di interfaccia utente Comprendere la struttura e i livelli che compongono unapplicazione.
Cluster openMosix Linux Day ’04 Caserta Ing. Diego Bovenzi.
Strutture dei Sistemi Operativi
Luglio 2004Storage Resource Management1 STORAGE RESOURCE MANAGEMENT (SRM) Luglio 2004.
Workshop CCR Otranto - maggio 2006 General Parallel File System: caratteristiche, prestazioni ed esempi di utilizzo in produzione Alessandro Brunengo -
Struttura dei sistemi operativi (panoramica)
Software di base Il sistema operativo è un insieme di programmi che opera sul livello macchina e offre funzionalità di alto livello Es.organizzazione dei.
Introduzione Cosa è un Sistema Operativo ?
Il Tutorial INFN-GRID/EDG di Torino Testbed INFN-GRID.
Execution benchmarks Obiettivi Test dettagliati e ben caratterizzati Esecuzione di benchmark standard Test di applicazioni dell'esperimento ALICE 20 Novembre.
5 Feb 2002Stefano Belforte – INFN Trieste calcolo per CDF in Italia1 Calcolo per CDF in Italia Prime idee per lanalisi di CDF al CNAF Numeri utili e concetti.
Case study Maiora srl.
INTRODUZIONE l sistema operativo è il primo software che lutente utilizza quando accende il computer; 1)Viene caricato nella memoria RAM con loperazione.
Benvenuti a Un incontro informativo di grande valore ed alto contenuto sulla Virtualizzazione e sistemi ad alta disponibiltà per le PMI.
Software e sistema operativo 19-22/5/08 Informatica applicata B Cristina Bosco.
VIRTUALIZZAZIONE Docente: Marco Sechi Modulo 1.
Il Sistema Operativo (1)
Architettura di storage ad alta affidabilita e bilanciamento di carico per volumi centrali e di esperimento A.Brunengo, M.Corosu INFN Sezione di Genova.
Riunione CCR 20/10/2005 Gruppo Storage Relazione attivita primo semestre 2005 e pianificazione 2006 Alessandro Brunengo.
Alessia Tricomi Università & INFN Catania
Analysis unibo una proposta. Work flow di una tipica analisi 1.Simulazione di piccoli campioni di eventi per studio segnale 2.Generazione in grande.
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Riunione gruppo storage – Roma 05/05/2005 Test di affidabilita’ e performance a Genova Alessandro Brunengo.
AFS Working Group R.Gomezel CCRWS Verso la sfida di LHC Otranto (Lecce), 6-9 Giugno 2006.
Le “nuvole informatiche”
Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso.
LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)
Condor standard. Sistema Batch. Tool di installazione D. Bortolotti,P.Mazzanti,F.Semeria Workshop Calcolo Paestum 9-12 Giugno 2003.
L. Servoli - CCR Roma 15 marzo Il progetto High Availability D. Salomoni - CNAF L. Servoli - INFN Perugia.
1 Input/Output. 2 Livelli del sottosistema di I/O Hardware Gestori delle interruzioni Driver dei dispositivi Software di sistema indipendente dal dispositivo.
1 Input/Output. 2 Livelli del sottosistema di I/O Hardware Gestori delle interruzioni Driver dei dispositivi Software di sistema indipendente dal dispositivo.
1 Migrazione dei processi: Mosix. 2 Cosa è Mosix/OpenMOSIX ? OpenMOSIX è un è una patch del kernel di Linux che aggiunge funzionalit à avanzate di clustering.
Sistemi operativi di rete Ing. A. Stile – Ing. L. Marchesano – 1/18.
Workshop CCR Otranto - giugno 2006 Gruppo storage CCR Status Report Alessandro Brunengo.
Alessandro Tirel - Sezione di Trieste Storage Area Network Riunione gruppo Storage Padova, 5 ottobre 2005.
Progetto Alta Affidabilità Leonello Servoli Workshop CCR, Otranto 8 giugno 2006.
La Farm di Alice a Torino Workshop sulle problematiche di calcolo e reti Isola d’Elba 6-9 maggio 2002 Mario Sitta (Università del Piemonte Orientale e.
LNL CMS M.Biasotto, Bologna, 28 maggio Upgrade farm a RH-7.3  Due anni fa la farm era stata installata usando una versione customizzata di ANIS.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
Report R.Gomezel CCR dicembre 2006 Roma.
CNAF 6 Novembre Layout del testbed  wn a OS SL5.0 8 GB RAM kernel xen_3.1.0 SMP  wn a OS SL5.0 8 GB RAM kernel.
Roberto Covati INFN di Parma. Workshop CCR/INFN GRID Palau maggio Sommario VmWare Server (in produzione dal 2004 al 2008) VmWare Infrastructure.
Roberto Covati – Roberto Alfieri INFN di Parma. Incontri di lavoro CCR dicembre Sommario VmWare Server (in produzione dal 2004) VmWare ESX.
Tier-2 Legnaro-Padova Massimo Sgaravatto (INFN Padova) On behalf of the Legnaro-Padova T2 team Tier-2 Legnaro-Padova 1.
Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 1 1 News dal computing Gianpaolo Carlino INFN Napoli Atlas Italia, Milano, 17/11/09 Nuovo.
Brunengo - Padova - 18/12/2007 Infrastrutture di storage per Tier2 Gruppo storage CCR.
Centralizzazione del servizio di posta elettronica per l’INFN ─ INTEGRAZIONE ─ Ombretta Pinazza Per il Gruppo Mailing CCR, Marzo 2008.
Riccardo Veraldi, CCR Dic 2008 Xen Problematiche sulla virtualizzazione.
Presentazione WS del 23/10/2013 al CNAF: 0&resId=0&materialId=slides&confId=6920
Worker node on demand: le soluzioni Andrea Chierici INFN-CNAF CCR 2009.
19 Ottobre 2012ATLAS Milano1 Stato delle risorse locali di calcolo L. Carminati, L. Perini, D. Rebatto, L. Vaccarossa.
Attività e servizi di calcolo a Roma Tor Vergata R. Kwatera, R. Lulli, R. Sparvoli Roma Tor Vergata.
Progetto iSCSI Report alla CCR 12-13/12/2006 Alessandro Tirel – Sezione di Trieste.
19/4/2013 D. Menasce, M. Serra - Referaggio Progetti INFRA e WLCG 1.
Test di storage a 10 Gbps proposta. Storage server a 10Gbps Si vuole vedere quali prestazioni si possano ottenere da server connessi a 10 GE –capacita’
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
JOB MONITORING Donvito Giacinto INFN-Bari. OUTLINE ● Use-case ● Informazioni utilizzate e metodologie di raccolta per il job monitoring ● Informazioni.
Sinica Taipei R.Gomezel CCR marzo 2009 Roma.
Studio preliminare di IMAP e stato dei servizi di posta A cura del gruppo Mailing INFN CCR, 31 maggio 2007 Hanno contribuito a questo lavoro: Roberto Cecchini,
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
Alessandro Tirel - Sezione di Trieste Storage servers & TCP Tuning Proposta di studio delle problematiche connesse alla fornitura di servizi di storage.
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
Attività Gruppo Virtualizzazione Andrea Chierici CNAF Riunione CCR
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Nuove funzionalità e futura implementazione nella Sezione di Trieste
Transcript della presentazione:

CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo

Test comparativi su soluzioni di storage Test di prestazioni realistico su job di analisi dei dati da parte di utenti di esperimenti LHC Test di prestazioni realistico su job di analisi dei dati da parte di utenti di esperimenti LHC utilizzo del framework dell’esperimento, senza diretto controllo da parte dell’utente (condizioni di produzione)utilizzo del framework dell’esperimento, senza diretto controllo da parte dell’utente (condizioni di produzione) Trovare la migliore configurazione dello storage di un tipico Tier2 LHC Trovare la migliore configurazione dello storage di un tipico Tier2 LHC Valutando in modo verticale tutti gli aspetti di un sistema di storageValutando in modo verticale tutti gli aspetti di un sistema di storage Partendo dall’hardware fino al solftware di gestione dello storage Partendo dall’hardware fino al solftware di gestione dello storage

Strumenti sotto test Hardware: Hardware: SUN: JBOD (J4500) (48 dischi)SUN: JBOD (J4500) (48 dischi) NexSAN: SataBeast (42 dischi), SASBoy (14 dischi)NexSAN: SataBeast (42 dischi), SASBoy (14 dischi) Xryratex: JBOD 2x24 dischi e 16 dischiXryratex: JBOD 2x24 dischi e 16 dischi Sistema operativo: Sistema operativo: SL5, Debian, OpenSolarisSL5, Debian, OpenSolaris File system: ZFS, XFS (e Lustre) File system: ZFS, XFS (e Lustre) Storage Management Software: Storage Management Software: dCache, LUSTRE/StoRMdCache, LUSTRE/StoRM

Stato dei test Tutto l’hardware è stato acquisito Tutto l’hardware è stato acquisito Sono già in corso i test sui diversi sistemi operativi e file-system Sono già in corso i test sui diversi sistemi operativi e file-system Già effettuati diversi test per guadagnare esperienza con LUSTRE Già effettuati diversi test per guadagnare esperienza con LUSTRE Lustre in test anche sul T2 di Torino Lustre in test anche sul T2 di Torino Risultati ancora preliminari (troppo per mostrarli) Risultati ancora preliminari (troppo per mostrarli)

Collaborazione con Hepix Installato il framework di CMS e eseguiti job reali di analisi su dati reali Installato il framework di CMS e eseguiti job reali di analisi su dati reali Risultati molto interessanti presentati ad Hepix a taiwan: Risultati molto interessanti presentati ad Hepix a taiwan: Lustre sembra performare molto meglio degli altri Lustre sembra performare molto meglio degli altri Molto probabile un problema di librerie nei framework di esperimento (vedi note slide precedenti) Molto probabile un problema di librerie nei framework di esperimento (vedi note slide precedenti) Partecipazione al set-up e test nel gruppo dei file- system (coordinato da Andrei Maslennikov ) Partecipazione al set-up e test nel gruppo dei file- system (coordinato da Andrei Maslennikov )

GPFS: problemi su pattern non sequenzizale di molti file piccoli ► Si e’ evidenziato un problema nell’export di aree software via GPFS  accesso a numerosi file di piccole/medie dimensioni ► in compilazione ► in esecuzione: load delle shared libraries (per Atlas e CMS: accesso a > 1 GB di dati sparsi su un grande numero di file) ► La cache di GPFS si riempie e si svuota in continuazione  alto load dovuto ad mmfsd  bassissime prestazioni (peggiori rispetto ad un file system locale ext3 o XFS)

Gestione della cache ► aumentare il pagepool sui client non e’ una soluzione  il client GPFS richiede di allocare la RAM dedicata al caching, che non sara’ piu’ disponibile alle applicazioni  a differenza del caching del kernel, che usa la RAM se disponibile, e la libera se necessario  in condizioni di richieste di RAM eccessive dai job, mmfsd viene ucciso dal kernel, e la macchina si blocca

Possibile soluzione ► Export via NFS della porzione di file system GPFS dedicata al software  GPFS permette di implementare un meccanismo di export via “Clustered NFS” che realizza il failover sul server NFS ► Si possono sfruttare meglio le cache  la cache del kernel sul client  la cache di GPFS opportunamente configurata sul server NFS (client GPFS) ► tuning dei parametri pagepool, maxFilesToCache ed altri sulle macchine del cluster NFS ► NFS server deve essere dedicato

Test in corso ► Prime prove con questa configurazione molto positive a Genova  NFS server con pagepool 2.0 GB, maxFilesToCache  execution time di job di Atlas passano da 653 sec (100 sec user CPU) a 162 sec (100 sec user CPU) ► In corso analisi sul tuning dei parametri di configurazione delle cache per ottenere una soluzione ottimale ► Soluzione attualmente implementata al Tier1  non ho numeri, ma la soluzione e’ dichiarata soddisfacente

Test su 10GE ► I test sono stati sospesi per mancanza di tempo e di hardware ► Si spera di trovare entrambi dopo l’estate  hardware in prestito, in particolare il disco