Status report Alessandro Brunengo

Slides:



Advertisements
Presentazioni simili
Analysis unibo una proposta. Work flow di una tipica analisi 1.Simulazione di piccoli campioni di eventi per studio segnale 2.Generazione in grande.
Advertisements

CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
Workshop CCR Otranto - giugno 2006 Gruppo storage CCR Status Report Alessandro Brunengo.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
Aggiornamento Netgroup R.Gomezel Commissione Calcolo e Reti Presidenza 5/10/2010-7/10/2010.
Test di storage a 10 Gbps proposta. Storage server a 10Gbps Si vuole vedere quali prestazioni si possano ottenere da server connessi a 10 GE –capacita’
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
CCR, LNF ott 2011 Proposte assegnazioni server & storage L. Carbone, A. Gianoli, M. Serra.
Sistema Informativo. Mansioni Gestione della piattaforma hardware e sistemistica del sistema informativo INFN In realta’ il mansionario e’ in continua.
Referaggio delle richieste dei gruppi di lavoro G. Ambrosi, R. Fantechi, M. Gulmini, O. Pinazza Commissione Calcolo e Reti, Roma, 5-7 Ottobre 2010.
FESR Catania, Trigrid Open Day, Trinacria Grid Virtual Laboratory PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno.
PRIN NAPOLI Enzo Capone, Gianpaolo Carlino, Alessandra Doria, Rosario Esposito, Leonardo Merola, Silvio Pardi, Arturo Sanchez Pineda.
ATLAS computing Roberto Carlin Commissione I Roma 1/7/08 F. Bossi, C.Bozzi, R. Carlin, R. Ferrari, D. Lucchesi, D. Martello, M. Morandin, M. Taiuti.
Progetto NOBEL 2 PARTECIPANTI: Marco Bencivenni (100%) Tiziana Ferrari (20%) SCADENZA PROGETTO: 29 Febbraio 2008 OBIETTIVI DEL PROGETTO: E voluzione della.
D. Talia - UNICAL 1. 1 Sistemi Operativi Domenico Talia Facoltà di Ingegneria Università della Calabria.
1 14 marzo 2006 sommaruga andrea Fondazione Ordine Ingegneri di Milano VPN: Reti Private Virtuali VPN: RETI PRIVATE VIRTUALI LE POSSIBILITA' DI ACCESSO.
Alessandro De Salvo Status dei Tier2 di ATLAS Alessandro De Salvo
AFS NELLA SEZIONE DI PADOVA aree_utenti: attualmente nessuno ha la proria home in AFS e quasi nessuno utilizza l'area utenti di AFS. /usr/local: si preferisce.
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
Il calcolo ATLAS a Napoli nel 2014/2015
Riccardo Veraldi - Massimo Donatelli CCR 3-4 Marzo 2008
Resoconto delle attività del Gruppo di Lavoro DR
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Gruppo storage CCR Status Report Alessandro Brunengo CCR - Frascati
Integrazione tier3 in Grid Paolo Veronesi, Luciano Gaido
Summary di (quasi) tutti gli utenti non presentati…
dCache Test effettuati al CNAF
Monitoring e loadbalancing dei servizi Grid
INFN-Bari.
Engineering Faculty University of Messina, Italy Marco Scarpa
Metodologie Quantitative per il Calcolo Scientifico
Breve report su corso RedHat Enterprise Virtualization (RH318)
Risultati ultimi mesi Piano di lavoro prossimi mesi Reclutamento
Richieste di upgrade dei link di accesso alla rete Geografica
Collegamento a Garr-X Il collegamento alla nuova rete Garr-X dovrà garantire il massimo della efficienza nella gestione della banda. Per identificare opportunamente.
Nuovo sito della Commissione Calcolo e Reti
Netgroup Attività 2007 R.Gomezel.
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Gruppo storage CCR Nuove attivita’ 2007 Alessandro Brunengo CCR - Roma
Stato Acquisti Switch/Router T2
Introduzione alla sessione sull’analisi per gli esperimenti LHC
Assegnazione risorse Stato INFN CNAF,
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
INDIGO-DataCloud MidnightBlue Tutorial Days
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Estensioni elastiche CNAF – un po’ di idee e status report
Aggiornamento sullo stato del Tier-2 di Catania
Nuove funzionalità e futura implementazione nella Sezione di Trieste
Attvità Computing – Inverno 08/09
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
Portal Architecture Data Management
Belle II Computing: Accesso alle risorse di storage via http/webdav
Workshop dei Gruppi di lavoro CCR Michele Michelotto at pd.infn.it
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
ONEDATA - distributed data caching -
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Calcolo “locale” ATLAS-Mi
R.Gomezel Commissione Calcolo e Reti CNAF
Da circa 10 anni il fornisce agli utenti dei labs, che ne facciano richiesta, un servizio di storage via NFS. Come T2 viene fornito da qualche.
Report giornata di Technology tracking
Risultati del questionario sui servizi middleware aggiuntivi
PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno
RES PowerFuse® e RES WISDOM®
Le reti informatiche di Roberto Minotti 17/01/2019.
Le reti informatiche di Roberto Minotti 15/02/2019.
ATLAS PRIN Roma1 - status Alessandro De Salvo
Transcript della presentazione:

Status report Alessandro Brunengo Gruppo storage Status report Alessandro Brunengo 05/10/2010 CCR ottobre 2010 - Roma

Attivita’ 2009/2010 Analisi di configurazione storage per un sito Grid basato su StoRM/GPFS al fine integrare lo storage Grid con lo storage destinato ad una facility di analisi (nello specifico al Tier3 di Atlas), e test di prestazioni (Genova, Milano, Trieste). Analisi delle problematiche connesse all'utilizzo di server di disco connessi a 10GE in funzione dei limiti sulle risorse hardware degli switch di rete (Genova, Pisa, Trieste). Analisi delle prestazioni comparative tra file system (GPFS, Lustre, AFS) in condizioni di accesso realistico (applicazioni di esperimenti LHC) in collaborazione con lo Storage Working Group di HEPiX (Bari). Analisi della possibilita' di utilizzare il file system distribuito hadoop per una piccola facility di analisi tipo Tier3 (Bari). Organizzazione corso di formazione su interfacce SRM (CNAF, Genova, Bari). Technology tracking e supporto alle commissioni referee per il dimensionamento dei finanziamenti per lo storage. 05/10/2010 CCR ottobre 2010 - Roma

Storage per il T3 (Atlas) Lavoro svolto in collaborazione con il gruppo di studio T3 task force di Atlas Italia Esigenze sullo storage: disponibilita’ di area software condivisa con ambiente Grid accesso in lettura agli space token di nodi di interattivo e di batch locale (dedicati al T3) disponibilita’ sui nodi di interattivo delle utility di management dei dati (DQ2/SRM client) 05/10/2010 CCR ottobre 2010 - Roma

Implementazione L’utilizzo di file system distribuito (GPFS) e StoRM permette di soddisfare le esigenze in modo semplice unico file system per space token, aree locali e area software (fileset con controllo di quota) space token (gestiti via StoRM) dotati di ACL per l’accesso RO al gruppo di utenti T3 parametro di configurazione del back end di StoRM user replicati dal database di sezione area software esportata via CNFS a tutti i nodi (grid e locali) con update automatico (De Salvo) 05/10/2010 CCR ottobre 2010 - Roma

Layout accesso allo storage 05/10/2010 CCR ottobre 2010 - Roma

More features (integrazione) Utenti del T3 (locali) hanno account replicato sulle macchine grid i job Grid con certificato di utente locale vengono mappati su tali account in questo modo i job Grid “possono” accedere alle aree locali (non Grid) del T3 via posix L’utente T3 puo’ quindi sottomettere indifferentemente batch locale o via Grid i WN per Grid e per il batch locale sono identici le risorse possono essere spostate da una all’altra funzione via LSF (sharing dinamico, statico, o misto) Le user interface per l’interattivo hanno uguale accesso allo storage, e sono client del batch system e user interface di Grid 05/10/2010 CCR ottobre 2010 - Roma

Stato dell’arte Test di funzionalita’ completati con successo Da fare nessun problema di accesso ai volumi sia in locale che via job Grid Da fare test di prestazioni (queste dipendono dal sistema di storage sottostante) con batch job locali e via HammerCloud test di prestazioni per l’interattivo (con Proof) 05/10/2010 CCR ottobre 2010 - Roma

Disk server 10 GE Numerosi problemi hanno rallentato i test scheda Intel su server DELL PowerEdge R710 ha limite artificiale in uscita a ~700 MB/s imposto con particolare configurazione del BIOS da DELL per prevenire un problema della scheda che manda in crash il sistema ci sono voluti 4 mesi di interazione con il supporto DELL per avere la sostituzione con schede Broadcom ed acquisto di una licenza RHEL! problemi preoccupanti di prestazioni verso client connessi a 1 GE 05/10/2010 CCR ottobre 2010 - Roma

Layout dei test Slide di A.Tirel 05/10/2010 CCR ottobre 2010 - Roma

Collo di bottiglia e controllo di flusso TCP Un flusso da server a 10GE verso client a 1 GE attraversa un collo di bottiglia nel nostro caso, dentro lo switch X350 La perdita di pacchetti determina lato client la richiesta di ritrasmissione il server ritrasmette ed abbatte la finestra di congestione, ripartendo con l’algoritmo slow start in diverse modalita’ in funzione dell’algoritmo di controllo della congestione (/proc/sys/net/ipv4/tcp_congestion_control) Mediamente il flusso si deve attestare ad un valore pari a quasi 1 Gbps 05/10/2010 CCR ottobre 2010 - Roma

GPFS e finestre TCP ampie La configurazione ottimale (suggerita) per l’utilizzo di schede 10 GE e’ simile a quella suggerita per l’utilizzo di GPFS: ampie finestre per il TCP In questa configurazione, lasciando gli altri parametri al default, si misurano prestazioni bassissime nel throughput server-client variabili tra i 50 ed i 500 Mbps 05/10/2010 CCR ottobre 2010 - Roma

Trasferimento verso singolo client 05/10/2010 CCR ottobre 2010 - Roma

Timeout TCP: perche’ L’evento che abbatte le prestazioni e’ la perdita completa di una finestra TCP nello switch il client dopo l’ultimo riscontro non riceve piu’ nulla il server ha esaurito la finestra ed aspetta un riscontro la comunicazione riprende dopo un timeout di 0.2 secondi, con il server che ritrasmette da capo questo evento puo’ accadere anche piu’ volte al secondo durante l’attesa non passano dati L’utilizzo di jumbo frame peggiora la situazione rende gli eventi piu’ frequenti Puo’ essere un problema dello switch o del TCP 05/10/2010 CCR ottobre 2010 - Roma

Timeout: dettaglio 05/10/2010 CCR ottobre 2010 - Roma

Soluzioni (o work-around?) Tcp Segmentation Offload da disabilitare senza TSO gli eventi di timeout si riducono drasticamente Alternativa: utilizzo di diverso algoritmo di controllo della congestione (vegas, ma meno perfomante su LAN) Si evidenzia un comportamento anormale degli switch X350 interazione con il supporto molto evanescente dopo 3 mesi hanno detto che e’ normale perdere pacchetti... puo’ essere un limite di gestione della congestione nei buffer interni allo switch si devono fare test significativi utilizzando switch di altri vendor per premere su Extreme Networks E’ un problema di rete: appuntamento con il netgroup... 05/10/2010 CCR ottobre 2010 - Roma

Effetto della disattivazione del TSO 05/10/2010 CCR ottobre 2010 - Roma

Hadoop: test Geographical distributed Storage Element Hadoop provides: automatic replica management and storage distribution rack awareness advanced (and pluggable) placement policies good monitoring features Why don’t we try to use it on a WAN environment to see how it works? The concept of rack is used to identify a Site We need a performant WAN link between site It could provide good reliability of data... also in case a whole site become temporarily unavailable

Hadoop: test Geographical distributed Storage Element Bari Naples

Hadoop test WORK IN PROGRESS Geographical distributed Storage Element Remote test: Network bandwidth: ~600 Mbit/s during a read operation the user do no see errors also if the whole Naples site goes down suddenly Writing & Replicating data (2 clients): ~40MB/s sustained Reading data (2 Client): ~100MB/s sustained Local test: CPU efficiency is low with CMS analysis jobs (~ 50-60%) Performance test will be carried on, to try to improve CPU efficiency in CMS analysis jobs xrootd-to-hadoop interface recent version on kernel and fuse module (the standard SLC5 kernel is not the right choice for fuse)

Attivita’ 2011 Completamento dei lavori in corso: storage per il Tier3 problemi sul flusso tra server 10GE e client ad 1 Ge Prosecuzione della collaborazione con lo storage working group di HEPiX per lo studio delle prestazioni dei file system E' prevista una nuova attivita' sull'analisi di funzionalita' e prestazioni di dischi in tecnologia SSD. Si prevede di organizzare almeno due corsi di formazione, uno specifico su GPFS e l'altro piu' generale sulle tecnologie di storage per Grid. Proseguira' l'attivita' di technology tracking e supporto per chiunque ne abbia bisogno. 05/10/2010 CCR ottobre 2010 - Roma

Test tecnologia SSD Sperimentazione da realizzare a Bari Diverse opzioni per l’utilizzo dei dischi SSD intero file system (solo a scopo comparativo per i test successivi) area SSD dedicata ai metadati (per i file system che supportano la separazione) area SSD come cache del file system attualmente supportata solo su opensolaris/ZFS in corso di sviluppo moduli opportuni per il kernel di linux Si vuole inizialmente realizzare un testbed con un server di disco e 6-8 HD SSD da 256 GB chiesti 8 Keuro di finanziamento 05/10/2010 CCR ottobre 2010 - Roma