ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, ALICE Computing Readiness 1) ALICE Italia: Persone & organizzazione 2) Test & commisioning S. Bagnasco, M.Masera Torino
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Outline Attività su GRID della collaborazione italiana Stato del deployment, test e commissioning dei servizi Per le infrastrutture si veda talk di R. Barbera Scelte tecniche ai Tier-2 CPU cooling Storage
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Test & Commissioning
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Test e Commissioning WMS Componenti AliEn ed LCG AliEn: Task Queue, JobAgent, VO-Box LCG: RB/WMS, CE, VO-Box, MyProxy server Il sistema complessivo è stato testato progressivamente e (quasi) senza interruzione nelle Data Challenge di ALICE Sistema progettato per essere poco sensibile alle inefficienze “sottostanti”
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Rampa job simultanei Actual maximum value ever: 7341 jobs (Nov 10, 2007)
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Test & file transfer T0 to T1 export via FTS Tutti gli altri transfer via xrootd Canali FTS non necessari Test possibili solo da quando sono installati storage xrootd-enabled T1-T2: appena disponibile T2-T2: stanno partendo in questi giorni Non esplicitamente previsti dal computing model Lo stesso importanti per l’analisi distribuita (non tanto file transfer ma accesso remoto interattivo ad xroot: vedi anche la demo)
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Test di file transfer aliensh:[alice] [12] /alice/cern.ch/user/s/sbagnasc/ >whereis largeFileTest.Catania.2 Jan 16 14:56:29 info The file largeFileTest.Catania.2 is in SE => ALICE::Catania::DPM pfn =>root://aliserv1.ct.infn.it:1094//dpm/ct.infn.it/home/xrootd/15/29507/… aliensh:[alice] [13] /alice/cern.ch/user/s/sbagnasc/ >cp largeFileTest.Catania.2 [xrootd] Total MB |====================| % [7.1 Mb/s] [xrootd] Total MB |====================| % [10.6 Mb/s] Preparato un tool per file transfer simultanei Al momento usato per test locali di scalabilità SE-WN [xrdcp] ################################################################# [xrdcp] # Source Name : root://aliserv1.ct.infn.it:1094//dpm/ct.infn.it/home/xrootd/15/29507/… [xrdcp] # Destination Name : root://grid008.to.infn.it//dpm/to.infn.it/home/xrootd/aliense/… [xrdcp] # Data Copied [bytes] : [xrdcp] # Realtime [s] : [xrdcp] # Eff.Copy. Rate[Mb/s] : [xrdcp] #################################################################
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Deployment, test e commissioning storage Installati, funzionanti e in fase di test: DPM+xrootd (TO) DPM+xrootd “over GPFS” (CT) dCache + xrootd (BA) In arrivo: dCache + xrootd (LNL) Tempi lunghi dovuti allo sviluppo delle interfacce con xrootd da parte del core team al CERN
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Deployment DPM Xrootd su Storage Element Visita ad Artem Trunov a Lione per architettura SE [marzo 2006] Head node, redirector, DMZ etc. Xrootd su dCache Funzionante a GSI Istruzioni (in tedesco…) di Kilian Schwarz [gennaio2007] Soluzione di storage sviluppate dall’esperimento Interfaccia DPM-xrootd per T2 Emulazione xrootd in dCache per T1 Prima installazione funzionante di DPM + xrootd fuori dal CERN [aprile 2007] Intervento di Andreas Peters a Torino Aggiornamento di AliEn (distruttivo…) Andreas corregge alcuni bug nella nuova procedura di installazione Di nuovo funzionante [novembre 2007] Installazione a DPM a Catania Sempre con il supporto (remote) di A. Peters [novembre 2007] Test di scrittura e lettura [gennaio 2008]
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Deployment dCache Installazione pool node su SLC4.5 con yaim Almeno fino a novembre non era possibile Installazione manuale (con qualche trucco) Configurazione xrootd door (e/o gridftp door) Dopo varie prove con G. Donvito TokenAuthZ security plugin per ALICE: Si sono seguiti i passaggi della guida di Kilian Schwarz corretti dopo vari tentativi e dopo una lunga e attenta lettura del dCache Book per la parte relativa a questo. Interazione con Furano al CERN ha girato il mio mail ad Andreas Peters. Interazione con Andreas Peters mi ha detto di scrivere a Kilian Schwarz. Interazione con Kilian Swartz mi ha detto di provare la sua procedura perchè a lui funzionava (è vero funziona ma rimuovendo gli errori)
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Test di accesso: Torino “Daily” Graph (5 Minute Average) N job con 5 letture contemporanee di file a caso con xrdcp dai WN verso il server lanciati con qsub sulla farm Max In 73.3 Mbps (7.3) Average In kbps (0.8%) Current In kbps (0.8%) Max Out Mbps (52.6%)Average Out Mbps (10.5%) Current Out Mbps (42.6%) Rate ~400Mbps n >4 Job che scrivono Peak bandwidth sulla porta dello switch [Mbps] N job Server down!
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Test di accesso: Catania File con dimensioni dell'ordine delle decine di MB, preventivamente copiate sullo SE (11 file nella lista passata allo script, tutte copie fisiche distinte di vari file); Lanciato lo script con un numero di trasferimenti plausibile (4 su macchine a 4 core, su un intervallo di tempo di 10 minuti, con numero crescente di WN.
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Test di accesso: piani Test di scalabilità approfonditi con un modello realistico di accesso I Tier-2 sono Write Once, Read Really A Lot I file sono di diversa dimensione (ESD, AOD, qualche RAW specialmente all’inizio) Accessi dai WN ma anche interattivi dai laptop: vedi demo di ieri e oggi. Test con variazioni dei parametri del disco (hdparam) e della configurazione di TCP Quanti server per TB? Non ne siamo sicuri… Soluzioni SAN molto più flessibili in questo senso
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Test di accesso: piani Confronti di prestazioni tra DPM con e senza GPFS Può essere utile sia per le prestazioni sia per funzionalità mancanti a DPM (replica) Valutazione di StoRM L’interfacciamento con xrootd va fatto comunque per il Tier-1 Soluzione interessante anche per i Tier-2 Caveat: licenza IBM, supporto StoRM Verifica delle configurazioni di rete NAT etc.
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Opzioni SRM 3 soluzioni in fase di test +1 potenziale: StoRM+GPFS La scelta di dCache è comoda nei T-2 “condivisi” Per le altre (GPFS o non GPFS) la scelta non è definitiva Per lo meno fino a che ci sono pochi dati sullo storage…
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, Scelte storage FC-2-SATA Migliore scalabilità Razionalità dei cablaggi Semplicità di management e controllo Maggiore fault tolerance Maggiore flessibilità resa necessaria dal non conoscere bene i pattern di accesso Costi che tendono a quelli del DAS dopo qualche decina di TB Esperienze negative nel prototipo Tier-2 di Torino (con DAS) Esperienze negativa con NAS Procom
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, SCELTA CPU Blade pro Minore consumo Densità di core più elevata Minore necessiyà di cooling Razionalizzazione dei cablaggi Risparmio di switch KVM e rete Semplicità di gestione Contro Costo lievemente maggiore, parzialmente compensato se lo chassis viene riempito