ALICE-Italia: IL CALCOLO Massimo Masera Dipartimento di Fisica Sperimentale e INFN – Torino Bari, 25 febbraio 2004
Indice Il Physics Data Challenge III (2004) Strumenti di Grid: Obiettivi Novita` in AliRoot e situazione attuale Strumenti di Grid: EDG LCG e AliEn Situazione del Tier-1 e dei Tier-2 M.Masera IL CALCOLO NEL 2004
ALICE PHYSICS DATA CHALLENGES Period (milestone) Fraction of the final capacity (%) Physics Objective 06/01-12/01 1% pp studies, reconstruction of TPC and ITS 06/02-12/02 5% First test of the complete chain from simulation to reconstruction for the PPR Simple analysis tools. Digits in ROOT format. 01/04-06/04 10% Complete chain used for trigger studies. Prototype of the analysis tools. Comparison with parameterised MonteCarlo. Simulated raw data. 01/06-06/06 20% Test of the final system for reconstruction and analysis. M.Masera IL CALCOLO NEL 2004
Physics Data Challenge 3: obiettivi Il Physics Performance Report di ALICE e’ in via di completamento Simulazioni post-PPR: enfasi su hard physics; jets e jet quenching: a LHC, ma in parte a RHIC, dovrebbe crescere il contributo di minijet alla produzione di particelle nella zona centrale di rapidita` M.Masera IL CALCOLO NEL 2004
Physics Data Challenge 3: obiettivi Una semplice parametrizzazione signal-free di un modello microscopico non puo` essere usata a causa dell’assenza di fluttuazioni dovute alla produzione di jet e minijet E` necessario far ricorso a generatori di eventi come HIJING, che includano la produzione di jet, anche per la simulazione dei cosiddetti “eventi di background” usati con l’event mixing per simulare fenomeni a bassa sezione d’urto A pT ~10-20 GeV/c ci si aspetta~1 jet per evento Studio di jet con pT ~ qualche 10 GeV/c: questo compito non e` semplice ed e` basato sullo studio della struttura dell’evento, e sulla ricerca di leading particles ad alto pT nel barrel. La tecnica dell’event mixing (generazione separata di segnale e background) non e` possibile Studio di jet con pt~100 GeV/c e maggiore : event mixing. Un singolo evento di background puo` essere utilizzato fino a 50 volte M.Masera IL CALCOLO NEL 2004
Physics Data Challenge 3: obiettivi La definizione del numero di eventi da simulare nel DC-3 e` dovuta essenzialmente allo studio dei jet: 105 eventi per lo studio di jets with pT fino a 10-20 GeV/c con statistica sufficiente 104 - 105 eventi per studi di correlazione di particelle e per iperoni con stranezza singola e doppia (,) 106 eventi: jet di alto pT ( ~105 eventi di background) , stati di charmonio e bottomonio e+e- La statistica necessaria e` dello stesso ordine di grandezza di quanto necessario per i jet. Gli stessi eventi di background possono essere riutilizzati. Centralita`: 50% central events (b<2-3 fm) 50% minimum bias M.Masera IL CALCOLO NEL 2004
Physics Data Challenge 3: obiettivi Oltre a simulazioni Pb-Pb: 107 eventi p-p (Pythia) e ~106 p-A (Hijing) Il DC serve anche per verificare la capacita` di simulare e soprattutto analizzare una mole di dati ~10% di quella da trattare a regime con le tecnologie informatiche a disposizione ricaduta su framework e middleware La durata del DC e` di 6 mesi: la Collaborazione vuole verificare quanti eventi e’ in grado si simulare e analizzare (in modalita` diretta o con mixing) in questo periodo sfruttando sia risorse proprie che risorse disponibili nell’ambito LCG Parte dei dati simulati sara` portata al Cern e di qui redistribuita per l’analisi È un test del framework offline e del modello di calcolo distribuito M.Masera IL CALCOLO NEL 2004
AliEn Novita` in AliRoot ROOT AliRoot G3 G4 FLUKA Virtual MC EVGEN NUOVO G3 G4 FLUKA Production env. Interfaccia con il mondo ISAJET AliRoot HIJING AliEn Virtual MC EVGEN MEVSIM HBTAN STEER PYTHIA6 PDF PMD EMCAL TRD ITS PHOS TOF ZDC RICH HBTP STRUCT CRT START FMD MUON TPC RALICE DPMJET ROOT C++ parte scritta dall’utente M.Masera IL CALCOLO NEL 2004
Che cosa c’e` di nuovo in AliRoot? NewIO Nuovo I/O: verra’ usato nel DC-3 per la prima volta. La gestione dell’IO e’ demandata a un set di classi dedicate (AliLoader, AliRunLoader, AliDataLoader…) e la dipendenza tra classi e’ ridotta con l’uso dei “folder” di root. Highlights: migliore modularita’ facilita’ di rifare parti di ricostruzione possiblita’ di accedere (e spostare se serve) a parte dell’informazione che e’ distribuita su piu’ file possibilita` di aggiornare l’informazione su MSS aggiungendo nuovi file (ad esempio: vertici, tracce, etc) senza alterare i file contenenti l’informazione di partenza M.Masera IL CALCOLO NEL 2004
Nuovo I/O gAlice RunLoader TreeE galice.root Tree Kine.root Object Event #1 TreeK Event #2 TreeK Folder File TPC.Hits.root Event #1 Event #2 TreeH Root dir TreeH TPC.Digits.root Event #1 Event #2 Nuovo I/O TreeD Object TreeD TPC.RecPoints.root ITS.Tracks.root ITS.Hits.root TPC.RecPoints.root ITS.Digits.root TPC.Tracks.root M.Masera IL CALCOLO NEL 2004 Piotr Skowronski
Stato di AliRoot La versione di produzione e` la v4-01-Release (del 24/2/2004) “clean-up” del codice & notevole riduzione delle violazioni alle coding conventions RAW data format per i digits e` disponibile per TPC e ITS Usa Root v3-10-02 e Geant3 v0-6 (Geant3 + Geometrical Modeller ) Simulazione (dato un Config.C) effettuata attraverso una classe apposita AliSimulation sim; Sim.Run(# of events); Anche la ricostruzione (nel barrel) e` effettuata attraverso una classe dedicata: AliReconstruction rec; Rec.Run(); “one go” per tutti i rivelatori M.Masera IL CALCOLO NEL 2004
Digitizzazione e ricostruzione Summable digits e digits OK Il merging e` gestito dalla classe AliSimulation E` stata introdotta (Y. Belikov) una nuova classe ESD (Event Summary Data) per l’analisi. Contiene, oltre al resto: La posizione del vertice primario misurata con i 2 piani di rivelatori a pixel dell’ITS Tracce ricostruite nel barrel: (TPC+ITS), ITS stand-alone (versione V2), TRD, TOF. M.Masera IL CALCOLO NEL 2004
Event Summary Data (ESD) La classe AliESD e` essenzialmente un container per i dati Non ci sono funzioni per l’analisi E` il risultato della ricostruzione condotta sistematicamente attraverso l’esecuzioni di job batch/Grid Contiene tutte leinformazioni per procedere con l’analisi Durante la ricostruzione puo` essere utilizzata per scambiare informazioni tra diverse fasi della ricostruzione stessa. M.Masera IL CALCOLO NEL 2004
Event Summary Data (ESD) All’ESD attualmente contribuiscono i rivelatori: ITS, TPC, TRD, TOF, PHOS and MUON. TPC tracker TRD tracker ITS tracker ESD MUON ITS stand-alone Vertexer PHOS TOF File La classe ESD e` sufficiente per i seguenti canali di fisica: stranezza, charm, HBT, jets . M.Masera IL CALCOLO NEL 2004
Event Summary Data in ALIROOT Classi legate al ESD AliESD, AliESDtrack, AliESDv0, AliESDcascade, AliCaloTrack, AliMUONtrack, AliESDVertex Class AliESD : //run number, event number //trigger info //primary vertex (AliESDVertex) … //array of ESD tracks //array of kinks //array of V0s //array of cascades //array of calorimeter tracks //array of MUON tracks //and all the relations //between the above Class AliESDtrack : //reconstruction status flags … //length, time, combined PID //”outer” track params //”inner” track params //”running”/final track params //for all the barrel detectors, //detector related info (chi2, num.of clusters, dE/dx…) M.Masera IL CALCOLO NEL 2004
AliITSVertexerTracks Vertexers La struttura dei vertexer e degli oggetti “Vertex” e` stata riconfigurata nel febbraio 2004 AliVertexer AliESDVertex STEER directory ITS directory AliITSVertexer AliITSVertexerIons AliITSVertexerZ AliITSVertexerFast AliITSVertexerTracks Pb-Pb 3-D info for central events p-p and peripheral events NEW code Just a gaussian smearing of the generated vertex High precision vertexer with rec. tracks (pp D0) M.Masera IL CALCOLO NEL 2004
New Z vertexer 5902 pp events 5363 events with found vertex (~91%) Optimization of speed It can be used also for p-A and Pb-Pb events M.Masera IL CALCOLO NEL 2004
PROGETTI LEGATI ALLE GRID EDG (European Data Grid) e` terminato con il 2003. La review finale si e` tenuta al Cern in febbraio La demo finale per HEP applications e` stata fatta da ALICE. In particolare da R. Barbera e P.G. Cerello. Per quanto il risultato della review sia stato buono, i test con il software di ALICE non sono del tutto positivi La produzione HBT iniziata nel marzo 2003 si e’ conclusa a giugno con soli 450 eventi prodotti (su 5000 previsti) La versione EDG-2 era sensibilmente migliore ma e` arrivata tardi il testimone e` passato a LCG M.Masera IL CALCOLO NEL 2004
LCG (1) LCG = LHC Computing Grid Progetto nato al Cern (con l’appoggio degli spokesman delle collaborazioni) prepara l’infrastruttura comune del sistema di calcolo per gli esperimenti ad LHC 2 fasi 2002-2005 prototipo di testbed di produzione 2006-2008 costruzione del sistema di calcolo per LHC PRIMO OBIETTIVO: fornire strutture e middleware per i data challenge del 2004 M.Masera IL CALCOLO NEL 2004
LCG (2) Le componenti americane di Atlas e CMS hanno dichiarato di non voler registrare le loro risorse sotto EDG La tabella di marcia per le release del software non e` stata rispettata La versione LCG-2 (la prima che dovrebbe fornire tutti i servizi per il data challenge di Alice) e` stata rilasciata nel 2004 Come conseguenza il data challenge di ALICE e` slittato di oltre un mese La versione rilasciata ha ancora notevoli limitazioni, specialmente per quanto concerne la gestione dello storage I problemi di LCG sono preoccupanti e potrebbero avere ripercussioni sulla struttura del progetto stretto monitoring della situazione da parte dei vertici dell’INFN M.Masera IL CALCOLO NEL 2004
LCG, AliEn e il Physics Data Challenge Il P.D.C. verra` effettuato usando AliEn come strumento di produzione AliEn sara’ usato anche come “provider” di servizi di Grid per le risorse di calcolo non registrate sotto LCG (e.g. farm di Catania, una farm di Torino) AliEn e` stato interfacciato con LCG (S. Bagnasco - prima milestone per il 2004 – raggiunta) Si useranno le risorse LCG disponibili (1 farm a Torino – parte delle risorse del Tier-1) Caveat: con LCG si usa come S.E. Castor@Cern I test di pre-produzione sono in corso Start del data challenge: imminente M.Masera IL CALCOLO NEL 2004
I “TIER” di ALICE in Italia TRIESTE TORINO PADOVA BOLOGNA CNAF TIER-1 ROMA BARI TIER-2 SALERNO CAGLIARI TIER-3 CATANIA M.Masera IL CALCOLO NEL 2004
Tier3 Gran parte delle simulazioni necessarie per lo sviluppo dei detector e` svolta localmente nei Tier3 (produzioni non centralizzate) Farm di PC dislocate nelle sedi. Generalmente (ma non sempre) dedicate all’esperimento Processori Intel OS: Linux Di solito gestite da persone di Alice In genere, le scelte tecniche adottate nei tier3 sono le medesime adottate nei centri piu` grandi M.Masera IL CALCOLO NEL 2004
Livelli 1 e 2 TIER1: Offre elevata capacita` di calcolo on demand CNAF Storage su disco TORINO TIER1: Offre elevata capacita` di calcolo on demand Offre robotica per lo storage Connessione ad alta velocita` con il Tier-0 al CERN CPU CNAF TAPE LIBRARY 155 con 70 Mbps garantiti CPU TIER2: Offrono buona capacita` di calcolo dedicata (o con alta priorita`) all’esperimento Storage su disco Connessione ad alta velocita` con il Tier 1 34 Mbps 155 con 70 Mbps garantiti – da aprile CATANIA M.Masera IL CALCOLO NEL 2004 Storage su disco CPU
Tier 1 Risorsa INFN nata come centro regionale italiano per LHC + Virgo In realta` e` qualcosa di piu`: il Cnaf e` GOC (Grid Operations Centre) per tutti i progetti Grid-related a cui partecipa l’Infn (EDG, DataTag, Firb, LCG, EGEE) Offre servizi di calcolo ad altri esperimenti: BaBar, CDF, AMS … Personale Tier-1 dedicato ad ALICE (1 fte) Contatti day-by-day gestiti dai colleghi di Alice-Bologna (M.Luvisetto) M.Masera IL CALCOLO NEL 2004
Management e Controllo Comitato dei Referee: (F. Ferroni, M. Sozzi, M. Taiuti, P. Lubrano, A. Marini, G. Salina) Comitato di Gestione: Svolge il ruolo di gestione per l’annuale programmazione dell’allocazione delle risorse e delle probelmatiche di gestione. Rappresentanti degli Esperimenti (M.Masera per Alice). Comitato Tecnico: Coordina gli aspetti tecnici degli esperimenti con lo staff del Tier1 Rappresentanti Tecnici degli Esperimenti (R.Barbera e M.Luvisetto per ALICE). Responsabile del Progetto e Tier1-staff. M.Masera IL CALCOLO NEL 2004
Infrastrutture E` un progetto importante che e` gia` operativo e sta passando alla nuova sede (cfr. foto slide successive) Nuova Sala Macchine da 1000 mq. Gruppo Elettrogeno 1250 KVA ed UPS 800 KVA. Gruppo Frigorifero 550 KW e Sistema di Condizionamento con: Unità di Trattamento Aria (Temperatura + Umidità) da 110 KW e Unità Locali. Sistema di alimentazione via Blindo-sbarre con corrente trifase ed alimentatori/sezionatori nei Racks. Sistema rivelazione incendi e spegnimento (gas FM200). Trasmissione Dati completata con cablatura interna (UTP e FO) ed esterna (FO Mono e Multi-modo); in corso di completamento l’attestazione GARR (è realizzata temporaneamente con delle FO fra le due sale macchine). 60 Racks: 35 con power switch a controllo remoto dell’accensione e spegnimento. Consolle remota con apparati di switch KVM (tastiera, Video, Mouse) analogici e digitali (via IP) in uso. M.Masera IL CALCOLO NEL 2004
Gruppo Elettrogeno M.Masera IL CALCOLO NEL 2004
UPS M.Masera IL CALCOLO NEL 2004
Unità Trattamento Aria M.Masera IL CALCOLO NEL 2004
Gruppo Frigo M.Masera IL CALCOLO NEL 2004
Il Tier1 multiutenza Fino al 2003 venivano assegnate le risorse in maniera statica per periodi di tempo definiti. Questo non ottimizzava l’uso delle risorse, nonostante i tempi di passaggio da una configurazione ad un’altra fossero brevi (poche ore). Nella attuale fase, viene assegnato in maniera statica solo un massimo del 50% delle risorse e le altre devono essere accedute dinamicamente sulla base delle richieste in coda (PBS) con opportune priorità. GRID permette(ra`) un accesso trasparente ad entrambe le tipologie di risorse. M.Masera IL CALCOLO NEL 2004
Risorse HW attuali Tipo Descrizione Capacità Farm 608 KSI2K Disco 320 biprocessori 0.8 - 3Ghz +55 Babar +48 CDF +30 LHCb 608 KSI2K +100 CDF,Babar, LHCb Disco Dischi FC, IDE, SCSI, NAS 46 TB Raw RAID5 +35 TB Nastri Robot L180 STK 18 TB / 36 TB (comp.) 118/236 TB Robot L5500 STK 100 TB / 200 TB (comp.) Rete 14 Switch periferici (Rack) 48 FE UTP + 2 GE FO 672 FE UTP 48 GE UTP 132 GE FO 2 Switch Periferici 24 GE UTP + 4 GE FO 2 Core Switch 96 GE FO M.Masera IL CALCOLO NEL 2004
Libreria Nastri L5500 Equipaggiata con 6 drive LTO-2 500 cassette (altre 800 in arrivo) M.Masera IL CALCOLO NEL 2004
Farm 320 CPU - LCG Un rack e` in questo momento allocato ad ALICE per il Data Challenge M.Masera IL CALCOLO NEL 2004
FARM di Processori 1U dual CPU Pentium III e 4 800 MHz –3GHz/CPU 2 disks 18-60 GB/Node 512MB – 2GB/Node 1 or 2 FE + 2GE Switches Singola console TFT via KVM M.Masera IL CALCOLO NEL 2004
Architetture Storage L’uso combinato di dischi in tecnologia IDE/SATA con Controller RAID 5 in Fibre Channel è attualmente la nostra scelta primaria. Aspetti rilevanti sono la gestibilità di sistemi da espandere fino a centinaia di TB che comportano l’uso di migliaia di dischi (1 PB = 4000 dischi 250 GB). In questi casi anche un MTBF di 0.2Mh x 1000 dischi risulta in un failure rate di circa un disco a settimana. Avere dischi di Hot Spare riduce i rischi di failures combinate di due o più dischi. Accesso allo storage di massa attraverso il sistema CASTOR M.Masera IL CALCOLO NEL 2004
Staging Disk = 10-20% Capacità Libreria CASTOR al CNAF STK L5500 ACSLS Robot access CASTOR LAN Fibre Channel 6 drive LTO 2 Staging Disk = 10-20% Capacità Libreria M.Masera IL CALCOLO NEL 2004
Accesso al GARR del CNAF 100 Mbps di Banda Garantita su 1 Gbps di Banda di Accesso Settimanale (media su 30 minuti) M.Masera IL CALCOLO NEL 2004
I Tier-2 Risorse in gran parte finanziate dalla CSNIII per ALICE (una parte del centro di Torino e` del progetto speciale INFN/Grid) Storage su disco: accesso veloce per l’analisi I file prodotti nei Tier-2 vengono replicati nel Tier-1 di riferimento MSS via CASTOR Uso attraverso: AliEn LCG (da sperimentare nel DCIII) accesso diretto via queue manager (open PBS) Next slide: a titolo di esempio schema farm Torino. La farm di Catania e` di concezione simile M.Masera IL CALCOLO NEL 2004
Farm di ALICE a Torino / 1 server1 CPU 2 proc PIII e Xeon (da 800 MHz a 3GHz) ~3 TB tape library 2.5 TB 1 2 server2 100 Mbps 3 0.95 TB 1 Gbps 4 Switch 5 serverLCG 6 ........ 2.6 TB 63(*) Switch NAS 6.5 TB Rete esterna (70 Mb/s) Finanziato dalla CSNIII (Server 2 e 6 biprocessori finanziati con COFIN 2000) (*) 14 nodi sono da installare – consegna imminente. Sono incluse risorse MIUR
Farm di ALICE a Torino / 2 Farm CSNIII gestita da membri di Alice (M. Sitta) Soluzione H/W: i 10 nodi piu` vecchi (quarto anno) sono PC tower gli altri sono biprocessori rack mountable 1U gli ultimi 14 (da installare) acquistati con fondi MIUR sono IBM blade server 14 biproc in 7U Storage: 1 server con dischi SCSI in RAID5 in sostituzione con un server IDE+RAID5 1 NAS Procom con dischi Fiber Channel Sistema operativo: Linux Red Hat 8 (il s/w di Alice in realta` non pone alcun requisito sul sistema operativo) I nodi sono su una rete privata M.Masera IL CALCOLO NEL 2004
Farm di ALICE a Torino / 2 La farm costituisce un computing element e storage element di AliEn Sistema di gestione delle code: open PBS ROOT e AliRoot accessibili da tutti i nodi Gestione della tape library: attraverso CASTOR (usata per test e backup) Implementazione DB nastri attraverso Oracle Farm LCG gestita da personale afferente al progetto speciale (L.Gaido, S.Lusso) In programma: “doppia” registrazione dei W.N. sia sotto LCG che sotto AliEn M.Masera IL CALCOLO NEL 2004
Necessita` per la WAN Le connessioni dei due tier-2 con il CNAF dovrebbero essere sufficienti per il data challenge del 2004 Il data challenge fornira` un’occasione per valutare le necessita` di banda delle altre sedi Riteniamo importante potere usufruire di bandwidth on demand Il GARR ha seguito con interesse e disponibilita` i nostri test di stress della rete condotti nel 2003 Con la fase 2 di Garr-G quest’anno, le sedi tier-2 avranno collegamenti con il Garr di 2.5 Gps possibilita` tecnica di aumentare la banda se necessario M.Masera IL CALCOLO NEL 2004
Conclusioni C’e` un ritardo di oltre 1 mese per il P.D.C. in gran parte dovuto al ritardo di LCG P.D.C via Alien e LCG: al CNAF a Catania e Torino Le attivita` legate alla Grid in Alice sono prevalentemente italiane Lo stato di AliRoot e` piuttosto soddisfacente: In generale l’attenzione, anche della componente italiana, e` rivolta prevalentemente alla ricostruzione e analisi piuttosto che al core offline M.Masera IL CALCOLO NEL 2004