Federico Ruggieri INFN-CNAF Riunione della CSN I Perugia Novembre 2002 Il Progetto TIER1
Indice Il Progetto Tier1 Tier1 e Tier2 INFN Interazioni con GRID Infrastrutture Risorse Personale Utilizzo Monitoring Console Remota Consumo potenza Conclusioni Tecnologia Stato dell’arte Obiettivi
Progetto Prototipo TIER1 Obiettivi: –Costruzione e sperimentazione di un prototipo di Tier1 INFN unico per i 4 esperimenti LHC. –Ottimizzazione delle risorse. –Formazione di personale. –Rappresentatività verso gli altri Tier1 e verso il CERN. –Coordinamento con i Tier2 e fornitura di servizi ed attrezzature non replicabili o costose.
Le Capacità Richieste CERN (Somma di tutti gli esperimenti): –Mass Storage: 10 Peta Bytes (10 15 B)/anno –disk: 2 PB –CPU: 20 MSPECint2000 Per ogni Tier 1 Multi-esperimento : –Mass Storage: PB/anno –disk: 1.5 PB –CPU: 10 MSPECint2000 Networking Tier 0 (CERN) --> Tier 1:2 Gbps
La GRID dei TIER per LHC
Tier1 e Tier2 La sperimentazione in LCG ha richiesto una esplicitazione delle risorse (hw ed umane) da mettere a disposizione per una GRID comune. Il carattere prototipale dell’attuale fase I richiede un impegno di risorse supplementare rispetto a quello che il Tier1 ed i Tier2 sono abituati a fornire agli esperimenti. Oltre al Tier1 al CNAF sono stati prospettati 3 candidati Tier2 Italiani (Alice, Atlas, CMS). Altri Tier2 INFN sono disposti a partecipare, se non nell’attuale fase I, sicuramente nella fase II di LCG. Alcuni siti sono “multi-esperimento” come il Tier1. Un obiettivo di medio e lungo termine potrebbe essere quello di “esportare” il modello Tier1 unico ad i Tier2, se questo dovesse rivelarsi adatto.
Il Tier1 multiutenza Attualmente vengono assegnate le risorse in maniera statica per periodi di tempo definiti. Questo non ottimizza l’uso delle risorse, nonostante i tempi di passaggio da una configurazione ad un’altra siano brevi (poche ore) se tutto è configurabile con RPM ed LCFG. In prospettiva dovrebbe essere assegnato in maniera statica solo un massimo del 50% delle risorse e le altre dovrebbero essere accedute dinamicamente sulla base delle richieste in coda con opportune priorità. GRID dovrebbe permettere un accesso trasparente ad entrambe le tipologie di risorse.
SPARE CAPACITY (50%) Schema di uso risorse ALICE ATLAS CMS LHCb VIRGO CDF BaBar YZ ATLAS
Interazioni con GRID Il Centro Regionale Tier1 è uno dei “nodi” principali della Grid Italiana, Europea e Mondiale. Partecipa all’attività di GRID e fornisce risorse. Il software sviluppato in Grid è di fondamentale importanza per i servizi che il CR dovrà fornire. Il CR, insieme ai Tier2 INFN, partecipa alla fase prototipale di LCG ed alle sue attività.
Infrastrutture Sala Macchine: –Conclusa la gara per i Lavori (CD 7673) per 519 K€ circa (Essenzialmente Impianti Tecnologici). –L’aggiudicazione sarà approvata al C.D. del 29 Novembre p.v. ed i lavori inizieranno a Dicembre ‘02. –Si pensa di avere la sala pronta per fine Aprile 2003 (160 gg per contratto). Gruppo Elettrogeno ed UPS: –Gara Terminata con proposta di aggiudicazione alla ditte SIGEM per € IVA inclusa.
Personale Personale di ruolo: –Pietro Matteuzzi: (Responsabile Servizi di Calcolo del CNAF) –Luca Dell’Agnello: Sistemi Linux, File Systems, Sicurezza, Rete. –Stefano Zani: Storage e Rete –Massimo Cinque: Servizi Generali ed Approvigionamento. Personale a Contratto: –Andrea Chierici: (Art.23) LCFG, Sistemistica, Site Man. GRID. –Andrea Collamati (Art.2222) Supporto SW Esp. (LHCb) –Donato De Girolamo (Art.2222) Allarmistica e Sicurezze. –Giuseppe Lo Re (Art.2222) CASTOR/Supporto SW Esp. (ALICE) –Barbara Martelli (Art. 2222) Sviluppo SW Generale e GRID. –Guido Negri (Art. 2222/ A.R.) Supporto SW Esp. (ATLAS) –Pier Paolo Ricci: (Art.23) Storage, Robotica e CASTOR. –Felice Rosso: (Art. 15) Monitoring ed LCFG.
Personale (2) Altro personale su attività collegate: –Alessandro Italiano: (Art.15) Robotica e Libreria, VideoConferenze, Site Manager GRID. –Massimo Donatelli: (Art.15) AFS, NFS, KERBEROS. Nuovo Personale –Assegno di Ricerca da bandire. –Un Tecnologo di ruolo (da bandire). –Un Tecnico (CTER) di ruolo (da bandire) –Richiesta di riassegnazione di 2 posti di tecnologo liberi per turnover.
Risorse HW attuali
Nuove Risorse da installare per Maggio 2003
FarmSW FarmSW FarmSWG FarmSW Switch-lanCNAF SSR2000 Vlan99 Catalyst6500 Vlan100 Fcds1 Fcds2 8T F.C. 2T SCSI NAS NAS Fcds3 LHCBSW (IBM) (DELL) vlan3 (4) vlan99 (99) lhcb1 (120) vlan99 (99) lhcb1 (120) vlan99 (99) lhcb1 (120) vlan99 (99) Vlan3 (4) LAN CNAF LAN TIER1
Networking GARR-G Pilot Infrastructure already in place (2.5 Gb F/O Lines) MI BO RM PI TO CT PD 2.5 Gbps 155 Mbps TIER1 CNAF 1 Gbps GEANT 2.5 Gbps US Abilene 2x2.5 Gbps
Accesso al GARR Giornaliero 15/10 Annuale
Allocazione CPU 2002
Allocazione Disco 2002
Programma delle Installazioni NB: I numeri quotati sono aggiuntivi per anno
Riassunto Esperimenti ALICEProduzione di MC (600 jobs in circa due mesi). Nuove macchine. ATLASCirca il 30% della produzione estiva Italiana. CMSTest di Produzione transatlantica con DataTAG e Stress Test GRID in corso. LHCbProduzione MC 1MEv. (2 o sito dopo CERN) Continua Produzione MC + Analisi VIRGOTrasferimento dati (4TB) Spett. Centrale e 2 macchine di preanalisi e selezione + 3 GRID. Nuovi Test in Corso
Monitoring & Allarmi Il monitoraggio è costruito con strumenti ad-hoc (scripts PHP + Java Applet) per ottenere visuali personalizzate per esperimento da esportare tramite web. Una versione più dettagliata è disponibile per il personale del Tier1. L’allarmistica è gestita tramite Nagios un prodotto Open Source a cui collaborano anche persone INFN.
NAGIOS
ALICE Jobs
ALICE Storage
Console Remota La Nuova Sala Macchine sarà non presidiata. E’ richiesto l’accesso alle macchine da console per effettuare operazioni di routine, ma anche di emergenza (reboot). E’ necessario anche un controllo remoto sull’alimentazione (Power off/on) per le situazioni non sbloccabili da console. Bisognerà avere accesso a decine di server e centinaia o migliaia di nodi di calcolo. Le soluzioni KVM normali (analogiche) non sono sufficienti e non scalano ai numeri suddetti. Le due soluzioni attualmente in osservazione sono della Avocent e della Raritan con differenze di approccio che cambiano il rapporto Prezzo/Prestazioni.
Esempio Raritan
Controllo Remoto Alimentazione Accensione e Spegnimento da remoto via IP. Sostituisce la presiera o PDU. Accesso tramite applicazione proprietaria su Windows. Alternativa da National Instruments con un sistema modulare da Personalizzare (assemblaggio, Cabinet, prese corrente, ecc.).
Consumo di Potenza CPU Transizione da 0.18 a 0.13 micron
Evoluzione Storica Intel Tier1 con UPS di 640 KW e < 300 KW per le CPU.
Scala dei tempi Novembre 2002: Aggiudicata Gara Lavori Sala Macchine Aprile 2003: Fine Lavori Sala Macchine Giugno 2003: Completa operatività della nuova Sala Macchine. Dicembre 2004: Fine della fase sperimentale. Gennaio 2005: Revisione della sperimentazione ed aggiornamento tecnico-economico-logistico- organizzativo del piano. Dicembre 2005: Inizio della realizzazione del Centro per la fase di Produzione.
Conclusioni Il CR è già operativo in modalità “ridotta”. La piena operatività è prevista per metà del 2003 (con la nuova sala macchine). Gli investimenti in materiali e persone sono già consistenti.