Il Computing di ATLAS Gianpaolo Carlino Referaggio LHC CNAF, 24 Luglio 2008 Il Computing Challenge I Tier2 I Tier2 Attività e Richieste 2009 Attività e Richieste 2009
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 2 Attività Computing ATLAS Event Builder Event Filter Tier3 10 GB/s 320 MB/s ~PB/s Tier2 Tier0 Tier1 L’attività “sul campo” nel 2008 ha permesso di definire meglio molti aspetti del Computing Model Attività nei Tier Tier0: Prompt Reconstruction Tier1: Reprocessing e Group Analysis parte significativa della Group Analysis puà essere spostata nei Tier2 in caso di necessità parte significativa della Group Analysis puà essere spostata nei Tier2 in caso di necessità Tier2: Simulazione, Group e User Analysis Definizione dei sistemi di storage Pool di Storage per le specifiche attività lo spazio da assegnare ad ogni pool dovrà essere definito con precisione durante il periodo di data taking lo spazio da assegnare ad ogni pool dovrà essere definito con precisione durante il periodo di data taking Flussi di dati
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 3 Il Tier0
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 4 HITS ESD AOD HITS ESD AOD MC TAPE MC TAPE HITHIT MC Buffer MC Buffer PROD DISK PROD DISK CPUs Pile-updigitizationreconstruction G4 / ATLFAST Simulation HITS RDO ESD AOD DPD1 HITS RDO ESD AOD DPD1 MC DISK MC DISK AOD HITS AOD AOD from ATLFAST HITS from G4 AOD from ATLFAST TAPE AOD from ATLFAST HITS from G4 EVNT AOD MC DISK MC DISK All other T1’s AOD EVNT DPD GROUP DISK GROUP DISK DPD GROUP DISK GROUP DISK CPUs DPD User files (Atlas) DPD User files (Atlas) USERDISK Useranalysis User analysis Group analysis HITS from G4 AOD DPD1 making making DPD1 DPD2 DPD1 DPD2 DPD User files (IT) DPD User files (IT) LOCAL GROUPDISK
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 5 CPUs RAW AOD RAW AOD DATATA PE TAPE RAW t0atlas RAW STAGED ISK RAW ESD AOD RAW ESD AOD DATADISK AOD re-processing RAW AOD DATADI SK RAW ESD On request AOD DPD making AOD DPD All other T1’s DPD CPUs Group analysis User analysis DPD GROUP DISK GROUP DISK DPD GROUP DISK GROUP DISK AOD ESD DPD User files (IT) DPD User files (IT) LOCAL GROUPDISK DPD User files (Atlas) DPD User files (Atlas) USERDISK
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 6 Analysis Model (update) ESD (Event Summary Data) ESD (Event Summary Data) contengono output dettagliato della ricostruzione permettono la particle ID, track-refitting, jet finding, calibrazioni (long term) target size = 500 kB/ev attualmente = 800 kB/ev kB/ev (MC truth) AOD (Analysis Object Data) AOD (Analysis Object Data) summary dell’evento ricostruito sufficiente per le analisi comuni permette ricostruzioni limitate (tracce, cluster) (long term) target size = 100 kB/ev attualmente = 200 kB/ev + 30 kB/ev per il MC DPD (Derived Physics Data) DPD (Derived Physics Data) versioni ridotte (skimming, slimmed, thinning) degli AOD Group Level o primary DPD (D1PD) versioni filtrate di AOD/ESD con container selezionati solo per numerosi gruppi di analisi (prodotti ai Tier1) User level DPD: secondary DPD (D2PD) versioni filtrate di D1PD con UserData per analisi individualie e tertiary DPD (D3PD) root file rinali contenenti histo/ntuple per la pubblicazione (prodotti ai Tier2) target size di D1PD = 10 kB/ev (variazioni in base al canale fisico) ESD/AOD/D1,2PD hanno lo stesso formato ROOT/POOL per cui leggebili sia da Athena che da ROOT (usando la libreria AthenaRootAccess)
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 7 Attività di Commissioning del Computing in ATLAS CCRC08 – Fase 2 (maggio 2008) CCRC08 – Fase 2 (maggio 2008)
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 8 Attività Computing ATLAS ATLAS ha svolto un’intensa attività di test nel 2008 sia nell’ambito del CCRC08 (combinato con gli altri esperimenti) che indipendentemente: FDR e Pre CCRC08-2 Febbraio 2008: FDR-1: simulazione dell’intera catena di software & computing CCRC08–1: test della distribuzione dei dati T0 T1 T2 sosprattutto un test delle operazioni al Tier0, di funzionalità del sistema e di installazione e configurazione di SRM 2.2 e canali FTS sosprattutto un test delle operazioni al Tier0, di funzionalità del sistema e di installazione e configurazione di SRM 2.2 e canali FTS Esercizio molto utile per Atlas, metriche (di carattere qualitativo) rispettate Esercizio molto utile per Atlas, metriche (di carattere qualitativo) rispettate Marzo-Aprile 2008: Pre CCRC08-2: test di computing preparatori per il CCRC08-2 ripetizione test di funzionalità e configurazione canali Tier1 Tier1 ripetizione test di funzionalità e configurazione canali Tier1 Tier1 Maggio 2008 CCRC08-2: test intensivo di DDM, T0 T1 T2 e T1 T1 test di funzionalità e throughput test di funzionalità e throughput metriche molto esigenti metriche molto esigenti 4 settimane di test con incremento graduale delle complessità dei test 4 settimane di test con incremento graduale delle complessità dei test impossibilità a svolgere test di lunga durata; durante il weekend priorità per cosmici e commissioning dei rivelatori. impossibilità a svolgere test di lunga durata; durante il weekend priorità per cosmici e commissioning dei rivelatori. Giugno 2008 FDR-2 test delle procedure di validazione, ricostruzione e analisi distribuita dei dati test delle procedure di validazione, ricostruzione e analisi distribuita dei dati
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio CCRC08 – Fase 2 Durata 4 settimane. Attività durante la settimana (mar-ven.) per consentire la presa dati con i cosmici e il commissioning dei rivelatori nei fine settimana (attività prioritarie) Week 1 Functional Test: Trasferimenti Tier0 Tier1s Studio dell’efficienza del sistema di trasferimento dei dati Week 2 Tier1-Tier1 Test: Trasferimenti Tier1 Tier1 Studio dell’efficienza del sistema di distribuzione dei dati prodotti nel reprocessing (Tier1-Tier1 transfer matrix). Sottoscrizioni contemporanee ! 18 TB corrispondente a 90 MBps di import rate per ogni Tier1 (superiore al rate nominale) Week 3 Throughput Test: Trasferimenti Tier0 Tier1 Tier2 Simulazione dell’export dal Tier0 per 200 Hz (150% del rate nominale) Week 4 Full Exercise: Trasferimenti contemporanei Tier0 Tier1 Tier2 e Tier1 Tier1 In aggiunta intensa simulazione ai Tier2 con aggiunta di trasferimenti ai Tier1
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio CCRC08 – Fase 2 Le Metriche stabilite con un crescendo di complessità nelle 4 settimane Le Metriche stabilite con un crescendo di complessità nelle 4 settimane Functional Tests Replica completa al 90% dei dataset dal momento della sottoscrizione in 48h (week 1) 48h (week 1) 6h (week 4) 6h (week 4) Tier1 – Tier1 Test Per ogni canale (Tier1-Tier1 pair) il 90% dei dataset deve essere completamente replicato in 52 h (week2) 52 h (week2) 6h, mantenendo il rate del reprocessing con il Tier1 gemello per tutta la durata del test (al CNAF: 10 MBps di ESD e 20 MBps di AOD) (week 4) 6h, mantenendo il rate del reprocessing con il Tier1 gemello per tutta la durata del test (al CNAF: 10 MBps di ESD e 20 MBps di AOD) (week 4) Throughput Tests Ogni sito deve essere in grado di sostenere il peak rate per almeno 24 ore e il nominal rate per 3 giorni (week 3) il peak rate per almeno 24 ore e il nominal rate per 3 giorni (week 3)
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio WEEKIWEEKI L M M G V S D L M M G V S D L M M G V S D L M M G V S D W E K II W E K III W E K IV Functional Test CNAF (97% complete) CCRC08 – Fase2 Test superato da tutti i Tier1 Atlas e dal CNAF
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio DAY1 All days All days (errors) CCRC08 – Fase 2 W E K II WEEKIWEEKI L M M G V S D L M M G V S D L M M G V S D L M M G V S D W E K III W E K IV Tier1 – Tier1 Test
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Frazione di dataset completati FROMFROM TOTO = Not Relevant 0% 20% 40% 60% 80% 100% W E K II WEEKIWEEKI L M M G V S D L M M G V S D L M M G V S D L M M G V S D W E K III W E K IV CCRC08 – Fase 2
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio WEEKIWEEKI L M M G V S D L M M G V S D L M M G V S D L M M G V S D W E K II W E K III W E K IV CCRC08 – Fase 2 Data transfer complessivo Throughput Test
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio NOMINAL PEAK ERRORS WEEKIWEEKI L M M G V S D L M M G V S D L M M G V S D L M M G V S D W E K II W E K III W E K IV CCRC08 – Fase 2
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Test di backlog recovery Primi dati generati in 12 ore e sottoscritti in bulk 12h di backlog recuperati in 90 minuti in tutti i siti! Tier0 Tier1 W E K II WEEKIWEEKI L M M G V S D L M M G V S D L M M G V S D L W E K III M M G V S D W E K IV CCRC08 – Fase 2 Risolti problemi di throughput per trasferimenti dal Tier0: ~ 200 MBps per 2h
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Trasferimenti complessivi Blocco trasferimenti per 12 h il 27 Power-cut il 30 Expected Rate W E K II WEEKIWEEKI L M M G V S D L M M G V S D L M M G V S D L W E K III M M G V S D W E K IV CCRC08 – Fase 2
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio YELLOW boxes Effetto del power-cut YELLOW boxes Effetto del power-cut DARK GREEN boxes Double Registration problem DARK GREEN boxes Double Registration problem Grande miglioramento rispetto a Week2 W E K II WEEKIWEEKI L M M G V S D L M M G V S D L M M G V S D L W E K III M M G V S D W E K IV CCRC08 – Fase 2 Tier1 - Tier1 transfer matrix
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio CCRC08 – Fase 2 Considerazioni finali sul CCRC Il sistema di distribuzione dei dati era un item critico di Atlas. Preoccupazione negli utenti (scarsa fiducia sulla possibilità di reperire i dati con velocità ed efficienza). Il commissioning di questo sistema ha focalizzato l’attenzione durante il CCRC. Grande collaboriazione tra il gruppo ADC e le clouds. Il giudizio finale è positivo: efficienze e throughput molto alti nella maggior parte dei siti È stato effettuto un debugging approfondito delle configurazioni di tutte le parti del sistema testando, ben oltre gli use cases previsti per il data taking 2008, tutti i tipi di trasferimenti previsti dal CM. Il software è stabile e affidabile. Al CNAF numerosi problemi con lo storage (compatibilità tra i server GPFS e i server GridFTP) che hanno comportato throughput e efficienze bassi per lunghi periodi. Il test è stato superato solo negli ultimi giorno quando i problemi tecnici sono stati risolti Operations e support: la stretta collaborazione tra esperimento e Tier1 ha permesso di migliorare le strategie di supporto alle attività. Necessità di automatizzare le procedure di controllo. Il sistema è ancora poco robusto e richiede attenzione continua.
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Verso la presa dati attività continua attività continua il reprocessing il reprocessing
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Verso la presa dati Attività continua (heartbeat) da giugno viene runnato continuamente un Functionl Test, in sovrapposizione alle attività di simuazione e presa dati di cosmici (M8), per tenere sotto controllo e pressione il sistema di trasferimento dei dati partecipazione di circa 70 siti: 10 Tier1 e 60 Tier2 Dati generati al Cern, 10% nominal rate Distribuzione di RAW, ESD e AOD in accorto con il MoU e il Computing Model Tier0 Tier1 Tier1 Tier1, Tier1 Tier2 Sottoscrizione dei dataset di calibrazione dal Cern a 5 Tier2 (Roma e Napoli in IT) e due Tier1 (CNAF) Statistiche generate automaticamente Predisposti gli Operation Shifts Attività molto limitata nella cloud italiana per i noti problemi infrastrutturali che si sono verificati dal 20 Giungo cui si è sovrapposta l’instabilità del sistema di storage che già si era manifestata durante il CCRC
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Verso la presa dati
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Verso la presa dati
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Verso la presa dati Shifts Definita la tipologia di shift necessari per seguire le operazioni di computing: On line trigger, DAQ Tier-0: Tier0 operations, first and second pass reconstruction della ES e bulk reconstruction delle physics streams, registrazione dei dataset nei cataloghi centrali Data Export dal Tier0, Monitoring dei servizi centrali dell’ADC Produzione: Data Export dal Tier0 ai Tier1, Produzione MC, Reprocessing, Critical Data Replications e servizi centrali. Shift Remoti Gli Shift di produzione sono già attivi dallo scorso anno, i Tier0 e sono svolti per ora dagli esperiti per finalizzare le procedure e i tool e da settembre verranno svolti da tutti i membri di Atlas (all’inizio anche quando non c’è data taking)
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Il Reprocessing Attività primaria in un Tier1 Attività primaria in un Tier1 Processo composto di quattro fasi i cui tool sono stati recentemente definiti: Processo composto di quattro fasi i cui tool sono stati recentemente definiti: 1. stage dei file da tape e copia su WN utilizzo del tool DDM di pre-stage dei dataset da castor tape su disk buffer 2. file di input (Conditions Data) replicati in Oracle stream su disco (Storm) e copiati su WN ~ 35 input file per job 3. sottomissione dei job con il sistema dei pilot 4.copia separate dei file di output su Storm (T0D1) e tape (T1D0). Non esiste il T1D1
G. Carlino: Il Computing di ATLAS Milano, 30 Aprile Primi test di reprocessing in marzo con i dati di M5 Un dataset di 250 job per Tier1 (500 GB) Un dataset di 250 job per Tier1 (500 GB) al CNAF efficienza 93% (con 60 retries). Durata 27 h. Durata singolo job ~60 min. al CNAF efficienza 93% (con 60 retries). Durata 27 h. Durata singolo job ~ 60 min. Il Reprocessing Test in giugno e luglio con i dati di M5 task da 5000 job (10 TB) task da 5000 job (10 TB) test separato dei tool di prestaging e reprocessing test separato dei tool di prestaging e reprocessing efficienza 100% in molte cloud efficienza 100% in molte cloud al CNAF efficienza 43% a causa del sovraccarico dei server GridFTP nella copia dei condition data su WN. al CNAF efficienza 43% a causa del sovraccarico dei server GridFTP nella copia dei condition data su WN. Test non ripetuto a causa dei problemi del sito Test non ripetuto a causa dei problemi del sito Soluzione individuata e in fase di implementazione: Mount locale dei dischi su WN e uso del protocollo file per accedere ai dati Soluzione individuata e in fase di implementazione: Mount locale dei dischi su WN e uso del protocollo file per accedere ai dati Ripresa del test la prossima settimana con una versione corretta del tool di prestaging. Next: reprocessing dei dati di M6 e FDR Test più realistico (file size e access pattern) Test più realistico (file size e access pattern)
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio i Tier2 partecipazione ai test CCRC e FDR-2 muon calibration le infrastrutture utilizzo delle risorse
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Attività di Computing nei Tier2 Partecipazione dei Tier2 italiani al CCRC e al FDR Il Computing Model di ATLAS prevede che i Tier2 “interagiscano” essenzialmente con il Tier1 della propria cloud dei quali sono satelliti. pro: modello molto agile e poco caotico pro: modello molto agile e poco caotico contro: il Tier1 è un single point of failure contro: il Tier1 è un single point of failure CCRC08 – Fase 2: test di distribuzione dei dati i Tier2 hanno partecipato al test replicando i dati trasmessi al CNAF dal Tier0 i Tier2 hanno partecipato al test replicando i dati trasmessi al CNAF dal Tier0 studio dell’efficienza dei trasferimenti studio dell’efficienza dei trasferimenti studio del timing dei trasferimenti studio del timing dei trasferimenti FDR: test dell’intera catena di computing e in particolare, per i Tier2, del sistema di analisi distribuita studio dell’efficienza delle repliche dei dati necessari per l’analisi: AOD e DPD studio dell’efficienza delle repliche dei dati necessari per l’analisi: AOD e DPD studio della possibilità di accesso ai dati da parte degli utenti e dell’utilizzo dei tool di analisi distribuita studio della possibilità di accesso ai dati da parte degli utenti e dell’utilizzo dei tool di analisi distribuita
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio W E K II WEEKIWEEKI L M M G V S D L M M G V S D L M M G V S D L W E K III M M G V S D W E K IV CCRC08 – Fase 2. I Tier2 Tier0 Tier1 Tier2 Oversubscription a Na e Rm: 100% AOD Dataset Files Eff Thr. MB/s LNF %2.64 MI %2.88 NA %12,02 RM %12,02
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio MB/s W E K II WEEKIWEEKI L M M G V S D L M M G V S D L M M G V S D L W E K III M M G V S D W E K IV CCRC08 – Fase 2. I Tier2 I Tier2 acquisiscono i dati molto velocemente: max 1.5h dalla richiesta di sottoscrizione e max 0.5h per completare un dataset Throughput Throughput: Time structure nei trasferimenti. I Dataset vengono sottoscritti dopo che la replica completa al Tier1, ogni 4h.
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio CCRC08 – Fase 2. I Tier2 Affidabilità del Tier2 Affidabilità del Tier2: Recupero immediato del backlog Esempio: interruzione dei trasferimenti a NA per la scadenza del certificato del DPM. Recupero dei dati in 30 min con un throughput di 100 MBps WEEKIWEEKI L M M G V S D L M M G V S D L M M G V S D L M M G V S D W E K II W E K III W E K IV Errori
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Simulazione di 1 fill di presa dati 4 Run di 1 hr a e 250 Hz, 1.5 pb -1, con configurazioni diverse, ripetuti più volte 4 Run di 1 hr a e 250 Hz, 1.5 pb -1, con configurazioni diverse, ripetuti più volte Dati MC pesati con le corrette sezioni d’urto Dati MC pesati con le corrette sezioni d’urto Immissione dei dati nel TDAQ e running a partire dagli SFO Run della trigger simulation Run della trigger simulation 5 physics stream: mu, e/gamma, multijets, Bphys, minbias + Express stream e calibrazioni 5 physics stream: mu, e/gamma, multijets, Bphys, minbias + Express stream e calibrazioni Completo utilizzo del Tier-0 merging, scrittura su tape, ricostruzione, calibrazione, validazione etc merging, scrittura su tape, ricostruzione, calibrazione, validazione etc ricostruzione e validazione sulla ES per verificare la qualità dei dati. ricostruzione e validazione sulla ES per verificare la qualità dei dati. Test del “calibration loop” Test del “calibration loop” Bulk reconstruction sulle physics stream (anche DPD da ESD inizialmente) Bulk reconstruction sulle physics stream (anche DPD da ESD inizialmente) vari problemi di merging e ricostruzione evidenziati e risolti vari problemi di merging e ricostruzione evidenziati e risolti Esecuzione del Computing Model in maniera completa distribuzione dei dati e analisi distribuita distribuzione dei dati e analisi distribuita Simulazione MC completa in parallelo Final Dress Rehearsal Test dell’intero computing system, dall’on-line/trigger all’analisi distribuita, come se si trattasse di dati reali per evidenziare i problemi che si potrebbero verificare durante il data taking
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Final Dress Rehearsal Distribuzione dei dati: Dati correttamente ricostruiti pronti solo il 15-6 e trasferiti ai Tier1 e Tier2 Richiesti 100% AOD e DPD a NA e RM, 25% a MI e LNF Efficienza 100%
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Final Dress Rehearsal Analisi nei Tier2: Utilizzo esclusivo dei Tier2 italiani Test di accesso ai dati e running dei job di analisi con Ganga contributo fondamentale degli utenti italiani per debuggare Ganga e renderlo utilizzabile su dpm (primo srm ad essere funzionante con le nuove release) contributo fondamentale degli utenti italiani per debuggare Ganga e renderlo utilizzabile su dpm (primo srm ad essere funzionante con le nuove release) possibilità di definire i siti o la cloud sui cui runnare possibilità di definire i siti o la cloud sui cui runnare soddisfazione degli utenti per la facilità e la velocità di utilizzo dopo il primo periodo di training e configurazione. soddisfazione degli utenti per la facilità e la velocità di utilizzo dopo il primo periodo di training e configurazione. max 2h tra l’invio dei job, il recupero dell’output e l’analisi locale, nonostante la forte competizione con la produzione MC max 2h tra l’invio dei job, il recupero dell’output e l’analisi locale, nonostante la forte competizione con la produzione MC efficienza dei job > 95% efficienza dei job > 95% Strategie di analisi: produzione in grid di DPD di gruppo o utente con i DPDMaker dagli AOD e DPD primari prodotti centralmente produzione in grid di DPD di gruppo o utente con i DPDMaker dagli AOD e DPD primari prodotti centralmente analisi dei DPD localmente nei Tier2 di riferimento (ARANA) analisi dei DPD localmente nei Tier2 di riferimento (ARANA) Gruppi di analisi coinvolti Susy, Top, Higgs, MS, Minimum Bias, Trigger Susy, Top, Higgs, MS, Minimum Bias, Trigger Risultati non particolarmente rilevanti dal punto fisico. Lo scopo era di familiarizzare con i tool e testare tutti gli aspetti della catena Risultati non particolarmente rilevanti dal punto fisico. Lo scopo era di familiarizzare con i tool e testare tutti gli aspetti della catena
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio 10)(4)(6) jets minbias 10 20 40 6 + Bphy 25i + 10 totalE + EtMiss Trigger EF Analisi del trigger nella muon stream: offline muon (Muid) MU6 MU10 MU11 MU20 MU40 LVL1 selection barrel + endcaps muon p T (MeV) L1 L2 EF Final Dress Rehearsal
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Tutte le analisi studiano preliminarmente la ricostruzione di Z Di-electron invariant mass Di- invariant mass Final Dress Rehearsal eventi calibrati eventi scalibrati
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Y J/ M (MeV) J/ Y Z M (MeV) Z Final Dress Rehearsal Opposite Sign e Same Sign dileptons Opposite Sign (OS) e Same Sign (SS) dileptons
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Etmiss Etsum nella stream e/gamma: Molteplicità di particelle cariche nella stream Minimum Bias Final Dress Rehearsal
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio i Tier2 partecipazione ai test CCRC e FDR-2 muon calibration le infrastrutture utilizzo delle risorse
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Calibration center CERN 40 M /day 100 M /day Stream di calibrazione dei Stream dal LVL2 (2 kHz). Distribuzione in Italia a Roma, sito ufficiale per la calibrazione degli MDT, e a Napoli per l’analisi, off-line, degli RPC Canali FTS dedicati con il Tier0 per diminuire la latenza (non appesantisce la banda passante) Canali FTS dedicati con il Tier0 per diminuire la latenza (non appesantisce la banda passante) 100 M ev/giorno, Event Size = 1 kB, Max bandwidth = 10 MBps 100 M ev/giorno, Event Size = 1 kB, Max bandwidth = 10 MBps Calibrazione entro 24h dalla presa dati Accesso e scrittura su DB Oracle. Replica del DB al Cern Run 2009 Risorse necessarie a Roma: Disco: 10 TB Disco: 10 TB CPU: ~150 kSI2k CPU: ~150 kSI2k Shift da Settembre a Roma da Settembre a Roma 2 persone al giorno 2 persone al giorno shift americani di notte shift americani di notte
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Stream di calibrazione dei Distribuzione dei dati: Trasferimento rapidissimo Pochi minuti dalla registrazione in DDM Pochi minuti dalla registrazione in DDM Lunghi tempi di attesa per le registrazioni dei file nei cataloghi Problemi con i cataloghi centrali ora risolti Problemi con i cataloghi centrali ora risolti Ritardo nelle registrazioni fino a 5h Ritardo nelle registrazioni fino a 5h Soluzioni in fase di implementazione Soluzioni in fase di implementazione Processamento dei dati: Splitting dei dati e produzione di ntuple max 2h dopo il completamento dei dataset Calibrazione dalle ntuple max 3h Filling del DB locale e replica al Cern Replica dei dati: Replica in linea dei dati al Tier0 I dati arrivati sono stati processati e i risultati trasmessi al Cern entro il termine di 24h a partire dalla presa dati. FDR: 43 M eventi analizzati al giorno (equivalenti a 6h di presa dati al giorno) Durata del test: 3 giorni
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Attività nei Tier2 Attività principale degli utenti nella prima settimana dell’FDR: calibrazione dei mu Attività principale degli utenti nella seconda settimana dell’FDR: analisi
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio i Tier2 partecipazione ai test CCRC e FDR-2 muon calibration le infrastrutture utilizzo delle risorse
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio LOCALE NON DISPONIBILE LOCALE UPS E QUADRO PARALLELO CENTRALE TERMICA LOCALE IN FASE DI ALL. ZONA DI PERTINENZA TIER 2 ZONA DI PERTINENZA TIER 2 ZONA DI PERTINENZA TIER 2 Il Tier-2 di Milano La Sala Macchine e gli spazi per il Tier-2 12 Rack per ATLAS, 7 parzialmente occupati 4 rack (2 per ogni sala) connessi con fibra a 10 Gbps Spazio e risorse per altri rack eventualmente necessari
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Impianto elettrico: Gruppo di continutà da 200 KVA corrispondenti a 160 KW, autonomia 15’. Gruppo di continutà da 200 KVA corrispondenti a 160 KW, autonomia 15’. Installato un gruppo elettrogeno da 400 KVA in esclusivo uso della sala macchine, in grado di sopperire alle esigenze della parte elettrica e del sistema di raffreddamento. Autonomia 11 ore. Installato un gruppo elettrogeno da 400 KVA in esclusivo uso della sala macchine, in grado di sopperire alle esigenze della parte elettrica e del sistema di raffreddamento. Autonomia 11 ore. Impianto termico: Il sistema di condizionamento realizzato per l’intera sala è costituito da due chiller da 90 kW termici ognuno Il sistema di condizionamento realizzato per l’intera sala è costituito da due chiller da 90 kW termici ognuno Modifiche al sistema di distribuzione dell’aria sono già previste per ottimizzarlo Modifiche al sistema di distribuzione dell’aria sono già previste per ottimizzarlo Impianto Antincendio: Il sistema attualmente installato non copre tutte le zone previste, nel prossimo anno è prevista la sua revisione e la sostituzione dell’estinguente attualmente non più a norma Il sistema attualmente installato non copre tutte le zone previste, nel prossimo anno è prevista la sua revisione e la sostituzione dell’estinguente attualmente non più a norma Il Tier-2 di Milano
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Il Tier-2 di Milano Test di Storm: Il gruppo di Milano in collaborazione con il Centro di Calcolo sta svolgendo dei testi sullo storage per valutare la possibilità di passare a Storm nei Tier2 Fase 1: Caratterizzazione dell’Hardware per valutare le performance del sistema di storage (completato) Fase 1: Caratterizzazione dell’Hardware per valutare le performance del sistema di storage (completato) Storage: Xyratex 48Bay, 4G FC2SATA, Dual RIAD Controller, 48 Dischi da 1 TB Storage: Xyratex 48Bay, 4G FC2SATA, Dual RIAD Controller, 48 Dischi da 1 TB 2 Server 1U SuperMicro con scheda FC 2 Server 1U SuperMicro con scheda FC Fase 2: Test di GPFS su un cluster di 22 WN (in corso) Fase 2: Test di GPFS su un cluster di 22 WN (in corso) Fase 3: Test di Storm (Agosto e Settembre) Fase 3: Test di Storm (Agosto e Settembre) Storm verrà utilizzato per fornire accesso a file montati localmente via GPFS su tutti i WN coinvolti Storm verrà utilizzato per fornire accesso a file montati localmente via GPFS su tutti i WN coinvolti In base ai risultati di questi test e al supporto ai Tier2 che il CNAF potrà fornire verrà deciso se tutti i Tier2 di Atlas migreranno a questo srm per il 2009
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Il Tier-2 di Napoli 4 Rack installati attualmente: Connessione tra i rack a 10 Gbps con switch in cascata Connessione tra i rack a 10 Gbps con switch in cascata Espansione fino a 10 Rack Impianti dimensionati per tale capacità Impianti dimensionati per tale capacità Sala ATLAS INFN Superficie 44 m 2 Superficie 44 m 2
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Il Tier-2 di Napoli Sala PON SCoPE Superficie 120 m 2 Superficie 120 m 2 Capacità 120 Rack. 10 Tier-2 a disposizione del Tier-2 Capacità 120 Rack. 10 Tier-2 a disposizione del Tier-2 Il Tier-2 di ATLAS verrà ospitato in questa struttura usufruendo di tutte le facilities di monitoraggio e intervento previste dal progetto Il Tier-2 di ATLAS verrà ospitato in questa struttura usufruendo di tutte le facilities di monitoraggio e intervento previste dal progetto In fase di installazione una connessione di rete costituita da 6 coppie di fibre monomodali a 10 Gbps tra la sala SCoPE e il Tier2 In fase di installazione una connessione di rete costituita da 6 coppie di fibre monomodali a 10 Gbps tra la sala SCoPE e il Tier2 Stato di avanzamento dei lavori (Giugno 2008) Stato di avanzamento dei lavori (Giugno 2008) Disponibilità autunno 2008 Disponibilità autunno 2008 La strategia è di suddividere il Tier2 nelle due sale con connessioni diretta a 10 Gbps
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Sala controllo SCoPE (edif. Biologia) Sala Campus Grid Centro stella Fisica Sala TIER-2 ATLAS (edif. Fisica) Capannone SCoPE 10 coppie monomodali 6 coppie monomodali 10 rack TIER-2 altri rackf. multimod f. monomod 6 coppie monomodali Schema di riorganizzazione dell’attestazione delle fibre ottiche Il Tier-2 di Napoli 4 rack nella sala INFN + (max) 10 rack nella sala scope. Connessione diretta dei rack nella sala SCoPE al router del Tier2 senza passare per quello di SCoPE (unica rete per il Tier2)
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Il Tier-2 di Napoli Impianto Elettrico: Max potenza disponbile: 250 kW Max potenza disponbile: 250 kW 2 Gruppi di continuità da 60 kVA in parallelo. Autonomia a pieno carico 7’. In corso installazione sistema di videosorveglianza 2 Gruppi di continuità da 60 kVA in parallelo. Autonomia a pieno carico 7’. In corso installazione sistema di videosorveglianza Monitoraggio remoto dei parametri elettrici dell’armadio di zona Monitoraggio remoto dei parametri elettrici dell’armadio di zona Ad ogni rack arriva una linea elettrica trifase da 22KW Ad ogni rack arriva una linea elettrica trifase da 22KW Gruppo elettrogeno in comune con la sala SCoPE, installato inizi Gruppo elettrogeno in comune con la sala SCoPE, installato inizi luglio e operativo subito dopo l’estate luglio e operativo subito dopo l’estate Impianto termico: Chiller con capacità di raffreddamento di 90 kW, due compressori indipendenti Chiller con capacità di raffreddamento di 90 kW, due compressori indipendenti Rack autoraffreddanti RIMatrix della Rittal con potenza dichiarata di 12kW espandibile a 20 KW modificando la temperatura e i flussi dell’acqua Rack autoraffreddanti RIMatrix della Rittal con potenza dichiarata di 12kW espandibile a 20 KW modificando la temperatura e i flussi dell’acqua Raffreddamento ambientale della sala garantito da due unità da 6 KW Raffreddamento ambientale della sala garantito da due unità da 6 KW Impianto Antincendio: Protezione dei rack Protezione dei rack Centralina che attraverso una coppia di rivelatori per rack (in AND) attiva la scarica all’interno dei rack stessiCentralina che attraverso una coppia di rivelatori per rack (in AND) attiva la scarica all’interno dei rack stessi Protezione della sala Protezione della sala Analogo funzionamento ma i sensori sono distribuiti nella sala dove avviene la scaricaAnalogo funzionamento ma i sensori sono distribuiti nella sala dove avviene la scarica
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Il Tier-2 di Roma1 Nuova sala disponibile da fine Novembre 2007 Dimensione sala 60 m 2 espandibile fino a oltre 120 m 2 Dimensione sala 60 m 2 espandibile fino a oltre 120 m 2 3 rack disponibili per Atlas, connessi a 10 Gbps + 2 nel rack disponibili per Atlas, connessi a 10 Gbps + 2 nel 2009 Capacità della sala: 14 rack con gli attuali impianti, fino a 21 modificando la rete idraulica (progettata per questa eventualità) Capacità della sala: 14 rack con gli attuali impianti, fino a 21 modificando la rete idraulica (progettata per questa eventualità) Impianto termico: Rack autocondizionati ad acqua della Knuerr Rack autocondizionati ad acqua della Knuerr Max potenza per rack: 17kW Max potenza per rack: 17kW 2 chiller da 80 KW ognuno con doppia pompa indipendente 2 chiller da 80 KW ognuno con doppia pompa indipendente Impianto Elettrico: Max potenza disponibile: 360 KVA Max potenza disponibile: 360 KVA 2 UPS da 120 KVA con autonomia di 10’ a pieno carico 2 UPS da 120 KVA con autonomia di 10’ a pieno carico Impianto Antincendio: Impianto a gas inerte che agisce sull'intera sala macchine e all’interno dei rack. Impianto a gas inerte che agisce sull'intera sala macchine e all’interno dei rack. Sensori posti sia nella sala che all’interno dei rack Sensori posti sia nella sala che all’interno dei rack La centralina di controllo è situata all'interno della sala macchine e verrà collegata con un sistema di allarmistica alla vigilanza dello stabile La centralina di controllo è situata all'interno della sala macchine e verrà collegata con un sistema di allarmistica alla vigilanza dello stabile
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Il Tier-2 di Roma1
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Il proto Tier-2 di Frascati La sala che ospita il proto-Tier2 è situata al pian terreno di un edificio a due piani che ospita il servizio di calcolo dei LNF, una libreria a nastro dell’esperimento Kloe, il sistema informativo dell’INFN ed il POP GARR dell’area di Frascati Superficie 97 m 2. Il Tier2 occupa attualmente tre rack e può essere espanso con altri due rack 2 rack per WN e disk server da connettere a 10 Gbps, terzo rack per lo storage 2 rack per WN e disk server da connettere a 10 Gbps, terzo rack per lo storage Può ospitare tranquillamente tutte le risorse previste per il 2009
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Il proto Tier-2 di Frascati Impianto elettrico: Potenza attualmente necessaria: 15 kW (Atlas) + 40 kW (altre risorse) Potenza attualmente necessaria: 15 kW (Atlas) + 40 kW (altre risorse) UPS da 160 KVA, autonomia 15’ UPS da 160 KVA, autonomia 15’ Gruppo elettrogeno da 120 kW in azione dopo un minuto Gruppo elettrogeno da 120 kW in azione dopo un minuto Impianto termico: L’impianto di raffredamento esistente e’ a circolazione d’acqua ricavato deviando una parte del condizionamento di Dafne L’impianto di raffredamento esistente e’ a circolazione d’acqua ricavato deviando una parte del condizionamento di Dafne Impianto Antincendio: Impianto a gas inerte (FM200) dimensionato tenendo conto della destinazione d’uso e dimensione dei vari ambienti Impianto a gas inerte (FM200) dimensionato tenendo conto della destinazione d’uso e dimensione dei vari ambienti
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Il Direttore di LNF ha incaricato a R. de Sangro la formazione di un gruppo di lavoro per lo studio di fattibilità di un servizio di calcolo scientifico Il gruppo e’ al lavoro dal Feb E’ stata fatta l’analisi delle attività e risorse di calcolo dei diversi esperimenti e servizi (inclusi gli sviluppi di DAFNE) cosi come delle richieste alle rispettive CSN oltre che delle desiderate. Dopo aver concordato sulla fattibilità di concentrazione di molte delle risorse tecnologiche e umane in un’unica struttura, si e’ proceduto ad identificare un sito (lo spazio attorno all’attuale centro di calcolo, al pian terreno dell’ edificio) ed a proporre un piano di sviluppo e di spesa distribuito in 3 fasi. La prima fase, concepita principalmente attorno alle richieste di un T2 di ATLAS, e’ focalizzata a realizzare tutti i lavori infrastrutturali che richiedono interventi in sala. Il documento e’ da ieri all’analisi della Direzione. Il proto Tier-2 di Frascati
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio LAN Tier2 – situazione attuale La connessione a 10 Gbps tra i rack è garantita da Switch 3Com stackable. Connessione in rame per distanze inferiori ai 3 m Connessione in rame per distanze inferiori ai 3 m Connessione in fibra per distanze superiori (p.es. sale diverse) Connessione in fibra per distanze superiori (p.es. sale diverse) La connessione con il Garr è a 1 Gbps, sufficiente per le esigenze attuali 1 Gbps RACK n RACK n+1 10 Gbps Rame RACK m RACK m+1 10 Gbps Rame 10 Gbps Fibra Cluster di Rack 1Cluster di Rack 2 La rete dei Tier2
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio LAN Tier2 – situazione futura Ogni rack sarà connesso a 10 Gbps verso un router centro stella del Tier2 connesso direttamente a 10 Gbps verso il Garr. Gli switch di rack usati attualmente possono sempre impiegati anche nella nuova configurazione comprando i moduli per le fibre dove mancano Gli switch di rack usati attualmente possono sempre impiegati anche nella nuova configurazione comprando i moduli per le fibre dove mancano Tempi? Il gruppo NetArc della CCR sta studiando la fattibilità dell’upgrade Tempi? Il gruppo NetArc della CCR sta studiando la fattibilità dell’upgrade Nel frattempo, anche se non si definisce l’acquisto del router centrale, proponiamo l’acquisto degli switch necessari per i nuovi rack con i moduli in fibra Nel frattempo, anche se non si definisce l’acquisto del router centrale, proponiamo l’acquisto degli switch necessari per i nuovi rack con i moduli in fibra La rete dei Tier2 10 Gbps Fibra RACK n RACK n+1 RACK m RACK m+1 10 Gbps Fibra 10 Gbps Fibra Cluster di Rack 1 Cluster di Rack 2 10 Gbps Fibra 10 Gbps verso il GARR
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio i Tier2 partecipazione ai test CCRC e FDR-2 muon calibration le infrastrutture utilizzo delle risorse
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Tier-2 Italiani L’ Utilizzo delle risorse si riferisce essenzialmente al periodo fino alla fine dell’FDR. Dopo i problemi al CNAF hanno determinato una quasi totale interruzione delle attività nei Tier2. Il susseguirsi di problemi al Tier1 e l’instabilità dei servizi hanno fatto si che Atlas riducesse al minimo i task di produzione e decidesse di mettere off-line per un periodo di test la cloud italiana.
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Reliability e Availability dei Tier2 Jun-08
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio core (fino al 21-3) 72 core (fino 3-6) 160 core Tier-2 Napoli Utilizzo Risorse 2008
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Tier-2 Milano Utilizzo Risorse 2008
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Tier-2 Roma I Utilizzo Risorse 2008
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Tier-2 Roma I
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Proto Tier-2 Frascati Usage (%) CPU Time Wall time Utilizzo Risorse 2008
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 66 Attività nei Tier2 e Richieste 2009
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Train to 7TeV Machine checkout Beam Setup 75ns operation25ns operation Shutdown BC No beamBeam 2009 Risorse necessarie LHC LHC data taking LHC data taking 100 giorni di Fisica 100 giorni di Fisica 14h di data taking (50k sec/day) 14h di data taking (50k sec/day) 5· Hz 10 9 eventi 5· Hz 10 9 eventi 320 MB/s 320 MB/s 1.6 PB/year di RAW, 1.0 PB/year di ESD, > 0.1 PB/year di AOD 1.6 PB/year di RAW, 1.0 PB/year di ESD, > 0.1 PB/year di AOD O(10k CPU) per processing e reprocessing il primo anno O(10k CPU) per processing e reprocessing il primo anno O(10k CPU) per la simulazione O(10k CPU) per la simulazione LHC - Tier2 1.2 versioni complete di AOD 2.5 versioni di DPD primari 3.Frazione di RAW (2%, circa metà della quota CNAF) 4.No ESD Totale = ~500 TBn 3. per studi di performance dei rivelatori RAW = 1.6 MB - AOD = 0.2 MB ESD = 1 MB - DPD = 0.02 MB
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Risorse necessarie cosmici Cosmics data taking Cosmics data taking la raccolta di cosmici avverrà sicuramente nel 2009 quando LHC sarà inattivo. la raccolta di cosmici avverrà sicuramente nel 2009 quando LHC sarà inattivo. Al momento non è possibile stimare nè la quantità di dati che verrà raccolta nè l’effettivo interesse per gli stessi Al momento non è possibile stimare nè la quantità di dati che verrà raccolta nè l’effettivo interesse per gli stessi 1.RAW e ESD (replica per l’analisi dei dati inviati al CNAF) 2.No AOD e DPD Totale = ~50 TBn Stima indicativa, da rivedere nel corso del 2009 Cosmics - Tier2 M8, luglio 08 M8, luglio 08 (circa 10 giorni) RAW = 94 TB RAW = 94 TB ESD = 7 TB ESD = 7 TB NTUP = 12 TB NTUP = 12 TB
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Risorse necessarie Analisi Risorse dedicate agli utenti italiani CPU: Il gruppo atlas/it è stato creato e sarà operativo nei prossimi giorni perché si è attesa un unpgrade del WMS per la pubblicazione del sistema di priorità dei job nell’information system. È stato inserito il gruppo italiano nel sistema fornendogli i privilegi nell’uso delle risorse dei Tier2. Un sistema di job priority e fair share in fase di implementazione in questi giorni garantisce una quota dedicata di risorse Disco: Spazio disco dedicato agli utenti italiani (LOCALUSERDISK). Il pool ATLASUSERDISK è utilizzato da tutti gli utenti di Atlas ed è un’area scratch Analisi nei Tier2 Analisi nei Tier2 analisi caotica da parte degli utenti produzione di D2,3PD produzione di D2,3PD calibrazioni dei mu (MDT, LVL1, RPC) analisi di gruppo. Prevista soprattutto al Tier1. Aumento dell’utilizzo delle risorse dei Tier2 presenza importante di italiani nei gruppi di fisica presenza importante di italiani nei gruppi di fisica replica completa di AOD e DPD nei Tier2 replica completa di AOD e DPD nei Tier2
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Risorse necessarie Analisi Stato attuale: fino al 2007 uso marginale dei Tier2 per l’analisi distribuita (ampia attività locale) grande collaborazione della comunità italiana con gli sviluppatori per aumentare la semplicità di utilizzo, l’efficienza, l’individuazione dei siti sui cui runnare con GANGA risoluzione di problemi tecnici: accesso allo storage con srm Storm e DPM accesso allo storage con srm Storm e DPM accesso ai RAW data e alla stream di calibrazione accesso ai RAW data e alla stream di calibrazione FDR: partecipazione di molti gruppi italiani 13 gruppi (Higgs, SUSY, MS, Top, Tau, Etmiss, Trigger) 13 gruppi (Higgs, SUSY, MS, Top, Tau, Etmiss, Trigger) analisi nei Tier2 e uso di GANGA analisi nei Tier2 e uso di GANGA Alta efficienza (>95%), velocità di esecuzione e Alta efficienza (>95%), velocità di esecuzione e recupero degli output 1. gruppi di analisi: 20 2.Disco per gruppo: ~ 14,5 TBn 3.CPU per gruppo: ~80 kSI2k Totale = 350 TBn e 1600 kSI2k Spazio disco per gli utenti generici di Atlas e LOCALUSERDISK per gli utenti italiani (non incluso nei pledges) 2. Si assume che lo spazio disco necessario scali con la luminosità integrata. Fattore di scala 2009 vs 2008 = 5/2 ( vs sec). Per il 2008 si sono considerati 7 TBn a gruppo Assumiamo di poter recuperare per le attività 2009 metà dello spazio disco utenti assegnato per il 2008 Tier2 Previsione per il 2009 circa 20 gruppi italiani di analisi Fisica: W/Z (2), SUSY (2), Top, Higgs (3), W/Z (2), SUSY (2), Top, Higgs (3), Jets, Hidden Valley, Z’, Bphys Performance, Calibrazione: EM Calo / Photon ID, Pixel, Tau/Etmiss, EM Calo / Photon ID, Pixel, Tau/Etmiss, btag trigger, Jet calib e reco, LVL1 muon, RPC, MDT, combined muons
G. Carlino: Il Computing di ATLAS CNAF, 24 Luglio Risorse necessarie MC Strategia di simulazione: 1.G4 Hits prodotti nei Tier2 e uploaded nei Tier1 2.Hits su T1D1 3.Digi, Pile-up e Reco al Tier % di RDO su disco 5. AOD esportati agli altri Tier1 e ai Tier2 della cloud 6.AOD prodotti nelle altre cloud importati al Tier1 e esportati ai Tier2 della cloud 7. DPD primari prodotti dagli AOD al Tier1 e esportati ai Tier2 della cloud Ricostruzione: Merging dei file di input (circa 10 RDO per job) al Tier1 avviene soprattutto ai Tier1 perché richiede molti file di input da replicare ai Tier2 I task vengono assegnati alla cloud, i job al Tier1 o ai Tier2 in base ad un criterio di ranking che tiene conto del numero di slot disponibili, delle code e di un fattore di peso, definito dalla cloud, che penalizza i Tier2 (maggiore è il peso peggiore è il rank dei Tier2) Il tuning del peso permette di variare il rapporto reco/simu al Tier1 e ai Tier2 In caso di necessità e di risorse disponibili possiamo aumentare il rapporto ai Tier2 Non consideriamo la ricostruzione per il calcolo delle risorse. Il processing time è più breve di un ordine di grandezza
G. Carlino: Il Computing di ATLAS CSN1, Roma 2 Luglio Risorse necessarie MC Simulation timekSI2k·s Minimum Bias300 QCD700 W/Z, WH, Top600 SuSy1100 Higgs700 B-physics600 Atlas prevede di simulare nel 2009 una frazione dei dati raccolti così definita: Full simulation: 20% 2 · 10 8 eventi Fast simulation: 45% 4.5 · 10 8 eventi Nel corso dell’anno si verificheranno le risorse effettivamente disponibili e si deciderà lo sviluppo temporale delle simulazioni. La simulazione viene svolta anche nei Tier1 se le risorse sono disponibili. La strategia è di dedicare l’uso delle risorse del CNAF al reprocessing e massimizzare l’uso dei Tier2. La ricostruzione dei dati MC prodotti nei Tier2 verrà 1. 2 versioni di AOD 2. 5 versioni di DPD 3. Tier2 buffer per il MC per 2 settimane Storage = ~ 350 TBn CPU = ~ 850 kSI2k Tier2 HITS = 4 MB RDO = 2 MB ESD = 1 MB AOD = 0.2 MB
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 73 Risorse necessarie riepilogo Attività CPU(kSI2k)Disco(TBn) LHC data taking 500 Cosmici50 Simulazione Utenti Totale
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 74 Risorse necessarie riepilogo Settembre CPU(kSI2k)Disco(TBn) Richieste ATLAS Piano ATLAS Piano Referee
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 75 Risorse disponibili nei Tier2 CPU (kSI2k) Disco (TBr) Gen 08Giu 08Dic 08Gen 08Giu 08Dic 08 LNF Milano Napoli Roma Tot (TBn) (TBn) (TBn) Gen 08 indica le risorse acquisite nella seconda parte del 2007 con lo sblocco del sub judice 2007, Giu 08 le risorse acquisite con lo sblocco del primo s.j e Dic 2008 la stima delle risorse disponibili a fine anno con lo sblocco del secondo s.j Il valore dei TB netti riportato per Giugno 2008 è quello effettivo e non il semplice TBr/1.2 come calcolato precedentemente. La stima dei TB netti a fine 2008 si basa sull’acquisto dello stesso sistama di storage appena comprato Sono stati escluse le risorse obsolete al Dic 08 1 CInt06_Rate = 0,2 kSI2k - 1 kSI2k = 5 CInt06_Rate
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 76 Richieste 2009 – Tier2 CPUDisco kSI2kK€TBnK€ Necessità attività Necessità attività Risorse a Dicembre Richieste Costi CPU: 0.12 K€/kSI2k Disco: 1.0 K€/TBn Determinazione delle necessità di storage Allo storage necessario per le nuove attività 2009 va sommato quello per conservare i dati del Deve rimanere su disco: l’ultima versione degli AOD e dei DPD del 2008 per l’analisi = ~150 TB l’ultima versione degli AOD e dei DPD del 2008 per l’analisi = ~150 TB la metà dello spazio disco destinato agli utenti per il 2008 = ~ 50 TB la metà dello spazio disco destinato agli utenti per il 2008 = ~ 50 TB
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 77 Richieste 2009 – Tier2 Ulteriori richieste: Switch di rack Si prevede l’acquisto di due switch 3Com dello stesso tipo acquistato in tutti i Tier2 per garantire la connessione a 10 Gbps tra i WN e lo Storage Nell’ipotesi di finanziamento di un router centrale per i Tier2 prevediamo connessioni in fibra per ogni switch Nel caso il router non venisse finanziato nel 2009 sarà sempre possibile connettere tra di loro gli switch con i moduli in fibra Nel caso il router non venisse finanziato nel 2009 sarà sempre possibile connettere tra di loro gli switch con i moduli in fibra Non è deciso quale commissione (CSN1 o CCR) finanzierà il router, per cui consideriamo una richiesta sj di 25 k€ Non è deciso quale commissione (CSN1 o CCR) finanzierà il router, per cui consideriamo una richiesta sj di 25 k€ 6 switch per ogni Tier2 approvato con connessione a 10 Gbps 4 switch già disponibili e 2 da acquistare a Na e Rm e 3 a Mi 4 switch già disponibili e 2 da acquistare a Na e Rm e 3 a Mi Connessioni in fibra per 4 switch a Rm e 5 a Mi (2 già disponibili) e per 6 switch a Na Connessioni in fibra per 4 switch a Rm e 5 a Mi (2 già disponibili) e per 6 switch a Na 3 rack per il proto Tier2, Acquisto di 2 switch con connessione in rame a 10 Gbps per connettere il rack di WN e quello con i disk server Acquisto di 2 switch con connessione in rame a 10 Gbps per connettere il rack di WN e quello con i disk server Consumo Richiesta di 5 k€ per ogni Tier2 Richiesta di 5 k€ per ogni Tier2
CNAF, 20 Giugno 2008 G. Carlino: Il Computing di ATLAS 78 Richieste Tier Suddivisione per sedi 30% per i Tier2 approvati 30% per i Tier2 approvati 10% per il proto Tier2 10% per il proto Tier2 Riteniamo necessario il finanziamento di Frascati per il 2009 per permettere al sito di partecipare alle attività di computing in maniera significativa e di evidenziare la sua importanza nella cloud italiana CPUDiscoSwitchConsumo kSI2kK€TBnK€ LNF Milano sj5 Napoli sj5 Roma sj5 Tot sj20 Piano temporale dei finanziamenti 2/3 assegnati subito per permettere l’acquisizione delle risorse per Aprile 2/3 assegnati subito per permettere l’acquisizione delle risorse per Aprile 1/3 s.j. da ridiscutere nel 2009 in base all’andamento del run del 2008 e la definizione più realistica delle attività di LHC nel /3 s.j. da ridiscutere nel 2009 in base all’andamento del run del 2008 e la definizione più realistica delle attività di LHC nel 2009
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 79 Risorse nel Tier1 e Richieste 2009
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 80 Attività Tier1 Attività di Atlas al CNAF CPU a disposizione: 400 kSI2k CPU a disposizione: 400 kSI2k Nei periodi di attività si evidenziano picchi superiore allo share a disposizione Nei periodi di attività si evidenziano picchi superiore allo share a disposizione Produzione in LCG Produzione in Italia 48,91% 4,64% 5,44% 10,76% 12,22% 17,97% BARI CNAF FRASCATI LEGNARO MILANO NAPOLI ROMA
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 81 Richieste Tier Pledges 2008 – pre RBB 10/07 Pledges 2008 Contributo del CNAF ad Atlas Disco: da 6% a 4%. Disco: da 6% a 4%. CPU: da 8% a 5% CPU: da 8% a 5% Tape: da 9% a 6% Tape: da 9% a 6% Tier1 più piccolo in assoluto! … e le risorse non sono ancora disponibili
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 82 Richieste Tier Piano sviluppo Referee Settembre 2007 Rapporto CNAF/ATLAS Disco = 1148/21456 (TBn) = 5.3% CPU = /31367 (kSI2k) = 8% Tape = /12584 (TBn) = 10.3% Il tipo di attività che possono essere svolte e i dati da conservare nel Tier1 dipendono molto più che per i Tier2, nel modello di calcolo di Atlas, dalle risorse a disposizione Somma dei Tier1 di ATLAS Piano sviluppo ATLAS
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 83 Richieste Tier E’ consigliabile non andare sotto le percentuali indicate per non ridurre la competitività della cloud italiana e la sua centralità nell’esperimento: Disco = 1150 TBn e CPU = 2500 kSI2k L’ideale sarebbe tornare ad una percentuale compatibile con il numero di autori, il 10%: Disco = 2100 TBn e CPU = 3100 kSI2k I recenti frequenti problemi al CNAF, sia alle infrastrutture del sito che ad alcuni aspetti del middleware, uniti al fatto che il contributo di risorse all’esperimento è il minore in assoluto, hanno reso marginale la posizione italiana nel computing dell’esperimento Possibili soluzioni: 1.Spostamento parziale di alcune attività nei Tier2: analisi di gruppo (copie complete di AOD e DPD solo nei Tier2) e ricostruzione del MC. Ciò permetterà al Tier1 di fornire un contributo maggiore alla attività istituzionali di servizio, come l’archivio dei RAW data e il reprocessing 2.Ridondanza dei servizi vitali della cloud: Si sta studiando in Atlas l’opportunità e la possibilità di copiare il catalogo locale in un Tier1 associato o in un Tier2 della stessa cloud. Il problema tecnicamente è complicato e non tutte le cloud ne avvertono l’importanza. E’ l’unico modo per garantire l’attività di analisi in caso di down prolungato del Tier1. Connessioni FTS dei Tier2 direttamente con il Cern e eventualmente un altro Tier1 3.Maggiore integrazione tra la cloud italiana e il CNAF nel monitoraggio e nella gestione dei servizi
G. Carlino: Stato del Computing di ATLAS Italia e Richieste 2008 Bologna, 28 Agosto Conclusioni Il computing di Atlas ha mostrato un notevole grado di maturazione in molti sue parti durante i Computing Challenge. Alcune, come il reprocessing e l’analisi distribuita, vanno però testate in maniera più approfondita Considerazioni sui Tier2 italiani Affidabilità e robustezza Efficienza del 100% e velocità nel trasferimento dei dati dal CNAF garanzia di reperibilità dei dati per l’analisi I momenti di bassa attività sono legati soprattutto al rallentamento delle attività dell’esperimento o a problemi nei servizi della cloud l’utilizzo da parte degli utenti italiani dei tool di analisi distribuita è in significativa crescita anche se le risorse non vengono ancora usate in maniera continua per questa attività l’utilizzo da parte degli utenti italiani dei tool di analisi distribuita è in significativa crescita anche se le risorse non vengono ancora usate in maniera continua per questa attività Considerazioni sul CNAF Il CCRC ha permesso di testare e debuggare in maniera significativa l’hardware e il middleware del CNAF. Alcuni aspetti vanno ancora approfonditi per raggiungere la stabilità necessaria nelle operazioni
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 85 Backup slides
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 86 La Produzione MC Uso dei pilot job da circa 6 mesi (tranne NDGF)
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 87 Modifica del sistema di produzione nella cloud Italiana Sottomissione con i Pilot Job Utilizzo di PANDA, il tool usato per la produzione in OSG Utilizzo di PANDA, il tool usato per la produzione in OSG ultima cloud a “resistere” alla migrazione Pilot job: sottomessione alla Grid di piccoli job (pilot job), praticamente equivalenti a quelli da runnare invio attraverso un server centrale (Panda server) dei job reali ai pilot Sistema utilizzato solo per la produzione e non per l’analisi Vantaggi: controllo maggiore sull’ordine di esecuzione dei job job con priorità maggiore vengono processati prima anche se arrivati dopo maggiore efficienza: non vengono inviati job verso nodi mal configurati. Solo il pilot job muore 1. Installazione di un Panda Server al Cern 2. Attivazione di una pilot factory al CNAF che rimpiazza lo scheduler dei pilot con un sistema più modulare interfacciato ai tool di LCG come WMS per la sottomissione dei job (sviluppata soprattutto in Italia) e la Dashboard Sistema operativo da aprile per la produzione MC e il reprocessing al CNAF Produzione in Italia
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 88 La Produzione MC Attività a pieno carico durante il CCRC-2 e FDR (picchi di 16 kslots/day) Av. Job eff = 77% e Av. Walltime eff: 86% Quota produzione LCG ~ 65%
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 89 Tier-2 Napoli Utilizzo Risorse 2008 Miglioramento del rapporto CPU/Wall Time
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 90 Tier-2 Napoli
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 91 Tier-2 Milano
CNAF, 24 Luglio 2008 G. Carlino: Il Computing di ATLAS 92 Proto Tier-2 Frascati