Calcolo ALICE1 Calcolo ALICE: stato e richieste Domenico Elia e Massimo Masera Referee Calcolo LHC / Pisa, Riunione con Referee Calcolo LHC Pisa, 3 Maggio 2013
Calcolo ALICE2Referee Calcolo LHC / Pisa, Sommario Stato del computing in ALICE: dati raccolti nell’ultimo anno e attività di calcolo contributo INFN, prestazioni siti italiani Prospettive: attività di sviluppo/miglioramento del codice nel LS1 calcolo previsto e previsioni post-LS2 e nuovo CM Richieste finanziarie: situazione CPU e DISCO nei Tier-2, dismissioni RRB di aprile richieste 2014 (e previsioni 2015)
Calcolo ALICE3Referee Calcolo LHC / Pisa, Stato del computing in ALICE Dati raccolti nel 2012 (e 2013) Presa dati 8 TeV e 5.02 TeV: ~ 300 M eventi pp min bias + rare triggers (high p T EMCAL) ~ 2 M eventi p-Pb min bias (pilot run) ~ 130 M eventi p-Pb a Febbraio 2013 (in conto “2012”) Volume dati e storage: ~ 1.65 PB RAW data trattamento standard: custodial copy su tape al Tier-0 replica ai Tier-1, copia su tape Ricostruzione: appena ultimato secondo passo eventi p-Pb 2013
Calcolo ALICE4Referee Calcolo LHC / Pisa, Stato del computing in ALICE Attività di calcolo Analisi caotica Attività organizzata, incluso “analysis TRAINS”
Calcolo ALICE5Referee Calcolo LHC / Pisa, Stato del computing in ALICE Attività di calcolo Analisi caotica
Calcolo ALICE6Referee Calcolo LHC / Pisa, Stato del computing in ALICE Efficienza CPU Efficienza migliorata nel corso dell’ultimo anno: interventi a basso livello su data buffering migrazione di attività da end-user su “LEGO trains” quality checks su Analysis Tasks Efficienza per 3 Tier-1 “importanti” Problema non ancora interamente sotto controllo
Calcolo ALICE7Referee Calcolo LHC / Pisa, Stato del computing in ALICE Efficienza: attività organizzata L’inefficienza è legata alle attività di analisi e soprattutto all’analisi caotica (non mostrata in figura ~30%) e in generale alle attività con elevato I/O
Calcolo ALICE8Referee Calcolo LHC / Pisa, Stato del computing in ALICE Contributi relativi 2013: CPU Fonte: EGI accounting
Calcolo ALICE9Referee Calcolo LHC / Pisa, Stato del computing in ALICE Contributi relativi 2013: DISCO Fonte: EGI accounting
Calcolo ALICE10Referee Calcolo LHC / Pisa, Stato del computing in ALICE Efficienza siti italiani: Tier-1 L. Morganti, S.A. Tupputi, CdG Tier-1,
Calcolo ALICE11Referee Calcolo LHC / Pisa, Stato del computing in ALICE Uso delle risorse al Tier-1 L. Morganti, S.A. Tupputi, CdG Tier-1,
Calcolo ALICE12Referee Calcolo LHC / Pisa, Stato del computing in ALICE Uso delle risorse al Tier-1 L. Morganti, S.A. Tupputi, CdG Tier-1,
Calcolo ALICE13Referee Calcolo LHC / Pisa, Stato del computing in ALICE Uso delle risorse al Tier-1 L. Morganti, S.A. Tupputi, CdG Tier-1,
Calcolo ALICE14Referee Calcolo LHC / Pisa, Stato del computing in ALICE Efficienza siti italiani: Tier-2 Andamento generale T2 riflette quello complessivo Differenza tra i diversi siti indagata nel 2012: configurazione storage elements grado di satutazione dello storage (Bari in particolare) differenze persistono e sono da monitorare e capire (ongoing …)
Calcolo ALICE15Referee Calcolo LHC / Pisa, Stato del computing in ALICE Uso delle risorse nei Tier-2 Uso delle risorse nei Tier-2 è abbastanza regolare Caveat: Risorse dedicate alla TAF a Torino non sono accountate
Calcolo ALICEReferee Calcolo LHC / Pisa, Prospettive Sviluppo codice nel LS-1 (I) Il framework di calcolo di ALICE, AliRoot, è ormai piuttosto stabile: evoluzione limitata alle Task di Analisi a cura dei PWG per il resto (simulazione/ricostruzione): code maintenance E’ stato deciso di fare una review di AliRoot che inizierà con un self-assessment definirà le linee di intervento per migliorare le prestazioni del codice AliRoot 5.x Top priority per il LS-1: fare una online calibration per velocizzare i tempi di ricostruzione dei dati
Calcolo ALICEReferee Calcolo LHC / Pisa, Prospettive Sviluppo codice nel LS-1 (II) Attualmente sono previsti diversi passi di calibrazione e QA offline prima di avviare la ricostruzione il problema riguarda essenzialmente la TPC e ITS/SDD (rivelatori a deriva) limitato coinvolgimento dei gruppi italiani E’ iniziata l’attività di sviluppo del codice di simulazione/ricostruzione per l’upgrade di ALICE Notevole contributo INFN in particolare per il codice dell’Inner Tracker
Calcolo ALICEReferee Calcolo LHC / Pisa, Prospettive Stato complessivo siti Tier-2 Non ci sono problemi di rilievo nella gestione dei siti In generale il supporto è molto soddisfacente, in particolare se si tiente conto del poco manpower disponibile Problema: le risorse utilizzate come Analysis Facilities (in questo momento la Turin Analysis Facility – TAF) non sono contabilizzate (accountate) né su DGAS né altrove
Calcolo ALICE19Referee Calcolo LHC / Pisa, Prospettive Attività R&D (Torino, ma non solo) Development of an elastically expandable Virtual Analysis Facility Migration of the infrastructure towards an IaaS (Infrastructure as a Service) Private Cloud Ready to experiment with Cloud-oriented evolutions of the ALICE Computing Model Other activities starting with STOA-LHC PRIN Remote data access Parallel interactive Analysis Facilities
Calcolo ALICE20Referee Calcolo LHC / Pisa, Prospettive Virtual Analysis Facility Work started several years ago Now TAF (Turin Analysis Facility) fully in production since >1 year Ingredients: PROOF, PoD, CERNVM, underlying Cloud infrastructure Converged into mainstream PROOF development D. Berzano now at CERN in PROOF team, still working on the Torino facility Proposed as reference configuration for small AAFs (Tier-3 equivalent)
Calcolo ALICE21Referee Calcolo LHC / Pisa, Prospettive Previsioni calcolo RAW data processing (Tier-0/Tier-1): reprocessing di tutti i dati registrati Pb-Pb in non più di 5 mesi Simulazione e analisi (Tier-2 + Tier-0/Tier-1) 35% per pp 30% per Pb-Pb 100% per p-Pb
Calcolo ALICE22Referee Calcolo LHC / Pisa, Prospettive Previsioni calcolo Dati previsti: Pb-Pb: 5.2 x 10 9 eventi, run previsto in fine d’anno pp: 2.5 x 10 9 eventi (2015) + 2 x 10 9 eventi ( ) In continuità con l’attuale suddivisione risorse: ricostruzione a Tier-0 e Tier-1 risorse sufficienti per simulazione e analisi a Tier-1 e Tier-2 50% di simulazione e analisi su Tier-2
Calcolo ALICE23Referee Calcolo LHC / Pisa, Prospettive Previsioni post-LS2: nuovo CM 2013/14: si definirà la nuova infrastruttura di calcolo Due concetti ispiratori: Cloud computing Online+Offline
Calcolo ALICEReferee Calcolo LHC / Pisa, Prospettive Previsioni post-LS2: nuovo CM Progetto O2 (Online+Offline): ha appena preso il via nell’offline week di marzo 2013
Calcolo ALICEReferee Calcolo LHC / Pisa, Prospettive Previsioni post-LS2: nuovo CM Rivoluzione per il Tier-0: la tradizionale divisione Online/HLT/Offline perderà in parte significato ricostruzione in parte effettuata online in ambiente eterogeneo (FPGA – GPU – Multi-core CPU) e comunque tutta al CERN Ai Tier 1 e 2: MC e analisi: Analysis Facilities on Demand AliRoot 6.x dovrà girare su sistemi eterogenei (almeno in parte): e.g. GPU, CPU dovrà essere più veloce (un ordine di grandezza) e usare meno memoria dovrà supportare la fast simulation dovrà supportare rivelatori che opereranno in modalità di readout continuo
Calcolo ALICE26Referee Calcolo LHC / Pisa, Richieste finanziarie Situazione CPU e DISCO Italia CPU attualmente in produzione: Tier-1: HS06 (pledge 2013) Tier-2: HS Cagliari (pledge 2013: 30000) Storage: Tier-1: 1700 TB DISCO (pledge 2013) 3700 TB TAPE(pledge 2013) Tier-2: 1699 TB + 70 Cagliari (pledge 2013: 2400) Assegnazione 2013: solo disco e overhead ai Tier-2: 310 k€ (850 TB + 30 k€ ov.) anticipo acquisto TO, già in produzione: 202 TB gara 2013: restanti 648 TB
Calcolo ALICE27Referee Calcolo LHC / Pisa, Richieste finanziarie Situazione CPU e DISCO Tier-2 Situazione complessiva attuale Tier-2 (+ Cagliari): CPU:30123 HS06 (incluso obsoleti in linea: HS06) DISCO:1769 TB(2030 TB) BariCatania LNL- Padova TorinoCagliariTotale HS TB HS06/TB Disponibili (incluso obsoleti 2013 ancora in linea) Aprile 2013 Elevata percentuale di disco occupato (tra 70 e 100% nei diversi siti)
Calcolo ALICE28Referee Calcolo LHC / Pisa, Richieste finanziarie Situazione CPU e DISCO Tier-2 Situazione complessiva attuale Tier-2 (+ Cagliari): CPU:30123 HS06 (incluso dismessi in linea: HS06) DISCO:1769 TB(2030 TB) BariCatania LNL- Padova TorinoCagliariTotale HS TB HS06/TB In produzione (escluso obsoleti 2013) Aprile 2013 Elevata percentuale di disco occupato (tra 70 e 100% nei diversi siti) Gara 2013 (acquisizione 648 TB): in corso di preparazione
Calcolo ALICE29Referee Calcolo LHC / Pisa, Richieste finanziarie Dismissioni 2014 (e 2015) Anno di dismissione BariCatania LNL- Padova TorinoCagliariTotale HS TB HS TB Situazione complessiva Tier-2 nel 2014: CPU:30123 – = HS06 DISCO: – 196 = 2221 TB In neretto: numeri ripresi nella tabella richieste slide 33.
Calcolo ALICE30Referee Calcolo LHC / Pisa, Richieste finanziarie Sintesi RRB di Aprile (I) Crescita entro 10%, sensibile aumento del disco nel Previsioni 2015 da rivedere: esame dettagliato RRB Ottobre 2013.
Calcolo ALICE31Referee Calcolo LHC / Pisa, Richieste finanziarie Sintesi RRB di Aprile (I) Recommendations (dal CRSG report)
Calcolo ALICE32Referee Calcolo LHC / Pisa, Richieste finanziarie Contributo INFN per 2014 Fair share INFN: CPU, DISCO Tier-1, Tier-2: 19.5% (21.6% nel 2013) TAPE al Tier-1: 41.5%
Calcolo ALICE33Referee Calcolo LHC / Pisa, Richieste finanziarie Richieste 2014 CPU Tier-1 (HS06) DISK Tier-1 (TBn) CPU Tier-2 (HS06) DISK Tier-2 (TBn) Pledged T1 Pledged - dismiss. T Valutazioni ALICE Delta Stima costo (k€) Stima costi: 10 € / HS06 e 350 € / TBn (quota overhead non inclusa) Tape invariato a CNAF (under-used) Possibile incremento disco (non solo rimpiazzo) ?
Calcolo ALICE34Referee Calcolo LHC / Pisa, Richieste finanziarie Proiezioni 2015 CPU Tier-1 (HS06) DISK Tier-1 (TBn) CPU Tier-2 (HS06) DISK Tier-2 (TBn) Pledged T1 Pledged - dismiss. T Valutazioni ALICE Delta Stima costo (k€) Stima costi: 10 € / HS06 e 350 € / TBn (quota overhead non inclusa) Tape invariato a CNAF (under-used) Possibile incremento disco (non solo rimpiazzo) ?
Calcolo ALICE35Referee Calcolo LHC / Pisa, Conclusioni Il computing di ALICE ha raggiunto buon livello di operatività, con alcuni concerns: l’efficienza è ancora migliorabile la riduzione dei tempi per la ricostruzione implica una calibrazione prevalentemente fatta online AliRoot 5.x In Italia c’è una buona funzionalità dei siti T1 e T2 sperimentazione in corso su Analysis Facilities con tecnologia Cloud concern: da capire le differenze residue di efficienza di CPU Per gli anni prossimi le risorse verranno da Recas (e Pegasus?) una grande opportunità da sfruttare senza penalizzare troppo i T2 di LNL e Torino: garantire replacement e un lieve incremento di disco per evitare saturazione e inefficienza Sta iniziando la pianificazione per il futuro (dopo LS2) ricostruzione dei RAW solo al T0 con architettura ibrida condivisa con HLT e Online MC e Analisi nelle Cloud esterne AliRoot 6.x : più veloce e in grado di sfruttare architetture ibride