Calcolo LHC Francesco Forti, Università e INFN – Pisa Per il gruppo di referaggio: F. Bossi, C. Bozzi, R. Carlin, R. Ferrari, D.Martello, M.Morandin, S.Pirrone, M. Taiuti Commissione Scientifica Nazionale I LNF, 18 Settembre 2007
18/9/2007F.Forti - Calcolo LHC2 Outline Update Calcolo LHC da Aprile Tier1 Tier2 Sblocchi 2007 Finanziamenti 2008 P, P2P, P2P2P Verbale
18/9/2007F.Forti - Calcolo LHC3 Gruppo di referaggio F. Bossi, C. Bozzi, R. Carlin, R. Ferrari, D.Martello, M.Morandin, S.Pirrone, M. Taiuti Dopo tre anni ho chiesto di essere sostituito come chair del gruppo di referaggio Lavoro non trascurabile Non compatibile con gli impegni di ricerca Ringrazio Concezio Bozzi per la disponibilità a prendere questo incarico La CSN1 dovrà assegnare un referee per il calcolo di CMS per sostituire Concezio Silvia Pirrone si unisce a Mauro Taiuti per il referaggio di Gruppo III.
18/9/2007F.Forti - Calcolo LHC4 Update calcolo LHC da Aprile Cancellato l’engineering run di LHC del Nuovo piano prevede partenza della macchina sometimes nel 2008 direttamente a full energy. La reazione degli esperimenti è: Per il calcolo non cambia nulla o quasi Piano updatato sviluppato ad Agosto 2007 La reazione dei referee è Ci sono almeno 6 mesi di ritardo Continua ad esserci un leggero disconnect tra quello che succede alla macchina e quello che vogliono fare gli esperimenti
18/9/2007F.Forti - Calcolo LHC5 Piano di LHC 2007 plan compared to
18/9/2007F.Forti - Calcolo LHC6
18/9/2007F.Forti - Calcolo LHC7 Calcolo LHC fuori dal CERN Piano di Agosto 2007
18/9/2007F.Forti - Calcolo LHC8 Tier1 Farming Stabilità del Tier1 molto migliorata Recente installazione di nuove macchine e disco ha migliorato la disponibilità di risorse Il Tier1 viene utilizzato routinely sia da molti esperimenti Efficienza per i 4 esperimenti LHC CMS LHCb ALICE ATLAS
18/9/2007F.Forti - Calcolo LHC9 Uso del Tier1 Numero di jobs in funzione del tempo
18/9/2007F.Forti - Calcolo LHC10 Uso del Tier1 Suddivisione della CPU tra le diverse VO. Secondo trimestre 2007 KSI2K utilizzati vs time. Wall clock time CPU time
18/9/2007F.Forti - Calcolo LHC11 Tier1 Storage Struttura dello storage non ancora completamente definita Necessaria una valutazione sulla base dell’uso effettivo degli esperimenti Attualmente tests con CASTOR, GPFS/Storm, dCache, xrootd Il sistema CASTOR (CERN) è insoddisfacente Instabilità frequenti, ultimamente curate con le ultime versioni Interazioni complesse con il sistema di queuing (LSF) e di database (ORACLE) Il nastro è per il momento write-only o quasi, con un failure rate di rilettura intorno al 10% Molti miglioramenti, ma ancora non a regime Pensiamo sia importante prevedere una soluzione di backup nel caso che CASTOR non venga stabilizzato in tempo utile dCache + HSM ? GPFS + TSM ? Da provare per esempio sulla seconda libreria di nastri ?
18/9/2007F.Forti - Calcolo LHC12 Tier1 accounting a WLCG Accounting adesso più realistico. Ancora sotto le aspettative soprattutto per il disco NON LHC
18/9/2007F.Forti - Calcolo LHC13 Tier1 lavor (on) i Upgrade infrastrutturale necessario per fornire la potenza elettrica e frigorifera. Doveva svolgersi nel 2007 ma è slittato per ritardi amministrativi e di progettazione Piano di transizione prevede di attrezzare la zona 1 e di dismettere alcune macchine anzianotte acquistando macchine più moderne Migliore rapporto KSI2K/Watt Fornire nel 2008 la potenza di calcolo ed il disco necessari agli esperimenti Costi lievitati da 4.3M€ (preliminare) a 6.9M€(definitivo), ancora da definire completamente nel progetto esecutivo Impatto non trascurabile sull’utilizzo del “tesoretto” messo da parte al CNAF Ancora da valutare nei piani di sviluppo e nei costi connessi. Probabilmente il tesoretto finirà nel Previsione inizio lavori: luglio 2008 Circa un anno di ritardo rispetto a quanto previsto nel Il progetto rimane critico e costoso Certo che se la sala del Tier1 fosse da un’altra parte sarebbe più semplice…. Potenza elettrica totale Più passa il tempo e più la potenza elettrica totale è ridondante. Da considerare seriamente la possibilità di staging degli apparati tecnologici (chiller, trasformatori, generatori)
18/9/2007F.Forti - Calcolo LHC14 Tier1 sviluppo calcolo LHC
18/9/2007F.Forti - Calcolo LHC15 Tier1 piano complessivo Da prendere cum grano salis
18/9/2007F.Forti - Calcolo LHC16 Tier2 Sedi ALICE Torino e Catania approvati Legnaro e Bari in incubatore ATLAS Roma1 e Napoli approvati Milano SJ Frascati in incubatore CMS Legnaro e Roma1 approvati Pisa SJ Bari in incubatore LHCb CNAF Fa parte strutturalmente del TIER1, ma finanziato dalla CSN1. Solo CPU per simulazione Attività intensa in tutte le sedi Anche se con differenze di maturità e chiarezza di intenti Inventiva ed iniziativa per trovare fondi addizionali e/o soluzioni infrastrutturali meno costose Il SJ fa bene ai Tier2 Personale calcolo ed esperimenti fortemente coinvolti Risorse umane e competenze forse più importanti delle risorse finanziarie Controllo delle scelte tecniche da parte della CCR Scelta tra disco NAS (Network Attached Storage) e disco SAN (Storage Area Network) Scelta infrastrutture di rete Impatto su necessità di risorse umane e monetarie
18/9/2007F.Forti - Calcolo LHC17 Tier2: piano di sviluppo Tensione tra due approcci Lo sviluppo di ciascun Tier2 segue lo sviluppo del calcolo dell’esperimento Lo sviluppo di ciascun Tier2 segue le attività specifiche che i gruppi italiani svolgono in quel Tier2. A noi piace il secondo, ma è chiaro che se i due approcci danno risultati molto diversi c’è qualcosa che non funziona Necessità di specificità nelle richieste e nei piani di sviluppo: Voglio x TB perchè sono l’y % del calcolo dell’esp. Voglio x TB perchè mi servono per questi dati, che accederò in questa maniera, e pertanto intendo comprare un oggetto fatto in questo modo. Gli esperimenti stanno recependo il messaggio, ma c’è ancora un po’ di lavoro da fare.
18/9/2007F.Forti - Calcolo LHC18 Tier2: piano di sviluppo Situazione complicata dalle incertezze sulla schedule di LHC Engineering run cancellato, ma run di cosmici previsti per tutti gli esperimenti Calibrazioni, studi di rivelatore importanti e probabilmente sottostimati Ulteriore complicazione con gli incubatori ed i SJ. I costi infrastrutturali sono stati largamente coperti dalle sezioni o fondi esterni Non si capisce bene perchè mantenere nel limbo i Tier2 che hanno superato le condizioni di SJ Avevamo già proposto degli sblocchi che sono stati bocciati dalla giunta. Abbiamo cercato di creare un piano che tenga conto di questi fattori, e dello shift temporale nella schedule di LHC Avanti, ma avanti adagio
18/9/2007F.Forti - Calcolo LHC19 Tier2: piano di sviluppo Marzo 2007 Settembre 2007
18/9/2007F.Forti - Calcolo LHC20 Tier2: soldi Per passare ai soldi si aggiunge l’incertezza sul costo di CPU e Disco….
18/9/2007F.Forti - Calcolo LHC21 Proposta dei referee Sbloccare i SJ 2007 Vedi piano alle slide successive Per il 2008: Assegnare 1/3 * 1.5M€ SJ ai risultati di un workshop da tenere a gennaio che chiarisca: Attività degli esperimenti Scelte architetturali (disco e rete) Piano dettagliato degli acquisti E’ essenziale che il SJ 2008 (detto primavera 2008) possa venire sbloccato nella riunione di fine Gennaio, per permettere agli esperimenti di acquistare il materiale in tempo per l’estate Riservare 2/3 * 1.5M€ in una tasca indivisa da assegnare quando la schedule di LHC è più chiara Note: CMS è forse un po’ più pronto di Atlas, ma non ci sembra ci siano ancora gli estremi per spendere i fondi 2008 Per LHCb non ci sono invece dubbi infrastrutturali. Si propone un’assegnazione di 35 k€ su BO per CPU al CNAF.
18/9/2007F.Forti - Calcolo LHC22 Proposte ATLAS
18/9/2007F.Forti - Calcolo LHC23 Proposte CMS
18/9/2007F.Forti - Calcolo LHC24 P, P2P, P2P2P Ai Pledged ed ai Planned to be Pledged c’eravamo abituati. Adesso dobbiamo estendere al 2011 e 2012 e saranno quindi dei Perhaps to be Planned to be Pledged
Verbale F.Forti espone la relazione di referaggio sul calcolo LHC. La modifica della schedule di LHC con la cancellazione dell’engineering run del 2007 provoca un certo slittamento temporale delle necessità delle risorse di calcolo. Tali necessità hanno ancora grossi margini di incertezza dovuti sia alla schedule sia alle verifiche e le ottimizzazioni dei modelli di calcolo dell’esperimento che sono attualmente in corso. FF riporta che l’efficienza d’uso del Tier1 al CNAF si è gradualamente stabilizzata e le farm hanno ormai un funzionamento abbastanza soddisfacente. Per lo storage invece la struttura non è ancora completamente definita e test sono in corso per finalizzarla. In paricolare si notano le difficoltà con l’infrastruttura CASTOR che è soggetta a molte instabilità e inefficienze. Le correzioni su CASTOR sono di responsabilità CERN ed i referee invitano il CNAF a prevedere una soluzione di backup nel caso in cui la versione di CASTOR non venga stabilizzata per l’uso fuori dal CERN in tempo utile. L’upgrade infrastrutturale del Tier1 era previsto nel 2007 ed è slittato significativamente a causa di ritardi amministrativi e di progettazione. Il piano di transizione prevede di attrezzare solo una zona del centro, dismettere alcune macchine anzianotte ed acquistare delle macchine più moderne con un migliore rapport KSI2K/W. I costi sono cresciuti da 4.3M del progetto preliminare a 6.9M€ del progetto esecutivo. Il progetto rimane critico e costoso, ed i referee invitano a considerare seriamente la possibilità di staging degli apparati tecnologici (chiller, trasformatori, generatori), tenendo conto anche che progressivamente il consumo specifico di potenza dei processori dimuisce nel tempo. I referee hanno approntato un piano di sviluppo e suddivisione delle risorese al Tier1 che sembra essere al momento compatibile con gli sviluppi infrastrutturali. I referee osservano che l’attività dei Tier2 è intensa in tutte le sedi e che gli upgrade infrastrutturali procedono speditamente. Il personale del calcolo e degli esperimenti sono fortemente coinvolti e le scelte tecniche ed infrastrutturali sono coordinate dalla Commissione Calcolo e Reti. I referee considerano tuttavia che ci sono ancora grosse incertezze sullo sviluppo dei TIer2 dovute alla schedule di LHC, ai modelli di calcolo degli esperimenti e al mancato completamento dei piani dettagliati di attività degli esperimenti presso i Tier2. Tenendo conto di questi fattori è stato preparato un piano di sviluppo dei Tier2 come segue (se avete bisogno dell’excel fatemelo sapere)
Verbale 2 Considerando questo piano di sviluppo, vengono proposti lo sblocco del SJ 2007 e le assegnazioni 2008 come segue Per i fondi 2008 con envelope che si prevede in 1.5M€, si propone l’accantonamento di 1M€ in un fondo indiviso, e l’assegnazione di 500k€ SJ ai risultati di un workshop dei Tier2 da tenere a gennaio per armonizzare e capire le scelte architetturali, finalizzare i piani degli esperimenti e verificare i risultati raggiunti.