CSN1, 3 aprile 2006 Francesco Forti, INFN-Pisa per il gruppo di referaggio
3/4/06 F.Forti - Tier22 Sommario I Tier-2 nell’INFN Le richieste dell’esperimento Incertezze Il percorso di referaggio I criteri di valutazione Il ranking dei siti Proposta dei referee Prossimi passi Conclusioni
3/4/06 F.Forti - Tier23 Princìpi del Tier2 Il Tier2 serve una comunità di riferimento, ma è una risorsa per l’intero esperimento Non è una farm di gruppo I fisici dell’esperimento devono impegnarsi fortemente per la costruzione ed il running del Tier2 (come fanno per l’hardware) Le risorse del Tier2 devono essere condivise: Accessibilità tramite Grid per l’esperimento Sharing con altri esperimenti Devono essere considerate risorse per tutto l’INFN (e non solo...) Il direttore deve impegnarsi a supportare il Tier2: spazi: un Tier2 medio ospiterà a regime circa 120 Box CPU e 40 box disco (600TB) per un totale di 6-8 racks infrastrutture: devono essere già largamente disponibili e supportate dalla struttura (power+cooling) manpower: un minimo di 2 FTE spalmati su 4 persone deve trattarsi di personale strutturato o strutturabile.
3/4/06 F.Forti - Tier24 Le richieste degli esperimenti Presentati i progetti di massima Dimensione, infrastruttura, personale 10 sedi per 13 centri Diversi livelli di maturità dei progetti BariALICE CMS CataniaALICE CNAFLHCb LNFATLAS LNLALICE CMS MilanoATLAS NapoliATLAS PisaCMS Roma1ATLAS CMS TorinoALICE 1 box oggi = 5 kSI2K 1 box 2010 = 20 kSI2K ? 1 box oggi = 5 kSI2K 1 box 2010 = 20 kSI2K ? Fattore ~2 di sicurezza
3/4/06 F.Forti - Tier25 MoU INFN Nelle fasi finali della firma. Numeri congelati. Tier2 rappresentati da una federazione
3/4/06 F.Forti - Tier26 Finanziamento dei TIER2 CPU e dischi sono finanziati dalle commissioni scientifiche nazionali I e III Gli interventi infrastrutturali sono finanziati sui fondi delle sezioni principalmente attraverso la Commissione Calcolo e Reti
3/4/06 F.Forti - Tier27 Incertezze Il modello di computing è ancora preliminare Target performance non sempre raggiunta Modello di analisi distribuita untested La quantità di risorse di calcolo richieste è solo un educated guess Lo share INFN del computing non è fissato a priori Dipenderà dall’effettivo coinvolgimento dei gruppi italiani e dalle risorse disponibili Nessuno sa quanti dati verranno da LHC nei primi anni Tempo di run ? Commissioning della macchina ? Ci potrebbe essere un ridimensionamento iniziale Per i computer, il tempo (di acquisto) è denaro L’evoluzione della tecnologia oltre il è estremamente nebulosa Fine della corsa al GHz Avvento dei multi core Problema della potenza assorbita
3/4/06 F.Forti - Tier28 Tempo di run
3/4/06 F.Forti - Tier29 Percorso di referaggio Sono state visitate tutte le sedi proposte U.Dosselli, F.F., M.Morandin + referee Incontro con Direttore, Gruppo calcolo, Esperimenti Visita ai locali presenti e futuri Molto istruttivo e utile – grazie per l’accoglienza. Grande variabilità di situazioni Elementi principali di indagine Quantità di risorse di computing richieste: sono giustificate dalla prevista attività del Tier2 ? Supporto sistemistico e di manpower degli esperimenti: esiste un supporto sufficiente da parte del gruppo calcolo, esiste un gruppo sperimentale forte e motivato ? Aspetti infrastrutturali (spazio, potenza, raffreddamento): quanto è costosa l’infrastruttura necessaria, e quanto di questi costi è a carico INFN ?
3/4/06 F.Forti - Tier210 Numero di Tier2 Nessun esperimento è in grado di dimostrare che gli serve veramente la potenza di calcolo e quantità di storage che chiede Nessun esperimento è in grado di dimostrare completamente che gli servono 4 Tier2 INFN Tuttavia ci sembra che il piano degli esperimenti sia ragionevole Dimensionamento dei centri in modo da essere gestibili da una sezione di media grandezza In linea con i modelli di calcolo degli esperimenti Però avere molti Tier2 aumenta il livello di duplicazione infrastrutture e dati Essenziale (maggiore) collaborazione: I centri Tier2 e non-Tier2 devono e dovranno collaborare tra loro e con il Tier1 per la costruzione e l’operazione delle strutture
3/4/06 F.Forti - Tier211 Princìpi guida Prudenza e gradualita’ Partenza alla giusta velocità, crescita continua e modulare Flessibilità Prevedere contingenza e scalabilità per adattarsi ai prevedibili mutamenti Ottimizzazione delle risorse disponibili Risorse umane distribuite Strutture esistenti Finanziamenti esterni all’INFN Risposta alle esigenze piu’ immediate degli esperimenti Calibrazioni e commissioning degli apparati Preparazione dei gruppi di analisi Mantenimento delle attivita’ della comunita’
3/4/06 F.Forti - Tier212 Non tutti Non vogliamo far partire tutti Tier2 adesso Le incertezze di cui sopra impongono prudenza quantità di calcolo, modello distribuito, quantità dati LHC Non esiste una chiara e documentata necessità I costi non sarebbero assorbibili sul bilancio 2006 Ovviamente i Tier2 che iniziano sono soggetti a verifiche periodiche pero’: e’ essenziale permettere a tutta la comunita’ di lavorare efficacemente
3/4/06 F.Forti - Tier213 Criteri Gli elementi principali sono Dimensione del gruppo dell’esperimento e quantità di manpower dedicata Esistenza di una chiara e consistente comunità di riferimento nell’esperimento Manpower reperibile nel gruppo calcolo Capacità della sede di gestire il sistema ed esperienza pregressa su farm e grid Maturità e completezza del progetto Complessità e costo dell’intervento infrastrutturale necessario Finanziamento infrastrutturale esterno all’INFN Seguono alcune riflessioni ed i criteri utilizzati
3/4/06 F.Forti - Tier214 Tier2 ed esperimento I Tier2 sono pezzi di esperimento Vanno considerati alla stregua di sottorivelatori che i fisici dell’esperimento progettano, costruiscono ed operano avvalendosi del supporto tecnico di sezione Non si possono considerare un servizio che il gruppo calcolo fornisce e l’esperimento utilizza I Tier2 hanno bisogno di un gruppo di fisici motivati che li costruisca ed operi Le responsabilità dovrebbero essere assegnate a personale strutturato I Tier2 forniscono servizi a tutti e quindi Incoraggiamo a trovare collaborazioni tra sezioni per costituire i gruppi di supporto ai Tier2 Abbiamo motivato le sezioni non candidate Tier2 a seguire questa strada non assegnando nessun finanziamento per i Tier3.
3/4/06 F.Forti - Tier215 Valutazione Tier2/esperimento Dimensione del gruppo FTE del gruppo in sezione Manpower esperimento FTE di esperimento (fisici) dedicata al Tier2 Esperienza in GRID Esperienza pregressa in attivita’ Grid Comunita' di riferimento Dimensione della comunita’ di riferimento del Tier2
3/4/06 F.Forti - Tier216 Infrastruttura Spazio, Potenza elettrica, UPS, gruppo elettrogeno, raffreddamento, network. Casistica tecnica Ristrutturazione della sala esistente Allargamento della sala esistente a locali più o meno vicini Creazione di una nuova sala macchine distante dalla esistente Casistica finanziaria Finanziamento integrale INFN Finanziamento INFN utilizzando in parte fondi di dotazione o fondi CCR già assegnati Finanziamento parziale di altri enti o progetti Finanziamento totale di altri enti o progetti Il costo per l’INFN può essere molto diverso nei vari casi
3/4/06 F.Forti - Tier217 Manpower di sezione Quante persone servono per un Tier2 ? Poche ma buone Non è necessario uno stuolo di persone, ma servono invece forze specifiche dedicate, con buona esperienza di farm e grid Le persone devono essere già strutturate o strutturabili nel piano di sviluppo della sezione Non è pensabile avere personale in più per il Tier2 I Tier2 dovranno operare per lungo tempo, ed il personale a tempo determinato non garantisce la continuità
3/4/06 F.Forti - Tier218 Valutazione Infrastruttura e Servizi Maturita' del progetto infrastrutturale Quanto il progetto e’ maturo e finalizzato Manpower tecnico e tecnologo FTE tecnici di sezione+esperimento Stato attuale infrastrutture Quanto sono gia’ pronte le infrastrutture Disponibilita' finanziamenti esterni Se sono disponibili finanziamenti non INFN Necessita' di nuovi finanziamenti Necessita’ di soldi freschi INFN Dimensioni farm attuali Indicazione dell’attivita’ di farming pregressa La valutazione è comune per i Tier2 doppi.
3/4/06 F.Forti - Tier219 Meccanismo della valutazione Si assegna un voto ad ogni criterio Si mediano i voti con dei pesi a formare due valutazioni: Infrastruttura e servizio Esperimento Le due valutazioni vengono poi mediate per la valutazione finale. Abbiamo verificato una sostanziale stabilita’ dei risultati. Insufficiente1 Scarso2 Sufficiente3 Buono4 Ottimo5
LHCb
3/4/06 F.Forti - Tier221 TIER2 dentro il CNAF LHCb propone un Tier2 all’interno del CNAF Sinergia perfetta con le attivita’ del Tier1 Non discusso oggi perche’ pone problemi completamente diversi O bene bene, o male male (seguendo i destini del Tier1) Anche Atlas e CMS hanno sviluppato delle proposte per Tier2 all’interno del CNAF Consideriamo positivamente le sinergie di uomini e mezzi che questo comporta: I progetti sono tardivi in questo processo di valutazione Non sono stati esaminati Necessario un piano globale dell’esperimento
ATLAS
3/4/06 F.Forti - Tier223 ROMA1 Progetto per 2 TIER II (ATLAS+CMS). Sale attigue a quelle per APE, spazi espandibili Gruppo ATLAS: 27 persone locali, comunità di riferimento circa 100 persone (comunità MDT e RPC+LVL1), ma condivise con altri TIER2 (MDT con LNF e RPC con NA) Costo: circa 250K 200 già stanziati in fase realizzazione restanti 50 distribuiti tra il 2008 e il 2010 Manpower Tec 5+5 FTE per due TIER2 Attivita’ pregressa: Buona esperienza in GRID e attività di coordinamento LCG
3/4/06 F.Forti - Tier224 ROMA-ATLAS T2 Personale del servizio calcolo dedicato al Tier2 a tempo indeterminato2 FTE (per entrambi i TIER2) a tempo determinato1 FTE “ “ TOTALI4 Comunità di ATLAS-RM Numero totale dei ricercatori21 Strutturati16 Post-doc 3 Dottorandi e Borsisti 3 Fisici direttamente coinvolti per il T2 Strutturati 5 Non strutturati 1 Tecnologi direttamente coinvolti Strutturati 3 (2 Atlas+1Shared) Non strutturati 3 (2 Atlas+1Shared) Tecnici di Atlas Non strutturati1
3/4/06 F.Forti - Tier225 MILANO Gruppo ATLAS: 19 persone locali, comunità servita: pixel, calorimetri (circa 80 persone) Infrastruttura disponibile Sale da riorganizzare sistema di raffreddamento da rivedere per i rack a potenza elevata Finanziamenti da sezione e università 50 KE a carico INFN – pagati dalla sezione Manpower tec 0.8 FTE FTE temporanei Attivita’ pregressa Molto attivo nelle attività grid Farm esistente, non gestita dal personle del centro di calcolo ma del gruppo
3/4/06 F.Forti - Tier226 MILANO
3/4/06 F.Forti - Tier227 MILANO ATLAS T2 Personale del servizio calcolo dedicato al Tier2 a tempo indeterminato0.8 FTE a tempo determinato1.2 FTE Comunità di ATLAS-MI Numero totale dei ricercatori19 Post-doc 2 Dottorandi e Borsisti 2 Fisici direttamente coinvolti per il T2 Strutturati 5 Non strutturati 1 Tecnologi direttamente coinvolti Strutturati 0 Non strutturati 2
3/4/06 F.Forti - Tier228 NAPOLI Gruppo ATLAS: Comunità locale 19 persone, comunità servita: RPC+LVL1 (circa 60 persone condivise con il TIER2 di RM1) Progetto di Tier2 Progetto largamente finanziato con fondi esterni (PON) ed universitari Campus grid Progtto infrastrutturale sufficientemente maturo Manpower tec 2 Staff + 3 temp Attivita’ pregressa Esiste esperienza in grid Farm ATLAS esistente piccola ma produttiva Sala infrastruttura Principale Campus Grid Sala Tier-2 ATLAS
3/4/06 F.Forti - Tier229 NAPOLI ATLAS T2 Personale del servizio calcolo dedicato al Tier2 a tempo indeterminato2 FTE a tempo determinato0.5 FTE Comunità di ATLAS-NA Numero totale dei ricercatori19 Post-doc 4 Dottorandi e Borsisti 3 Altro 1 Fisici direttamente coinvolti per il T2 Strutturati 5 Non strutturati 2 Tecnologi direttamente coinvolti Strutturati 1 Non strutturati 1
3/4/06 F.Forti - Tier230 LNF Gruppo ATLAS: Comunità locale 24 persone, comunità servita MDT (circa 60 persone in sharing con il TIER2 di RM1) Progetto di Tier2 Esistono spazi Necessari finanziamenti (260 KE), da chiarire contributo Laboratori Manpower tec 0.5 Staff + 1 temp Attivita’ pregressa Recente esperienza in grid Piccola farm ATLAS esistente
3/4/06 F.Forti - Tier231 Sala Frascati
3/4/06 F.Forti - Tier232 LNF ATLAS T2 Personale del servizio calcolo dedicato al Tier2 a tempo indeterminato0.5 FTE a tempo determinato0.5 FTE Comunità di ATLAS-LNF Numero totale dei ricercatori24 Post-doc 2 Dottorandi e Borsisti 2 Altro 6 Fisici direttamente coinvolti per il T2 Strutturati 2 Non strutturati 1 Tecnologi direttamente coinvolti Strutturati 1 Non strutturati 0
3/4/06 F.Forti - Tier233 Tier2 Ranking
3/4/06 F.Forti - Tier234 Tier2 Ranking
CMS
3/4/06 F.Forti - Tier236 BARI Gruppo CMS (comunità di riferimento): 27 fisici, 24.2 FTE Ricercatori della comunità di riferimento (BA, PI, CT, PV, PG, BO, FI, NA): 60 Progetto da realizzare il Tier2 doppio in una nuova sala da acquisire ed attrezzare Possibilita’ di spostamenti futuri Possibilita’ di realizzarla all’interno del dipartimento Costo: circa 526K totalmente a carico INFN forse il 20-30% a carico dotazioni di sezione Manpower Tec 3.4 FTE per due TIER2 Attivita’ pregressa: Molto attivo in GRID, con contributo molto grande rispetto al numero di macchine disponibili (una quarantina in tutto)
3/4/06 F.Forti - Tier237 CMS-BARI T2 Personale del servizio calcolo dedicato al Tier2 a tempo indeterminato3 corrispondenti a (3x0.3) = 0.9 FTE a tempo determinato1 corrispondenti a (1x0.3) = 0.3 TFE TOTALI4 corrispondenti a 1.2 FTE Comunità di riferimento CMS-Bari Numero totale dei ricercatori25 per un totale di 22.2 FTE Strutturati18 per un totale di 15.7 FTE Post-doc 5 per un totale di 4.8 FTE Dottorandi e Borsisti 2 per un totale di 1.7 FTE Fisici direttamente coinvolti per il T2 Strutturati 5 Non strutturati 1 Tecnologi direttamente coinvolti 0 Tecnici direttamente coinvolti 1
3/4/06 F.Forti - Tier238 LEGNARO-PADOVA Gruppo CMS: 24.7 FTE Progetto di Tier2 doppio CMS-Alice Infrastruttura da incrementare significativamente Progetto iniziale Nuova sala 009 in aggiunta alla ristrutturazione di 0022 Costo: 740K+IVA Nuovo progetto di 3 settimane fa Estensione della sala 009 Costo: 549K+IVA A carico INFN, ma largamente sostenuto dal Laboratorio Il centro stella deve essere finanziato a parte FTE tec per due Tier2 1.5 staff temp da PD a partire dal 2007 Attivita’ pregressa Gruppo CMS molto coinvolto in attivita’ di calcolo e Grid Farm esistente di grosse dimensioni
3/4/06 F.Forti - Tier239 LEGNARO
3/4/06 F.Forti - Tier240 Legnaro – Padova Servizio Calcolo personale a tempo indeterminato5 (LNL) + 8 (PD) a tempo determinato0 (LNL) + 1 (PD) FTE dedicati al Tier 2 a tempo indeterminato1.5 (LNL) + 2 (PD: 1 dal 2007, 1 dal 2008) a tempo determinato1.2 (LNL) Comunita’ 20 ricercatori nelle sedi LNL+PD 16 (a tempo indeterminato) + 4 (a tempo determinato) totale 17.3 FTE 30 ricercatori della comunita’ di riferimento 15 Torino, 15 Bologna Fisici direttamente coinvolti gestione: 5 persone (+2 CMS-Si) staff: 4 (+2), post-doc: 1, altri: 0 Tecnologi direttamente coinvolti: 0 Tecnici direttamente coinvolti: 0
3/4/06 F.Forti - Tier241 PISA Gruppo CMS: 32 persone, 28.8 FTE Infrastruttura da potenziare Impianto refrigerante, UPS, … 300k€, forse il 30-40% a carico fondi di sezione Manpower tec di sezione 2 FTE staff + 3 FTE temporanei Attivita’ pregressa Discreta esperienza nello sviluppo middleware GRID Farm di buone dimensioni già esistente, ma poco utilizzata per SC Esperienza farm NA48
3/4/06 F.Forti - Tier242 PISA Servizio Calcolo personale a tempo indeterminato5 a tempo determinato3 FTE dedicati al Tier 2 a tempo indeterminato2 a tempo determinato3 Comunita’ 22 ricercatori locali 10 (a tempo indeterminato) + 12 (a tempo determinato) totale 20.6 FTE 66 ricercatori della comunita’ di riferimento (PI, BA, CT, FI, PG, TO) Fisici direttamente coinvolti gestione: 5 persone staff: 4, post-doc: 1 Tecnologi direttamente coinvolti: 1 non-staff Tecnici direttamente coinvolti: 0
3/4/06 F.Forti - Tier243 ROMA1 - CMS Gruppo CMS: 14 persone, 11.9 FTE Tier2 doppio con Atlas in nuova sala calcolo condivisa con APEnext Infrastruttura già realizzata, e quasi interamente a carico di fondi esterni o di sezione FTE Tec 2 staff + 1 temp da servizio calcolo per entrambi i Tier2 1 da gruppo CMS 1 staff + 1 non-staff Grid Attivita’ pregressa Piccola farm esistente Partecipazione (marginale) a DC04 Non ha partecipato a SC3
3/4/06 F.Forti - Tier244 ROMA1 Servizio Calcolo FTE dedicati ai due Tier 2 a tempo indeterminato2 a tempo determinato1 Comunita’ 14 ricercatori locali 11 (a tempo indeterminato) + 3 (a tempo determinato) totale 11.9 FTE ~40 ricercatori della comunita’ di riferimento (MI, RM1, TO, TS) Fisici direttamente coinvolti gestione: 8 persone staff: 3 a Roma, 3 esterni (Mi, To, Ts), non-staff: 2 Tecnologi direttamente coinvolti: Staff: 1 CMS, 1 Grid (in comune con Atlas) Non-staff: 1 Grid (in comune con Atlas) Tecnici di esperimento direttamente coinvolti: 0
3/4/06 F.Forti - Tier245 Tier2 ranking
3/4/06 F.Forti - Tier246 Tier2 ranking
3/4/06 F.Forti - Tier247 Proposta dei referee Il modello di calcolo proposto dagli esperimenti e’ ragionevole Il costo totale infrastrutturale e’ inferiore a quello che si poteva temere La prudenza e le incertezze ci spingono ad approvare non più di 2 Tier2 adesso. Le risorse dell’INFN sono limitate e sono un elemento ad oggi non ben noto. Rappresentano un punto di domanda in tutto quello che segue Proponiamo tre livelli di approvazione: Approvazione piena Approvazione SJ Incubatore di Tier2 (Proto-Tier2) Le condizioni per la rimozione del SJ sono: la sede deve risolvere i propri punti di debolezza reassessment della schedule di LHC (prevista per giugno 2006) ed effettiva partenza della macchina tempistica O(6 mesi) Le condizioni per la l’uscita dell’incubatore sono: la sede deve risolvere i propri punti di debolezza mantenimento della schedule delle necessita’ di calcolo dell’esperimento validazione del modello di calcolo distribuito dell’esperimento Tempistica O(12 mesi)
3/4/06 F.Forti - Tier248 Proposta ATLAS Approvazione piena Roma1 Napoli, che non ha costi infrastrutturali e progetto solido Approvazione SJ Milano, a cui si richiede il miglioramento e chiarimento del progetto infrastrutturale reassessment della schedule di LHC (prevista per giugno 2006) ed effettiva partenza della macchina Incubatore (Proto-TIER2) LNF, le cui debolezze sono: finanziamento necessario significativo; manpower tecnico e tecnologo un po’ limitato, esperienza in grid da migliorare. Sia le sedi approvate che le altre dovranno essere sottoposte a verifiche periodiche Se non funziona l’etichetta Tier2 viene tolta
3/4/06 F.Forti - Tier249 Proposta CMS Approvazione piena Legnaro-Padova Roma1, che non ha costi infrastrutturali Approvazione SJ Pisa, a cui si richiede reperimento di risorse in sezione; maggiore coinvolgimento del gruppo nelle attività Grid reassessment della schedule di LHC (prevista per giugno 2006) ed effettiva partenza della macchina Incubatore (Proto-TIER2) Bari, le cui debolezze sono: finanziamento necessario significativo; progetto infrastrutturale non completamente definito. Sia le sedi approvate che le altre dovranno essere sottoposte a verifiche periodiche Se non funziona l’etichetta Tier2 viene tolta
3/4/06 F.Forti - Tier250 Proposta dei referee II Le risorse di computing dovranno essere assegnate a tutte le sedi per rispondere alle esigenze dell’esperimento per mantenere attiva la comunita’ e partecipare a Grid ed ai service/data challenge per essere pronti al momento dell’arrivo dei dati dovranno essere pianificate attentamente per evitare acquisti prematuri per permettere ai gruppi italiani di prendersi le responsabilita’ sul sw derivanti dall’impegno sull’hw. Entita’ del finanziamento da discutere gli esperimenti devono a questo punto presentare un piano aggiornato
3/4/06 F.Forti - Tier251 Tutti i Tier2
3/4/06 F.Forti - Tier252 Prossimi passi Discussione con gli esperimenti svolta il 29 marzo molto civile e positiva Sviluppo dei progetti dettagliati per i Tier2 Determinazione dell’entita’ del finanziamento Definizione del piano temporale di verifica Necessità di un coordinamento tra i Tier2 Vedi presentazione di M.Morandin.
3/4/06 F.Forti - Tier253 Conclusioni e commento La approvazione di tutte le sedi non sembra giustificata dalla necessita’ scientifica Pero’ il piano di calcolo e’ globalmente ragionevole E’ necessario ottimizzare le risorse per massimizzare il ritorno per l’INFN e l’esperimento E’ necessario il massimo impegno dei gruppi e dell’ente per raccogliere i frutti del lavoro fatto nella costruzione degli esperimenti Vedendo la forza e la volontà dei gruppi siamo ottimisti che il calcolo LHC si svilupperà bene. E’ essenziale l’apporto degli esperimenti sia ai Tier2, sia al funzionamento del Tier1.
3/4/06 F.Forti - Tier254 BACKUP
3/4/06 F.Forti - Tier255 Piano finanziario Nostra proposta di settembre 2005, approvata in commissione con finanziamento 0 (escluse infrastrutture) Costi infrastrutturali non chiari: tra >1.5 e <5 M€ ?