La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

CNAF e Tier 1 Presentazione alla Commissione Scientifica Nazionale 2 dell’ INFN 25 novembre 2013 G. Maron 1.

Presentazioni simili


Presentazione sul tema: "CNAF e Tier 1 Presentazione alla Commissione Scientifica Nazionale 2 dell’ INFN 25 novembre 2013 G. Maron 1."— Transcript della presentazione:

1 CNAF e Tier 1 Presentazione alla Commissione Scientifica Nazionale 2 dell’ INFN 25 novembre 2013 G. Maron 1

2 Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron2 INFN ha una buona struttura di calcolo che sta lavorando bene, ora anche integrata dai centri PON Il CNAF svolge egregiamente la funzione di Tier1 per LHC, ma supporta anche il calcolo di tutti i maggiori esperimenti INFN. Il trend di questo è in crescita e va incoraggiato (vedi dopo) Garr ci ha fornito (finalmente) l’infrastruttura ottica che ci serviva per avere un back-bone a 10 Gbps. Questo è un salto quantico, andare adesso a bande più elevate è solo un problema di apparati di rete, ma non di infrastruttura. CINECA è diventato un polo attraente per il ns calcolo teorico, dobbiamo facilitare l’accesso dai nostri siti (rete, ma anche procedure di accesso e autorizzazione, storage condiviso per le configurazioni e i risultati, ecc. ) Questo scenario estremamente interessante va indirizzato e coordinato per fare in modo che la somma degli sforzi dia risultante massima.

3 Il CNAF oggi 3 T1 Calcolo scientifico per gli esperimenti INFN Servizi Nazionali Ricerca e Sviluppo Grid R&D Servizi Nazion Servizi Nazion User Support SI Contr. Nazion Contr. Nazion Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron

4 Il Tier 1 Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron4 Particle physics Tier2 Alice Atlas Astro-particle and neutrino physics CPU shares LHCb CMS Servizi e risorse Floor 1000 m 2 Standard service di WLCG per 20 collaborazioni scientifiche 16k job slots (195 kHS06), risorse in fair share Mass storage su dischi con o senza tape 13 PB disco, 16 PB tapes 1 tape library con 10000 slot (50 PB) Servizi e risorse Floor 1000 m 2 Standard service di WLCG per 20 collaborazioni scientifiche 16k job slots (195 kHS06), risorse in fair share Mass storage su dischi con o senza tape 13 PB disco, 16 PB tapes 1 tape library con 10000 slot (50 PB) Organizzazione T1 Farming unit Storage unit Network service Facility management group Organizzazione T1 Farming unit Storage unit Network service Facility management group Manpower 22 persone (21 FTE) 50% con contratti temporanei, alcuni servizi critici gestiti da personale non staff Problemi a garantire il supporto h24 per 365 giorni Manpower 22 persone (21 FTE) 50% con contratti temporanei, alcuni servizi critici gestiti da personale non staff Problemi a garantire il supporto h24 per 365 giorni T1 Grid User Support CMS LHCb Atlas Alice Astro-particle and neutrino physics Particle physics Disk shares Organizzazione Grid Operations User Support Middleware (vedi R&D) Organizzazione Grid Operations User Support Middleware (vedi R&D)

5 Utilizzo del T1 negli ultimi mesi Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron5 CPU Disco Tape Rete T1 Grid User Support

6 Possibilità di espansione futura L’infrastruttura di cpu, storage e rete è scalabile, ma alcuni aspetti potrebbero diventare critici (per esempio power), vanno esplorate nuove soluzioni. L’infrastruttura del centro mette a disposizione per uso IT un max di 1.4 MW con proporzionale capacità di smaltimento del calore prodotto – Attualmente usati 600 kW – 135 racks in totale (ma c’è spazio per installazione di nuovi), 34 liberi per future espansioni – Le espansioni previste per LHC LS1 e LS2 non dovrebbero creare problemi. Da tenere presente l’evoluzione tecnologica dei low power processor (da esplorare da subito) che ci permetterà di andare anche temporalmente oltre. Budget – Speriamo almeno costante – Problema con la bolletta elettrica, da puntare su soluzioni di risparmio energetico, che potrebbero però richiedere un investimento non trascurabile Impianti di raffreddamento Low power processor Ottimizzazione del codice !! Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron6 T1 Grid User Support

7 User Group Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron7 T1 Grid User Support

8 Le attività di R&D sono sostanzialmente focalizzate su tre filoni – Infrastruttura di calcolo distribuito: Cloud Computing, evoluzione della GRID di LHC, integrazione GRID /CLOUD, Cloud applicata a esperimenti e siti INFN, integrazione GRID pubbliche e GRID proprietarie. Proposte di progetti CLOUD per call nazionali e europee – Tecnologia del software Tecnologia del software; software engineering; software management. sviluppo di progetti software orientati agli esperimenti INFN (on/off –line) – Tracking Tecnologico Studio di nuove architetture di processori nelle due dimensioni potenza di calcolo e basso consumo High speed networking Costituzione di un open lab, vero laboratorio aperto dove fare confluire la tecnologia di punta delle industrie che operano nel ICT (possibile fonte di finanziamento) Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron8 Ricerca e Sviluppo R&D

9 Servizi Nazionali Sistema Informativo – dal 2010 il Sistema Informatico viene splittato tra CNAF e LNF spostando il sistema contabile al CNAF e migrandolo su piattaforma Linux RHC. Al CNAF vengono gestiti i sistemi: contabile, presenze, mandato informatico, reportistica, portale utente Servizio Contratti Nazionali – gestione centralizzata contratti nazionali hdw e sw su fondi CCR Servizi Nazionali – gestisce e mantiene servizi informatici fondamentali per INFN Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron9 Servizi Nazion Servizi Nazion SI Contr. Nazion Contr. Nazion

10 Il cnaf oggi: il personale Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron10

11 Quattro pilastri per il futuro del CNAF Supporto al calcolo scientifico delle attività sperimentali e teoriche dei gruppi INFN Forte potenziamento delle attività di innovazione e sviluppo orientato ai sistemi distribuiti, ma anche verso le necessità degli esperimenti (computing model, sviluppo software di componenti del sistema on/off line, ecc. ecc. ) Attrazione di fondi esterni per finanziare il reclutamento del personale Trasferimento tecnologico Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron11

12 … in modo più esplicito.. 1 Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron12 Il CNAF deve rafforzare il suo ruolo di centro di eccellenza per l’intero computing dell’INFN estendendo le sue attività allo sviluppo di software e all’esplorazione di nuove tecnologie di punta da utilizzare negli esperimenti. Il CNAF opera in un ecosistema (interno ed esterno all’INFN) costituito da più attori, è fondamentale stabilire con loro piena collaborazione e sinergia per poterne sfruttare appieno le potenzialità e le risorse (CCR, Università, GARR, CINECA, CERN, industria). il CNAF deve rafforzare il suo ruolo negli esperimenti/progetti INFN (LHC, ma anche progetti ESFRI come CTA, Auger, KM3Net oppure progetti per il calcolo teorico) sia come centro di calcolo T1, ma anche specifici progetti software orientati all’off-line e alla frontiera tra on-line e off-line (e.g. HLT farm, storage, ecc.) degli esperimenti stessi.

13 … in modo più esplicito 2 … Vanno favorite le attività per l’implementazione di una infrastruttura CLOUD nazionale ed europea con fondi H2020, possibilmente nel quadro dei requisiti degli esperimenti e coordinati con loro. Deve aumentare la capacità di attrarre fondi esterni (EU; MIUR, ma anche fondazioni private, ecc, ) coordinandosi con tutti i soggetti dell’ecosistema. Gli sforzi principali vanno su progetti che abbiano un qualche comun denominatore in linea con la linea di ricerca dell’INFN, ma partecipazioni opportunistiche ad altri progetti scientifici di interesse nazionale e nella road map di H2020 vanno incoraggiate (per esempio progetti ESFRI non di fisica come EMSO gestito da INGV – Paolo Favali). Il trasferimento tecnologico verso soggetti privati o pubblici è una fonte di finanziamento relativamente «facile» e poco dispendiosa in termini di risorse umane. Va perseguita e, nel limite delle capacità, rafforzata Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron13

14 Fonti di finanziamento esterno L’esperienza acquisita (GRID) e in acquisizione (CLOUD) nel calcolo distribuito, ma più in generale tutto il know how presente al CNAF, ci permette di partecipare a call nazionali e internazionali EU horizon 2020, «European research infrastructure», primi progetti finanziati nel 2015: – Call 1: «ESFRI Projects» – Call 2: «Integrating and opening research infrastructures of pan- European interest» Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron14

15 Fonti di finanziamento esterno – Call 3: «e-infrastructure: “Managing, preserving and computing with big research data” Towards global data e-infrastructure – Research Data Alliance «Pan European HPC Infrastructure and services», per esempio una infrastruttura HPC a supporto del CINECA, Tier 0 di PRACE e dove INFN ha un forte interesse per il suo calcolo teorico di punta. «Centers of excellence for computing applications “, per esempio CERN + T1 europei, da esplorare. Future and Emerging Technologies (FET) – ipotetica iniziativa “EuroExa” (INFN, CINECA, EUROTECH, … ). Il CNAF potrebbe essere interessato agli aspetti sistemistici e di sviluppo software. Progetti “Smart Cities”, trasferimento tecnologico, ma anche progetti ponte in attesa di h2020 – PRISMA – Open City Platform (50% del finanziamento al CNAF) Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron15

16 T1 per CSN2 Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron16 Farm: ultimi 12 mesi Ams_prod

17 Tier1 Farm  Farm composta da ~1000 wn  Prima decade Agosto: installate CPU gara 2013  “Stress test” da parte di AMS (Agosto)  ~ 17000 core ( ~180 KHS06 con SL6)  ~ 14.2 % CPU destinata ad exp di GR II  Farm ~ sempre satura  “premiato” uso continuo ma possibile allocazione “straordinaria” per compensare uso “bursty” (es. Xenon da 21/11)  Settembre: migrazione farm a SL6 2014: pledge gia’ soddisfatte – con molto hw fuori manutenzione (da sostituire!) – AQ 2014-2015 in finalizzazione » Revisione del capitolato per inserire TCO Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron17

18 Tier1 Storage  Capacità di stoccaggio dati di ~ 13 PByte su disco  ~ 1.9 PB in ordine (phase-out di ~1 PB)  0,9 disponibili per il 2014  Accesso ad alta velocità (~ 70 GB/s di banda aggregata)  5 MB/s di banda garantita per job verso lo storage  ~ 1.75 PB-N assegnati ad exp GR II (previsti ~2 PB-N)  Assegnazione disco (  slide)  Libreria 16 PByte su nastri magnetici  1 PB in ordine  ~ 2.2 PB usati da exp GR II  2014: upgrade drive ed espansione capacità  In acquisizione 2 drive T10Kd (5 TB  8 TB)  In finalizzazione richiesta AQ per 6000 tape  Uso “standard” e LTDP Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron18

19 Status Storage 2013 Gran parte degli exp portati a pledge a Ottobre 2013 – AMS overpledge (+100 TB rispetto a 2013) Ma alcuni exp ancora underpledge (*) – Argo ~ 80 TB-N – Magic ~ 20 TB-N – Virgo ~ 23 TB-N – Pamela ~6 TB-N – CMS ~400 TB-N Necessario intervento su storage (27/11) per portare exp CSN2 a pledge (*) Non conteggiato buffer comune di fronte a tape (~150 TB-N) Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron19

20 Assegnazioni 2013 ~20% (medio) di overpledge per CPU Buffer comune disco per tape non conteggiato Intervento 27/11 per portare a pledge disco tutti exp (Pamela +8 TB-N) Tape aggiunte secondo necessita’ Experiment % CPU (HS06)DISK TB-NTAPE TB pledge reali pledgerealipledgereali AMS2 65327838743865270258 ARGO 160019203102341000555 AUGER 1972236627629600 FERMI/GLAST 140016801516400 MAGIC 49659565448030 PAMELA 6507807574100162 Icarus 0000330250 Xenon100 50060020 00 Borexino 1500180050 00 Gerda 40482010 5 CTA 1001201150 Opera 000100 Virgo 35004200448427818846 TOTALE GRUPPO II18290219482023203826532106 Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron20

21 Storage 2014 Richiesta di nuovo storage ~1.4 PB-N (CSN2: ~600 TB-N) – Delta significativi per AMS, Auger AQ 2014 non ancora finalizzato, 1.6 PB, installato entro 9/2014 – In corso revisione modello di storage – Minimizzare “spostamenti” per nuove assegnazioni In corso acquisizione storage (~1.9 PB) per sostituzione parziale disco in phase-out (Dicembre 2013). Circa 1 PB di margine per soddisfare richieste prima parte 2014 (per esempio 200-300 TB a CSN2) Acquisti “mirati” durante 2014 per consolidare Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron21

22 Assegnazioni 2014 ~30% di overpledge per CPU Buffer comune disco per tape non conteggiato Tape aggiunte secondo necessita’ Experiment% CPU (HS06)DISK TB-NTAPE TB pledgedisponibilipledgedisponibilipledgedisponibili AMS2 71859948 1143 390 ARGO 1600 2215 320 1000 AUGER 2372 3284 396 0 FERMI/GLAST 1400 1938 15 40 MAGIC 496 687 65 150 PAMELA 650 900 90 120 Icarus 0 0 0 330 Xenon100 500 692 20 0 Borexino 1500 2077 70 0 Gerda 40 55 25 10 CTA 2000 2769 30 120 Opera 50 69 15 Virgo 1000013846428 818 TOTALE GRUPPO II27793384802617 29930 Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron22

23 Nota su uso Tier1 Servizi base offerti a tutti esperimenti Farm (batch system e UI), HSM, disco – Accesso a farm in locale (da UI) e via grid – Accesso a storage via srm Protocolli supportati: file, gridftp, xrootd, http/webdav Disponibilita’ a studiare soluzioni ad hoc per requirement “non standard” esperimenti Prossimi sviluppi : – Cluster HPC con GPU – CPU on demand (anche interattivo) su CLOUD@CNAF Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron23

24 Conclusioni Gli esperimenti di CSN2 sono sempre più presenti al CNAF Vogliamo favorire questo trend invitando i nuovi esperimenti, ma anche quelli già in presa dati che non si appoggiano ancora al CNAF, di utilizzare il nostro T1 per il loro data processing e data storage Ma non solo, le competenze presenti al CNAF permettono un coinvolgimento più stretto con gli esperimenti, in particolare: – Definizione del computing model dell’esperimento – Partecipazione allo sviluppo del software, on/off line – Ottimizzazione del codice e parallelizzazione su architetture many cores. – Processing farm altamente parallele Dobbiamo però trovare un modo di collaborare più effettivo del presente, partecipando se possibile direttamente agli esperimenti, alle call per fondi esterni (h2020, miur, ecc.) e condividendo, per quanto di competenza, le fonti di finanziamento,in particolare per le risorse umane. Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron24


Scaricare ppt "CNAF e Tier 1 Presentazione alla Commissione Scientifica Nazionale 2 dell’ INFN 25 novembre 2013 G. Maron 1."

Presentazioni simili


Annunci Google