1 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Relezione Riunioni Referaggio Calcolo ATLAS Computing Model News Computing Model News Attivita’ Computing 2011 Attivita’ Computing 2011 Richieste Tier Richieste Tier Gianpaolo Carlino INFN Napoli GGI Arcetri, 6 Settembre 2011
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 2 Referaggi Computing ATLAS 1.13 Maggio – Bologna Discussione delle risorse 2012 nel Tier1 Discussione delle risorse pledged 2012 nei Tier Giugno – Frascati Richiesta di promozione di Frascati a Tier2 ufficiale Incontro precedente tra Direttore Frascati, Membro di Giunta, Referee e Gruppo Frascati 3.5 Luglio - Napoli Discussione delle risorse 2012 nei Tier2 e Tier3 per le attività italiane + discussioni sul Computing Model, attività e performance in ogni riunione
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 3 Computing Model news
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 4 ATLAS Cloud Model Modello gerarchico basato sulla topologia di rete di Monarc Comunicazioni possibili: T0-T1 T1-T1 Intra-cloud T1-T2 Comunicazioni vietate: Inter-cloud T1-T2 Inter-cloud T2-T2 Limitazioni: Richiesta eccessiva di spazio disco: impossibile fornire una replica di dati per l’analisi ad ogni cloud Trasferimenti tra le cloud attraverso salti multipli tra i Tier1 User analysis outputs MC confinato nella cloud Tier2 non utilizzabili come repository di dati primari
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 5 ATLAS Cloud(less) Model Breaking the Walls La rete attuale permette il superamento del modello a cloud molti Tier2 sono già ben connessi con molti Tier1 Abilitazione delle connessioni inter cloud Superamento di una gerarchia stretta tra Tier1 e Tier2 Scelta dei Tier2 adatti: non tutti i Tier2 hanno le dimensioni e le performance necessarie
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 6 Tier2 Diretti T2D – Tier2 “Directly Connected” Tier2 connessi direttamente tra di loro a tutti i Tier1 Storage per dati primari come i Tier1 Preplacement di una quota di dati Group data Requirement molto stretti Metriche di trasferimento con tutti I Tier1 Livello di commitment e reliability adeguato Avg(Byterate)+StD(Byterate) SMALL<0.05MB/s<0.1MB/s≥0.1MB/s MEDIUM<1MB/s<2MB/s≥2MB/s LARGE<10MB/s<15MB/s≥15MB/s T2D approvati nella prima fase: INFN-NAPOLI- ATLAS, INFN-MILANO-ATLASC, INFN-ROMA1 IFIC-LCG2, IFAE, UAM-LCG2 GRIF-LPNHE, GRIF-LAL, TOKYO-LCG2 DESY-HH, DESY-ZN, LRZ-LMU, MPPMU MWT2_UC,WT2, AGLT2,BU_ATLAS_Tier2, SWT2_CPB UKI-LT2-QMUL, UKI-NORTHGRID-LANCS-HEP, UKI-NORTHGRID-MAN-HEP, UKI-SCOTGRID-GLASGOW Siti che faranno parte da subito di LHCOne
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 7 Classificazione Tier2 Necessità di individuare i siti più affidabili per l’analisi cui inviare la maggior parte dei dati. Classificazione in base alle performance (stabilità) 4 Gruppi: Alpha: (60% share): T2D con rel > 90% Bravo: (30% share): non T2D con rel> 90% Charlie: (10% share): 80% < rel < 90% Delta: (0% share): rel <80%
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 8 Analisi in ATLAS e attività italiane
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS LHC pp data taking 2011 (aggiornato al 4 settembre) Lumonsità Integrata ~ 2.5 fb -1 Luminosità di picco = 2.37 x cm -2 s -1
10 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 2011 LHC pp data taking TB Physical data Logical data TB Data in Italy TB Logical data: singola copia dei dati prodotti Physical data: insieme di tutte le copie prodotte e replicate nelle cloud Significativa riduzione del numero di copie e di formati di dati replicati nella griglia
11 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Produzione in ATLAS > 50k job simultanei (60k presa dati 2011, riduzione agosto per problemi con G4). Produzione: Ricostruzione (T1), Simulazione e Analisi di gruppo (produzione centralizzata di D3PD in alcuni gruppi) Previsione simulazione MC 2011: 1000M fullsim 2012: 600M full M fast Numero medio di jobs di produzione running per cloud
12 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Analisi in ATLAS > 10k job simultanei (15k/20k negli ultimi mesi). Riduzione analisi nel Aumento attività analisi di gruppo: aumento della coordinazione. Minore caoticità e duplicazione dei dati centralizzazione della produzione: in molti casi “accountata” come produzione Aumento negli ultimi mesi Numero medio di jobs di analisi running per cloud
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 13 Produzione produzione centralizzata di AOD e ESD nella prompt reconstruction al Tier0 e nei reprocessing ai Tier1 produzione centralizzata di Derived AOD e ESD (DAOD e DESD) attaverso skimming e slimming produzione di gruppo “centralizzate” di ntuple e di gruppi di utenti (D3PD e NTUP) RAW AOD D3PD NTUP DAOD DESD ESD Workflow (principale) di analisi fase 1: skimming da AOD/ESD/D3PD e produzione di ntuple D3PD o NTUP eseguito centralmente dai working group eseguito in Griglia output in GROUPDISK o LOCALGROUPDISK fase 2: skimming/slimming dei D3PD e produzione di NTUP di (sotto)gruppo leggere eseguito da utenti o gruppi locali eseguito in Griglia output in LOCALGROUPDISK fase 3: analisi finale NTUP nei LOCALGROUPDISK dei Tier2/3 eseguita in Griglia con PRUN o eseguita in locale con ROOT/PROOF Utilizzo formati di analisi RAW utilizzati solo per la ricostruzione e presenti solo nei Tier1 ESD utilizzati solo per analisi di performance e presenti solo nei Tier1 AOD/D3PD/NTUP molto utilizzati DAOD e DESD utilizzo molto marginale, formato in via di estinzione Come si fa l’analisi
14 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Utilizzo dei formati di dati AOD e Ntuple formati nettamente preferiti evidente incremento negli ultimi mesi # utenti individuali che accedono alle code di analisi in ITALIA
15 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Ruolo dei Tier2 nell’analisi Storicamente (TDR) ATLAS prevedeva di conservare in ogni cloud una copia completa di dati per l’analisi. Lo spazio disco necessario a tale scopo si è rivelato eccessivo con l’inizio della presa dati, per cui si è ridotto il numero di copie disponibili nella Griglia I dati sono distribuiti in tutta la Griglia e i job runnano nei siti (Tier1 e Tier2) dove sono conservati i dati (massima democrazia) I Tier2 sono grandi cache di disco per i principali formati di dati di ATLAS Non esiste quindi una corrispondenza Tier2 canale di analisi molti Tier2 hanno uno spazio pledged di gruppo, gestito dai gruppi di ATLAS ogni Tier2 ha uno spazio disco locale a disposizione degli utenti nazionali questi spazi disco vengono utilizzati per l’ultima fase delle analisi Caratterizzazione dei Tier2 Italiani, in seguito alle attività di costruzione e di studio delle performance dei rivelatori e del trigger Frascati: Fast Tracker (FTK) Milano: Studio Performance EtMiss e calibrazioni EM Napoli: RPC e LVL1 muon calibration Roma1: MDT calibration (centro ufficiale di calibrazione)
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 16 Attivita’ ultimi 3 mesi (T1 dovrebbe essere 25%) Ruolo dei Tier2 nell’analisi
17 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Sharing risorse nei Tier2 Job running su un Tier2 nell’ultimo mese: Produzione Analisi WMS Analisi Panda Analisi Panda ruolo italiano Job running su un Tier2 nell’ultimo mese: Produzione Analisi WMS Analisi Panda Analisi Panda ruolo italiano Attenzione: Gli italiani vengono mappati sia su panda che su panda/it Analisi di gruppo (p.es calibrazione) risulta come produzione gli italiani con certificato CERN (non pochi) vengono mappati su panda Attenzione: Gli italiani vengono mappati sia su panda che su panda/it Analisi di gruppo (p.es calibrazione) risulta come produzione gli italiani con certificato CERN (non pochi) vengono mappati su panda
18 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Utilizzo risorse in Italia 9 IT INFN-FRASCATI INFN-MILANO 10 6 CPU consumptions. Marzo – Agosto 2011 Efficienza job produzione
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 19 Analisi nei Tier2 Eff. job analisi CPU consumptions. Giugno – Agosto IT Nota: non abbiamo ancora installato le risorse 2011
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 20 Uso del disco nei Tier2 Trasferimenti dei dati nei Tier2 in atto dall’estate 2010 sistema dinamico basato sulla popolarità dei dati: PD2P no preplacement dei dati principali storage nei Tier2 usato come cache: cancellazione dei dati meno utilizzati o vecchi Modifiche nel 2011 aggiungendo anche i Tier1 nel meccanismo dinamico per compensare la diminuzione del numero di copie di dati nella griglia Il nuovo meccanismo di brokering del PD2P ha penalizzato pesantemente i Tier2 nel trasferimento dei dati: uso ridotto dei del disco nel periodo maggio-luglio Inoltre, il formato più popolare e quindi trasferito è NTUP, leggero! Modifiche all’algoritmo da fine luglio con significativo aumento, e utilizzo, dei dati trasferiti nei Tier2 Circa 50 TB al mese di dati principali per ogni Tier2 Ulteriore aumento atteso per pre-placement degli AOD Nessun rischio saturazione, i dati sono secondari e quindi cancellabili per copiarne di nuovi. I Tier2 sono cache
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 21 Reliability & Availability – 2010/11 Availability = time_site_is_available/total_time Reliability = time_site_is_available/ (total_time-time_site_is_sched_down)
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 22 Accounting Tier2 Frascati Roma1 Milano Napoli Problemi condizionamento in agosto e al mw dello storage non dipendente dal sito
23 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Richieste 2012
24 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Modifica della stima delle risorse necessarie rispetto alle previsioni del 2010 a causa di: o variazioni dell’attività di LHC: run 2012 e shut-down 2013 richiedono un maggior numero di risorse per il computing o pile-up molto più alto del previsto (μ=6 medio, atteso fino a μ=~25 in autunno e nel 2012) provocato dall’aumento della densità dei fasci raddoppio delle dimensioni degli eventi e del tempo di ricostruzione: 100 HS-sec determinato dai dati 2010 raddoppiato a 200 HS-sec Risorse 2011 già determinate per cui si è reso necessario modificare il CM, in particolare riducendo il numero di repliche dei dati primari nelle cloud: 1 copia di RAW nei Tier1 rolling buffer del 10% di ESD nei Tier1 10 copie di AOD (2 Tier1 e 8 Tier2) in tutte le cloud 2 copie di dESD nei Tier1 e 4 nei Tier2 somma dESD = somma AOD in base a questo modello le risorse 2012 aumentano molto poco o nulla rispetto all’RRB 2010 Richieste 2012
25 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Computing Model – Input parameters Campagne di ottimizzazione in corso in ATLAS che hanno portato alla riduzione della dimensione degli eventi e dei tempi di ricostruzione: RAW = 1.2 MB (compressione dati) ESD e AOD = 1.1 e MB (riduzione aggressiva delle informazioni senza penalizzare il contenuto fisico) Full Sim: 4950 HS sec Real Recon: 108 HS sec Il risparmio di risorse permette un di aumentare il trigger rate come richiesto dai gruppi di fisica
26 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Computing Model – Input parameters
27 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Risorse “pledged” per attività - CPU Attività principali: Simulazione e analisi di gruppo e di utente. Simulazione e analisi di gruppo condivise con i Tier1. leggero aumento rispetto al 2011 per l’attività degli utenti. In assoluto aumenti molto contenuti grazie alla modifica del Computing Model. Richieste identiche a quelle effettuate nell’RRB 2010!!!! Simulazione: 10% di ATLAS 5600 HS Attività gruppi: 8 gruppi (2 gruppi a Milano, Napoli e Roma e 2 nuovi gruppi a Frascati) su ~ 100 gruppi ATLAS HS Analisi ATLAS: 10% di ATLAS (quota “pledged” escludendo l’attività italiana) HS
28 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Risorse “pledged” per attività - disco Simulazione MC: 50% di una replica completa 1000 TB + 60 TB (buffer produzione) Dati pp: 50% di una replica completa 1313 TB Attività gruppi: 8 gruppi (2 gruppi a Milano, Napoli e Roma e 2 nuovi a Frascati) 600 TB (75 TB per gruppo) Analisi: area scratch per utenti generici 100 TB (area scratch per utenti generici)
29 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Risorse “pledged” - riepilogo Attività CPU (HS06) Disco (TBn) LHC data taking 1320 Simulazione Gruppi ATLAS Analisi Totale T2 Italia T2 ATLAS T2 It/ATLAS CPU (kHS06) 28, % Disco (PBn) 3,08496,3% Nel nuovo modello di calcolo di ATLAS per i Tier2 acquista maggiore importanza la disponibilità di CPU rispetto allo storage. Utile per la competitività dei siti conservare le stesse pledge 2010 per il disco (~6%) aumentare quelle delle CPU a ~10% come al CNAF
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 30 Aree di storage previste DATADISK: area permanente, pledged, per i dati “centrali” di ATLAS GROUPDISK: area permanete, pledged, per i dati dei gruppi di fisica e performance SCRATCHDISK: area temporanea, pledged, presente in tutti i siti in cui si svolge l’analisi destinata ai dati degli utenti. Ripulita ogni 15 giorni o quando piena LOCALGROUPDISK: area permanente, non pledged, destinata a conservare i dati degli utenti Organizzazione Spazio Disco in ATLAS
Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS 31 Organizzazione Spazio Disco in ATLAS Necessario uno spazio disco locale (LOCALGROUPDISK) nei TierN per conservare i dati dei gruppi e degli utenti italiani nei Tier2 O(100 TB) per conservare l’intera statistica di dati degli utenti italiani nei Tier3 O(10 TB) per conservare sample ridotti per interattivo, sviluppo e definizione dell’analisi
32 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Risorse per attività italiane Storage: Necessità assoluta Spazio disco locale (LOCALGROUP) nei Tier2 e Tier3 per ogni attività italiana. ATLAS non considera nessuna area di storage permanente per gli utenti Queste aree possono essere ospitate sia nei Tier2 che nei Tier3 con diverse funzionalità e dimensioni: Tier2: dimensione O(100 TB) - utilizzo per ospitare campioni completi dei dati prodotti da tutti gli utenti e i gruppi italiani Tier3: dimensione O(10 TB) – utilizzo per ospitare campioni ridotti dei dati per definire e tunare le analisi con tool interattivi e batch locale. Sviluppo del codice Le aree locali nei Tier2 e Tier3 vanno considerati complementari. L’aumento dell’attività nei Tier3 porta a rimodulare le richieste diminuendo lo spazio disco richiesto nei Tier2 a favore di quello dei Tier3 Inoltre il nuovo modello di utilizzo del disco dei Tier2 come cache permette di limitare le richieste pledged a favore dell’area locale di storage permanente CPU: aumento della competitività La disponibilità di CPU oltre le risorse pledged da dedicare agli italiani permette di aumentare notevolmente la competitività dei siti
33 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Risorse per attività italiane Analisi Italiana – Disco 11 TB medi per attività considerando in prospettiva la statistica totale del TB in ogni Tier3 (2 in attività finanziati nel 2011 (RM3, GE) + 2 in attività con altri finanziamenti (BO, UD) + 2 da finanziare nel 2012 (LE, RM2)) = 150 TB 400 TB nei Tier2 (~200 TB gia’ occupati) Analisi Italiana – CPU 200 HS medio per attività 600 HS in ogni Tier3 (6 Tier3) = 3600 HS 6400 HS nei Tier2 # gruppi attivi: ~ 50 nelle 13 sezioni alcune attività clusterizzate tra varie sedi dimensioni dei gruppi e utilizzo risorse molto vario Dimensionamento medio risorse necessarie: misura risorse necessarie attualmente con 1 fb -1 stima con 10 fb -1, considerando sia l’aumento dei dati che del MC (non lineare) statistica attuale o ultimo fb conservabile su LOCALGROUP al Tier3, statistica intera necessariamente da ospitare in LOCALGROUP al Tier2
34 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Risorse totali - riepilogo Attività CPU (HS06) Disco (TBn) Pledged Analisi Italiana Totale
35 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Richieste Tier Per la stima dei costi necessari per server e rete ci si è attenuti all’algoritmo Bozzi: Server: ~10% Disco e CPU Rete: ~8% Disco e CPUCPUDiscoServerRete HS06K€TBnK€ Necessità attività Risorse disponibili Richieste CPU: 18 €/HS06 Disco: 440€/TBn Per la stima dei costi di CPU e Disco si è considerata l’esperienza delle ultime gare e le analisi di mercato che continuiamo a svolgere CPU (HS06) Disco (TBn) Frascati Milano Napoli Roma Tot Risorse disponibili Richieste
36 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Richieste Tier Dettaglio per Tier2 è in corso la validazione di Frascati come Tier2 ufficiale pieno supporto del Direttore dei Laboratori e del gruppo lavori infrastrutturali in corso referaggio concluso divisione delle risorse in parti uguali tra i 4 Tier2 a parte piccoli aggiustamentiCPUDiscoReteServerTotaleCons. HS06K€TBnK€ Frascati Milano Napoli Roma Tot 8540obs265640obs Le risorse acquistate nel 2008 per le CPU e precedenti per il disco vanno considerate obsolete nel 2012 e sostituite da nuove: (obs) nelle colonne HS06 e TBn. Il dettaglio per ogni Tier2 è presente nelle tabelle consegnate ai referee
37 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Richieste Tier3 Tier3 in attività in ATLAS: Bologna, Genova, Roma3, Udine/Trieste Richieste 2012 per 2 nuovi Tier3: Lecce farm già esistente in sezione con risorse ridotte e vecchie richiesta di diventare Tier3 “Grid enabled” CPU: 2 twin (4 WN) = 9 K€ Disco: sostituzione dischi da 750 GB a 2 TB, totale 26 TB = 6 K€ Roma2 nuova farm richiesta di diventare Tier3 “Grid enabled” CPU: 2 twin (4 WN) = 9 K€ Disco: NAS con 20 TB = 6 K€