CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo ATLAS Calcolo LHC 2011 Attività di TeV Attività di TeV Risorse 2010 & 2011 Risorse 2010 & 2011 Gianpaolo Carlino INFN Napoli CSN1 – Torino, 17 Maggio 2010
G. Carlino – ATLAS: Calcolo Attività di computing 2010
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo LHC 2010 – primo nb -1 Al 16 Maggio si sono raccolti 5.2 nb -1 (~300 M ev) Le attività e le performance mostrate di seguito, relative al primo nb -1 (~ 50 M ev) raccolto prima del technical stop di fine aprile, sono pienamente rappresentative del comportamento del computing di ATLAS.
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo LHC – Data taking Logical Volume Size Physical Volume Size Dati raccolti e prodotti da ATLAS per il primo nb -1 di luminosità Raw Data Event size = 1.6 MB Logical Data = 650 TB (*3 vs 2009) Physical Data (comprende tutte le repliche distribuite in Grid) = 2.5 PB (*2.5 vs 2009)
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Computing Model – Distribuzione dei dati Il “Tier1 ratio“ è quello reale, non quello nelle tabelle WLCG: CNAF 5% Sistema di repliche basato su un sistema di cancellazione i siti devono fornire un buffer per le attività pianificate nei successivi 3 mesi replicazione di tutti i dati nelle cloud come previsto dal CM determinazione dei dati “da custodire” nella cloud non cancellabili riduzione delle repliche in base al principi di popolarità dei dati RAW: 1 piano distribuita sull’insieme dei Tier1 ESD: 2 copie sull’insieme dei Tier1. Replica nei Tier2 della cloud per i primi mesi di run AOD: 2 copie sull’insieme dei Tier1. 10 copie sull’insieme dei Tier2 (~ 1 per cloud) dESD: non replicati ai Tier1. 10 copie sull’insieme dei Tier2 (~ 1 per cloud) Distribuzione nei Tier1 in base al “Tier1 ratio” L’esperienza del primo anno e le performance della rete ci permetteranno di modificare il CM allo scopo di ridurre il numero di repliche nella griglia
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo LHC – Data Distribution > 3 volte del throughput run 2009 In media i dati sono disponibili ai Tier2 per l’analisi in circa 4 ore Efficienza 100%. Nessuno problema con la distribuzione dei dati
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo LHC – Data Distribution in IT RAW = 1 TB 1.CNAF Down per 2 giorni per migrazione cataloghi 2.Disco del CNAF in blacklist alcuni giorni perché completo in attesa di cancellazioni forzate di dati 3.Scherzi della statistica: del 5% dei dataset nessun MinBias ESD = 50 TB 10% al CNAF (5% custodial + 5% primario) e 10% ai Tier2
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Reprocessing ai Tier1 3 campagne di reprocessing nel 2010: Febbraio: dati 2009 e cosmici Aprile: dati 2009 e 2010 Maggio: dati 2009 e 2010 e MC (in corso) Reprocessamento del 100 % dei dati RAW ESD ESD merge ESD AOD, dESD Distribuzione nuovi dati nella Grid
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Reprocessing ai Tier1 Attività di routine nei Tier1 RAW data su disco nel Non è necessario il pre-stage da tape Efficienza richiesta 100%. Ok ma ancora con troppi interventi manuali Prevalidazione dei siti molto rigorosa
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Uso risorse al CNAF Risorse ATLAS al CNAF: Attualmente: 8700 HS06 Pledge 2010: HS06 Monitor CNAF
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Uso risorse nei Tier2 - CPU Nota. Accounting non corretto per il Tier2 di Milano fino a inizio Marzo. Accounting parziale a Roma per 1 mese (aprile) per la perdita di dati di un CE
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Analisi Distribuita Dati distribuzione organizza centralmente con DDM/DQ2 in base al Computing Model il formato dati utilizzato utilizzato per l’analisi dipende dalle necessità dei gruppi (fisica o locali) User jobs Modello: “i job vanno dove sono i dati”. I siti devono garantire stabilità e affidabilità La banda passante disponibile potrà permettere di modificare il modello spostando i dati dove sono disponibili le CPU riducendo il numero di repliche sulla griglia Scelta del Frontend e del Backend con la reale attività di analisi gli utenti utilizzano gli strumenti che garantiscono la migliore efficienza, velocità, semplicità d’uso e stabilità
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Analisi Distribuita 2.2 milioni di job completati 16.6 miliardi di eventi analizzati 705 utenti (350 runnano più di 1000 job) (valori relativi al primo nb inverso) Uso significativo della Grid per l’analisi
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Analisi Distribuita Al momento il formato più popolare è l’ESD, più completo e adatto per lo studio delle performance, il 5% è in Italia ⇒ Gli utenti italiani mandano i loro job nelle altre cloud dove sono i dati Fase iniziale per tunare la composizione dei dESD (ESD skimmati e slimmati) replicati completamente in ogni cloud ⇒ E’ necessario passare al più presto all’utilizzo di dESD e AOD. Le risorse disponibili in altre cloud sono limitate.
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Analisi Distribuita Job di Analisi con Panda in Italia non viene riportato l’uso del WMS comunque significativo in Italia Frascati è da poco rientrato tra i siti cui vengono replicati i dati (10%) Esempio di job su un Tier2 ultima settimana Produzione Analisi Panda Analisi WMS Buchi dovuti alla mancanza di produzione a causa del ridottissimo spazio disco libero al CNAF
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Analisi Distribuita – Accesso ai dati LOCALGROUPDISK - Area di Storage locale dedicata agli output dei job prodotti in Grid Indipendentemente dalla cloud dove girano i job, l’output viene trasportato nel proprio Tier2 e opportunamente catalogato per l’uso successivo nella Griglia (non Tier3) Spazio disco non pledged. E’ necessario garantire agli utenti italiani uno spazio sufficiente Popular Sites: Analisi dell’accesso ai dati per sito, area di storage e formato dati Alla base del sistema di cancellazione delle repliche Fornisce una statistica dell’uso dei siti Popular Sites (LOCALGROUPDISK)
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Popular Sites (dESD) Analisi Distribuita – Accesso ai dati Popular Sites (ESD)
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Group Analysis Attività di skimming e slimming dei gruppi di Fisica e Performance di ATLAS Selezione dei siti (faticosa) in base alle performance determinate dai test periodici di analisi (Hammer Cloud), all’affidabilità e alla disponibilità di spazio disco. Milano, Napoli e Roma hanno superato senza problemi la selezione. Frascati supera le metriche di performance e affidabilità ma non ha lo spazio disco necessario. Faremo richiesta dopo l’installazione delle risorse 2010
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Risorse Computing ATLAS Risorse Tier1 e Tier Previsione Risorse 2011 Tier3
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Run Efficiency = time for physics / total time LHC Efficiency = time with colliding beam/ time for physics LHC schedule Assunzioni Rate200 Hz Run efficiency70% LHC efficiency40% RRB year Start RRB year End MesiLive time (pp) *10^6 sec Events (pp) *10^6 2009May ’ (2.2) Jun ’10Mar ‘ (5.1) 2011Apr ’11Mar ’ (5.1) Apr ’12Mar ‘13000 Final schedule dopo il meeting di Chamonix, feb 2010 Energia = 7 TeV – Luminosità integrata = 1 fb -1
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Computing Model – Input parameters
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Computing Model – Input parameters
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Risorse ATLAS – Tier1 Attività principali: Reprocessing dati reali e simulati, simulazione e analisi di gruppo. Attività asincrone con il data taking, scalano con il volume dei dati riduzione (CPU) o non variazione (Disco) delle risorse nonostante la schedula LHC più lunga moderato aumento risorse (~27% CPU e ~14% Disco) nonostante il raddoppio dei dati raccolti
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo CNAF Gara Opzione base Gara Opzione 1 Gara Opzione 2 CPU (kHS06) Disco (PBn) Risorse ATLAS al CNAF 2010 Gare 2009 Share CNAF = 8% E’ importante esercitare il più presto possibile le opzioni delle gare installazione CPU in tempo per il 1° Giugno installazione disco settembre/ottobre
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo USA BNL (25%) USA BNL (25%) Netherlands SARA/NIKHEF (15%) Netherlands SARA/NIKHEF (15%) France CCIN2P3 (13%) France CCIN2P3 (13%) UK RAL (13%) UK RAL (13%) Germany FZK (11%) Germany FZK (11%) Canada Triumf (5%) Canada Triumf (5%) NDGF (4%) NDGF (4%) Spain PIC (5%) Spain PIC (5%) Italy CNAF (9%) Italy CNAF (9%) 100% Risorse ATLAS 2010 “normalizzate” (TW=0)
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo CNAFATLAS CNAF 10% Δk€ CPU (kHS06) Disco (PBn) Tape(PB) Previsione Risorse ATLAS al CNAF 2011 CPU = 25 €/HS Disco = 650 €/TBn Tape = 75 €/TB Questi costi andranno valutati criticamente in seguito alle veloci variazioni del rate con il dollaro 10% è lo share corretto per un Tier1 di una cloud con il 9% di autori I numeri vanno armonizzati con le richieste degli altri esperimenti LHC per conservare al CNAF le usuali percentuali basate sul numero di autori italiani
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Risorse ATLAS – Tier2 Attività principali: Simulazione e analisi di gruppo e di utente. Simulazione e analisi di gruppo condivise con i Tier1. Analisi di utenti solo ai Tier riduzione (CPU) o moderato aumento (Disco) delle risorse nonostante la schedula LHC più lunga diminuzione tempo simulazione cancellazione vecchie simulazioni obsolete o a energie ≠ 7 TeV aumento significativo risorse (~20% CPU e ~60% Disco) a causa del raddoppio dei dati raccolti
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo T2 Italia T2 ATLAS T2 It/ATLAS Pledges Uso IT CPU (kHS06) ,1%12 (5%)25% Disco(PBn) ,3% 1.0 (4%)43% 1.3 (5%)26% Risorse 2010 nei Tier2 Le risorse disponibili nel 2010 nei Tier2 Italiani sono solo una stima numeri presentati al referaggio di marzo cambio con il dollaro notevolmente peggiorato: al momento costo superiore del 15 o 20% Gare: tempistica per l’acquisizione notevolmente cambiata richiesta dell’amministrazione INFN di effettuare gare pubbliche raggruppando le gare messa in produzione probabile solo a dicembre le gare ai Tier2, lunghe come quelle del CNAF, vanno programmate in tempo per le scadenze WLCG Uso IT: risorse “non pledged” da dedicare agli utenti italiani (LOCALGROUPDISK). ~25% delle risorse dei Tier2 nel 2010
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Previsione risorse 2011 nei Tier T2 Italia ATLAS T2 Italia 7% ΔK€ T2 Italia 9% Δk€ CPU (kHS06) , Disco (PBn) ,41,7996 Totale Rete 3485 Server Gran tot CPU = 25 €/HS Disco = 600 €/TBn (Bozzi – CSN1 09/09) Share Tier2: ~ 7% attuale (5% pledged) ~ 9% corrisponde al numero di autori italiani. Auspicabile! Questa tabella fornisce i possibili ordini di grandezza delle richieste Stime per la rete suff. corrette, eccessive per i server
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Tier3 Modello ATLAS per i Tier3 Task force in ATLAS e in Italia per definire funzionalità e testare tool specifici Analisi interattiva (Root, Proof) e sviluppo di codice. Storage locale (ntuple) siti molto importanti per l’attività locale Molti siti già attivi in tutto il mondo e soprattutto in America in Italia alcuni siti di test (Genova, Roma3, Trieste/Udine) Tipologia Tier3: sito pienamente “grigliato” (in Italia p.es. farm INFN-GRID) (tipologia più diffusa in ATLAS) piccola farm locale non “grigliata” Discussione in Italia primo incontro con i referee al Workshop congiunto INFN-GRID & CCR Richieste finanziarie richieste minime verranno presentate nei preventivi (trascurabili rispetto ai Tier2) per dotare alcune farm dello spazio disco base (pochi TB) e/o server necessari per UI o “interfaccia” con la Griglia
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo Conclusioni Aspetti positivi: la griglia sembra funzionare sufficientemente bene (giudizio degli utenti) distribuzione dati efficiente e veloce la riduzione del numero di repliche previste dal CM dopo il referaggio dell’anno scorso non ha penalizzato le attività l’analisi dei dati è stata possibile sin dal primo momento nella griglia size degli eventi sotto controllo riduzione dei tempi di simulazione degli eventi modello dei Tier3 sufficientemente maturo. Siti molto importanti a livello locale Aspetti da verificare o negativi: Sistema di diminuzione delle repliche basato sulla cancellazione dei dati meno popolari Analisi distribuita da dimostrare che scali al crescere dei dati limitatezza delle risorse. Le risorse a disposizione all’estero sono sempre più ridotte e bisogna poter contare sulle risorse italiane migliorare la stabilità e l’efficienza di alcuni tool di analisi distribuita Reprocessing da disco. Nel 2011 dovrà essere fatto da tape Spazio disco al CNAF veramente ridotto e fonte di grandi sofferenze Gare pubbliche ai Tier2. Le risorse 2010 saranno disponibili solo a fine anno. Attenzione per l’acquisizione delle risorse 2011