Il primo anno di presa dati di LHC L’esperienza di calcolo nell’esperimento ATLAS Attività condotte nel 2010 e prospettive future Lorenzo Rinaldi (INFN-CNAF)

Slides:

Advertisements

Presentazioni simili

Fisica Subnucleare – Esperimento ATLAS

Advertisements

E835 & Hera-B Concezio Pisa, 21/12/2004. E835 (aka Jet-FNAL) timeline dell'esperimento –Presa dati conclusa nel Alcune analisi tuttora in corso.

23/01/01Alberto Masoni – GR1 - Roma1 I MODELLI DI CENTRI REGIONALI POSIZIONE DI ALICE ITALIA CENTRO ITALIANO: CPU 450 KSI95, DISCO 400 TB (INSIEME TIER-1.

L. Perini CSN1 -Roma 23 Gen Centri Regionali per il calcolo di ATLAS in Italia Tier-1 e Tiers-N : funzioni, localizzazione, necessita di h/w, personale.

Introduzione alle attivita Software e Computing di Atlas Napoli M. Biglietti – G. Carlino – F. Conventi - A. Doria – L. Merola - A. Migliaccio Software:

1 La farm di ATLAS-Napoli 1 Gb/s 7 nodi con 2 CPU PIII a 1 GH, RAM 512 MB, 2 schede di rete a 100 Mb/s. Server con 2 CPU PIII a 1 GH, RAM 1 GB, 2 schede.

Stato del Tier2 di Atlas a Napoli Il ruolo dei Tier2 in Atlas La Federazione Italiana dei Tier2 Il Tier2 di Napoli Napoli, 21 Dicembre 2006 – A.Doria.

Test del Monitoraggio del Tracker usando un Tier2 M.S. Mennea, G. Zito, N. De Filippis Università & INFN di Bari Riunione Consorzio – Torino 18 Novembre.

Tier1 - cpu KSI2k days ATLAS KSI2k days CMS. Tier1 - storage CASTOR disk space CMS requires: T1D0, T0D1 ATLAS requires: T1D0, T0D1 and T1D1.

5 Feb 2002Stefano Belforte – INFN Trieste calcolo per CDF in Italia1 Calcolo per CDF in Italia Prime idee per lanalisi di CDF al CNAF Numeri utili e concetti.

BRIDGE-3K Verso il futuro La migrazione dai sistemi HP3000. Un ponte verso il futuro conservando la cultura e le risorse aziendali. NOVITA 2007.

INFN-BOLOGNA-T3 L. Rinaldi I siti Tier-3 nel modello di calcolo di Atlas Configurazione del sito INFN-BOLOGNA-T3 Attività di Analisi e Produzione Attività.

ATLAS Distributed Analysis Lamberto Luminari CSN1 – Roma, 16 Maggio 2006.

Analysis unibo una proposta. Work flow di una tipica analisi 1.Simulazione di piccoli campioni di eventi per studio segnale 2.Generazione in grande.

CCR 14-15/03/2006 Status Report Gruppo Storage CCR.

6 Febbraio 2006CSN1 - Roma1 MEG : relazione dei referees P. Cenci R. Contri P. Morettini M. Sozzi.

LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.

Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)

Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.

1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier Richiesta Tier-2 al CNAF Stato e risultati DC06.

Perugia - 12 novembre 2002 M. Morandin - INFN Padova Budget calcolo Babar 2003 e contributo INFN.

Tier-2 Tier-2 ATLAS (Osservazioni sulla proposta dei referee del calcolo LHC) Lamberto Luminari CSN1 – Roma, 3 Aprile 2006.

Calcolo esperimenti LHC 2004 F. Ferroni, P. Lubrano, A. Martin, M. Morandin, M. Sozzi.

ATLAS Computing Model Lamberto Luminari CSN Gennaio, 2005.

ATLAS PRIN Alessandro De Salvo A. De Salvo – 12 novembre 2015 Cloud Computing Condivisione di risorse tra gruppi EventIndex LHCONE PoD T2D.

BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.

Calcolo a LHC CB 23 maggio 2011 Quadro generale Gare CPU e disco.

D. Martello Dip. Fisica - Lecce Sintesi piani esperimenti CSN2 CNAF 7-marzo-2007.

Referaggio CALCOLO Esperimenti non LHC G. Carlino, D. Lucchesi, V. Vagnoni CSN1 – Lecce 30 Settembre 2015.

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 1 1 News dal computing Gianpaolo Carlino INFN Napoli Atlas Italia, Milano, 17/11/09 Nuovo.

Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.

MasterClass: monitoraggio dei telescopi 2.0 D. De Gruttola Centro Fermi Roma.

Parma, 22 Settembre 2010 G. Carlino – ATLAS, Attività di 7 TeV 1 ATLAS Attività di TeV Attività di computing Attività di computing.

Claudio Grandi Workshop CCR 2015 Claudio Grandi INFN Bologna.

Roma, 13 Luglio 2010 G. Carlino – Referaggio Tier2 ATLAS 1 ATLAS Referaggio Tier2 Attività di TeV Attività di TeV Richieste 2011.

Proposta per una cache distribuita a livello italiano ALESSANDRO DE SALVO (RM1) TOMMASO BOCCALI (PI)

19 Ottobre 2012ATLAS Milano1 Stato delle risorse locali di calcolo L. Carminati, L. Perini, D. Rebatto, L. Vaccarossa.

Referaggio, 17 Marzo 2010 G. Carlino – ATLAS – Referaggio Tier2 1 Referaggio Tier2 ATLAS Attività di Computing 2009 Attività di Computing 2009 Stato dei.

1 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Relezione Riunioni Referaggio Calcolo ATLAS Computing Model News Computing.

ANALISI DISTRIBUITA IN ATLAS L’esperienza degli utenti Attilio Picazio Università di Napoli “Federico II” – INFN Napoli 18/05/11Attilio Picazio - Workshop.

1 referee-BaBar CSN I, Roma Gennaio 2008 RELAZIONE DEI REFEREE DI BaBar e SuperB M.De Palma, C.Luci, C.Troncon, B.Gobbo(calcolo),D. Pedrini

11 Richieste di banda Anno 2010 T.Ferrari, M.Morandin CCR, Roma, 30 settembre 2009.

Uso della rete geografica e richieste di upgrade CCR 31/3/2015 (Roma) S.Zani.

ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 5 settembre 2013.

1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera

19/4/2013 D. Menasce, M. Serra - Referaggio Progetti INFRA e WLCG 1.

Stato e previsione rete nelle sedi INFN Survey ed ipotesi di sviluppo fino al 2018 CCR 8-10 Settembre 2018 (Roma) 1 S.Zani (Netgroup)

CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS 1 ATLAS Referaggio Tier2 Attività di TeV Attività di TeV Richieste.

Referaggio Calcolo ATLAS II Gianpaolo Carlino INFN Napoli Catania, 12 Settembre 2012 Risorse e Richieste 2013 nei preventivi Aggiornamento in seguito all’allungamento.

Satelliti e Banche dati Astronomiche Dr. Giuliano Taffoni INAF – IASF Bologna Dr. Giuliano Taffoni – Workshop DUCK 10/11/2010.

KLOE - Referee Paolo Checchia, Luca Lista, Ezio Menichetti, Pierluigi Paolucci con l’aiuto sostanziale di Luca dell’Agnello, Mauro Morandin CSN1.

ATLAS NAPOLI Software & Computing e il Tier-2 Gianpaolo Carlino INFN Napoli Il gruppo ATLAS di Napoli Le attività Software & Computing Il prototipo Tier-2.

20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.

ATLAS Distributed Computing e Data Management Alessandro De Salvo Outline 

ATLAS Italia – Sestri Levante, 15 Giugno 2010 G. Carlino – Richieste Run Efficiency = time for physics / total time LHC Efficiency = time with colliding.

1 Bari, 21 Settembre 2011 G. Carlino – ATLAS: il calcolo ATLAS: il Calcolo Attività di Computing nel 2011 Attività di Computing nel 2011 Richieste Tier2.

Il calcolo per l’esperimento GERDA Luciano Pandola INFN, Laboratori del Gran Sasso Riunione della CSN2, LNF Frascati, 29 Novembre 2011.

1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.

Calcolo ALICE1 Calcolo ALICE: stato e richieste Domenico Elia e Massimo Masera Referee Calcolo LHC / Pisa, Riunione con Referee Calcolo LHC Pisa,

L’infrastruttura del progetto ReCaS Paolo Lo Re on behalf of ReCaS collaboration.

Referaggio Calcolo ATLAS Gianpaolo Carlino INFN Napoli CNAF, 11 Maggio 2012 Attività di Computing ATLAS Attività di Computing in Italia Risorse e Richieste.

L.Perini Milano: 10 Gennaio Ex-ATLAS-Grid (Tier2 incluso) l Ruolo dei Tiers in ATLAS e grid l Le persone di Milano e le attività l Le infrastrutture.

CNAF. storage Siamo in una fase di tuning con lo storage, che al momento sembra essere un collo di bottiglia 1.~10 giorni fa vista saturazione GPFS.

Offline Report Finale Grid! I Corso di formazione INFN su aspetti pratici dell'integrazione di applicazioni in GRID Domenico D’Urso Roberto.

Aggiornamento AFS R.Gomezel Commissione Calcolo e Reti Presidenza 5/10/2010-7/10/2010.

Report dalla CSN Settembre Sala dei Mappamondi - Torino Gianpaolo Carlino – CCR 25/10/2012.

ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 25 maggio 2015.

Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.

CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo ATLAS Calcolo LHC 2011 Attività di TeV Attività di TeV Risorse.

Stato Computing ATLAS Gianpaolo Carlino INFN Napoli

Transcript della presentazione:

Il primo anno di presa dati di LHC L’esperienza di calcolo nell’esperimento ATLAS Attività condotte nel 2010 e prospettive future Lorenzo Rinaldi (INFN-CNAF) Workshop CCR - Stato e Prospettive del Calcolo Scientifico Legnaro

2 IntroduzioneIntroduzione L’esperienza Atlas nel primo anno di presa dati: il punto di vista di un addetto ai lavori di computing Descrizione del Computing Model Le attività condotte nel 2010, nel mondo e in Italia La distribuzione dei dati su grid Le attività di calcolo centrali Le attività di analisi degli utenti L’evoluzione del Computing Model di ATLAS: come il modello si è adattato alle problematiche reali 17/07'2/2011L. Rinaldi - CCR Workshop LNL

3 Il Computing Model di Atlas Tier-0 Tier-1 Tier-2 Tier-3 Link Tier-0 Tier-1s Cloud Italiana Modello a cloud: gerarchico, multi-tier T1-CNAF T2 Napoli Milano Roma1 LNF T3 Genova Trieste Roma3 (Bologna) T1-CNAF T2 Napoli Milano Roma1 LNF T3 Genova Trieste Roma3 (Bologna) 17/07'2/2011L. Rinaldi - CCR Workshop LNL

Tier-0 (CERN)‏ Archivio dei RAW data ricevuti dal detector e distribuzione ai Tier1 Prompt Reconstruction delle calibration e express streams e dei physics streams Distribuzione output ricostruzione (ESD, AOD,TAG) ai Tier-1 Tier-1 Accesso a lungo termine e archivio su tape di un subset di RAW data Copia dei RAW data di un altro Tier-1 Reprocessing della ricostruzione dei propri RAW data con parametri di calibrazioni e allineamenti finali e distribuzione AOD ai Tier-2 Archivio su disco di tutti gli AOD e TAG data e di una frazione di ESD data Archivio dati simulati prodotti nei Tier-2 Simulazione Monte Carlo Analisi di gruppo Tier-2 Simulazione Monte Carlo Archivio di una frazione di AOD e TAG data Archivio dati utenti Analisi utente e di gruppo e sviluppo di codice Calibrazione e allineamento per sub-detectors di interesse locale Tier-3 Analisi locale e sviluppo di codice Archivio dati utenti 4 Attività nei siti previste dal CM 17/07'2/2011L. Rinaldi - CCR Workshop LNL

5 RAW Data: dati in output dal sistema di trigger e acquisizione in formato byte-stream ESD (Event Summary Data): output della ricostruzione, contiene calibrazione, allineamento, refitting … Rappresentazione object-oriented POOL/ROOT AOD (Analysis Object Data): rappresentazione ridotta degli eventi per l’analisi. Back Navigation agli ESD Rappresentazione object-oriented POOL/ROOT TAG: informazioni sintetiche per selezione veloce degli eventi negli AOD e/o ESD. Formato DB relazionale per ricerche veloci e formato ROOT per istogrammazione veloce dESD e dAOD: versione “skimmate” di ESD e AOD Attività del Tier-0 17/07'2/2011L. Rinaldi - CCR Workshop LNL Express streams ricostruiti con le calibrazioni best-estimate disponibili RAW data esportati subito dopo il merging Entro 36h i RAW data processati con le calibrazioni aggiornate Export dati derivati Express streams ricostruiti con le calibrazioni best-estimate disponibili RAW data esportati subito dopo il merging Entro 36h i RAW data processati con le calibrazioni aggiornate Export dati derivati

Trasferimenti tra le cloud Tier1  Tier1: Dati riprocessati (ESD, AOD, dESD per l’analisi) Tier 1/2  Tier2/3: Output analisi utente su storage area locale Trasferimenti nella cloud Tier1  Tier2: distribuzione nei Tier2 dei dati per l’analisi e cancellazione dal Tier1 Tier1  Tier2: simulazioni Monte Carlo Tier1/2  Tier2/3: Output analisi utente su storage area locale 6 Computing Model: data workflow Tier-1s Tier-2s Tier-3s Tier-0 Tier-1 Tier-2 Tier-3 RAW, ESD, AOD AOD N-tuples 17/07'2/2011L. Rinaldi - CCR Workshop LNL

Replica dei dati secondo il Computing Model RAW: 1 copia distribuita sull’insieme dei Tier1 (su tape) ESD: 2 copie sull’insieme dei Tier1. Replica nei Tier2 on demand AOD: 2 copie sull’insieme dei Tier1. 10 copie sull’insieme dei Tier2 (~ 1 per cloud) dESD: non replicati ai Tier1. 10 copie sull’insieme dei Tier2 (~ 1 per cloud) Distribuzione nei Tier1 in base al “Tier1 ratio” Replica dei dati all’inizio della presa dati I siti o le cloud grandi copiano più dati dei formati più popolari, rispetto a quanto previsto dal Computing Model, per massimizzare l’analisi ESD: 7 copie 3.5 copie in US. Una copia completa a BNL e 2.5 copie nell’insieme dei Tier2 1 copia completa in FR cloud con piccole percentuali di dati fanno poca analisi e cloud grandi diventano attrattori per i job anche degli stranieri 7 Computing Model: cosa è cambiato subito 17/07'2/2011L. Rinaldi - CCR Workshop LNL

Int Lumi = pb -1 Peak Lumi = 2.07x10 32 cm -2 s -1 Summary presa dati 2010 TeV 817/07'2/20118L. Rinaldi - CCR Workshop LNL

9 Volume dati 7 TeV TB Logical TB Physical Logical Data Volume dei dati regiatrati su catalogo (singola copia) TOTAL7216 TB RAW1751 TB ESD3920 TB AOD384 TB DESD498 TB NTUP543 TB Physical Data Comprende tutte le repliche distribuite in GRID Solo dati replicati su disco TOTAL16695 TB RAW279 TB ESD10772 TB AOD3433 TB DESD1835 TB NTUP264 TB 17/07'2/2011L. Rinaldi - CCR Workshop LNL

10 Int Lumi = 9.17  b -1 Peak Lumi = 3.04x10 25 cm -2 s -1 Summary presa dati 2010 HI 17/07'2/2011L. Rinaldi - CCR Workshop LNL

11 Volume dati Pb-Pb TB Logical TB Physical Logical Data Volume dei dati regiatrati su catalogo (singola copia) TOTAL1274 TB RAW342 TB ESD539 TB DESD70 TB NTUP313 TB OTHER10 TB Physical Data Comprende tutte le repliche distribuite in GRID Solo dati replicati su disco TOTAL1439 TB RAW6 TB ESD879 TB DESD39 TB NTUP505 TB OTHER10 TB 17/07'2/2011L. Rinaldi - CCR Workshop LNL

12 Distribuzione totale dei dati 2010 inizio presa 7 TeV 2010 pp reprocessing MB/s per day AVERAGE:2.3 GB/s MAX 7.5 GB/s AVERAGE:2.3 GB/s MAX 7.5 GB/s MarzoAprileMaggioGiugnoFebbraioGennaio LuglioAgostoSettembreOttobreNovembreDicembre Reprocessing dati e MC Reprocessing MC Reprocessing dati 2009 PbPb Presa dati e produzione EFFICIENCY: 100% (including retries) EFFICIENCY: 100% (including retries) 17/07'2/2011L. Rinaldi - CCR Workshop LNL Dati disponibili nei siti dopo poche ore

13 Distribuzione totale dei dati 2010 MB/s per day Produzione transf. dati da produzione interni alle cloud Tier-0 export flusso dati da tier0 include calibration streams Sottoscrizioni utenti Data consolidation Transf. dati da produzione extra-cloud Data brokering trasf. dati analisi Functional test GennaioFebbraioMarzoAprileMaggioGiugnoLuglioAgostoSettembreOttobreNovembreDicembre Attività /07'2/2011L. Rinaldi - CCR Workshop LNL

14 Distribuzione dei dati in Italia MarzoAprileMaggioGiugnoLuglioAgostoSettembreOttobreNovembreDicembre MB/s per day pp reprocessing AVERAGE:195 MB/s MAX 900 MB/s AVERAGE:195 MB/s MAX 900 MB/s TB 7 TeV TB Pb-Pb TOTAL1128 TB ESD879 TB AOD148 TB DESD87 TB NTUP9 TB TOTAL50 TB ESD24 TB DESD3 TB NTUP22 TB Novembre: Installazione disco 2010 al CNAF 17/07'2/2011L. Rinaldi - CCR Workshop LNL

15 Distribuzione dei dati in Italia MB/s per day MarzoAprileMaggioGiugnoLuglioAgostoSettembreOttobreNovembreDicembre MB/s per day MarzoAprileMaggioGiugnoLuglioAgostoSettembreOttobreNovembreDicembre Throughput Tier-1 Throughput Tier-2s AVERAGE:107 MB/s MAX 700 MB/s AVERAGE:107 MB/s MAX 700 MB/s AVERAGE:88 MB/s MAX 400 MB/s AVERAGE:88 MB/s MAX 400 MB/s 17/07'2/2011L. Rinaldi - CCR Workshop LNL

16 Produzione in ATLAS Attività di elaborazione dei dati gestite centralmente in Atlas: simulazione ricostruzione reprocessing Attività di elaborazione dei dati gestite centralmente in Atlas: simulazione ricostruzione reprocessing Jobs produzione Numero medio di jobs running per sito Production Share per Cloud Production Share per Tier-1 17/07'2/2011L. Rinaldi - CCR Workshop LNL

17 Produzione in Italia Da Luglio 2010: Share dei siti italiani cresciuto dopo l’istallazione delle cpu al CNAF variazione dovuta all’aumento delle risorse destinate all’analisi Da Luglio 2010: Share dei siti italiani cresciuto dopo l’istallazione delle cpu al CNAF variazione dovuta all’aumento delle risorse destinate all’analisi Ultimo mese: Share CNAF 8% (=pledge) Share IT 5% (pledge non ancora installate nei Tier2) Ultimo mese: Share CNAF 8% (=pledge) Share IT 5% (pledge non ancora installate nei Tier2) 17/07'2/2011L. Rinaldi - CCR Workshop LNL

18 Produzione in Italia Production efficiecy Dati periodo 05/2010 – 02/2011 Il CNAF include anche le statistiche di reprocessing (60k jobs) Dati periodo 05/2010 – 02/2011 Il CNAF include anche le statistiche di reprocessing (60k jobs) Production share Cloud IT Efficienza= succ. jobs / totale Inefficienze dovute principalmente a problemi nei siti Non sempre i siti hanno pieno controllo (power cut) Ottime efficienze negli ultimi mesi Efficienza= succ. jobs / totale Inefficienze dovute principalmente a problemi nei siti Non sempre i siti hanno pieno controllo (power cut) Ottime efficienze negli ultimi mesi 17/07'2/2011L. Rinaldi - CCR Workshop LNL

19 ReprocessingReprocessing 4 campagne di reprocessing nel 2010: Febbraio: dati 2009 e cosmici Aprile: dati 2009 e 2010 Maggio: dati 2009 e 2010 e MC Novembre: dati e MC full 2010 (da tape) Reprocessing Ioni previsto a Marzo campagne di reprocessing nel 2010: Febbraio: dati 2009 e cosmici Aprile: dati 2009 e 2010 Maggio: dati 2009 e 2010 e MC Novembre: dati e MC full 2010 (da tape) Reprocessing Ioni previsto a Marzo 2010 Reprocessamento del 100 % dei dati RAW  ESD ESD merge ESD  AOD, dESD Distribuzione nuovi dati nella Grid Reprocessamento del 100 % dei dati RAW  ESD ESD merge ESD  AOD, dESD Distribuzione nuovi dati nella Grid N jobs reprocessing world-wide 17/07'2/2011L. Rinaldi - CCR Workshop LNL

20 Reprocessing FALL 2010 al CNAF Al CNAF riprocessato 5% Dei dati p-p TB (con recall da tape) Più di 30k jobs Metrica: 100% in due settimane Ottime prestazioni del CNAF: uso estensivo CPU (jobs terminati in anticipo) Storage performante Rete al limite della saturazione (concorrenza jobs analisi) Al CNAF riprocessato 5% Dei dati p-p TB (con recall da tape) Più di 30k jobs Metrica: 100% in due settimane Ottime prestazioni del CNAF: uso estensivo CPU (jobs terminati in anticipo) Storage performante Rete al limite della saturazione (concorrenza jobs analisi) Recall da tape (TSM-GPFS) CNAF MONITOR Recall da tape (TSM-GPFS) CNAF MONITOR Jobs di reprocessing (24h) ATLAS MONITOR Jobs di reprocessing (24h) ATLAS MONITOR Job workflow: activated (pilot) defined (tape recall) running finished Job workflow: activated (pilot) defined (tape recall) running finished 17/07'2/2011L. Rinaldi - CCR Workshop LNL

21 Utiizzo risorse atlas al CNAF MAXAVERAGE WCT (hepspec day) CPT (hepspec day) Nov. 2010MAXAVERAGE WCT (hepspec day) CPT (hepspec day) /07'2/2011L. Rinaldi - CCR Workshop LNL ATLAS pledge= 16kHS Installazioni in due fasi: Luglio e Settembre ATLAS pledge= 16kHS Installazioni in due fasi: Luglio e Settembre

22 Utiizzo risorse atlas al CNAF 2010 ATLAS 34% Assegnati: 3.8M HEPSPEC Utilizzati: 4.0M HEPSPEC Assegnati: 3.8M HEPSPEC Utilizzati: 4.0M HEPSPEC Atlas ha beneficiato bassa attività di altre VO in alcuni periodi 17/07'2/2011L. Rinaldi - CCR Workshop LNL

23 Utiizzo risorse atlas al CNAF 2011 ATLAS_SIMUL: Abilitata nuova coda per job di simulazione: job solo su VWN limitato utilizzo di MEM fisica e basso IO Share 4% ATLAS_SIMUL: Abilitata nuova coda per job di simulazione: job solo su VWN limitato utilizzo di MEM fisica e basso IO Share 4% ATLAS_SIMUL ATLAS 17/07'2/2011L. Rinaldi - CCR Workshop LNL

Formati originali: RAW  (d)ESD  (d)AOD Processati e distribuiti su grid (Tier0-Tier1-Tier2) Analisi low-level (Grid/Local): SKIMMING: selezione eventi (es. QCD: solo eventi con jets) SLIMMING: selezioni data container nell’evento (es. rimozione algoritmi jets) THINNING: selezione di parti dei data container (es. rimozione parametri tracce) USER INFO: aggiunta di variabili utente La struttura del dato ridotto resta invariata: stesso codice di analisi su dati originali/ridotti Analisi high level (istogrammi, fit, …) Analisi eseguita localmente (possibilià di running su grid, disponibili tool per analisi ROOT-on-GRID) N-tuple DP*D Central processing T0-T1-T2 low-level analysis high-level analysis 24 Workflow analisi utenti 17/07'2/2011L. Rinaldi - CCR Workshop LNL

25 Analisi distribuita: il ruolo dei Tier-3 ATLAS ha sviluppato un modello di Tier3 definendo le funzionalità e i tool specifici Analisi interattiva (Root, Proof) e sviluppo di codice Storage locale (ntuple) Molti siti già attivi in tutto il mondo e soprattutto in America, molto importanti per l’attività locale Tipologia Tier3: sito pienamente “grigliato” (tipologia più diffusa in ATLAS) piccola farm locale non “grigliata” per l’interattivo I Tier3 “grigliati” hanno duplice funzionalità: GRID e LOCALE gli utenti beneficiano di entrambi gli ambienti utile per ottimizzare le attività di analisi degli utenti in Italia Tier3 attivi a Genova, Roma3, Trieste/Udine. Bologna in fase di realizzazione task force ha portato avanti lo sviluppo del modello in base alle tipologie dei nostri centri Tutti i gruppi Atlas-IT hanno delle farm che svolgono funzioni di Tier3 17/07'2/2011L. Rinaldi - CCR Workshop LNL

Dati distribuzione organizza centralmente in base al Computing Model il formato dati utilizzato per l’analisi dipende dalle necessità dei gruppi (fisica o locali) User jobs: Modello: “i job vanno dove sono i dati”. I siti devono garantire stabilità e affidabilità La banda passante disponibile ha permesso di modificare il modello spostando i dati dove sono disponibili le CPU riducendo il numero di repliche sulla griglia Scelta del Frontend e del Backend Il sistema più usato è pathena-Panda: user friendly, più facile reperire informazioni 26 Analisi distribuita su grid Sistema a 3 griglie: OSG  Panda EGEE  WMS Nordugrid  ARC Sistema a 3 griglie: OSG  Panda EGEE  WMS Nordugrid  ARC 17/07'2/2011L. Rinaldi - CCR Workshop LNL

I job vanno dove ci sono i dati… … MA ci sono molti dati mai acceduti dai jobs! Popolarità: definita in base al numero di accessi Formato più popolare ESD: necessario per molti tipi di analisi di performance e detector in alcuni casi è un approccio “conservativo” degli utenti (formato dati più completo) non può scalare con la luminosità e il numero di utenti Analisi sulla popolarità ha evidenziato punti deboli del CM richiesta eccessiva di spazio disco proliferazione del formato dei dati eccesso di repliche dei dati 27 Analisi distribuita e accesso ai dati 17/07'2/2011L. Rinaldi - CCR Workshop LNL

28 Cancellazione dei dati ATLAS ha sviluppato un sistema automatico di cancellazione basato sulla classificazione dei dati e la misura del numero di accessi custodial data: cancellabili solo se obsoleti (RAW, ESD o AOD prodotti nella cloud) primary data: cancellabili solo se diventano secondary (dati previsti dal CM) secondary data: solo questi possono essere cancellati se non popolari in base alla loro anzianità 17/07'2/2011L. Rinaldi - CCR Workshop LNL

Maggio 2010: ~ 30% dei siti era overfull, con ridotto spazio disco a disposizione Cancellare i dati meno popolari dopo essere stati replicati nei siti bisogna assicurare la custodialità prevista dal Computing Model permette di replicare sempre tutti i dati nuovi per l’analisi senza penalizzare le cloud più piccole ottimizzazione significativa dello spazio disco 29 Crisi del disco ? 17/07'2/2011L. Rinaldi - CCR Workshop LNL E’ tuttavia necessario modificare anche il modello di distribuzione dei dati

30 Evoluzione del CM Maggior parte analisi ai T2 Inviare velocemente i dati ai T2 Difficoltà dovuta ai molti formati e molti siti Numero delle copie modificato frequentemente T2 si riempiono velocemente Molti dati replicati nei T2 risultano mai usati Dati pre-placed solo ai Tier1 il dato è analizzato per la prima volta al tier 1 il dato acceduto al tier1 è replicato in un tier2 (che diventa una cache) gli utenti possono richiedere repliche personalizzate Processo adiabatico e trasparente agli utenti nessun delay sui jobs running nessun cambio user workflow T0 T1 T2 T0 T1 T2 PUSH MODEL PULL MODEL 17/07'2/2011L. Rinaldi - CCR Workshop LNL

31 PD2P: Panda Dynamic Data Placement Modello di distribuzione dei dati basato sull’idea di considerare gli storage dei Tier2 come cache Nel modello originario i job vanno verso i dati pre-placed nuovo modello è dinamico: immutata la distribuzione dei dati nei Tier1 nessun dato (o solo alcuni formati) pre-placed nei Tier2, stop alla replica automatica Panda esegue la replica on demand verso i Tier2 (se i dati non sono presenti in altri Tier2) il job gira comunque solo dove sono i dati, per cui la prima volta al Tier1 (non c’è inefficienza) e successivamente al Tier2 dove è stata eseguita e completata la replica necessità di abilitare l’analisi ai Tier1 clean up dei Tier2 quando lo storage è pieno basato sul sistema di popolarità il modello, nella sua fase finale, funzionerà collegando i Tier2 con i Tier1 di ogni cloud anche solo l’applicazione all’interno della singola cloud permette comunque di ottimizzare l’uso dello storage e delle CPU Questo modello utilizzato in tutte le cloud l’Italia ha partecipato alla fase di test a fine luglio appena è stata installata la prima parte del disco 2010 ed è stata abilitata l’analisi utente 17/07'2/2011L. Rinaldi - CCR Workshop LNL

32 PD2P: Panda Dynamic Data Placement Con il sistema di replicazione dinamica si riduce l’occupazione dello spazio disco nei T2 (caching) Limitazioni alla replicazione dinamica: bassa disponibilità di spazio disco molte sottoscrizioni attive Più repliche se ci sono molti jobs in coda Possibilità di job Re-brokering: un job in coda al Tier-1 può essere inviato al Tier-2 se la replica nel Tier-2 è completata prima che il job vada in esecuzione Limitazioni alla replicazione dinamica: bassa disponibilità di spazio disco molte sottoscrizioni attive Più repliche se ci sono molti jobs in coda Possibilità di job Re-brokering: un job in coda al Tier-1 può essere inviato al Tier-2 se la replica nel Tier-2 è completata prima che il job vada in esecuzione 17/07'2/2011L. Rinaldi - CCR Workshop LNL

33 Distribuzione totale dei dati 2010 MB/s per day Sottoscrizioni utenti grande richiesta nel primo periodo di presa dati GennaioFebbraioMarzoAprileMaggioGiugnoLuglioAgostoSettembreOttobreNovembreDicembre Attività PANDA PD2P brokering Fase di test a luglio incremento dei trasferimenti diminuzione sottoscrizioni utenti 17/07'2/2011L. Rinaldi - CCR Workshop LNL

34 Analisi distribuita su grid world-wide Analysis share per cloud Numero medio job analisi Incremento dell’analisi con l’inizio della presa dati Poi attività stabile (previsti incrementi in prossimità di conferenze) Incremento dell’analisi con l’inizio della presa dati Poi attività stabile (previsti incrementi in prossimità di conferenze) 17/07'2/2011L. Rinaldi - CCR Workshop LNL Statistiche relative solo al sistema pathena-Panda per sottomissione jobs In Italia anche utenti che usano il sistema ganga-WMS (in diminuzione…) Statistiche relative solo al sistema pathena-Panda per sottomissione jobs In Italia anche utenti che usano il sistema ganga-WMS (in diminuzione…)

35 Utiizzo risorse cloud Italiana Share analisi Gennaio-giugno Share analisi Gennaio-giugno Share analisi Luglio-Dicembre Share analisi Luglio-Dicembre 17/07'2/2011L. Rinaldi - CCR Workshop LNL

36 Utiizzo risorse: confronto produzione analisi Job running su un Tier2 nell’ultimo mese codice colori: Produzione Analisi WMS Analisi Panda Analisi Panda ruolo italiano (Gli italiani vengono mappati sia su panda che su panda/it) Job running su un Tier2 nell’ultimo mese codice colori: Produzione Analisi WMS Analisi Panda Analisi Panda ruolo italiano (Gli italiani vengono mappati sia su panda che su panda/it) Job sharing al Cnaf Rapporto WCT 78.5% produzione 21.5% analisi Job sharing al Cnaf Rapporto WCT 78.5% produzione 21.5% analisi 17/07'2/2011L. Rinaldi - CCR Workshop LNL

37 Sviluppi futuri La replicazione dinamica dei dati ha permesso di ottimizzare l’uso dello storage Nel 2011/2012 previsto incremento del volume dei dati E’ necessario raffinare l’algoritmo di replica Al momento replicati dinamicamente solo i dati “popolari” I dati replicati dinamicamente sono secondari (caching) La replicazione dinamica dei dati ha permesso di ottimizzare l’uso dello storage Nel 2011/2012 previsto incremento del volume dei dati E’ necessario raffinare l’algoritmo di replica Al momento replicati dinamicamente solo i dati “popolari” I dati replicati dinamicamente sono secondari (caching) il 50% dei dati replicati da DP2P non è più riutilizzato le repliche più vecchie sono meno richieste Si sta studiando il modo migliore di replicare i dati combinando il numero di accessi e l’anzianità dei dati 17/07'2/2011L. Rinaldi - CCR Workshop LNL

38 Sviluppi futuri Distribuzione dinamica dei dati nei Tier-1s limitare numero di copie ESD primarie inviare ulteriori copie ESD on-demand con DP2P Distribuzione dinamica dei dati nei Tier-1s limitare numero di copie ESD primarie inviare ulteriori copie ESD on-demand con DP2P 17/07'2/2011L. Rinaldi - CCR Workshop LNL Analisi nei Tier-1 Ottimizzare le infrastrutture di rete/storage/farming Task force al CNAF per studiare la soluzione migliore Analisi nei Tier-1 Ottimizzare le infrastrutture di rete/storage/farming Task force al CNAF per studiare la soluzione migliore

39 ConclusioniConclusioni Il Computing Model di Atlas si è rivelato stabile e affidabile Distribuzione dei dati solida ed efficiente Produzione e analisi sfruttano appieno le risorse Principale punto debole: eccessiva quantità di dati replicati Sono state necessarie alcune modifiche per ottimizzare l’uso delle risorse distribuzione dei dati e successiva cancellazione effettuate in base alla popolarità dei dati la popolarità è determinata dagli utenti modifiche sono state adiabatiche e trasparenti Stretto legame tra attività degli utenti e computing model: Il modello si adatta alle esigenze degli utenti 17/07'2/2011L. Rinaldi - CCR Workshop LNL

40 Un’ultima considerazione Opinione personale sull’uso della grid da parte dei fisici iniziale diffidenza e difficoltà nell’uso della grid con l’aumento della quantità di dati, gli utenti si sono accorti della necessità di usare la grid adesso sempre più utenti utilizzano i tool software e middleware, aiutando nel debug e facendo selezione naturale degli strumenti migliori (vedi Panda vs WMS) il computing deve offrire stabilità dei siti e disponibilità delle risorse necessità di rafforzare il supporto e la collaborazione tra le comunità di computing e di fisica I tier3 possono essere degli ambienti ideali per coniugare le attività di fisica e di computing 17/07'2/2011L. Rinaldi - CCR Workshop LNL