Le strategie per l’analisi Workshop CCR e INFN-GRID 2009

Slides:



Advertisements
Presentazioni simili
Introduzione alle attivita Software e Computing di Atlas Napoli M. Biglietti – G. Carlino – F. Conventi - A. Doria – L. Merola - A. Migliaccio Software:
Advertisements

1 La farm di ATLAS-Napoli 1 Gb/s 7 nodi con 2 CPU PIII a 1 GH, RAM 512 MB, 2 schede di rete a 100 Mb/s. Server con 2 CPU PIII a 1 GH, RAM 1 GB, 2 schede.
INFN-BOLOGNA-T3 L. Rinaldi I siti Tier-3 nel modello di calcolo di Atlas Configurazione del sito INFN-BOLOGNA-T3 Attività di Analisi e Produzione Attività.
CSN1 – 7 febbraio 2006 Francesco Forti, INFN-Pisa per il gruppo di referaggio.
Analysis unibo una proposta. Work flow di una tipica analisi 1.Simulazione di piccoli campioni di eventi per studio segnale 2.Generazione in grande.
16 Maggio CSN1 Computing-Software-Analysis CMS-INFN TEAM Analisi in CMS: stato e prospettive del supporto italiano.
Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 1 1 News dal computing Gianpaolo Carlino INFN Napoli Atlas Italia, Milano, 17/11/09 Nuovo.
Parma, 22 Settembre 2010 G. Carlino – ATLAS, Attività di 7 TeV 1 ATLAS Attività di TeV Attività di computing Attività di computing.
Il primo anno di presa dati di LHC L’esperienza di calcolo nell’esperimento ATLAS Attività condotte nel 2010 e prospettive future Lorenzo Rinaldi (INFN-CNAF)
Referaggio, 17 Marzo 2010 G. Carlino – ATLAS – Referaggio Tier2 1 Referaggio Tier2 ATLAS Attività di Computing 2009 Attività di Computing 2009 Stato dei.
1 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Relezione Riunioni Referaggio Calcolo ATLAS Computing Model News Computing.
ANALISI DISTRIBUITA IN ATLAS L’esperienza degli utenti Attilio Picazio Università di Napoli “Federico II” – INFN Napoli 18/05/11Attilio Picazio - Workshop.
Referaggio Calcolo ATLAS II Gianpaolo Carlino INFN Napoli Catania, 12 Settembre 2012 Risorse e Richieste 2013 nei preventivi Aggiornamento in seguito all’allungamento.
ATLAS NAPOLI Software & Computing e il Tier-2 Gianpaolo Carlino INFN Napoli Il gruppo ATLAS di Napoli Le attività Software & Computing Il prototipo Tier-2.
ATLAS Italia – Sestri Levante, 15 Giugno 2010 G. Carlino – Richieste Run Efficiency = time for physics / total time LHC Efficiency = time with colliding.
Referaggio Calcolo ATLAS Gianpaolo Carlino INFN Napoli CNAF, 11 Maggio 2012 Attività di Computing ATLAS Attività di Computing in Italia Risorse e Richieste.
Il Computing di ATLAS (aspetti interessanti per chi fa analisi) Tommaso Lari INFN Milano Tutorial sull’analisi distribuita Roma3, Febbraio 2008.
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
FESR Catania, Trigrid Open Day, Trinacria Grid Virtual Laboratory PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno.
Il Calcolo non LHC in CSN1 G. Carlino, INFN Napoli CSN1 – Firenze 20 Luglio 2015.
Il Computing di ATLAS IV – Test e Commissioning Gianpaolo Carlino Referaggio Computing LHC CNAF, 17/18 Gennaio 2008 Attività di computing in ATLAS nel.
CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo ATLAS Calcolo LHC 2011 Attività di TeV Attività di TeV Risorse.
ATLAS computing Roberto Carlin Commissione I Roma 1/7/08 F. Bossi, C.Bozzi, R. Carlin, R. Ferrari, D. Lucchesi, D. Martello, M. Morandin, M. Taiuti.
CSN1, Ferrara 16 Settembre 2009 G. Carlino – ATLAS, Stato del Computing e Richieste ATLAS Stato del Computing & Richieste 2010 Gianpaolo Carlino.
Il Computing di ATLAS Gianpaolo Carlino CSN1 Roma, 2 Luglio 2008 Il Computing Challenge I Tier2 I Tier2 Attività e Risorse per il 2008 Attività e Risorse.
HLRmon per IGI: nuove funzionalità Enrico Fattibene INFN – CNAF
Domenico Elia1 Calcolo ALICE: stato e richieste finanziarie (aggiornamenti) Domenico Elia Riunione Referee Calcolo LHC / Bologna, Riunione con.
Il calcolo per l’esperimento GERDA: prospettive per la Fase II Luciano Pandola INFN, Laboratori del Gran Sasso e Laboratori del Sud Workshop della CCR,
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
Calcolo LHCb Umberto Marconi INFN Sezione di Bologna Riunione CSN1, 18/09/2008.
Verso la presa dati Il Computing di ATLAS
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Summary di (quasi) tutti gli utenti non presentati…
Riunione INFN – Bologna, 17 January 2013
Monitoring e loadbalancing dei servizi Grid
G. Carlino, D. Lucchesi, V. Vagnoni
2009 LHC Run Computing Gianpaolo Carlino INFN Napoli Highlights from:
Guido Cuscela INFN-Bari
2009 LHC Run Computing Gianpaolo Carlino INFN Napoli Highlights from:
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Il Computing di ATLAS Il Computing Challenge Gianpaolo Carlino I Tier2
Attivita’ gruppo GE sul top
Introduzione alla sessione sull’analisi per gli esperimenti LHC
Assegnazione risorse Stato INFN CNAF,
Lamberto Luminari CSN Maggio 2005
L’INFN per il Collaborative esteso e distribuito Alessandro De Salvo
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Analisi dei dati dell’Esperimento ALICE
ATLAS Stato del Computing
Aggiornamento sullo stato del Tier-2 di Catania
ATLAS-Italia Tier-3 Dario Barberis Università e INFN Genova
Attvità Computing – Inverno 08/09
(Breve) Riassunto del workshop WLCG
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
Referaggio Calcolo ATLAS
Tier2 Milano Gli acquisti di fine 2008 saranno installati in 10 giorni circa Nuovo Storage Element vicino a commissioning No RFIO, cache, GPFS based, usato.
Luciano Gaido (INFN - Torino) Workshop CCR/INFNGRID – Palau
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
ATLAS PRIN Next Steps Alessandro De Salvo
Job Application Monitoring (JAM)
ONEDATA - distributed data caching -
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Stato Computing ATLAS Gianpaolo Carlino INFN Napoli
ATLAS: il calcolo Alessandro De Salvo
PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno
Stima risorse LHC LHC - Tier2 2 periodi
La richiesta si basa sulle seguenti considerazioni:
ATLAS Italia Computing Richieste 2007 (Tier-2 e locali)
INFN-Grid DI PRODUZIONE grid-use-model grid.infn.it
ATLAS PRIN Roma1 - status Alessandro De Salvo
Transcript della presentazione:

Le strategie per l’analisi Workshop CCR e INFN-GRID 2009 ATLAS Le strategie per l’analisi Gianpaolo Carlino INFN Napoli Workshop CCR e INFN-GRID 2009 Palau, 11-15 Maggio 2009 1 1

Cosa è necessario per l’analisi 1. Reperibilità dei dati sistema di distribuzione dei dati efficiente e veloce varie fasi di commissioning nel 2008-2009. DQ2 può essere finalmente considerato un sistema di data management affidabile efficienza dei siti italiani (T1 e T2s) sempre nella media di atlas AOD e DPD (dati e MC) replicati completamente e automaticamente nei T2 Sottoscrizione dei dataset utenti on demand attraverso Webpage 2. Analysis Model Chiarezza e stabilità nella definizione dei formati di dati e nei physics analysis tools 3. Analisi Distribuita User Interface indipendente dalla Grid Faciltà di utilizzo e trasparenza della struttura internza Ricerca della location dei dati Scelta del backend Scelta delle risorse da utilizzare Efficienza e velocità di processamento e recupero degli output Training e supporto per gli utenti 4. Le risorse Alta disponibilità e affidabilità (availability & reliability) dei siti configurazione ottimale della rete (LAN 10 Gbps) Facile accessibilità ai dati Disponibilità di risorse, cpu e disco, adeguate: Sistemi di prioritizzazione dei job Risorse dedicate agli utenti italiani Risorse locali (Tier3)

The ATLAS Computing Model Hierarchical Computing Model optimising the use of the resources need to distribute RAW data for storage and reprocessing distribute data for analysis in various formats in order to make access for analysis as easy as possible for all members of the collaboration “Tier Cloud Model” CERN NG BNL FZK RAL ASGC PIC TRIUMF SARA CNAF SWT2 GLT2 NET2 WT2 MWT2 BNL Cloud NA MI CNAF Cloud RM1 LNF LYON lapp lpc Tokyo Beijing Romania grif T3 Tier0 at CERN. Immediate data processing and detector data quality monitoring. Stores on tape all data T0 Tier1. Data storage and reprocessing of data with better calibration or alignment constants All Tier-1s have predefined (software) channel with CERN and with each other Tier-2s are associated with one Tier-1 and form the cloud Tier-2s have predefined channel with the parent Tier-1 only. T1 T2 Tier-2. Simulation and user Analysis T3 Tier-3. Non Grid user Analysis

ATLAS DataWorkflows L’analisi in Grid degli utenti viene svolta nei Tier-2. Solo analisi di gruppo nei Tier1

Il Modello di Analisi distribuita Gli utenti non devono necessariamente conoscere dove sono i dati e dove runnano i job possono/devono selezionare la cloud in cui runnare I job degli utenti vengono lanciati dove risiedono i dati i risultati devono essere resi disponibili subito agli utenti (efficienza 100%) I dati sono distribuiti ai Tier1 e Tier2 dal Data Distribution System DQ2 management, distribuzione e archivio automatico dei file nella griglia effettuato usando un catalogo centrale, FTS, LFCs I dati per l’analisi sono completamente replicati in tutte le cloud Policy di replica dei dati secondo il Computing Model e shares determinate dalle dimensioni dei siti in termini di risorse

Il Modello di Analisi distribuita Standard Physics Analysis codice basato su Athena o Athena Root Access, processa sequenzialmente AOD/DPD files nella griglia problemi accesso ai file in DPM con applicazioni ROOT produce ROOT tuple (D3PD) poi analizzate nella griglia o localmente nei Tier3 Produzione piccoli sample privati di MC uso delle Production System Tranformations (Geant o Atlasfast) Detector Performance Analysis codice basato su Athena, processa RAW/ESD/DPD files nella griglia. miglioramenti per accesso ai dati in formato RAW in crescita uso della griglia, finora limitato, per analisi dei cosmici e dei rivelatori. Transizione dall’analisi al Tier0 per la limitazione delle risorse e miglioramenti tool di analisi Calibrazione MuonCalibration Stream (NA e RM) per MDT, RPC e LVL1 Trigger calibration

6/16/2018 The ATLAS Grids 3 Grid infrastructures: differenti mw, replica catalogues e tool per sottomettere i job Questa complessità è un problema per gli utenti 7

Il Modello di Analisi distribuita 2 Frontends: Ganga e Pathena Ganga permette la sottomissione di job sia in locale che alle 3 griglie al momento è l’unico modo per sottomettere job in molte cloud EGEE (IT, DE ..) o Nordugrid utilizza soprattutto la sottomissione via il gLite WMS Pathena utilizza solo il backend Panda sottomissione basata sul concetto di pilot jobs

Il Modello di Analisi distribuita GANGA: tool unico per sottomettere/gestire/monitorare i job di utenti in Grid Qualche numero: Ganga usato da più di 1500 utenti circa 150 utenti ATLAS alla settimana, doppio dell’anno scorso buon contributo italiano Blocchi funzionali: un job è configurato da un set di blocchi funzionali, ognuno con un ben definito scopo Ganga offre 3 modi di interazione per gli utenti Shell command line Interactive IPython shell Graphical User Interface 10k job utenti al giorno, da confrontare con 100k job di produzione ci si aspetta un numero simile durante la presa dati

Il Modello di Analisi distribuita Ganga vs Pathena: Dopo un difficile inizio dovuto alla diffidenza (motivata) della griglia, gli utenti di Atlas hanno cominciato a fare analisi distribuita e hanno dovuto scegliere tra due sistemi abbastanza diversi Pathena non era un vero sistema di analisi distribuita, runnava tutto a BNL dove tutti i dati sono replicati. Modo di sottomissione simile ai job locali di Athena L’ideale per un utente, ma sicuramente non sarà possibile in futuro attualmente un sistema di brokering interno permette di distribuire i job tra i siti che hanno abilitato le code da verificare come scala come sistema di analisi distribuito Ganga ha sviluppato un approccio opposto per rispettare i dettami del calcolo distribuito problemi all’inizio che hanno allontanato gli utenti notevoli miglioramenti con il sistema di selezione della cloud, della black list dei siti e del job splitting (per dataset non replicati completamente) buon funzionamento per analisi standard il WMS permette la gestione delle priorità dei job di utenti appartenenti a VOMS groups/roles diversi. Fondamentale per definire le opportune priorità ai job di analisi necessario migliorare l’integrazione con il WMS

Il Modello di Analisi distribuita Ganga vs Pathena: ATLAS vuole ridurre la proliferazione di sistemi simili (anche per la limitatezza di manpower). Per l’analisi distribuita tende a utilizzare un unico frontend e un unico backend. Sforzo della comunità italiana di Atlas per garantire l’esistenza di Ganga come tool ufficiale di analisi visto che la maggioranza di utenti italiani ha imparato a usarlo ed è il sistema più flessibile e completo supportare il WMS l’unico a garantire una gestione locale e non centralizzata delle priorità dei job. Sinergie tra esperimento e INFN Grid per aumentare il contributo italiano nello sviluppo e mantenimento del sistema in Atlas

Cosa succede quando un job atterra in un Tier2? L’analisi nei Tier2 Cosa succede quando un job atterra in un Tier2? Organizzazione di Atlas e della cloud italiana per ottimizzare l’analisi: Ottimizzazione e gestione delle risorse Storage: aree di storage per attività e utenti “locali” CPU: fair share e job priorities Rete: connessione rapida tra WN e storage. Hammer cloud Stabilità dei siti Eliminazione dei Single Point of Failure nella cloud: replica dell’LFC Shift per il monitoraggio dei siti e delle attività di computing in Italia

Storage nei Tier2 Detector data 110 TB RAW, ESD, AOD, DPD Centrally managed Managed with space tokens Example for a 200 TB T2 Simulated data 40 TB RAW, ESD, AOD, DPD Centrally managed MC CPUs Physics Group data 20 TB DnPD, ntup, hist, .. Group managed GROUP Analysis tools User Scratch data 20 TB User data Transient SCRATCH LOCAL Local Storage Non pledged IT User data Locally managed 13

Le CPU nei Tier2 ATLAS Computing Model: nei Tier2 50% attività di sumulazione e 50% analisi utenti CPU non pledges e parte del 50% riservate agli utenti sono dedicate al gruppo atlas/it Necessario un sistema di fairshare per “difendere” l’analisi dall’attività centrale di simulazione e garantire risorse dedicate per gli utenti italiani LSF – Multi VO test: Fairshare Targets: ATLAS 50%: User 30% Prod 70% LHCB 50% User 50% Prod 50% PBS – Multigroup test: Fairshare Targets: ATLAS 40% ATLAS PROD 30% ATLAS IT 30% 10 Time Windows 1h long Job lenght: 2 hours

Rete nei Tier2 I Test di stress dell’analisi distribuita (hammer Connessione a 1 Gbps I Test di stress dell’analisi distribuita (hammer cloud, circa 200 jobs simultanei) hanno lo scopo di individuare limitazioni o malconfigurazioni dei siti, in particolare carichi sbilanciati sullo storage o rete non adeguata. Si è verificata la necessità di connessione a >1 Gbps tra WN e Storage per i tipici job di analisi che richiedono alto throughput (~4 MBps a core). Si passa da un event rate di 3 Hz a > 10 Hz Connessione a 10 Gbps Sistema di rete usato nei Tier2 in attesa dei risultati del gruppo di rete della CCR 1 Gbps RACK n n+1 10 Gbps m m+1 Fibra Cluster di Rack 1 Cluster di Rack 2

Stabilità dei siti Gli utenti hanno bisogno di siti che siano stabilmente up and running Shift 7/7 dei membri dei Tier2 (a breve estesi anche a utenti “volontari”) per controllare il funzionamento dei siti, dei servizi di grid e delle attività di computing di Atlas in Italia Eliminazione dei Single Point of Failure della cloud: Sistema di replica a Roma dell’LFC del CNAF (db Oracle) con il sistema Dataguard messo a punto in collaborazione con il CNAF Testato con successo durante il down del CNAF a fine marzo per il trasferimento delle risorse nella sala definitiva

Conclusioni La strategia di analisi di Atlas ha raggiunto una maturità soddisfancente in molte sue parti I dati arrivano ai Tier con velocità ed efficienza I tool di analisi distribuita sono diventati familiari ad una grande comunità di utenti: l’analisi viene effettuata in grid Stress test hanno permesso di individuare gli aspetti critici esistenti nel sistema di analisi distribuita e vengono eseguiti periodicamente per evidenziare problemi di configurazione nei siti I servizi di grid e i siti hanno raggiunto una stabilità sufficiente Cosa c’è ancora da fare Estendere l’uso dei tool di analisi distribuita ad analisi non standard Aumentarne la diffusione tra gli utenti Analisi locale: definire il ruolo e le dimensioni dei Tier3