Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 1 1 News dal computing Gianpaolo Carlino INFN Napoli Atlas Italia, Milano, 17/11/09 Nuovo.

Slides:



Advertisements
Presentazioni simili
STATO DEL PROTOTIPO DI SCoPE E DELL’INTEGRAZIONE TRA I 4 PON
Advertisements

Time Sharing Il termine “Time Sharing” proviene dall'inglese e significa letteralmente “partizione di tempo”. Questa è una tecnica sviluppatasi negli.
Computing: Attività 2010 Reprocessing e ri-simulazione dati Run7 Extra-production di dati MC alla Y(4S) 10 x cross section bb e cc, 2 x cross section u.
Computing: Attività 2009 Reprocessing e ri-simulazione dati Run7 Extra-production di dati MC alla Y(4S) 10 x cross section bb e cc, 2 x cross section u.
Introduzione alle attivita Software e Computing di Atlas Napoli M. Biglietti – G. Carlino – F. Conventi - A. Doria – L. Merola - A. Migliaccio Software:
1 La farm di ATLAS-Napoli 1 Gb/s 7 nodi con 2 CPU PIII a 1 GH, RAM 512 MB, 2 schede di rete a 100 Mb/s. Server con 2 CPU PIII a 1 GH, RAM 1 GB, 2 schede.
Comitato Tecnico sullInteroperabilità MUR, L. Merola.
Test del Monitoraggio del Tracker usando un Tier2 M.S. Mennea, G. Zito, N. De Filippis Università & INFN di Bari Riunione Consorzio – Torino 18 Novembre.
La facility nazionale Egrid: stato dell'arte Egrid-Team Trieste, 9 ottobre 2004.
Tier1 - cpu KSI2k days ATLAS KSI2k days CMS. Tier1 - storage CASTOR disk space CMS requires: T1D0, T0D1 ATLAS requires: T1D0, T0D1 and T1D1.
Execution benchmarks Obiettivi Test dettagliati e ben caratterizzati Esecuzione di benchmark standard Test di applicazioni dell'esperimento ALICE 20 Novembre.
Conclusioni M. Paganoni workshop CMS Italia, Napoli 13-14/2/07.
5 Feb 2002Stefano Belforte – INFN Trieste calcolo per CDF in Italia1 Calcolo per CDF in Italia Prime idee per lanalisi di CDF al CNAF Numeri utili e concetti.
Alessia Tricomi Università & INFN Catania
Reti di calcolatori LS Manni Tiziano  IT e nuovi scenari applicativi …  … portabilità dei dati …  … condivisione dati …  … disponibilità.
Prima di iniziare… Durata attività: due lezioni frontali + una lezione laboratorio + compiti per casa Prerequisiti: elementi base architettura dei calcolatori.
INFN-BOLOGNA-T3 L. Rinaldi I siti Tier-3 nel modello di calcolo di Atlas Configurazione del sito INFN-BOLOGNA-T3 Attività di Analisi e Produzione Attività.
ATLAS Distributed Analysis Lamberto Luminari CSN1 – Roma, 16 Maggio 2006.
Analysis unibo una proposta. Work flow di una tipica analisi 1.Simulazione di piccoli campioni di eventi per studio segnale 2.Generazione in grande.
CNAF 18/11/2004 Federica Fanzago INFN Padova a/grape... BAT... BATMAN...o? M.Corvo, F.Fanzago, N.Smirnov (INFN Padova) + tutte le persone che fanno i test.
Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso.
16 Maggio CSN1 Computing-Software-Analysis CMS-INFN TEAM Analisi in CMS: stato e prospettive del supporto italiano.
LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)
LNF Farm E. V. 9/8/2006. Hardware CE, LCFG, HLR, 3 WN: DL 360 1U; SE: DL 380 2U 5 WN: BL 25 P In totale 25 jobs general purpuse (coda Atlas) + una coda.
Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.
Sistemi operativi di rete Ing. A. Stile – Ing. L. Marchesano – 1/18.
Tier-2 Tier-2 ATLAS (Osservazioni sulla proposta dei referee del calcolo LHC) Lamberto Luminari CSN1 – Roma, 3 Aprile 2006.
Tier-2 ATLAS Tier-2 Lamberto Luminari CSN1 – Roma, 10 Ottobre 2005.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
ATLAS PRIN Alessandro De Salvo A. De Salvo – 12 novembre 2015 Cloud Computing Condivisione di risorse tra gruppi EventIndex LHCONE PoD T2D.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
FESR Trinacria Grid Virtual Laboratory Rosanna Catania Rita Ricceri INFN Catania 25 Luglio 2006 Grid Monitoring: GridICE – bacct - lsload.
Riunione PRIN STOA - Bologna - 18 Giugno 2014 Testbed del T2 distribuito Napoli-Roma Dr. Silvio Pardi INFN-Napoli Riunione PRIN STOA – Bologna 18 Giugno.
Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.
Parma, 22 Settembre 2010 G. Carlino – ATLAS, Attività di 7 TeV 1 ATLAS Attività di TeV Attività di computing Attività di computing.
Il primo anno di presa dati di LHC L’esperienza di calcolo nell’esperimento ATLAS Attività condotte nel 2010 e prospettive future Lorenzo Rinaldi (INFN-CNAF)
Claudio Grandi Workshop CCR 2015 Claudio Grandi INFN Bologna.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
Roma, 13 Luglio 2010 G. Carlino – Referaggio Tier2 ATLAS 1 ATLAS Referaggio Tier2 Attività di TeV Attività di TeV Richieste 2011.
Referaggio sigla CALCOLO D. Bonacorsi, G. Carlino, P. Morettini CCR – Roma 9 Settembre 2014.
Overview del middleware gLite Guido Cuscela INFN-Bari II Corso di formazione INFN su aspetti pratici dell'integrazione.
19 Ottobre 2012ATLAS Milano1 Stato delle risorse locali di calcolo L. Carminati, L. Perini, D. Rebatto, L. Vaccarossa.
Referaggio, 17 Marzo 2010 G. Carlino – ATLAS – Referaggio Tier2 1 Referaggio Tier2 ATLAS Attività di Computing 2009 Attività di Computing 2009 Stato dei.
1 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Relezione Riunioni Referaggio Calcolo ATLAS Computing Model News Computing.
ANALISI DISTRIBUITA IN ATLAS L’esperienza degli utenti Attilio Picazio Università di Napoli “Federico II” – INFN Napoli 18/05/11Attilio Picazio - Workshop.
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS 1 ATLAS Referaggio Tier2 Attività di TeV Attività di TeV Richieste.
Il Computing di ATLAS Gianpaolo Carlino Referaggio LHC CNAF, 24 Luglio 2008 Il Computing Challenge I Tier2 I Tier2 Attività e Richieste 2009 Attività e.
Atlas TDAQ E. Pasqualucci INFN Roma. Sommario Attivita’ di fine 2008 – inizio 2009 Preparazione per i run con fasci Trigger con luminosita’ iniziali 16/9/20092E.
Referaggio Calcolo ATLAS II Gianpaolo Carlino INFN Napoli Catania, 12 Settembre 2012 Risorse e Richieste 2013 nei preventivi Aggiornamento in seguito all’allungamento.
ATLAS NAPOLI Software & Computing e il Tier-2 Gianpaolo Carlino INFN Napoli Il gruppo ATLAS di Napoli Le attività Software & Computing Il prototipo Tier-2.
Il Computing di ATLAS Gianpaolo Carlino CSN1 Roma, 2 Giugno 2008 Il Computing Challenge I Tier2 I Tier2 Richieste finanziarie 2008 Richieste finanziarie.
ATLAS Italia – Sestri Levante, 15 Giugno 2010 G. Carlino – Richieste Run Efficiency = time for physics / total time LHC Efficiency = time with colliding.
1 Bari, 21 Settembre 2011 G. Carlino – ATLAS: il calcolo ATLAS: il Calcolo Attività di Computing nel 2011 Attività di Computing nel 2011 Richieste Tier2.
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
Gianpaolo Carlino Bologna, 6 Marzo 2007 Stato dei Tier-2 Italiani di ATLAS Attività nei Tier-2 Attività della Federazione dei Tier-2 Risorse disponibili.
FESR Trinacria Grid Virtual Laboratory Workload Management System (WMS) Muoio Annamaria INFN - Catania Primo Workshop TriGrid VL Catania,
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
L’infrastruttura del progetto ReCaS Paolo Lo Re on behalf of ReCaS collaboration.
Referaggio Calcolo ATLAS Gianpaolo Carlino INFN Napoli CNAF, 11 Maggio 2012 Attività di Computing ATLAS Attività di Computing in Italia Risorse e Richieste.
L.Perini Milano: 10 Gennaio Ex-ATLAS-Grid (Tier2 incluso) l Ruolo dei Tiers in ATLAS e grid l Le persone di Milano e le attività l Le infrastrutture.
CNAF. storage Siamo in una fase di tuning con lo storage, che al momento sembra essere un collo di bottiglia 1.~10 giorni fa vista saturazione GPFS.
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
CSN1, Ferrara 16 Settembre 2009 G. Carlino – ATLAS, Stato del Computing e Richieste ATLAS Stato del Computing & Richieste 2010 Gianpaolo Carlino.
ATLAS Stato del Computing
CMS.
Le strategie per l’analisi Workshop CCR e INFN-GRID 2009
Attvità Computing – Inverno 08/09
Stato Computing ATLAS Gianpaolo Carlino INFN Napoli
ATLAS Italia Computing Richieste 2007 (Tier-2 e locali)
Transcript della presentazione:

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 1 1 News dal computing Gianpaolo Carlino INFN Napoli Atlas Italia, Milano, 17/11/09 Nuovo Computing Model Nuovo Computing Model User Analysis Test User Analysis Test

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 2 Nuovo Computing Model

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 3 Pledges Tier1 l l 1 Novembre 09: pledges 2009 per l’INFN valgono le pledges 08 l l 1 Giugno 10: pledges 2010 CPU OK, Disco solo a settembre

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 4 Pledges Tier2 30% delle risorse nei Tier2 italiani non pledgiati e dedicati agli utenti italiani modifica numero repliche

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 5 Replica dei dati nei Tier1 e Tier2 Deficit di disco nei Tier2  nuova modifica: 1 copia di custodia della corrente versione nei T1 e 7 nei T2 1. Distribuzione in base alla size della cloud 2. Distribuzione fino al riempimento dello spazio disco e successiva cancellazione dei dati meno utilizzati (modello termodinamico)  per le piccole cloud frequenti cancellazioni di dati  copie nello spazio italiano dei dati che risultano necessari Dopo le interazioni con il CRSG e LHCC si e’ definito il numero di repliche nei dati nei T1 e T2 (riduzione #copie AOD nei T1)

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 6 Tier2 per l’analisi Circa 70 Tier2, alcuni non affidabili altri troppo piccoli. Per l’analisi verranno utilizzati quei Tier2 che: 1. hanno almeno 100 TB di spazio (Frascati OUT) 2. Passano l’hammer cloud validation test con almeno il 90% di efficienza e 150 M ev/day o 10 Hz di throughput (OK per l’IT quasi sempre) I Tier2 che non passano questi criteri non verranno usati per conservare i dati (perdita del 10% di risorse eliminando I siti piccoli e maggiore eliminando I siti non affidabili)

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 7 Analisi di Gruppo l Performance (7) l Muon, eGamma, Jet, FlavTag, IdTracking, Tau, TDAQ l Fisica (8) l SM, Top, Susy, Exotic, Higgs, HI, Beaty, Generator ATLASGROUPDISK l Spazio disco per i dataset di gruppo (soprattutto dAOD) l Un endpoint DDM per ogni gruppo supportato, con quota l Solo il data manager del gruppo (con ruolo produzione) puo’ sottoscrivere i dati Attivita’ di gruppo in corso solo in alcuni (pochi) gruppi Scelta dei siti: 1. devono accettare user jobs 2. devono essere performanti e affidabili 3. devono avere uno spazio per i gruppi ≥ 30 TB Global constraint: 100 DDM endpoint l 1 endpoint per % di share (cloud del 5% ha 5 GROUPDISK)

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 8 Analisi di Gruppo SM, Top, Susy, Mu, TDAQ, eGamma

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 9 Commissioning dell’ Analisi Distribuita

Atlas Italia – Milano, 17/11/2009 G. Carlino – News dal Computing 10 Il Modello di Analisi Distribuita 2 Sistemi di sottomissione job: 2 Sistemi di sottomissione job: Ganga e Pathena  Ganga (EGEE) permette la sottomissione di job sia in locale che alle 3 griglie  utilizza soprattutto la sottomissione via il gLite WMS  Pathena utilizza solo Panda (US)  sottomissione basata sul concetto di pilot jobs

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 11 Analisi Distribuita Commissioning di analisi distribuita Test periodici di sistema: l GangaRobost: job singoli lanciati nei siti per verificarne il funzionamento e la corretta configurazione l HammerCloud: test intensivi con saturazione dei siti per verificarne le performance Commissioning: l Step09: test di analisi distribuita utilizzando l’Hammer Cloud – sottomissione organizzata centralmente, job validati l UAT09: test di analisi distribuita con la partecipazione degli utenti – sottomissione caotica, job di qualsiasi natura

Atlas Italia – Milano, 17/11/2009 G. Carlino – News dal Computing 12   Stress test iniziato in Italia, prima cloud in Atlas, in novembre 2008   alcune AOD based analyses (soprattutto muoni) I/O bound per saturare le slot dedicate all’analisi di un Tier2 medio   permette di verificare le limitazioni o le malconfigurazioni dei sito, la loro stabilita’ e la presenza di problemi temporanei Risultati ottenuti   ottimizzazione delle configurazioni dei siti Rete: Verificata la necessità di una connessione a 10Gbps tra WN e Storage 3 Hz di event rate con LAN a 1 Gbps, > 10 Hz a 10 Gbps 3 Hz di event rate con LAN a 1 Gbps, > 10 Hz a 10 Gbps Storage. Sbilanciamento nel carico sui disk server   ottimizzazione dell’accesso ai dati accesso diretto ai dati nello storage (protocollo RFIO) Athena File Stager: copia dei file su WN Hammer Cloud Connessione a 10 Gbps Connessione a 1 Gbps

Atlas Italia – Milano, 17/11/2009 G. Carlino – News dal Computing 13 Hammer Cloud Tier2 Napoli - Gennaio 2009 Tier2 Naoli - Agosto 2009

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 14 User Analysis Test   Le performance ottenute nell’ Hammer Cloud sono da considerare le migliori ottenibili con i sistemi a disposizione (hw + mw + sw). Benchmark di riferimento   Nella vita reale (job utenti e sottomissione caotica) le performance possono ridursi signiificativamente  Necessita’ di verificarlo in un test con gli utenti User Analysis Test:

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 15 User Analysis Test Dati:   sono stati definiti e prodotti un insieme di container di dataset appositamente per il test   prodotti con la fast simulation, non adatti quindi a tutte le analisi. Molti utenti hanno utilizzato altri dati gia’ esistenti nei Tier2

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 16 User Analysis Test Job running – il meccanismo di fair share garantisce un’alternanza tra gruppi di tipo diverso In tutti i siti sono stati lanciati contemporaneamente job di produzione e di analisi sia con il WMS che con Panda

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 17 User Analysis Test Partecipazione Italiana   ottima partecipazione, numero di utenti e di job tra i maggiori in atlas. Tutti i gruppi di analisi e performance italiani hanno contribuito (grazie a Giacomo e Marina per l’organizzazione)   siti completamente saturati, fino a 5000 job in coda Analisi dei risultati (preliminari)   presentazione e discussione dei risultati in Atlas nel PostMortem di domani (18/11)   analisi dei log files di Ganga in progress (F. Galeazzi)   riunione telefonica con alcuni utenti italiani per discutere dei loro risultati e avere le impressioni sull’andamento del test dal punto di vista dell’utente

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 18 User Analysis Test Panda Analysis: 70 siti e 54 users. In Italia utilizzato da pochi utenti, in ogni caso attivita’ simile agli altri siti

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 19 User Analysis Test Panda Jobs

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 20 User Analysis Test Ganga/WMS Analysis:   112 users   piu’ di 60 siti con piu’ di 100 jobs   108k jobs sottomessi e 91k finiti in 72h

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 21 User Analysis Test Ganga/WMS Analysis – Risultati preliminari:   efficienza pura di grid molto alta: 93% (non si considera l’inefficienza dovuta ai job o a problemi locali dei siti)   efficienza di ganga (calcolata solo sui job effettivamente sottomessi). Buona in IT:   Frascati e CNAF ~ 100% (anche se su pochi job)   Napoli, Roma > 90%   Milano ~ 80% (problemi legati al passaggio a storm, in fase conclusiva)   efficienza di utilizzo della CPU (CPU time/ Wall clock time) e event rate molto variabili, in media intorno al 30% e Hz (bassi rispetto all’HC ~ 70% e >10 Hz)   dipende molto dal tipo di job (grosse variazioni temporali nell’arco dei 2 giorni), valore reali comunque non molto lontani per questi tipi di job   cause:   concentramento dei dati in poche aree di storage (inevitabile al momento)   accesso ai dati con il sistema non ottimale (la versione di Ganga utilizzata aveva di default il protocollo notoriamente piu’ lento). Miglioramento anche di un fattore 2

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 22 User Analysis Test Ganga/WMS Analysis - Feedback utenti Italiani :   molti utenti non hanno avuto i loro job in run (uccisi dopo la scadenza del proxy): Sono sufficienti le risorse o sara’ necessario utilizzare anche risorse straniere?   le CPU stanno per raddoppiare   e’ realistica una tale attivita’ ?   efficienze buone ma non 100%. Attivita’ aggiuntiva per gli utenti per comprendere il motivo degli errori e completare l’analisi.   velocita’ di esecuzione dei job. Nessuna recriminazione sebbene si possa molto aumentare utilizzando il protocollo di accesso ai dati piu’ performante. La configurazione dei siti e’ la migliore a disposizione al momento.   stabilita’. E’ la richiesta principale: stabilita’ dei siti (troppi periodi in cui si e’ offline o a bassa efficienza o con difficile accesso ai dati) e del software (troppe release spesso non perfettamente validate)   sistema di monitoraggio dei job. I risultati della dashboard non sono attendibili se confrontati con le informazioni dei singoli utenti. Nuova dashboard in fase di validazione e presto in produzione: Interazione con i gruppi di analisi per definire le reali necessita’ per le analisi in grid (centrali e italiane) e interattive