Michele Punturo INFN Perugia

Slides:



Advertisements
Presentazioni simili
D. Martello Dip. Fisica - Lecce Sintesi piani esperimenti CSN2 CNAF 7-marzo-2007.
Advertisements

Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
FESR Catania, Trigrid Open Day, Trinacria Grid Virtual Laboratory PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno.
SAL WP10 Bologna – CNAF – 9 Ottobre AGENDA 1.Stato deliverable per il periodo considerato 2.Stato attività descritte nel capitolato tecnico e eventuali.
+ Call di Big Data (EINFRA- 1). + La call … + + Cosa abbiamo in mano (come INFN) 1. L’infrastruttura 1 Tier Tier2 O(25000) cores O(20) PB di Disco.
ATLAS computing Roberto Carlin Commissione I Roma 1/7/08 F. Bossi, C.Bozzi, R. Carlin, R. Ferrari, D. Lucchesi, D. Martello, M. Morandin, M. Taiuti.
KLOE - Referee Luca Lista, Andrea Perrotta, Vincenzo Vagnoni.
Gestione delle configurazioni Configuration management (CM) E` un processo che controlla le modifiche fatte a un sistema e gestisce le diverse versioni.
Il calcolo per l’esperimento GERDA: prospettive per la Fase II Luciano Pandola INFN, Laboratori del Gran Sasso e Laboratori del Sud Workshop della CCR,
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
Dip. di Fisica & INFN - Univ. Del Salento
RD_FA kick-off workshop
Valutazione proposte di corsi di formazione S. Arezzini, L
Evoluzione del collegamento geografico e collaudo della nuova struttura CORE del TIER1 CDG – 06/10/2016 Stefano Zani
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Integrazione tier3 in Grid Paolo Veronesi, Luciano Gaido
Summary di (quasi) tutti gli utenti non presentati…
D. Martello, F. Ricci, F. Ruggieri
CALCOLO CSN B.Bertucci.
Piani di sviluppo e consolidamento
Tesi di Laurea e di Dottorato
Rielaborato da Atzeni et al., Basi di dati, Mc-Graw Hill
H2020 – gruppo ‘data’.
Comput-ER l'infrastruttura di calcolo distribuito in Emilia Romagna
M.Biasini, P. Checchia 23 Settembre Riunione CSN1
G. Carlino, D. Lucchesi, V. Vagnoni
Massimo Masera CSNIII Roma, 20 marzo 2012
Metodologie Quantitative per il Calcolo Scientifico
Attività su middleware Grid e sua evoluzione
Richieste di upgrade dei link di accesso alla rete Geografica
Collegamento a Garr-X Il collegamento alla nuova rete Garr-X dovrà garantire il massimo della efficienza nella gestione della banda. Per identificare opportunamente.
G. Carlino, D. Lucchesi, V. Vagnoni
HLRmon: visualizzazione di dati di accounting
Nuovo sito della Commissione Calcolo e Reti
Referaggio sigla CALCOLO
Michele Punturo INFN Perugia
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Richieste preliminari calcolo non LHC
Stato tape CDG 6/10/2016.
Pisa.
Introduzione alla sessione sull’analisi per gli esperimenti LHC
Lamberto Luminari CSN Maggio 2005
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
ALICE CALCOLO richieste finanziarie e proposte di assegnazione 2017
CMS.
Richieste di Calcolo 2009: BaBar
Aggiornamento sullo stato del Tier-2 di Catania
Attvità Computing – Inverno 08/09
(Breve) Riassunto del workshop WLCG
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
Necessità di calcolo per MEG II e ripartizione dei costi
CMS.
CNAF – Proposte B.Bertucci.
Luciano Gaido (INFN - Torino) Workshop CCR/INFNGRID – Palau
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Considerazioni sull'infrastruttura
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Calcolo “locale” ATLAS-Mi
Stato Computing ATLAS Gianpaolo Carlino INFN Napoli
Gianpaolo Carlino (coord)
Situazione attuale CSN4
La richiesta si basa sulle seguenti considerazioni:
analizzatore di protocollo
[Nome progetto] Relazione finale
ATLAS Italia Computing Richieste 2007 (Tier-2 e locali)
[Nome progetto] Relazione finale
Michele Punturo INFN Perugia
Report dei referee di Kloe
Commissione Calcolo e Reti
Transcript della presentazione:

Michele Punturo INFN Perugia Calcolo di Virgo Michele Punturo INFN Perugia Calcolo Virgo 2018

Indice Gestione dei dati di Virgo: Computing per analisi dati: Produzione Trasferimento Storage Computing per analisi dati: Computing model e computing centres Evoluzioni future Calcolo Virgo 2018

Produzione dati Virgo produce diversi streams di dati Full raw data (~100MB/s): Tutti i canali di Virgo, tra cui molti usati per monitoraggio nel commissioning Vita media dei dati qualche giorno Raw data (specifica 23MB/s, effettivi 37MB/s ~ 3TB/day) Tutti i canali di virgo ritenuti utili per l’analisi e il commissioning Vita media dei dati, da specifica 6Mesi, attualmente 4 mesi Se in run scientifico, I dati vengono salvati permanentemente trasferendoli ai CC CNAF e CCIN2P3 Trend data, 50Hz data: Prodotti continuamente, immagazzinati permanentemente ai CC (Ordine 1/10 raw) RDS: hrec Trasferito online via TCP-IP se in run Trasferito tramite LDR (LIGO Data Replicator) se riprocessamento Calcolo Virgo 2018

Trasferimento Dati Virgo è l’unico esperimento a terra che io conosca che non ha il Tier0 dove c’è la macchina di produzione dati Il nostro storage permanente è costituito dai computing centres CNAF e CCIN2P3 Essi adottano tecnologie di accesso e trasferimento diverse (LGT tools vs iRODS), procedure di check-sum diverse, rendendo impossibile l’uso di un qualunque strumento standard Soluzione ad hoc sviluppata a EGO Molti problemi iniziali di affidabilità e performances Siamo sopravvissuti ad O2 avendo imparato molte lezioni Calcolo Virgo 2018

Un run movimentato File: 100s Average transfer toward CNAF: 70-80s Average transfer toward CCIN2P3: 80-90s Ceck-sum disabled Saturazione buffer assistenza immediata Saturazione del buffer al CCIN2P3: “Assistenza precaria” Crash storage EGO Scadenza certificato (TBC) Problemi con iRODS Crash firewall EGO Crisi di mezzanotte 100s Calcolo Virgo 2018

WAN In caso di flusso normale la WAN di Virgo (1GB/s) era occupata all’80% Quando il sistema cercava di recuperare un ritardo l’occupazione di banda saliva al 93-95% Non è stato possibile attivare flussi aggiuntivi per problemi di saturazione Calcolo Virgo 2018

Storage: tape I raw data di Virgo sono trasferiti su nastro sia a Lione (HPFS) che a Bologna (storm) Entrambi hanno mostrato problematiche di performance ad operare come Tier0 e occorrerà in futuro regolare meglio le cose Al CNAF abbiamo la seguente situazione Tape Per il 2018 non abbiamo prenotato nuovi tape, ma nel 2019 la spesa per storage tape sarà molto grossa (O3 dura circa 1 anno) Calcolo Virgo 2018

Storage: disk Al CNAF su disco ci sono gli outputs delle analisi e riceviamo i dati di hrec dei due interferometri LIGO tramite LDR Dovremo mettere sotto posix anche hrec di Virgo, se vogliamo permettere l’analisi alle pipelines che girano/gireranno al CNAF Situazione disco al CNAF: Attualmente siamo al 80% rispetto al pledge. Ci sarà da ripulire e nel 2019 è previsto un incremento di almeno 64TB di spazio disco Calcolo Virgo 2018

Lezioni imparate Stiamo ancora elaborando le lezioni imparate (ho chiesto una analisi retrospettiva per metà ottobre), ma si può dire che per O3: 1) Occorre definire un rapporto più stretto con i CCs cercando di comunicare meglio esigenze ed ottenere un servizio all’altezza di un Tier0 Assistenza immediata Throughput superiore verso i nastri 2) O si cambia la logica di trasferimento dati da parallela a sequenziale o la banda della WAN di Virgo è insufficiente e occorre raddoppiarla prima di O3. Il firewall di EGO costituisce un punto di single failure (e di rottura di p….); sarà sostituito presto con una macchina superiore. 3) la struttura dello storage a Virgo è troppo fragile, anche se la DAQ è separata e quindi non è attaccabile facilmente dai crash dello storage condiviso; occorre definire delle aree a “compartimenti stagni” con priorità diverse 4) il trasferimento di hrec esula completamente dal controllo del computing e della collaborazione. Il crash del firewall ha evidenziato una serie di fragilità inaccettabili. 5) l’organizzazione del computing di EGO e il suo rapporto con Virgo va rivisto dal profondo Calcolo Virgo 2018

Computing per Analisi Dati Calcolo Virgo 2018

Ordine di grandezza Domanda tipica: il problema del calcolo nelle GW come si rapporta in “necessità di risorse” rispetto a LHC Valutazione spannometrica: LHC ha un pledge mondiale di 5,2MHS06 (potenza) (ref: Ian Collier, WLCG Workshop, Manchester, 19th June 2017) Nell’ultimo anno l’analisi GW mondiale ha consumato 152M CPU hours (energia). Convertendo Potenza in Energia, con un po’ di assunzioni arbitrarie a vantaggio di LHC, si ottiene che il rapporto LHC:GW = 30:1 Calcolo Virgo 2018

Framework: GW Analisi Le analisi di Virgo e di LIGO sono condivise: Gruppi congiunti di analisi, co-chaired Le singole pipelines di analisi sono prevalentemente condivise, anche se esistono delle pipelines “regionali” I codici delle pipelines condivise sono comuni ed in linea di principio anche le risorse di calcolo Ci sono una serie pipelines di analisi che invece sono gestite “regionalmente” da uno o pochi gruppi di ricerca e sfruttano risorse più o meno locali Ore di CPU, Ultime 52 settimane Basato sui server LDG e parte di Virgo Calcolo Virgo 2018

Pipelines “con Virgo” Nota Bene: Considero solo i “fratelli maggiori” e quindi mi dimenticherò a priori di tante attività di pregio ma che hanno un impatto minore sulle esigenze di calcolo Pipelines di interesse per le detections e/o hanno una forte componente di Virgo: cWB: burst detection (Trento-Padova) MBTA: CBC solo per l’online (Annecy, Fi/Ub) CW: Roma1 Calcolo Virgo 2018

Framework: computing model Il computing model di LIGO è basato su un Sistema “dipartimentale” con risorse condivise da un file system commune, Condor+Pegasus per il batch scheduling e workflow management Le risorse di calcolo fornibili dalla collaborazione Virgo sono invece I computing centres CNAF, CCIN2P3 e Nikhef, tutti LHC-driven e quindi accessibili via grid (EGI) Questo ha causato per anni l’inaccessibilità delle nostre risorse alle maggiori pipelines condivise, limitando l’uso dei “nostri” computing centres alle sole pipelines regionali (principalmente CW) Nell’ultimi 2 anni si è lavorato pesantemente a rendere possibilile l’accesso alle risorse di Virgo a jobs OSG (GRID-USA) e finalmente pyCBC (et al.) sono in grado di accedere CNAF/CCIN2P3/Nikhef/Polgraw Ruolo importante del Sistema di accounting realizzato per Virgo da Luca Rei Calcolo Virgo 2018

Cambio di passo CNAF arrivato in ritardo perchè “oberato” da CW Ore di jobs su risorse Virgo via OSG (pyCBC) Calcolo Virgo 2018

Contributo Risorse di Virgo al calcolo GW Nella medesima settimana: Calcolo Virgo 2018

Virgo nella CSN2 Calcolo Virgo 2018

Note dolenti Tutto risolto? No ci sono tuttora grossi problemi: Jobs non sottomessi via OSG in tutto il network Virgo Risorse dedicate non usate o usate per altri scopi Perchè? Calcolo Virgo 2018

Note dolenti 2 L’uso delle risorse di calcolo avviene secondo statistica “poissoniana” a causa dello scarso numero di utilizzatori CW accede “a bursts” pyCBC accede a cicli Uso inefficente (per le finanze di EGO) delle risorse hardware: Se cWB calcolerà al CNAF le cose potrebbero migliorare nel futuro Calcolo Virgo 2018

Commenti Risorse di Virgo finalmente accessibili CNAF gioca il ruolo principale, ma grande “vitalità” di Nikhef Uso “poissoniano” delle risorse: Maggiore focus sulla possibilità di usare le risorse interne di Virgo Opinione personale: Estrema debolezza di Virgo nelle analisi che vengono usate nelle pubblicazioni delle detections (CBC) cWB è ottima per le detection ma non è “matematicamente” ottimale per la PE MBTA è solo online Abbiamo bisogno che qualcuno (in Italia) si infili dentro pyCBC o gstlal; propendo per la prima perchè si possono già usare le risorse di Virgo per il calcolo Calcolo Virgo 2018

Evoluzioni future Virgo ha girato a bassa sensibilità per solo 1 mese in O2, ma in O3 sarà a piena “dignità”. Il peso di necessità di calcolo che un terzo detector porta non è proprio lineare: CW: H, L, V Analisi coerente: Attualmente HL (e HL, HLV per 1 mese) In O3: HLV, HL, HV, LV (×4 nel calcolo?) E se nel 2020 entra KAGRA nel gioco? La Potenza di calcolo esplode anche perchè la sensibilità di O3 promette eventi con un rate dell’ordine “settimanale” Il calcolo di Virgo/LIGO crescerà probabilmente di un ordine di grandezza in pochi anni Occorre una maggiore “industrializzazione” della gestione del calcolo: Risorse umane e competenze (!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!) Risorse HW Risorse finanziari alla LHC Calcolo Virgo 2018

Nuovi tipi di esigenze Il calcolo di Virgo/LIGO è stato finora “classico”, cioè con risorse HTC perché “imbarazzatamente parallelo” Nuove esigenze stanno crescendo, guidate dalle simulazioni di Relatività Numerica: Calcolo parallelo HPC Risorse HTC e HPC saranno disponibili al CINECA HPC richiesto dai teorici, da EUCLID e LSPE Virgo non ha ancora elaborato la sua strategia HPC, ma ne necessita una I nuovi gruppi di Virgo dovranno giocare un ruolo in questo Calcolo Virgo 2018