La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Michele Punturo INFN Perugia

Presentazioni simili


Presentazione sul tema: "Michele Punturo INFN Perugia"— Transcript della presentazione:

1 Michele Punturo INFN Perugia
Calcolo di Virgo Michele Punturo INFN Perugia Calcolo Virgo 2018

2 Indice Gestione dei dati di Virgo: Computing per analisi dati:
Produzione Trasferimento Storage Computing per analisi dati: Computing model e computing centres Evoluzioni future Calcolo Virgo 2018

3 Produzione dati Virgo produce diversi streams di dati
Full raw data (~100MB/s): Tutti i canali di Virgo, tra cui molti usati per monitoraggio nel commissioning Vita media dei dati qualche giorno Raw data (specifica 23MB/s, effettivi 37MB/s ~ 3TB/day) Tutti i canali di virgo ritenuti utili per l’analisi e il commissioning Vita media dei dati, da specifica 6Mesi, attualmente 4 mesi Se in run scientifico, I dati vengono salvati permanentemente trasferendoli ai CC CNAF e CCIN2P3 Trend data, 50Hz data: Prodotti continuamente, immagazzinati permanentemente ai CC (Ordine 1/10 raw) RDS: hrec Trasferito online via TCP-IP se in run Trasferito tramite LDR (LIGO Data Replicator) se riprocessamento Calcolo Virgo 2018

4 Trasferimento Dati Virgo è l’unico esperimento a terra che io conosca che non ha il Tier0 dove c’è la macchina di produzione dati Il nostro storage permanente è costituito dai computing centres CNAF e CCIN2P3 Essi adottano tecnologie di accesso e trasferimento diverse (LGT tools vs iRODS), procedure di check-sum diverse, rendendo impossibile l’uso di un qualunque strumento standard Soluzione ad hoc sviluppata a EGO Molti problemi iniziali di affidabilità e performances Siamo sopravvissuti ad O2 avendo imparato molte lezioni Calcolo Virgo 2018

5 Un run movimentato File: 100s Average transfer toward CNAF: 70-80s
Average transfer toward CCIN2P3: 80-90s Ceck-sum disabled Saturazione buffer assistenza immediata Saturazione del buffer al CCIN2P3: “Assistenza precaria” Crash storage EGO Scadenza certificato (TBC) Problemi con iRODS Crash firewall EGO Crisi di mezzanotte 100s Calcolo Virgo 2018

6 WAN In caso di flusso normale la WAN di Virgo (1GB/s) era occupata all’80% Quando il sistema cercava di recuperare un ritardo l’occupazione di banda saliva al 93-95% Non è stato possibile attivare flussi aggiuntivi per problemi di saturazione Calcolo Virgo 2018

7 Storage: tape I raw data di Virgo sono trasferiti su nastro sia a Lione (HPFS) che a Bologna (storm) Entrambi hanno mostrato problematiche di performance ad operare come Tier0 e occorrerà in futuro regolare meglio le cose Al CNAF abbiamo la seguente situazione Tape Per il 2018 non abbiamo prenotato nuovi tape, ma nel 2019 la spesa per storage tape sarà molto grossa (O3 dura circa 1 anno) Calcolo Virgo 2018

8 Storage: disk Al CNAF su disco ci sono gli outputs delle analisi e riceviamo i dati di hrec dei due interferometri LIGO tramite LDR Dovremo mettere sotto posix anche hrec di Virgo, se vogliamo permettere l’analisi alle pipelines che girano/gireranno al CNAF Situazione disco al CNAF: Attualmente siamo al 80% rispetto al pledge. Ci sarà da ripulire e nel 2019 è previsto un incremento di almeno 64TB di spazio disco Calcolo Virgo 2018

9 Lezioni imparate Stiamo ancora elaborando le lezioni imparate (ho chiesto una analisi retrospettiva per metà ottobre), ma si può dire che per O3: 1) Occorre definire un rapporto più stretto con i CCs cercando di comunicare meglio esigenze ed ottenere un servizio all’altezza di un Tier0 Assistenza immediata Throughput superiore verso i nastri 2) O si cambia la logica di trasferimento dati da parallela a sequenziale o la banda della WAN di Virgo è insufficiente e occorre raddoppiarla prima di O3. Il firewall di EGO costituisce un punto di single failure (e di rottura di p….); sarà sostituito presto con una macchina superiore. 3) la struttura dello storage a Virgo è troppo fragile, anche se la DAQ è separata e quindi non è attaccabile facilmente dai crash dello storage condiviso; occorre definire delle aree a “compartimenti stagni” con priorità diverse 4) il trasferimento di hrec esula completamente dal controllo del computing e della collaborazione. Il crash del firewall ha evidenziato una serie di fragilità inaccettabili. 5) l’organizzazione del computing di EGO e il suo rapporto con Virgo va rivisto dal profondo Calcolo Virgo 2018

10 Computing per Analisi Dati
Calcolo Virgo 2018

11 Ordine di grandezza Domanda tipica: il problema del calcolo nelle GW come si rapporta in “necessità di risorse” rispetto a LHC Valutazione spannometrica: LHC ha un pledge mondiale di 5,2MHS06 (potenza) (ref: Ian Collier, WLCG Workshop, Manchester, 19th June 2017) Nell’ultimo anno l’analisi GW mondiale ha consumato 152M CPU hours (energia). Convertendo Potenza in Energia, con un po’ di assunzioni arbitrarie a vantaggio di LHC, si ottiene che il rapporto LHC:GW = 30:1 Calcolo Virgo 2018

12 Framework: GW Analisi Le analisi di Virgo e di LIGO sono condivise:
Gruppi congiunti di analisi, co-chaired Le singole pipelines di analisi sono prevalentemente condivise, anche se esistono delle pipelines “regionali” I codici delle pipelines condivise sono comuni ed in linea di principio anche le risorse di calcolo Ci sono una serie pipelines di analisi che invece sono gestite “regionalmente” da uno o pochi gruppi di ricerca e sfruttano risorse più o meno locali Ore di CPU, Ultime 52 settimane Basato sui server LDG e parte di Virgo Calcolo Virgo 2018

13 Pipelines “con Virgo” Nota Bene: Considero solo i “fratelli maggiori” e quindi mi dimenticherò a priori di tante attività di pregio ma che hanno un impatto minore sulle esigenze di calcolo Pipelines di interesse per le detections e/o hanno una forte componente di Virgo: cWB: burst detection (Trento-Padova) MBTA: CBC solo per l’online (Annecy, Fi/Ub) CW: Roma1 Calcolo Virgo 2018

14 Framework: computing model
Il computing model di LIGO è basato su un Sistema “dipartimentale” con risorse condivise da un file system commune, Condor+Pegasus per il batch scheduling e workflow management Le risorse di calcolo fornibili dalla collaborazione Virgo sono invece I computing centres CNAF, CCIN2P3 e Nikhef, tutti LHC-driven e quindi accessibili via grid (EGI) Questo ha causato per anni l’inaccessibilità delle nostre risorse alle maggiori pipelines condivise, limitando l’uso dei “nostri” computing centres alle sole pipelines regionali (principalmente CW) Nell’ultimi 2 anni si è lavorato pesantemente a rendere possibilile l’accesso alle risorse di Virgo a jobs OSG (GRID-USA) e finalmente pyCBC (et al.) sono in grado di accedere CNAF/CCIN2P3/Nikhef/Polgraw Ruolo importante del Sistema di accounting realizzato per Virgo da Luca Rei Calcolo Virgo 2018

15 Cambio di passo CNAF arrivato in ritardo perchè “oberato” da CW
Ore di jobs su risorse Virgo via OSG (pyCBC) Calcolo Virgo 2018

16 Contributo Risorse di Virgo al calcolo GW
Nella medesima settimana: Calcolo Virgo 2018

17 Virgo nella CSN2 Calcolo Virgo 2018

18 Note dolenti Tutto risolto? No ci sono tuttora grossi problemi:
Jobs non sottomessi via OSG in tutto il network Virgo Risorse dedicate non usate o usate per altri scopi Perchè? Calcolo Virgo 2018

19 Note dolenti 2 L’uso delle risorse di calcolo avviene secondo statistica “poissoniana” a causa dello scarso numero di utilizzatori CW accede “a bursts” pyCBC accede a cicli Uso inefficente (per le finanze di EGO) delle risorse hardware: Se cWB calcolerà al CNAF le cose potrebbero migliorare nel futuro Calcolo Virgo 2018

20 Commenti Risorse di Virgo finalmente accessibili
CNAF gioca il ruolo principale, ma grande “vitalità” di Nikhef Uso “poissoniano” delle risorse: Maggiore focus sulla possibilità di usare le risorse interne di Virgo Opinione personale: Estrema debolezza di Virgo nelle analisi che vengono usate nelle pubblicazioni delle detections (CBC) cWB è ottima per le detection ma non è “matematicamente” ottimale per la PE MBTA è solo online Abbiamo bisogno che qualcuno (in Italia) si infili dentro pyCBC o gstlal; propendo per la prima perchè si possono già usare le risorse di Virgo per il calcolo Calcolo Virgo 2018

21 Evoluzioni future Virgo ha girato a bassa sensibilità per solo 1 mese in O2, ma in O3 sarà a piena “dignità”. Il peso di necessità di calcolo che un terzo detector porta non è proprio lineare: CW: H, L, V Analisi coerente: Attualmente HL (e HL, HLV per 1 mese) In O3: HLV, HL, HV, LV (×4 nel calcolo?) E se nel 2020 entra KAGRA nel gioco? La Potenza di calcolo esplode anche perchè la sensibilità di O3 promette eventi con un rate dell’ordine “settimanale” Il calcolo di Virgo/LIGO crescerà probabilmente di un ordine di grandezza in pochi anni Occorre una maggiore “industrializzazione” della gestione del calcolo: Risorse umane e competenze (!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!) Risorse HW Risorse finanziari alla LHC Calcolo Virgo 2018

22 Nuovi tipi di esigenze Il calcolo di Virgo/LIGO è stato finora “classico”, cioè con risorse HTC perché “imbarazzatamente parallelo” Nuove esigenze stanno crescendo, guidate dalle simulazioni di Relatività Numerica: Calcolo parallelo HPC Risorse HTC e HPC saranno disponibili al CINECA HPC richiesto dai teorici, da EUCLID e LSPE Virgo non ha ancora elaborato la sua strategia HPC, ma ne necessita una I nuovi gruppi di Virgo dovranno giocare un ruolo in questo Calcolo Virgo 2018


Scaricare ppt "Michele Punturo INFN Perugia"

Presentazioni simili


Annunci Google