La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Referaggio Calcolo ATLAS Gianpaolo Carlino INFN Napoli CNAF, 11 Maggio 2012 Attività di Computing ATLAS Attività di Computing in Italia Risorse e Richieste.

Presentazioni simili


Presentazione sul tema: "Referaggio Calcolo ATLAS Gianpaolo Carlino INFN Napoli CNAF, 11 Maggio 2012 Attività di Computing ATLAS Attività di Computing in Italia Risorse e Richieste."— Transcript della presentazione:

1 Referaggio Calcolo ATLAS Gianpaolo Carlino INFN Napoli CNAF, 11 Maggio 2012 Attività di Computing ATLAS Attività di Computing in Italia Risorse e Richieste 2013

2 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 2

3 Data Volume 2010-2011 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 3 Data volume cumulativo registrato al Tier0 Data volume cumulativo registrato in GRID, costituito dalle varie repliche distribuite nelle cloud: 90 PB Variazione nel tempo del formato dei dati e del numero di repliche

4 Data taking 2012 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 4 1.2 fb-1 fino al 10 Maggio. Molto promettente! Per ICHEP si potrà avere la stessa statistica del 2011

5 Evoluzione del Computing Model CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 5

6 Breaking the Cloud Model CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 6 Evoluzione del Computing Model, permesso dalle alte performance della rete rende più flessibile il data transfer routing consente una distribuzione dei dati ai siti più efficiente consente un utilizzo ottimale delle risorse Facilita l’analisi degli utenti a)Modello originale b)Multicloud Tier2 c)Multicloud Tier1 Tier2 Diretti (T2D): Tier2 con alte performance di trasferimento dei dati (5 MB/s verso almeno 10 dei 12 Tier1 per large files (>1 GB)) vengono definiti Tier2 Diretti (T2D) e Sono siti Multicloud Conservano copie primarie dei dati

7 Distribuzione dei dati CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Statica (planned) = distrubuzione predefinita secondo share fissati Dinamica (data caching) = distribuzione in base alla popolarità dei dati Statica (planned) = distrubuzione predefinita secondo share fissati Dinamica (data caching) = distribuzione in base alla popolarità dei dati 7

8 Distribuzione dei dati CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Nel 2011 si è cercato il giusto rapporto tra il volume di dati trasferiti dinamicamente e staticamente per permettere che una frazione significativa dell’analisi fosse svolta nei Tier2 insieme ad un uso saggio del disco Le comunità di utenti fanno capo soprattutto ai Tier2 (cpu e disco dedicati, accesso diretto), era dannoso concentrare l’analisi solo ai Tier1 (inizi 2011) Replica dei dati prestabilita: Tier1, replica per ridondanza (consolidamento), copia primaria Tier2, replica per l’analisi, primaria Tier2, replica extra per l’analisi, copia secondaria Determinata dallo share della cloud (Tier1) e dalla classificazione (Tier2) Replica dinamica dei dati Tier1 e Tier2, basata sulla popolarità dei dati, copia secondaria Determinata dall’utilizzo dei siti 8

9 Attività di Computing in ATLAS CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 9 Ruolo principale di ATLAS in LHC

10 Attività di Computing in ATLAS CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Numero di job simultanei nell’ultimo anno Produzione: > 60k job, constante incremento inizio 2012 per reco MC11 Analisi: crescita lineare nel 2011 fino a > 20k job Alta attività nel 2012 per le conferenze invernali In attesa di statistica per riprendere l’attività seria 10

11 Attività di Computing in ATLAS CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Numero di job running per attività: MC production e end-user analysis attività principali Crescita costante delle attività degli utenti Attività di gruppo, all’inizio quasi caotica e user-like ora organizzata in una forma production-like 11

12 Attività di Computing in ATLAS CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS MC simul (G4) e end-user analysis attività principali MC simul satura tutte le risorse disponibili, anche nei Tier1 Pileup (reco MC) principalmente nei Tier1 ma svolta anche nei T2D Attività di gruppo, all’inizio quasi caotica e user-like ora organizzata in una forma production-like 12 Tier1Tier2

13 Tier1 Tier3 Tier0 Attività nei Tier CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Analisi Tier1 Tier2 Tier3 Tier0 Tier2 Tier3 Tier0 Tier1 Produzione I Tier2 forniscono la maggioranza delle risorse Contributo dei Tier3 non trascurabile 13

14 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 14

15 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS La Cloud Italiana 15

16 Il CNAF è tra i migliori Tier1 di ATLAS e lotta per la terza posizione INFN–T1 - 9.32% CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Utilizzo risorse al CNAF 16

17 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Utilizzo risorse al CNAF 17

18 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Utilizzo risorse al CNAF 18 Risorse 2012 ancora non installate

19 Classificazione dei Tier2 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Necessità di individuare i siti più affidabili per l’analisi cui inviare la maggior parte dei dati. Classificazione in base alle performance (stabilità ) 4 Gruppi Alpha: (60% share): T2D con rel > 90% Bravo: (30% share): non T2D con rel> 90% Charlie: (10% share): 80% < rel < 90% Delta: (0% share): rel <80% 19

20 Reliability & Availability 2011-12 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Availability = time_site_is_available/total_time Reliability = time_site_is_available/ (total_time-time_site_is_sched_down) 20

21 Uso risorse nei Tier2 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS IT – 6.46% Uso risorse per “Processing Cloud” Quinta cloud La percentuale può essere molto diversa dai pledges dichiarati a causa delle risorse a disposizione nelle varie cloud per le attività nazionali (anche in IT) per Tier2 per attività 21

22 Uso risorse Tier2 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 22 Pledge (26600) Pledge (18000) Le CPU sono utilizzate pienamente e con continuità. Sistematicamente oltre le pledge Siamo in grado di utilizzare tutte le risorse a disposizione Le reali performance dei siti sono evidenti non nel confronto con le altre cloud, ma con le risorse a disposizione

23 Efficienze CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 23 CPU/WCT - analisi CPU/WCT - produzione Eff produzione > 90% per tutti i siti Eff analisi > 80% per tutti i siti

24 Accounting dei Tier2 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Frascati Napoli Accounting ultimo mese 24 Roma 1 Milano

25 Accounting dei Tier2 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Accounting ultimo anno Frascati Milano Napoli Roma 1 25

26 Uso risorse CPU a Milano I dati nell’account DGAS risentono di in problema specifico del CE Condor che genera una sottostima dell’utilizzo, erratica e non facilmente stimabile, anche se probabilmente contenuta Presentiamo quindi i dati ottenuti dalla dashboard di ATLAS, che danno i valori relativi agli altri T2 italiani I commenti riguardano la comparazione con Roma che nel 2011 ha risorse in linea simili a quelle di Milano, mentre nel 2012 ha messo in linea per uso da ATLAS remoto anche circa 25% risorse unpledged che invece a Milano sono state riservate all’uso locale PROOF. La comparazione con NA e’ piu’ complessa perche’ NA ha reso disponibili via Grid addizionali risorse unpledged da SCOPE CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 26

27 Uso CPU T2: ott-dic CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 27 Torna con saturazione CPU Milano (si vede in Ganglia-MI) con up-time mil 88.6, roma 93.7 ma Roma stava usando circa 10% sue risorse in locale per calib

28 Uso CPU T2: 2012 uptime 83% mi, 97.7 roma, 95.9 Na: abbiamo avuto problemi gravi di storage e GPFS in gennaio poi qualche problema nell’upgrage di STORM a febbraio. Tenuto conto di un po’ di isteresi ATLAS nello spedire jobs a siti che riprendono dopo lunghi down anche della differenza delle CPU in linea, si capisce 12.4% Mi contro Roma circa 17.9%. CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 28

29 Attività nei Tier2 Italiani I Tier2 di ATLAS contribuiscono tutti alle attività di produzione e analisi di ATLAS in maniera indifferenziata CPU pledge a disposizione di tutti gli utenti ATLAS Replica dinamica e preplaced di tutti i dati di ATLAS L’unica differenziazione è determinata dalle aree di storage di gruppo che contengono dati di particolare interesse per le attività italiane e dalle attività di calibrazione o di performance Attività di gruppo – Aree gestite dai gruppi (pledged), dati sempre più utilizzati per l’analisi – CNAF: SUSY e TOP – Milano: MS e EGAMMA – Napoli: HIGGS e TRIGGER – Roma1: HIGGS e MUONI Attività specifiche – Frascati: FTK e sviluppo PoD – Milano: EGAMMA performance – Napoli: RPC e LVL1 Muon Trigger calibrazione e performance – Roma1: MDT calibrazione e performance CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 29

30 Risorse dedicate attività IT CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Job running in un Tier2:  Ultima settimana  Ultimo anno Analisi Atlas Analisi Italiana Produzione L’analisi viene svolta efficacemente nei Tier2 Italiani Le risorse dedicate (dedicabili) sono significative Permettono ai job italiani di andare in run più velocemente senza essere accodati agli altri Non solo analisi, anche prod MC 30

31 Proof on Demand (PoD) CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS Proof – tool che parallelizza l’analisi con ROOT su diversi core della stessa macchina (Proof Light) o su un cluster di nodi Demand – possibilità di usare, a richiesta, i nodi di una farm destinata prevalentemente ad altri scopi (per esempio Tier2/3 in GRID) 31 Proof on Demand su un cluster Grid: Tier2 o Tier3 E' stato sviluppato un plugin di PoD per gLite, che da la possibilità agli utenti di attivare un cluster Proof “on demand” su una farm in Grid con middleware gLite e Panda a breve Gli utenti, connettendosi ad una UI, possono lanciare PoD e riservare un certo numero di nodi sulla farm di un Tier2/3 La gestione delle risorse e' simile a quella del cluster locale e il codice per il setup di PoD viene fatto direttamente da cvmfs, disponibile ormai nella maggior parte dei siti di ATLAS PoD permette di abbandonare l’uso di un cluster statico per Proof e mettere in comune in GRID le risorse “Tier3” dei Tier2

32 Uso della rete nei Tier2 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 32 Siti saturi. La limitata banda a disposizione determina performance non eccellenti come T2D Aspettando il GARR-X

33 Tier-3 I Tier3 Italiani sono tutti in attività Finanziamenti centrali: – GE+RM3 2010 (fondi fine 2010) – LE+RM2 2011 (fondi 2012) Stato attuale (maggio 2012): – BO, CS, GE, LE, PV, RM3 attivi Setup ATLAS comune a tutti – Storage tokens – Code Grid e locali Shares fra Grid/prod, Grid/anal e analisi locale definite localmente – RM2 in installazione – TS solo storage e analisi locale 33

34 Tier-3 34 Contributo sia alle attività di produzione (solo MC G4) sia di analisi (solo end user)

35 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 35

36 Risorse Disponibili 2012 - CPU CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS CPUFrascatiMilanoNapoliRomaTotale HP06412099719598998533675 36 Le CPU totali a disposizione dei Tier2 comprendono anche risorse che non pledged: le CPU obsolete (fino al 2012 e già rifinanziate) ancora in produzione ma in corso di spegnimento CPU non a completa disposizione dei siti – (scope a NA, TDAQ a LNF) CPU per uso locale (cluster proof) o in griglia ma dedicate principalmente alle attività italiane (Tier3) finanziate con fondi vari – Proof on Demand, share per analisi e simulazione MC per il ruolo atlas/it Queste CPU concorrono alla definizione della linea blue dell’accounting che in alcuni casi è significativamente maggiore della linea rossa Nel conto delle CPU pledged sono comprese le CPU gara CNAF 2012 ancora da installare CPU disponibili 2012 “pledged”

37 Risorse Disponibili 2012 - Dischi CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS DiscoFrascatiMilanoNapoliRomaTotale Totale disponibile 3961080 10203576 to be pledged 3226 37 Lo storage totale disponibile nei Tier2 comprende anche l’area locale in cui sono conservati i dati di tutti gli utenti italiani (LOCALGROUP), non solo gli utenti locali La dimensione di queste aree è di circa 100 TB per i Tier2 grandi e 50 TB per LNF In gran parte già occupata, gli utenti dovranno cancellare i dati vecchi non più necessari per fare spazio ai dati del 2012 l’utilizzo di queste aree è irrinunciabile per cui il loro volume va sottratto allo storage da dichiare pledged Nel conto del disco totale disponibile sono comprese le recenti acquisizioni ancora da installare Storage disponibile 2012 “pledged”

38 Risorse Obsolete nel 2013 le CPU obsolete sono le macchine comprate nel 2009 e installate fine 2009 inizi 2010 (non sono comprese le macchine installate successivamente). Le CPU hanno garanzia triennale Lo storage obsoleto comprende le SAN comprate nel 2007 e installate giugno 2008. Garanzia quinquennale CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS CPU (HS06) Disco (TBn) Frascati55736 Milano1825184 Napoli205192 Roma1725184 Tot6158496 Risorse obsolete 2013 38

39 Risorse Attività ATLAS 2013 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 39 ATLAS ha presentato allo Scrutiny Group le risorse necessarie per le attività 2012 – 2014 Le richieste per il 2013 sono determinate da: simulazione MC di tutti i dati 2010-2012 + inizio simulazione a 13 TeV reprocessing dei dati 2011-2012 con software più performante processamento della delayed stream, raccolta nel 2012 e archiviata su tape 130 Hz di trigger speciali (200 TB di RAW data) analisi di gruppo e utenti Il Computing non sarà in shut-down! Le risorse necessarie sono state calcolate in base all’esperienza dell’anno 2011 che ha evidenziato le reali necessità di risorse per l’analisi utente vs altre attività centrali (MC) Stima realistica! Si è tenuto conto dei notevoli miglioramenti delle performance del software G4 simulation time ridotto di un fattore 2 e con prospettive di ulteriore miglioramento Riduzione della size degli eventi per contrastare l’effetto del pile-up

40 Risorse Attività ATLAS 2013 Le CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 40

41 Risorse Attività ATLAS 2013 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 41 Referaggio dello Scrutiny Group

42 Risorse Attività ATLAS 2013 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 42 Lo Scrutiny Group ha riconosciuto la necessità di risorse aggiuntive dato l’aumento dei valori da 2013 (previous estimate) a (this scrutiny), ha tuttavia effettuato un taglio, soprattutto per i Tier2: 4% Disco e 9% CPU Una delle possibili motivazioni è probabilmente un uso non massimale delle risorse dei Tier2 nel 2011 cui si è ovviato con cambiamenti nel data placement e job brokering nell’anno

43 Richiesta Risorse 2013 - I CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 43 Le risorse necessarie per il 2013 sono determinate dalla volontà di conservare il ruolo significativo nel computing di ATLAS acquisito negli ultimi anni conservando gli share di risorse pledged per le attività centrali: – Tier1: 10% – Tier2: 10% CPU e 7% Disco e di garantire la competitività agli utenti italiani mediante l’uso di risorse dedicate nei Tier2 e Tier3 ATLAS Share IT ATLAS IT 2013 ATLAS IT disponibile Attività 2013 CPU T1 (kHS) 297 10%29.725.0 * 4.7 Disco T1 (PB) 2910%2.92.5 * 0.4 CPU T2 (kHS) 31910%31.933.70 Disco T2 (PB) 497%3.433.230.2 * Pledge 2012

44 Richiesta Risorse 2013 - II CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 44 Le risorse per le attività italiane sono già disponibili e non inclusi nel disponibile “pledged” 2012 e non sono necessarie ulteriori richieste Attività 2013 Attività Italiane Obs Richieste 2013 k€€€€ CPU T2 006.16 86 Disco T2 0.2000.500.70245 Prezzi stimati: CPU = 14 k€/kHS Disco = 350 k€/PB

45 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 45

46 Risorse Attività ATLAS 2013 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 46

47 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 47 Risorse Attività ATLAS 2013

48 Risorse Attività 2013 – Tier1 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 48

49 Risorse Attività 2013 – Tier2 Le CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 49


Scaricare ppt "Referaggio Calcolo ATLAS Gianpaolo Carlino INFN Napoli CNAF, 11 Maggio 2012 Attività di Computing ATLAS Attività di Computing in Italia Risorse e Richieste."

Presentazioni simili


Annunci Google