La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Referaggio Calcolo ATLAS

Presentazioni simili


Presentazione sul tema: "Referaggio Calcolo ATLAS"— Transcript della presentazione:

1 Referaggio Calcolo ATLAS
Gianpaolo Carlino INFN Napoli Attività di Computing ATLAS Attività di Computing in Italia Risorse e Richieste 2013 CNAF, 11 Maggio 2012

2 Attività Computing ATLAS
CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

3 G. Carlino – Referaggio Calcolo ATLAS
Data Volume Data volume cumulativo registrato al Tier0 Data volume cumulativo registrato in GRID, costituito dalle varie repliche distribuite nelle cloud: 90 PB Variazione nel tempo del formato dei dati e del numero di repliche CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

4 G. Carlino – Referaggio Calcolo ATLAS
Data taking 2012 1.2 fb-1 fino al 10 Maggio. Molto promettente! Per ICHEP si potrà avere la stessa statistica del 2011 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

5 Evoluzione del Computing Model
CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

6 Breaking the Cloud Model
Evoluzione del Computing Model, permesso dalle alte performance della rete rende più flessibile il data transfer routing consente una distribuzione dei dati ai siti più efficiente consente un utilizzo ottimale delle risorse Facilita l’analisi degli utenti Tier2 Diretti (T2D): Tier2 con alte performance di trasferimento dei dati (5 MB/s verso almeno 10 dei 12 Tier1 per large files (>1 GB)) vengono definiti Tier2 Diretti (T2D) e Sono siti Multicloud Conservano copie primarie dei dati Modello originale Multicloud Tier2 Multicloud Tier1 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

7 Distribuzione dei dati
Statica (planned) = distrubuzione predefinita secondo share fissati Dinamica (data caching) = distribuzione in base alla popolarità dei dati CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

8 Distribuzione dei dati
Nel 2011 si è cercato il giusto rapporto tra il volume di dati trasferiti dinamicamente e staticamente per permettere che una frazione significativa dell’analisi fosse svolta nei Tier2 insieme ad un uso saggio del disco Le comunità di utenti fanno capo soprattutto ai Tier2 (cpu e disco dedicati, accesso diretto), era dannoso concentrare l’analisi solo ai Tier1 (inizi 2011) Replica dei dati prestabilita: Tier1, replica per ridondanza (consolidamento), copia primaria Tier2, replica per l’analisi, primaria Tier2, replica extra per l’analisi, copia secondaria Determinata dallo share della cloud (Tier1) e dalla classificazione (Tier2) Replica dinamica dei dati Tier1 e Tier2, basata sulla popolarità dei dati, copia secondaria Determinata dall’utilizzo dei siti CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

9 Attività di Computing in ATLAS
Ruolo principale di ATLAS in LHC CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

10 Attività di Computing in ATLAS
Numero di job simultanei nell’ultimo anno Produzione: > 60k job, constante incremento inizio 2012 per reco MC11 Analisi: crescita lineare nel 2011 fino a > 20k job Alta attività nel 2012 per le conferenze invernali In attesa di statistica per riprendere l’attività seria CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

11 Attività di Computing in ATLAS
Numero di job running per attività: MC production e end-user analysis attività principali Crescita costante delle attività degli utenti Attività di gruppo, all’inizio quasi caotica e user-like ora organizzata in una forma production-like CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

12 Attività di Computing in ATLAS
Tier1 Tier2 MC simul (G4) e end-user analysis attività principali MC simul satura tutte le risorse disponibili, anche nei Tier1 Pileup (reco MC) principalmente nei Tier1 ma svolta anche nei T2D Attività di gruppo, all’inizio quasi caotica e user-like ora organizzata in una forma production-like CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

13 G. Carlino – Referaggio Calcolo ATLAS
Attività nei Tier Tier2 Tier1 Tier3 Tier0 I Tier2 forniscono la maggioranza delle risorse Contributo dei Tier3 non trascurabile Analisi Produzione Tier2 Tier2 Tier3 Tier0 Tier0 Tier3 Tier1 Tier1 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

14 Attività di Computing in ITALIA
CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

15 G. Carlino – Referaggio Calcolo ATLAS
La Cloud Italiana CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

16 Utilizzo risorse al CNAF
Il CNAF è tra i migliori Tier1 di ATLAS e lotta per la terza posizione INFN–T % CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

17 Utilizzo risorse al CNAF
CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

18 Utilizzo risorse al CNAF
Risorse 2012 ancora non installate CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

19 Classificazione dei Tier2
4 Gruppi Alpha: (60% share): T2D con rel > 90% Bravo: (30% share): non T2D con rel> 90% Charlie: (10% share): 80% < rel < 90% Delta: (0% share): rel <80% Necessità di individuare i siti più affidabili per l’analisi cui inviare la maggior parte dei dati. Classificazione in base alle performance (stabilità) CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

20 Reliability & Availability 2011-12
Valori medi Frascati Milano rel ava 98% 96% 92% Napoli Roma 95% 97% Availability = time_site_is_available/total_time Reliability = time_site_is_available/ (total_time-time_site_is_sched_down) CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

21 G. Carlino – Referaggio Calcolo ATLAS
Uso risorse nei Tier2 Uso risorse per “Processing Cloud” per attività per Tier2 IT – 6.46% Quinta cloud La percentuale può essere molto diversa dai pledges dichiarati a causa delle risorse a disposizione nelle varie cloud per le attività nazionali (anche in IT) CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

22 G. Carlino – Referaggio Calcolo ATLAS
Uso risorse Tier2 Le reali performance dei siti sono evidenti non nel confronto con le altre cloud, ma con le risorse a disposizione Pledge (26600) Pledge (18000) Le CPU sono utilizzate pienamente e con continuità. Sistematicamente oltre le pledge Siamo in grado di utilizzare tutte le risorse a disposizione CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

23 G. Carlino – Referaggio Calcolo ATLAS
Efficienze CPU/WCT - produzione CPU/WCT - analisi Eff produzione > 90% per tutti i siti Eff analisi > 80% per tutti i siti CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

24 Accounting ultimo mese
Accounting dei Tier2 Accounting ultimo mese Frascati Milano Napoli Roma 1 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

25 Accounting ultimo anno
Accounting dei Tier2 Accounting ultimo anno Milano Frascati Napoli Roma 1 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

26 Uso risorse CPU a Milano
I dati nell’account DGAS risentono di in problema specifico del CE Condor che genera una sottostima dell’utilizzo, erratica e non facilmente stimabile, anche se probabilmente contenuta Presentiamo quindi i dati ottenuti dalla dashboard di ATLAS, che danno i valori relativi agli altri T2 italiani I commenti riguardano la comparazione con Roma che nel 2011 ha risorse in linea simili a quelle di Milano, mentre nel 2012 ha messo in linea per uso da ATLAS remoto anche circa 25% risorse unpledged che invece a Milano sono state riservate all’uso locale PROOF. La comparazione con NA e’ piu’ complessa perche’ NA ha reso disponibili via Grid addizionali risorse unpledged da SCOPE CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

27 G. Carlino – Referaggio Calcolo ATLAS
Uso CPU T2: ott-dic Torna con saturazione CPU Milano (si vede in Ganglia-MI) con up-time mil 88.6, roma 93.7 ma Roma stava usando circa 10% sue risorse in locale per calib CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

28 G. Carlino – Referaggio Calcolo ATLAS
Uso CPU T2: 2012 uptime 83% mi, 97.7 roma , 95.9 Na: abbiamo avuto problemi gravi di storage e GPFS in gennaio poi qualche problema nell’upgrage di STORM a febbraio. Tenuto conto di un po’ di isteresi ATLAS nello spedire jobs a siti che riprendono dopo lunghi down anche della differenza delle CPU in linea, si capisce 11.3% Mi contro Roma circa 16.8%. CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

29 Attività nei Tier2 Italiani
I Tier2 di ATLAS contribuiscono tutti alle attività di produzione e analisi di ATLAS in maniera indifferenziata CPU pledge a disposizione di tutti gli utenti ATLAS Replica dinamica e preplaced di tutti i dati di ATLAS L’unica differenziazione è determinata dalle aree di storage di gruppo che contengono dati di particolare interesse per le attività italiane e dalle attività di calibrazione o di performance Attività di gruppo Aree gestite dai gruppi (pledged), dati sempre più utilizzati per l’analisi CNAF: SUSY e TOP Milano: MS e EGAMMA Napoli: HIGGS e TRIGGER Roma1: HIGGS e MUONI Attività specifiche Frascati: FTK Milano: EGAMMA performance Napoli: RPC e LVL1 Muon Trigger calibrazione e performance Roma1: MDT calibrazione e performance CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

30 Risorse dedicate attività IT
Analisi Atlas Analisi Italiana Produzione Job running in un Tier2:  Ultima settimana  Ultimo anno L’analisi viene svolta efficacemente nei Tier2 Italiani Le risorse dedicate (dedicabili) sono significative Permettono ai job italiani di andare in run più velocemente senza essere accodati agli altri Non solo analisi, anche prod MC CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

31 G. Carlino – Referaggio Calcolo ATLAS
Proof on Demand (PoD) Proof – tool che parallelizza l’analisi con ROOT su diversi core della stessa macchina (Proof Light) o su un cluster di nodi Demand – possibilità di usare, a richiesta, i nodi di una farm destinata prevalentemente ad altri scopi (per esempio Tier2/3 in GRID) Proof on Demand su un cluster Grid: Tier2 o Tier3 E' stato sviluppato un plugin di PoD per gLite, che da la possibilità agli utenti di attivare un cluster Proof “on demand” su una farm in Grid con middleware gLite e Panda a breve Gli utenti, connettendosi ad una UI, possono lanciare PoD e riservare un certo numero di nodi sulla farm di un Tier2/3 La gestione delle risorse e' simile a quella del cluster locale e il codice per il setup di PoD viene fatto direttamente da cvmfs, disponibile ormai nella maggior parte dei siti di ATLAS PoD permette di abbandonare l’uso di un cluster statico per Proof e mettere in comune in GRID le risorse “Tier3” dei Tier2 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

32 G. Carlino – Referaggio Calcolo ATLAS
Uso della rete nei Tier2 Siti saturi. La limitata banda a disposizione determina performance non eccellenti come T2D Aspettando il GARR-X CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

33 Tier-3 I Tier3 Italiani sono tutti in attività Finanziamenti centrali:
GE+RM (fondi fine 2010) LE+RM (fondi 2012) Stato attuale (maggio 2012): BO, CS, GE, LE, PV, RM3 attivi Setup ATLAS comune a tutti Storage tokens Code Grid e locali Shares fra Grid/prod, Grid/anal e analisi locale definite localmente RM2 in installazione TS solo storage e analisi locale

34 Tier-3 Contributo sia alle attività di produzione (solo MC G4) sia di analisi (solo end user)

35 G. Carlino – Referaggio Calcolo ATLAS
Risorse e Richieste 2013 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

36 Risorse Disponibili 2012 - CPU
CPU disponibili 2012 “pledged” CPU Frascati Milano Napoli Roma Totale HP06 4120 9985 9598 1080 33675 Le CPU totali a disposizione dei Tier2 comprendono anche risorse che non pledged: le CPU obsolete (fino al 2012 e già rifinanziate) ancora in produzione ma in corso di spegnimento CPU non a completa disposizione dei siti (scope a NA, TDAQ a LNF) CPU per uso locale (cluster proof) o in griglia ma dedicate principalmente alle attività italiane (Tier3) finanziate con fondi vari Proof on Demand, share per analisi e simulazione MC per il ruolo atlas/it Queste CPU concorrono alla definizione della linea blue dell’accounting che in alcuni casi è significativamente maggiore della linea rossa Nel conto delle CPU pledged sono comprese le CPU gara CNAF 2012 ancora da installare CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

37 Risorse Disponibili 2012 - Dischi
Storage disponibile 2012 “pledged” Disco Frascati Milano Napoli Roma Totale Totale disponibile 396 1080 1020 3576 to be pledged 3226 Lo storage totale disponibile nei Tier2 comprende anche l’area locale in cui sono conservati i dati di tutti gli utenti italiani (LOCALGROUP), non solo gli utenti locali La dimensione di queste aree è di circa 100 TB per i Tier2 grandi e 50 TB per LNF In gran parte già occupata, gli utenti dovranno cancellare i dati vecchi non più necessari per fare spazio ai dati del 2012 l’utilizzo di queste aree è irrinunciabile per cui il loro volume va sottratto allo storage da dichiare pledged Nel conto del disco totale disponibile sono comprese le recenti acquisizioni ancora da installare CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

38 G. Carlino – Referaggio Calcolo ATLAS
Risorse Obsolete nel 2013 CPU (HS06) Disco (TBn) Frascati 557 36 Milano 1825 184 Napoli 2051 92 Roma 1725 Tot 6158 496 Risorse obsolete 2013 le CPU obsolete sono le macchine comprate nel 2009 e installate fine 2009 inizi 2010 (non sono comprese le macchine installate successivamente). Le CPU hanno garanzia triennale Lo storage obsoleto comprende le SAN comprate nel 2007 e installate giugno Garanzia quinquennale CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

39 Risorse Attività ATLAS 2013
ATLAS ha presentato allo Scrutiny Group le risorse necessarie per le attività 2012 – 2014 Le richieste per il 2013 sono determinate da: simulazione MC di tutti i dati inizio simulazione a 13 TeV reprocessing dei dati con software più performante processamento della delayed stream, raccolta nel 2012 e archiviata su tape 130 Hz di trigger speciali (200 TB di RAW data) analisi di gruppo e utenti Il Computing non sarà in shut-down! Le risorse necessarie sono state calcolate in base all’esperienza dell’anno 2011 che ha evidenziato le reali necessità di risorse per l’analisi utente vs altre attività centrali (MC) Stima realistica! Si è tenuto conto dei notevoli miglioramenti delle performance del software G4 simulation time ridotto di un fattore 2 e con prospettive di ulteriore miglioramento Riduzione della size degli eventi per contrastare l’effetto del pile-up CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

40 Risorse Attività ATLAS 2013
Le CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

41 Risorse Attività ATLAS 2013
Referaggio dello Scrutiny Group CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

42 Risorse Attività ATLAS 2013
Lo Scrutiny Group ha riconosciuto la necessità di risorse aggiuntive dato l’aumento dei valori da 2013 (previous estimate) a (this scrutiny), ha tuttavia effettuato un taglio, soprattutto per i Tier2: 4% Disco e 9% CPU Una delle possibili motivazioni è probabilmente un uso non massimale delle risorse dei Tier2 nel 2011 cui si è ovviato con cambiamenti nel data placement e job brokering nell’anno CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

43 G. Carlino – Referaggio Calcolo ATLAS
Richiesta Risorse I Le risorse necessarie per il 2013 sono determinate dalla volontà di conservare il ruolo significativo nel computing di ATLAS acquisito negli ultimi anni conservando gli share di risorse pledged per le attività centrali: Tier1: 10% Tier2: 10% CPU e 7% Disco e di garantire la competitività agli utenti italiani mediante l’uso di risorse dedicate nei Tier2 e Tier3 ATLAS Share IT ATLAS IT 2013 ATLAS IT disponibile Attività 2013 CPU T1 (kHS) 297 10% 29.7 25.0* 4.7 Disco T1 (PB) 29 2.9 2.5* 0.4 CPU T2 319 31.9 33.7 Disco T2 49 7% 3.43 3.23 0.2 * Pledge 2012 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

44 G. Carlino – Referaggio Calcolo ATLAS
Richiesta Risorse II Le risorse per le attività italiane sono già disponibili e non inclusi nel disponibile “pledged” 2012 e non sono necessarie ulteriori richieste Attività 2013 Attività Italiane Obs Richieste 2013 k€€€€ CPU T2 6.16 86 Disco T2 0.20 0.50 0.70 174 Prezzi stimati: CPU = k€/kHS Disco = 0.35 k€/PB CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

45 G. Carlino – Referaggio Calcolo ATLAS
Back-up Risorse e Richieste 2013 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

46 Risorse Attività ATLAS 2013
CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

47 Risorse Attività ATLAS 2013
CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

48 Risorse Attività 2013 – Tier1
CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS

49 Risorse Attività 2013 – Tier2
Le CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS


Scaricare ppt "Referaggio Calcolo ATLAS"

Presentazioni simili


Annunci Google