La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Stato del Tier-2 di Catania

Presentazioni simili


Presentazione sul tema: "Stato del Tier-2 di Catania"— Transcript della presentazione:

1 Stato del Tier-2 di Catania
Roberto Barbera Università di Catania e INFN Incontro con i referee di INFN Grid Catania,

2 Sommario Stato del Tier-2: Stato acquisti con fondi s.j. 2008;
Logistica e servizi; Consumi elettrici; Prestazioni in termini di disponibilità ed affidabilità; Analisi dei problemi e loro soluzioni; Nuovo sistema di monitoraggio e statistiche di utilizzo; Confronto tra accounting locale e HLRMon; Stato acquisti con fondi s.j. 2008; Richieste su fondi s.j. 2009; Impianto fotovoltaico; Personale afferente al Tier-2; Conclusioni. Catania, Incontro con i referee di INFN Grid,

3 Catania Computing Room (1/2)
3D Model of Catania Data Center Area # 2 80 kW UPS/PDU Full Area: ~200 m2 Area # 1 10 racks / 40 kW UPS/PDU Area # 2 13 racks Area # 2 80 kW Air Cond. with ~110 kW external chiller External 350 kVA Diesel power generator Catania, Incontro con i referee di INFN Grid,

4 Catania Computing Room (2/2)
Area # 2 Area # 1 Security system Fire estinguisher system Area # 2 Catania, Incontro con i referee di INFN Grid,

5 Catania Local Area Network
RACK RACK SAN SE RACK SE 4948 RACK RACK 1 Gbps 4507 4 Gbps 10 Gbps Area #1 GARR Catania, Incontro con i referee di INFN Grid,

6 “Panoptes” LAN Monitoring (basato su Nagios, NTOP, ecc.)
Autori: R. Catania, E. Giorgio, G. Passaro, G. Ricciardi, G. Sava Esempio di sinergia Grid-Centro di Calcolo Catania, Incontro con i referee di INFN Grid,

7 Consumi elettrici di Catania (INFN + COMETA)
Il consumo annuale è pari a ~115 k€; Esso è imputabile per il 60% all’INFN e per il 40% a COMETA Catania, Incontro con i referee di INFN Grid,

8 Ordine di spegnimento del Direttore
Catania, Incontro con i referee di INFN Grid,

9 CPU e kSI2K per VO a Catania
Sito di produzione INFN Grid Catania Sito TriGrid di INFN Catania Catania, Incontro con i referee di INFN Grid,

10 Risorse pledged per il 2009 297 1638 Da fine Maggio 2009 Catania ha ~18% dei kSI2K totali ~135 kSI2K hanno più di 4 anni ! Catania, Incontro con i referee di INFN Grid,

11 Profilo d’età delle CPU
Nessuna delle CPU di Catania è più giovane di 2 anni d’età! Catania, Incontro con i referee di INFN Grid,

12 Statistiche dei job di ALICE (1/2) (prese da MonaLisa: 1/10/08-4/9/09)
84.6% La frazione di job running a Catania è proporzionale alla frazione di kSI2K. Catania, Incontro con i referee di INFN Grid,

13 Statistiche dei job di ALICE (2/2) (prese da MonaLisa: 1/10/08-4/9/09)
9.4% 21.5% Catania, Incontro con i referee di INFN Grid,

14 Availability del T-2 di Catania
DIP1 DIP2 “DIP4” SLA Catania, Incontro con i referee di INFN Grid,

15 Reliability del T-2 di Catania
DIP1 DIP2 DIP3 “DIP4” SLA Catania, Incontro con i referee di INFN Grid,

16 DIP1 – Problemi all’SE (1/3)
L’SE ALICE::Catania::DPM viene commissionato alla fine di Febbraio 2008; Dopo circa un mese di utilizzo: Catania, Incontro con i referee di INFN Grid,

17 DIP1 – Problemi all’SE (2/3)
All’inizio di Settembre 2008 l’SE contiene il 44.2% di tutta la produzione relativa a PDC08 ma si riempie completamente e diventa inutilizzabile per successive produzioni (il numero di job a Catania diminuisce); A metà Novembre 2008, dopo l’approvazione da parte del Consiglio Direttivo dello sblocco del s.j , viene indetta la gara per acquistare dello storage aggiuntivo; A Dicembre 2008 uno dei disk server dello storage si guasta e diminuisce l’availability del Tier-2 (il GRIS di sito comincia “a fare i capricci”); Catania, Incontro con i referee di INFN Grid,

18 DIP1 – Problemi all’SE (2/3)
A Gennaio 2009 viene consegnato lo storage aggiuntivo ma i driver giusti non sono disponibili per SL3 e passano alcune settimane per poterli avere e far partire l’operazione di “estendere” la partizione GPFS; Lo storage viene ricommissionato solo a fine Gennaio ma si riesce comunque ad avere il 5.3% di tutta la produzione PDC09 (che, in assoluto, è comunque 3 volte più grossa di PDC08); Meno file sull’SE di Catania comportano quindi anche meno job di analisi sul CE; Da allora, comunque, sorgono i problemi relativi all’interfaccia software tra DPM e xrootd, comuni anche agli altri grossi siti con molti accessi concorrenti. Catania, Incontro con i referee di INFN Grid,

19 DIP2 – Problemi al CE A fine Febbraio 2009 si decide, per omogeneizzare il LRMS del Tier-2 e di COMETA, di fare l’upgrade di LSF alla versione 7.0.3; Ciò ci ha fatto “incappare” nel bug 47245; Dopo innumerevoli test (con l’availability del T-2 che andava giù!) viene trovato un workaround “semi- automatico” che permette al CE di tornare a funzionare; il bug è stato ufficialmente chiuso solo il 19 Agosto 2009!! Catania, Incontro con i referee di INFN Grid,

20 DIP3 – Riconfigurazione delle policy di scheduling (1/2)
Dopo lo spegnimento di parte delle macchine, fatto a fine Maggio 2009, e le “critiche” ricevute nell’incontro del 12 Giugno 2009, viene decisa una nuova politica di allocazione delle risorse; Prima (uso della pre-emption per i job di ALICE e di OPS): La pre-emption libera immediatamente la CPU ma non la memoria e questo può portare a crash della macchina se il job sospeso ne occupava una grossa frazione; Inoltre, gli utenti possono stancarsi di vedere i loro job sospesi, cancellarli, e non voler più usare il Tier-2 di Catania. Catania, Incontro con i referee di INFN Grid,

21 DIP3 – Riconfigurazione delle policy di scheduling (2/2)
Dopo (assegnazione fissa di core a code relative a VO): Un certo numero di cores sono stati assegnati in modo fisso ai job di ALICE mentre il resto è condiviso tra i job delle altre VO; In tal modo quando un job viene eseguito sul WN trova tutta la memoria libera. Catania, Incontro con i referee di INFN Grid,

22 “DIP4” – Problema all’impianto di raffreddamento dell’area #1
Lunedì 3 Agosto 2009, alle circa, l’intasamento di un filtro dell’impianto di condizionamento dell’area #1, unito al cedimento di una guarnizione di teflon, causa una grossa fuoriuscita d’acqua in sala macchine da un tubo ad alta pressione; Il sistema di controllo di APC manda l’allarme immediatamente ma, quando il personale interviene (~20’ dopo l’allarme), ci sono già parecchie centinaia di litri d’acqua per terra; si procede quindi all’arresto di emergenza dell’erogazione di energia elettrica; La sala macchine viene accuratamente asciugata ma l’incidente comporta un fermo imprevisto di 3 giorni. Alla riaccensione, nessun danno viene registrato all’infrastruttura. Catania, Incontro con i referee di INFN Grid,

23 Nuovo sito di monitoraggio del T-2 di Catania (http://grid. ct. infn
Catania, Incontro con i referee di INFN Grid,

24 Statistiche di utilizzo (1/3) (monitor locale di LSF – ultimi 12 mesi)
Il Tier-2 di Catania è il sito di INFN Grid che supporta in assoluto più VO. Catania, Incontro con i referee di INFN Grid,

25 Statistiche di utilizzo (2/3) (monitor locale di LSF – ultimi 12 mesi)
114 anni di CPU in 1 anno; ~30% di efficienza; In linea con EGEE. Catania, Incontro con i referee di INFN Grid,

26 Statistiche di utilizzo (3/3) (monitor locale di LSF – ultimi 12 mesi)
È in corso un confronto tra i dati del monitoring locale e quelli pubblicati da HLRMon. Si vedano le successive tre slide. Catania, Incontro con i referee di INFN Grid,

27 Analisi dei dati pubblicati da HLRMon (1/3)
Il calcolo dei grafici di WCT e CPT di HLRMon sono basati sul valore della variabile SI00Mean: SI00Mean ≡ “GlueHostApplicationSoftwareRunTimeEnvironment: SI00MeanPerCPU“ Osservazione #1: a rigore, SI00Mean andrebbe pubblicato per coda (cioè per CE) mentre invece è attualmente ammesso un valore unico per tutto il sito; ciò può inficiare i dati di accounting anche sensibilmente; Tenendo conto delle macchine accese/spente e, quindi, dei core (192) e dei kSI2K (297) disponibili per ALICE, il valore di SI00Mean per il Tier-2 di Catania è, ad oggi, 1547; Erroneamente, sul BDII era pubblicato il valore 2000 che è stato corretto; Osservazione #2: gli attuali valori di fondo scala di HLRMon non tengono conto di assegnazioni statiche di core a VO, come avviene sul Tier-2 di Catania, e quindi sono misleading. Catania, Incontro con i referee di INFN Grid,

28 kSI2K-day CPT per VO/day
Analisi dei dati pubblicati da HLRMon (2/3) (grafici aggiornati al 7/9/09) kSI2K-day CPT per VO/day Last 30 days Catania, Incontro con i referee di INFN Grid,

29 kSI2K-day CPT per VO/month
Analisi dei dati pubblicati da HLRMon (3/3) (grafici aggiornati al 7/9/09) kSI2K-day CPT per VO/month Last year Catania, Incontro con i referee di INFN Grid,

30 Sito TriGrid_Catania (1/2)
Nel 2008 il sito TriGrid_Catania ha egregiamente contribuito alle produzioni di ALICE: Catania, Incontro con i referee di INFN Grid,

31 Sito TriGrid_Catania (2/2)
Per ragioni legate all’esecuzioni delle altre applicazioni del progetto TriGrid VL, la versione di gLite installata sul sito TriGrid_Catania è stata congelata e, ad un certo momento, una modifica di AliEn lo ha reso inutilizzabile; Da una certa versione, AliEn non supporta più il GRIS ma solo il BDII; in AliEn 2.17, rilasciata durante l’estate, S. Bagnasco ha generalizzato gli script allo scopo di consentire un supporto ai siti che usano ancora il GRIS; Adesso che il progetto TriGrid VL è terminato, il sito è sotto riconfigurazione per entrare a far parte di nuovo del Tier-2 di ALICE e si stat testando la patch della versione 2.17. Catania, Incontro con i referee di INFN Grid,

32 Stato acquisti fatti con fondi s.j. 2008
Con i 96 k€ (IVA inclusa) del fondo s.j sono stati acquistati: N. 1 IBM DS4700 con 96 TB di spazio disco; N. 2 server di front-end per GPFS IBM x3655; N. 2 switch FC per SAN; N. 1 switch CISCO GE; L’hardware è stato tutto consegnato a fine Luglio 2009: Lo storage è già in fase di installazione con GPFS+SToRM+ xrootd; Lunedì 14 Settembre il CISCO 4948 verrà collegato a 10 Gb/s al CISCO 4507 che funge da “border router”; Maggiori dettagli saranno forniti durante la visita di oggi pomeriggio. Catania, Incontro con i referee di INFN Grid,

33 Richieste su fondi s.j. 2009 Sul fondo s.j si richiedono a Catania k€ per l’acquisto del seguente hardware: 135 kSI2K di potenza di calcolo (17.5 k€); 58 TB di storage (52.2 €); 1 UPS Symmetra PX 48 kW (40 k€); L’acquisto dell’UPS si è reso necessario per potenziare l’area #1 della sala macchine e procedere ad un improcrastinabile riordino dell’hardware al fine di migliorare le performance di accesso ai dati: Maggiori dettagli saranno forniti durante la visita di oggi pomeriggio. Catania, Incontro con i referee di INFN Grid,

34 Impianto fotovoltaico (1/3)
L’idea è quella di coprire il tetto del Dipartimento di Fisica e Astronomia con un campo fotovoltaico totalmente integrato: Catania, Incontro con i referee di INFN Grid,

35 Impianto fotovoltaico (2/3)
Superficie occupabile: ~2200 m2; Angolo di azimut rispetto al Sud: 26°; Valore di occupazione della superficie: 8.5 m2 per kWp; Potenza installata minima: 190 kWp Perdite dovute agli ombreggiamenti: <6%; Producibilità minima: 1435 kWh/(kWp·anno) ossia poco più di 270 MWh/anno; Costo “chiavi in mano” stimato: 1 M€, oltre IVA. Calcoli effettuati con “Sole advanced 2.0” ed i dati di irraggiamento e le temperature medie mensili UNI10349. Catania, Incontro con i referee di INFN Grid,

36 Impianto fotovoltaico (3/3)
È stato ultimato il progetto preliminare di massima; È stato definito un possibile capitolato d’appalto e sono stati informati sia la GE che gli Uffici competenti dell’AC dell’INFN; È stata richiesta all’Università di Catania la concessione di utilizzo per 25 anni del tetto del Dipartimento di Fisica e Astronomia; giusto ieri è giunta comunicazione ufficiosa dell’OK da parte dell’Ufficio Tecnico di UniCT. Catania, Incontro con i referee di INFN Grid,

37 Personale afferente al Tier-2 (non è ivi compreso il gruppo di ricerca)
Personale permanente: Giuseppe Andronico (Tecnologo, responsabile del Centro di Calcolo, 30%). Roberto Barbera (P.A., responsabile del T-2, 50%); Patrizia Belluomo (CTER del Centro di Calcolo, 20%) Giuseppe Platania (CTER del Centro di Calcolo, 50%); Carlo Rocca (CTER del Centro di Calcolo, 20%); Giuseppe Sava (CTER del Centro di Calcolo, 20%); Personale a contratto: Salvatore Monforte (Art.23 fino al , stabilizzando, 50%); Rosanna Catania (Art.2222 di COMETA dal 1/9/2009 fino al 30/6/2010, 100%); Elisa Ingrà (Borsista INFN fino al , 50%); Gianluca Passaro (Art.2222 di COMETA dal 1/9/2009 fino al 30/6/2010, 100%); Alberto Pulvirenti (Ass. Ric., 30%); Andrea Cortellese (Borsista INFN da 11/2009 per 2 anni, 20%); Fabrizio Pistagna (Borsista INFN da 11/2009 per 2 anni, 20%); Riccardo Rotondo (Borsista INFN da 11/2009 per 2 anni, 20%) Catania, Incontro con i referee di INFN Grid,

38 Conclusioni (1/2) Il Tier-2 di Catania è il sito di INFN Grid che supporta più VO; Tra queste, ALICE non è quella che ha il modello di calcolo più semplice e scalabile (es.: una VObox per cluster!); Le “prestazioni” del Tier-2 di Catania sono proporzionali alle risorse di calcolo in esso disponibili ed al loro grado di obsolescenza; Le cause di alcuni problemi di affidabilità e disponibilità avuti nel corso del 2009 sono state individuate ed analizzate: in molti casi non sono riconducibili a problemi locali ma piuttosto a deficienze del middleware; soluzioni efficaci sono state trovate in tutti i casi nei più brevi tempi possibili; Le statistiche di utilizzo basate sul sistema di monitoring ed accounting locale sono in contrasto con quanto pubblicato da HLRMon: alcune cause sono state individuate ed è in corso un’analisi puntuale delle discrepanze; Catania, Incontro con i referee di INFN Grid,

39 Conclusioni (2/2) Gli acquisti fatti con i fondi del s.j sono stati effettuati e l’hardware è in fase avanzata di commissioning; Le richieste sui fondi s.j sono in linea sia con le necessità dell’Esperimento che con quelle della sede locale; un Tier-2 non può considerarsi a costo zero “sine die”; Il personale permanente afferente al Tier-2 andrebbe potenziato; è urgente l’assegnazione a Catania di almeno un’unità di personale con contratto a tempo indeterminato (attualmente si può contare sul 50% di un Art. 23 “stabilizzabile”); L’impianto fotovoltaico è stato definito ma, quando verrà realizzato, non rappresenterebbe la panacea in quanto potrà coprire poco meno dei costi attuali legati ai consumi elettrici; Senza un apporto finanziario esplicito e costante da parte dell’INFN, il Tier-2 di Catania è da considerarsi “a crescita zero” (a meno degli sviluppi tecnologici riguardanti l’aumento di potenza di calcolo delle CPU a parità di potenza elettrica consumata). Catania, Incontro con i referee di INFN Grid,

40 Thank you very much! Any Questions ?
Catania, Incontro con i referee di INFN Grid,


Scaricare ppt "Stato del Tier-2 di Catania"

Presentazioni simili


Annunci Google