La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Referaggio Tier2 Frascati INFN - Laboratori Nazionali di Frascati 20/06/2011.

Presentazioni simili


Presentazione sul tema: "Referaggio Tier2 Frascati INFN - Laboratori Nazionali di Frascati 20/06/2011."— Transcript della presentazione:

1 Referaggio Tier2 Frascati INFN - Laboratori Nazionali di Frascati 20/06/2011

2 Agenda  Il gruppo di ATLAS dei LNF  Attività del gruppo in breve  Computing Model di ATLAS  Movimentazione dei dati  Cloud italiana  Accounting e performance del Tier2 di Frascati  La sala calcolo  Infrastruttura di rete  La farm di Frascati  Stima di crescita LNF - 20/06/2011 2

3 Il gruppo ATLAS LNF A. Annovi, M. Antonelli(Resp.), M.M. Beretta, H. Bilokon, E. Capitolo (Tech.), F. Cerutti, V. Chiarella, M. Curatolo, M. Dreucci, B. Esposito, M.L. Ferrer, C. Gatti, P.F. Laurelli, G. Maccarrone, A. Martini, G. Nicoletti, R. Di Nardo, G. Pileggi (Tech.), B. Ponzio(Tech.), V. Russo(Tech.), A. Castegnaro(Laur), A. Sansoni, M. Testa (Ass.Ric.), T. Vassilieva (Tech.), E. Vilucchi, G. Volpi  In sostanza :  Ricercatori 12.8 FTE  Tecnologi 3.1 FTE  Tecnici  Laureandi LNF - 20/06/2011 3

4 Attività molto in breve  Si tratta di un gruppo storico(~20 anni) di ATLAS che ha dato un contribuito molto rilevante nel:  progetto, costruzione, test e installazione dello spettrometro a  di ATLAS  Trigger DAQ e calcolo  Recentemente l’attività si è naturalmete riversata su  analisi dei dati, algoritmi di ricostruzione e ottimizzazioni prestazioni del rivalatore  upgrade con trigger all’inizio del 2 o livello con ricostruzione veloce di tracce (FTK)  manutenzione dello spettrometro LNF - 20/06/2011 4

5 ATLAS MDT: from LNF to CERN 94 BML (Barrel Medium Large) High Precision Chambers of the ATLAS Muon Spectrometer built in LNF with about 26000 tubes. Installation and commissioning of the barrel spectrometer: Overall coordination + Physicists &Technicians contribution ATLAS management deputy project leader MS LNF group developed the full mechanical chamber project used by many other institutes Fully automatic wiring machine assembling BML installation LNF - 20/06/2011 5

6 Performances & Physics Relevant contribution to  spectrometer performances study: efficiency, calibration, resolution Muon Analysis Task Force coordination Leading role of coordination and papers editing Relevant contributions to missing E T reconstruction Energy Flow package responsibility Important role in conf/note and papers LNF - 20/06/2011 6

7 Performances & Physics Relevant contribution and paper editing for the measurement of J/  suppression in Pb-Pb collisions Measurement of the inclusive muon cross section and p T spectrum LNF - 20/06/2011 7

8 Two time-consuming jobs in tracking: Pattern recognition & Track fitting  Pattern recognition – find track candidates with enough Si hits  10 9 prestored patterns (roads) simultaneously see the silicon hits leaving the detector at full speed.  Based on the Associative Memory chip (content-addressable memory) initially developed for the CDF Silicon Vertex Trigger (SVT). Sviluppo di un nuovo AMchip a 65nm (M. Beretta) Sviluppo di nuove tecniche di pattern matching a risoluzione variabile (G. Volpi, A. Annovi) [G. Volpi, ANIMMA 2011, "A new Variable Resolution Associative Memory for High Energy Physics"] LNF - 20/06/2011 8

9 Computing Model originale  Modello di calcolo gerarchico a Tier basato sul paradigma Grid  Un Tier0 (Cern)  10 Tier1  ~70 Tier2  Numerosi Tier3  I dati vengono distribuiti gerarchicamente dal Tier0 ai Tier1 e dai Tier1 ai Tier2.  I Tier1 comunicano tra loro. I Tier2 ricevono solo dati dal proprio Tier1  I job vanno dove sono i dati LNF - 20/06/2011 9

10 Attività dei Tier  Tier0 (CERN)  Acquisizione dei dati RAW e archivio su nastro  Calibrazione e allineamento  Primo processamento  Distribuzione dei dati ai Tier1  Tier1  Memorizza su nastro una percentuale dei dati RAW  Effettua un riprocessamento dei dati (nuovo software, nuove costanti di calibrazione)  Simulazione  Ospita job di analisi dei gruppi di fisica e degli utenti  Distribuisce i dati ai Tier2  Tier2  Più Tier2 collegati allo stesso Tier1 formano una cloud  Attività di simulazione  Analisi utenti e di gruppo  Tier3  Test di software, analisi dati, produzione, analisi interattiva (ROOT, Proof) e sviluppo codice. LNF - 20/06/2011 10

11  Sistema di popolarità dei dati per stabilire quali sono i dati più acceduti,  Sistema di cancellazione dei dati (data deletion) in base alla loro popolarità e alla disponibilità di spazio disco (i dati secondari vengono cancellati quando lo spazio disco scende sotto una certa quota)  PD2P: Panda Dynamic Data Placement: sistema di replica dei dati popolari per l’analisi ai Tier2.  Quando lo spazio disco del Tier2 scende sotto una certa soglia il sistema di cancellazione libera spazio in base alla popolarità. I Tier2 diventano delle cache di dati. Computing Model: evoluzioni LNF - 20/06/2011 11

12 Computing Model dinamico  Ulteriore evoluzione: i Tier2 saranno collegati con i Tier1 e Tier2 delle altre cloud.  Alcuni Tier2 di grandi dimensioni, affidabili e con connessioni di rete tali da garantire un buon throughput, non saranno solo cache di dati, ma anche sorgenti per il PD2P con il preplacement di una quota di dati: Tier2 Direct (T2D) (18 siti tra cui i tre Tier2 italiani approvati). LNF - 20/06/2011 12

13 Distribuzione dei dati  Il sistema di movimentazione dei dati è il DDM: Distributed Data Management. L’architettura del DDM è implementata negli attuali tool del DQ2.  Il DDM si fa carico di distribuire i dati, aggregati in dataset, tra i Tier, catalogarli, cancellarli, fornire agli utenti i tool per utilizzarli, ecc…  Nei siti i file sono organizzati in aeree chiamate space token.  Gli utenti possono chiedere la replicazione dei dataset in un sito specifico nello space token LOCALGROUPDISK. LNF - 20/06/2011 13

14 Cloud Italiana  Tier1  CNAF  Tier2  Frascati proto-Tier2  Milano  Napoli  Roma1  Tier3 “Grid enabled”  Genova  Roma3  Trieste/Udine  Bologna  Due Tier3 sudafricani: ZA-UJ, ZA-WITS LNF - 20/06/2011 14

15 Attività della cloud italiana  Gestione e monitoraggio delle attività di computing di ATLAS nei siti italiani  Gestione locale dei siti e confronti su problematiche riscontrate, cercando soluzioni comuni del middleware e dell’hardware  Supporto all’analisi degli utenti  Studi delle ottimizzazione dei sistemi comuni, es:  I batch system: tre siti hanno PBS/Torque e Maui, test delle diverse configurazioni del fair share  Milano e il CNAF hanno Storm  Roma1 e il CNAF hanno LSF  Studio e confronto dei test effettuati nei siti:  Test di funzionalità della rete  Test di funzionalità di analisi: Hammer Cloud test  Test di trasferimento dati  Si tratta di test quotidiani rilevanti al fine dell’attività del sito (balcklist) LNF - 20/06/2011 15

16  Studio e implementazione di nuove soluzioni al Tier1 e Tier2 per:  Attività continua per trovare le soluzioni più performanti per I siti, per hardware e software. Esempio: studio con le HC dell’architettura di rete interna.  Minimizzare le inefficienze della cloud. Esempio: replica con Oracle Data Guard del servizio LFC del CNAF a Roma1  Migliorare l’uso delle risorse dei siti. Esempio: studio e implementazione delle Job Priorities, share delle CPU per job con Panda  Analisi dell’accesso e movimentazione dei dati:  Replica dei dati  Cancellazione dei dataset  Problemi nell’accesso ai file  Gestione delle sottoscrizioni all'interno della cloud e informazione degli utenti Attività della cloud italiana LNF - 20/06/2011 16

17  Organizzazione supporto cloud:  Phone conference quindicinali per coordinare l’attività della cloud  Shift a rotazione per controllare:  lo stato dei siti e dei servizi offerti  i trasferimenti  le attività di produzione, analisi, re-processing, ecc…  Mailing list:  atlas-it-t2-op@lists.infn.it: federazione dei Tier2 italiani  atlas-support-cloud-it@cern.ch: supporto alla cloud italiana atlas-support-cloud-it@cern.ch  atl-usercalc@lists.infn.it: utenti di ATLAS italiani atl-usercalc@lists.infn.it Attività della cloud italiana LNF - 20/06/2011 17

18  Gare comuni per gli acquisti per i Tier2 e Tier1  Test su hardware proposti per gli acquisti:  Misure di throughput storage  Benchmack cpu  Successiva verifica, per tutti i siti, dello stato delle installazioni, test e messa in produzione delle risorse acquistate  Preparazione di presentazioni per conferenze: Chep, IEEE, ecc… Attività della cloud italiana LNF - 20/06/2011 18

19 Partecipazione di Frascati alla cloud Italiana  Il personale del proto-Tier2 di Frascati fin dall’inizio ha partecipato attivamente a tutte le attività della cloud italiana precedentemente elencate, dando un contributo al calcolo dell’esperimento che va oltre l’amministrazione della farm di Frascati  Inoltre, il personale inserito nelle attività di computing può meglio supportare l’attività del gruppo di analisi locale. LNF - 20/06/2011 19

20 Il Tier2 di Frascati  Il Tier2 di Frascati è più piccolo degli altri Tier2 (poco meno di un terzo), ma ha sempre partecipato a tutte le attività dell’esperimento riportando alti valori di performance e availability/reliability.  È stato quindi pienamente utilizzato dall’esperimento come dimostrano i plot di accounting Sito a maggio 2011Hep Spec 06TB Frascati2331260 Milano7374874 Napoli8078872 Roma17878872 LNF - 20/06/2011 20

21 Il Tier2 di Frascati: availability e reliability  Availability e reliability del Tier2 di Frascati negli ultimi 12 mesi  Novembre 2009 e settembre 2010 sono stati casi particolari in cui si sono presentati problemi dovuti ad apparati vecchi ora in via di dismissione  Alti valori di availability e reliability per il 2011 LNF - 20/06/2011 21

22 Il Tier2 di Frascati: accounting  Wall clock time dei job eseguiti nell’ultimo anno confrontato con le risorse del sito. La linea rossa corrisponde alle risorse effettivamente installate senza aver abilitato l’hypertreading, la lineaa blu corrisponde al numero di job- slot disponibili con hyper- treading abilitato, ma a volte, per problemi di spazio disco, il numero di job slot assegnato è stato inferiore.  Accounting dell’ultimo mese LNF - 20/06/2011 22

23  Efficienza per tutti I job, periodo aprile-giuno, superirore al 90%  CPU time/wall time Il Tier2 di Frascati: efficienza  Efficienza della cloud italiana, nell’ultimo anno, per i job di simulazione. Il sito di Frascati riporta tra le efficienze più alte.  # job succ/# job totali LNF - 20/06/2011 23

24 Il Tier2 di Frascati: uso delle risorse  Sharing delle risorse dei siti italiani per la produzione  Sharing delle risorse dei siti italiani per l’analisi  I plot si riferiscono al numero di job negli ultimi dodici mesi  Frascati contribuisce per un terzo degli altri siti, avendo dimensioni anche minori LNF - 20/06/2011 24

25  Wall clock time (perido aprile-giugno) per tutti I job INFN-FRASCATI 5 Il Tier2 di Frascati: uso delle risorse LNF - 20/06/2011 25

26  Job eseguiti nel periodo aprile-giugno INFN-FRASCATI INFN-MILANO-ATLASC 47,430 65,489 Il Tier2 di Frascati: uso delle risorse LNF - 20/06/2011 26

27  Oltre alla buona percentuale di share, notare anche la continuità di attività del sito  Processing share Il Tier2 di Frascati: uso delle risorse LNF - 20/06/2011 27

28 Calcolo Tier 2 Kloe Garr Nastri utenti Altri experim Il Tier2 di Frascati: la sala calcolo LNF - 20/06/2011 28

29 Calcolo Tier 2 Kloe Garr Nastri utenti Altri experim QE Blindosbarre Fancoils Quadro Elettrico Il Tier2 di Frascati: la sala calcolo LNF - 20/06/2011 29

30 Il Tier2 di Frascati: infrastruttura di rete  Rack dei server: switch 3Com 4500G, 48 porte, Gigabit Ethernet e due uplink a 10 Gigabit Ethernet per interconnessione tra i rack.  In uno switch configurate ulteriori porte a 10 Gbps per collegare i server di disco, mentre l’altro è connesso allo switch centrale del servizio di calcolo tramite una porta Gigabit Ethernet.  Dedicata network IP pubblica di classe C per la raggiungibilità sulla rete Internet (indirizzo 192.84.128.0/24) e una privata per l’accesso alle console e la gestione degli apparati (indirizzo 192.168.222.0/24). LNF - 20/06/2011 30

31  Per la connettività verso la rete geografica, i Laboratori hanno il POP GARR nell’edificio Calcolo. La connessione fisica è in fibra ottica (1 Gbps, aumentabile a 2Gbps) e la banda impegnata è mediamente 500 Mbps (BGA). Il POP GARR a sua volta è connesso al nodo di Roma con 2 link di backbone a 2.5 Gb/s.  È prevista l’upgrade del nodo del GARR a GARR-X, che prevede un’infrastruttura di backbone a 10- 40Gbps con capacità di accesso a 10Gbps. Il Tier2 di Frascati: connettività verso la rete geografica dei LNF LNF - 20/06/2011 31

32 Garr GigabitEthernet 1Gb/s Verso il GARR VLAN 80 – LNF network principale VLAN 2 – Kloe VLAN 192, 195 e 197 VLAN 161 VLAN 160 VLAN 3 (Tier2) VLAN 130 Swcalc1 – Cisco 6509 Swcalc2 – Cisco 6506 HSRP Swkloe1 – Swkloe2 2 x Cisco 6509 HSRP Swlat Cisco 6006 Swlabmaster – Cisco 4506 Lnfgw Cisco 7606 VLAN 131 Altre VLAN VLAN 26 VLAN 228 Connettività verso la rete geografica dei LNF LNF - 20/06/2011 32

33  Risorse computazionali:  26 WNs Blade/Twin, Intel Xeon E5430 2.66 GHz, E5520 2.27 GHz, E5620 2.4 GHz  352 job slot, 2321 HepSpec  Sistema di storage  Tre sistemi configurati in RAID6 e file system XFS su volumi di ~ 9TB, per un totale di 192TB raw, ~150TB netti attualmente installati  260 TB netti con l’ultima gara effettuata  Middleware: gLite 3.1/3.2 (su SL4/5), release INFN-Grid  Servizi ospitati  CE: lcg-CE, CREAM CE  SE: DPM con 4 pool node  Batch system: torque  Site-BDII  HLR: accounting (D-GAS)  UI  Ganglia e Nagios (del calcolo e del CNAF) per monitoring e allarmistica Il Tier2 di Frascati: la farm LNF - 20/06/2011 33

34  Il gruppo locale ha a disposizione una user interface collegata a disco non inserito nella Grid  La UI ha:  Tool dq2 per il data management: gli utenti possono gestire dati nella Grid  Tool per sottomettere job di analisi distribuita tramite il WMS: Ganga  Tutti i tool della Grid per sottomettere job, recuperare dati, consultare l’IS, ecc…  Gli utenti possono  Sottomettere job in interattivo  Sottomettere job alla Grid  Movimentare dati della Grid e salvare gli output dei job sulla Grid o sul disco locale  A breve: sottomettere job ad un sistema di code locali La farm di Frascati: calcolo locale LNF - 20/06/2011 34

35  Share della cloud italiana: ~10%  In base alle previsioni di calcolo dei prossimi anni possiamo ipotizzare, per il Tier2 di Frascati, la seguente crescita fino al 2013  I numeri per il 2012/13 sono i valori medi di un Tier2 italiano e sono stati usati per dimensionare la sala Il Tier2 di Frascati: ipotesi di sviluppo 201120122013 CPU (Hep Spec 06)232170008000 Disco (TB)26010001300 LNF - 20/06/2011 35

36  Ipotizziamo per gli apparati di calcolo e di storage i consumi sotto riportati:  Server dual quad-core: circa 300W;  Server di calcolo twin pari a due macchine dual quad-core con 200 HS di capacità di calcolo, oppure pari a due macchine dual esa-core con 300 HS di capacità di calcolo: circa 500W;  Sistema raid da 108 dischi da 2TB completo di quattro server (cioè circa 170TB netti): circa 3kW. 201120122013 CPU(kW)5.813.615.3 Disco (kW)4.617.623 TOTALE kW10.431.238.3 Contingenza del 20% per switch, vecchi apparati, ecc… 133846 Il Tier2 di Frascati: ipotesi di sviluppo LNF - 20/06/2011 36

37 Il Tier2 di Frascati: Conclusioni  Il sito di Frascati ha dimostrato di essere performante e a livello dei migliori siti di ATLAS per numerosi anni (2005)…  L’esperimento è soddisfatto del suo funzionamento…  Abbiamo un’infrastruttura che potrà ospitare un Tier2…  …qundi siamo pronti per essere un Tier2 ufficilale!!! LNF - 20/06/2011 37

38 Backup LNF - 20/06/2011 38

39  Eccessiva richiesta di spazio disco  Eccessiva proliferazione di formati di dati,  Repliche di dati mai utilizzati che vengono solo copiati e cancellati,  Impossibilità a fornire tutti I dati ad ogni cloud (sopratutto le più piccole),  Trasferimenti tra le cloud attraverso salti multipli tra i Tier  Non viene ottimizzato l’uso delle CPU Computing Model: limitazioni LNF - 20/06/2011 39

40 Distributed Data Management: DDM/DQ2  L’architettura del DDM è implementata negli attuali tool del DQ2  L’unità di storage che viene trasferita è il dataset  Un dataset contiene tutti i file con eventi statisticamente equivalenti  DDM si fa carico di:  Distribuire i dati prodotti nel Tier0 ai Tier1 e Tier2  Distribuire i dati simulati e riprocessati prodotti nei Tier1 e Tier2  Distribuire i dataset richiesti dagli utenti e dai gruppi  Gestire la movimentazione dei dati generata dall’attività di produzione  Catalogare i dataset (file, dimensione, sito, ecc…)  Verificare la consistenza tra i cataloghi di ATLAS LFC, I database degli SRM locali e I file realmente residenti su dischi e nastri  Fornire informazioni sull’uso di ciscuna replica di dataset: popolarità  Cancellare repliche di dataset obsolete o non necessarie dai dischi se non usate  Fornire agli utilizzatori finali tool per lavorare con I dataset (import/export, move, ecc…) LNF - 20/06/2011 40

41 Come sono organizzati I dati nei siti  I dati sono aggregati in dataset e container di dataset e possono essere trasferiti solo come parte di un dataset attraverso un servizio di sottoscrizioni per copiare una replica in un determinato sito  I file memorizzati nei siti sono organizzati in aeree chiamate space token:  DATADISK/DATATAPE  real data  GROUPDISK  group analysis data (dati di analisi dei gruppi di fisica)  HOTDISK  dati a cui si accede spesso  LOCALGROUPDISK  dati del gruppo di analisi locale  MCDISK/MCTAPE  dati Monte Carlo (risultati delle simulazioni)  PRODDISK  buffer per i dati di produzione (input)  SCRATCHDISK  dati temporanei per l’analisi  Gli utenti possono chiedere la replicazione dei dataset nello space token LOCALGROUPDISK  I risultati dei job di analisi devono essere memorizzati nello space token SCRATCHDISK, gli utenti poi sono responsabili della replicazione dei dataset nei siti LNF - 20/06/2011 41

42 Test dei siti  I siti sono continuamente testati sia come siti in Grid che come siti ATLAS  In quanto siti in Grid, un server Nagios controlla lo stato dei servizi pubblicati  Come sito ATLAS viene validato per l’analisi distribuita con functional test e stress test:  I functional test vengono eseguiti attraverso la machinery GangaRobot, che esegue continuamente dei brevi job di analisi in tutti i siti. I risultati finiscono nella pagina SAM dei test ed il sito va in una black list se fallisce  I test delle HammerCloud sono usati per fare stress test on-demand su più siti; quindi vengono usati per il commissioning di nuovi siti, per ottimizzare le performance dei siti esistenti e fare confronti con i siti di riferimento LNF - 20/06/2011 42


Scaricare ppt "Referaggio Tier2 Frascati INFN - Laboratori Nazionali di Frascati 20/06/2011."

Presentazioni simili


Annunci Google