La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

ALICE PDC07 e stato del software AliRoot D. Di Bari – Dip. IA di Fisica di Bari & INFN.

Presentazioni simili


Presentazione sul tema: "ALICE PDC07 e stato del software AliRoot D. Di Bari – Dip. IA di Fisica di Bari & INFN."— Transcript della presentazione:

1 ALICE PDC07 e stato del software AliRoot D. Di Bari – Dip. IA di Fisica di Bari & INFN

2 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 20072 ALICE Grid Fino ad oggi 65 entry points (62 siti), 4 continenti –Africa (1), Asia (4), Europa (53), Nord America (4) –21 stati, 1 consorzio (NDGF) –6 Tier-1 - 58 Tier-2 –globalmente ~5000 CPUs (pledged), 1.5PB disk, 1.5PB Tape –Intervallo di CPU offerte: 4 - 1200 CPUs –PIII, PIV, Itanium, Xeon, AMD –distribuzioni Linux (SL3/4, Mandriva, Suse to Ubuntu, no Gentoo)

3 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 20073 ALICE Grid (2) 62 siti attivi

4 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 20074 ALICE Offline Compiti di ALICE offline: –“ospitare” i servizi centrali di produzione: Grid catalogue, task queue, job handling, authentication, API services, user registration –organizza (sotto la guida dei requirements dei PWGs) e esegue i job di produzione – updata e valida i servizi nei siti (insieme con i “regional experts”) –Fornisce supporto all’analisi svolta dagli utenti –I Siti: –Ospitano le VO-boxes (interfaccia ai servizi del sito) –fanno funzionare i servizi locali (gLite) –Mettono a disposizione CPU e storage Questo modello ha funzionato con modifiche minori per parecchi anni e tuttora funziona soddisfacentemente

5 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 20075 Physics Data Challenge in ALICE “Esercizio” del modello di produzione di ALICE –Produzione / storage/ replica dei dati –Validazione di AliRoot –Validazione del software di Griglia e funzionamento –User analysis (non ancora parte integrante del PDC) Da aprile 2006 il PDC è “running” in modo continuo

6 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 20076 Storia dei job di produzione del PDC Average of 1500 CPUs running continuously since April 2006

7 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 20077 PDC - zoom sugli ultimi 2 mesi 2990 jobs in average, saturating all available resources

8 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 20078 Performance dei siti di produzione -Fino a ~ 10% dei siti non in produzione costantemente di cui: -metà schedulano upgrades -metà hanno problemi di failure di Grid o dei servizi locali - I T1 sono in generale più stabili dei T2 - Alcuni T2 are molto meglio di un qualunque T1 - Il raggiungimento di una migliore stabilità dei servizi nei siti è di alta priorità La disponibilità dei servizi centrali è > 95%

9 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 20079 Stato della produzione Totale 85,837,100 eventi @ 26/08 2007 24:00

10 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200710 Contributo dei siti Standard distribution: 50/50 T1/T2 contribution

11 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200711 Contributo dei siti italiani Distribuzione standard: 50/50 T1/T2 20% of the total resources

12 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200712 AliRoot AliRoot ha 8 anni di vita –Framework unico per simulazione e ricostruzione basato su ROOT –Utlizzato per i Technical Design Report dei rivelatori e per il PPR –Integrato con il DAQ, il DCS e l’ HLT –Piattaforme: Linux (SLC3 & SLC4 A32/64, Opteron), Solaris e MacOS Simulazione –FLUKA: interfaccia validata, ma non ancor in produzione –G4: validazione dell’interfaccia avviata –Geometria, servizi e strutture come da costruzione Ricostruzione –Efficienza e PID ai livelli previsti dal TDR o meglio per PbPb (dn/dy ch ≤8000) e pp –I parametri di ricostruzione sono presi in gran parte dal “Conditions Data Base” –Procedure di “Quality Assurance” messe a punto per diversi rivelatori --> in completamento –In preparazione: mappa misurata del campo magnetico Evoluzione del codice: ancora piuttosto rapida –Ottimizzazione per performance e occupazione di memoria –Clean-up del codice: coding conventions e effective C++

13 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200713 GDC DAQ FXS HLT FXS DCS FXS DAQ Monitoring AliEn FC CAF CASTO R T2 T1 T0 Reco HLT Simulate d RAW Shuttl e LDC ECS DCS Train analysis DA DA DA DA DA 2 pass calibratio n 2 pass alignment ESD friends ? Train analysis MC productio n Analysis Prompt analysis CPU quotas Disk quotas MonitoringQuotas MonitoringQuotas MonitoringQuotas xrootd xrootd xrootd fts CEs CEs xrootdQA ESD / Reco QA QA QA QA QA MC QA Full Dress rehersal

14 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200714 Ricostruzione Ottima efficienza di tracciamento nel barrel già a basso p T. Bassa frazione di fake Risoluzione in p T : qualche % fino a 100 GeV/c p T (GeV/c)

15 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200715 Ricostruzione (2)p-p Ricostruzione del vertice: Ottima già in p-p, con efficienza di ricostruzione del primario ~1 quando le condizioni di trigger sono soddisfatte. Vertici secondari per heavy flavour e V 0 PID combinato bayesiano nel barrel con ITS, TPC, TOF, TRD, HMPID

16 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200716 AliRoot (2) Analisi –Tool sviluppati nell’ambito dei Physics Working Groups –Framework comune basato su TSelector (per utilizzare Proof) –(Ri)definizione degli AOD in corso Calibrazione e allineamento –Framework per l’offline: pronto –Framework per l’online: in sviluppo/test –Algoritmi per l’allineamento e la calibrazione online: in corso di sviluppo Dati –Valutazione finale in corso per la dimensione dei dati (con gradi di incertezza diversi): RAW ESD AOD –Validazione dei meccanismi di codifica/decodifica dei dati raw Documentazione –Esiste una documentazione per AliRoot nel suo complesso –La documentazione dettagliata del software a livello di singolo detector è ancora carente –La documentazione dei tool di grid: da consolidare –Vengono organizzati dei tutorial a cadenza mensile

17 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200717 On-Off framework Shuttle Framework –Core: fatto –DAQ File Exchange Server & Logbook: validato –HLT File Exchange Server: implementato –DCS File Exchange Server: in sviluppo Pre-processamento (i.e. valutazione dei parametri) –Preprocessori per gran parte dei rivelatori  implementati e validati o pronti per la validazione –Framework di Data Acquisition per DCS e HLT: manca Interfaccia xrootd-CASTOR2: in corso di test

18 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200718 Visualizzazione Framework sviluppato in collaborazione con il team di ROOT La versione attuale risponde a molti requisiti richiesti Tool in rapido sviluppo attraverso l’interazione con gli utenti

19 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200719 AliRoot: in sintesi… Negli ultimi mesi c’è una forte pressione per arrivare ad avere: –Simulazione e ricostruzione realistiche  uso del OCDB –Calibrazione del OCDB: Codifica dei Detector Algorithms Codifica dei tool di preprocessing –Allineamento: Framework per “spostare” i volumi allineabili rispetto a posizione di baseline Tool di allineamento Core offline team: validazione del lavoro fatto dai gruppi legati ai detector Forte coinvolgimento dei gruppi italiani

20 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200720 Partecipazione gruppi italiani Coordinamento PWG –PWG2: Luciano Ramello –PWG3: Federico Antinori Responsabili offline project per detector –ITS: Massimo Masera –TOF: Silvia Arcelli –HMPID: Domenico Di Bari Core offline team –2 fellow Cern pagati dall’INFN SHUTTLE Allineamento Computing board: 8/32 italiani Non solo responsabilità: decisiva partecipazione di ricercatori italiani agli item di fisica!

21 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200721 PDC07 – slides di riserva

22 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200722 Efficiencies/debugging Workload management for production –Under control and is near production quality –We keep saying that, but this time we really mean it –Improvements (speed, stability) are expected with the new gLite version 3.1, still untested Support and debugging –The overall situation is much less fragile now –Substantial improvements in AliEn and monitoring are making the work of the experts supporting the operations easier –gLite services at the sites are well understood and supported User support is still very much in its infancy –The issues with user analysis are often unique and sometimes lead to development of new functionality –But at least the response time (if not the solution) is quick

23 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200723 General The Grid is getting better –Running conditions are improving –The Grid middleware in general and AliEn in particular are quite stable After a long and hard work by the developers –Even user analysis, much derided in the past few months is finally not a painful exercise The operation is more streamlined now –Better understanding of running conditions and problems by the experts We continue with the usual PDC’07 programme –Simulation/reconstruction of MC event –Validation of new middleware components –User analysis –And in addition the Full Dress Rehearsal (FDR)

24 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200724 AliRoot – slides di riserva

25 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200725 GDC DAQ FXS HLT FXS DCS FXS DAQ Monitoring AliEn FC CAF CASTO R T2 T1 T0 Reco HLT Simulate d RAW Shuttl e LDC ECS DCS Train analysis DA DA DA DA DA 2 pass calibratio n 2 pass alignment ESD friends ? Train analysis MC productio n Analysis Prompt analysis CPU quotas Disk quotas MonitoringQuotas MonitoringQuotas MonitoringQuotas xrootd xrootd xrootd fts CEs CEs xrootdQA ESD / Reco QA QA QA QA QA MC QA Full Dress rehersal

26 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200726 FDR status (by FC) The FDR is delayed, following the LHC start- up delay –Many dependent Grid software development tasks are delayed accordingly –Site resources and upgrades are coming later –Some essential parts of the system are not ready yet –We need a more or less stable conditions to execute the FDR The delay is giving us more time to prepare and execute the exercise well Detector code: DAs in all frameworks and AliRoot will play essential role

27 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200727 FDR status (2) Main input to the exercise is the test data from the detector commissioning phase –Starting in September First step – DAQ registration in the Grid File Catgalogue is ready –Small quantities of test data are already registered and Grid reconstruction/analysis is about to being Essential part of the FDR is the gathering of conditions data through the Shuttle system –This depends critically on the readiness of the condition data providers –And is the main focus of the current preparation

28 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200728 Strategia di uso delle risorse I job sono assegnati laddove ci sono i dati –Uso limitato del VOMS (Virtual Organization Management System) Vengono inviati alla grid Job Agents e non job “veri” –Questo annulla l’impatto di inefficienze del middleware Le risorse sono condivise –Non sono previste assegnazioni di risorse specifiche a gruppi –Accounting di uso delle risorse da parte dei gruppi –Gestione delle priorità: central Task Queue Accesso ai dati solo attraverso GRID

29 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200729 Calcolo distribuito AliEn –Ambiente di produzione che consente l’accesso alla GRID –Attualmente la stabilità dei servizi centrali è >90% –Sistema in continuo sviluppo: 8 release fino ad ora –Vengono organizzati tutorial periodici. Al momento 200 utenti registrati –Interfacce con GRID diverse da LCG: Operativa a Bergen quella con NorduGrid (da espandere ad altri siti) Da implementare quella con OSG Servizi specifici di ALICE –Installati centralmente al CERN e localmente sulle VO-box Monitoring centralizzato con MonaLisa Movimentazione di dati con FTS (File Transfer Service) –Test di trasferimento di dati raw T0 -> T1 in permanenza da settembre 2006 –Obiettivo: 300 MB/s sostenuti in uscita dal CERN. Ci sono ancora problemi di stabilità

30 D. Di BariRiunione CNAF-Bologna- 28-29 agosto 200730 Data Management Gli strumenti di Data Management non sono ancora sotto controllo –ALICE richiede che i sistemi di gestione dei dati su disco o nastro supportino xrootd –Ci sono test in corso di dCACHE, DPM e CASTOR2 (tutti SE di LCG) con supporto di xrootd: CASTOR2 al CERN (in produzione da un mese circa) dCache: prototipo al GSI DPM: prototipo a Torino –Non sono stati installati in servizio operativo (= a parte i test) Storage Elements al di fuori del Cern –L’accesso ai dati per l’analisi non è stato testato in una situazione realistica


Scaricare ppt "ALICE PDC07 e stato del software AliRoot D. Di Bari – Dip. IA di Fisica di Bari & INFN."

Presentazioni simili


Annunci Google