Sistema di Calcolo Distribuito:

Slides:



Advertisements
Presentazioni simili
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA
Advertisements

CALENDARIO FORMAZIONE LISEM 2004/2005 Labirinto, test sul potenziale imprenditoriale 01/10/2004 (ven) h – Tecniche creative e pensiero propositivo.
Unità D2 Database nel web. Obiettivi Comprendere il concetto di interfaccia utente Comprendere la struttura e i livelli che compongono unapplicazione.
ISA Server 2004 Enterprise Edition Preview. ISA Server 2004.
Consumare Web Service Andrea Saltarello
Java Enterprise Edition (JEE)
WebProfessional Web Content Management System
Cluster openMosix Linux Day ’04 Caserta Ing. Diego Bovenzi.
Scheduling della CPU Concetti di base Criteri di scheduling
GESTIONE DELLA PRODUZIONE
1 9: Progettazione Architetturale Obiettivo: stabilire la struttura globale di un sistema software Descriveremo diversi tipi di modello di architettura,
1 14. Verifica e Validazione Come assicurarsi che il software corrisponda alle necessità dellutente? Introdurremo i concetti di verifica e validazione.
23/01/01Alberto Masoni – GR1 - Roma1 I MODELLI DI CENTRI REGIONALI POSIZIONE DI ALICE ITALIA CENTRO ITALIANO: CPU 450 KSI95, DISCO 400 TB (INSIEME TIER-1.
Distributed Object Computing
Architettura Three Tier
ALICE-Italia: IL CALCOLO
1 Corso di Informatica (Programmazione) Lezione 4 (24 ottobre 2008) Architettura del calcolatore: la macchina di Von Neumann.
Alessandra Doria III Workshop Software e Calcolo Moderno Martina Franca Ottobre 1999 La presentazione degli istogrammi nel sistema di Monitoring.
Proposta di integrazione e consolidamento delle risorse presenti nellinfrastruttura Grid dellItalia Meridionale (L. Merola, )
Integrazione di una piattaforma IPTV in un’architettura SOA
Test del Monitoraggio del Tracker usando un Tier2 M.S. Mennea, G. Zito, N. De Filippis Università & INFN di Bari Riunione Consorzio – Torino 18 Novembre.
Monitoraggio online con la mappa del tracker M.S. Mennea, G. Zito Università & INFN di Bari Riunione Consorzio – Bari 9 Settembre 2005.
File System NTFS 5.0 Disco: unità fisica di memorizzazione
Sistemi Operativi GESTIONE DEI PROCESSI.
Workshop CNAF – Bologna 8 Luglio 2011 FARO Accesso Web a risorse e servizi remoti in ambiente Grid/Cloud A. Rocchi, C. Sciò, G. Bracco, S. Migliori, F.
Daniel Stoilov Tesi di Laurea
Architettura Java/J2EE
UNIVERSITA’ STUDI DI ROMA “FORO ITALICO”
Reti di Calcolatori L-S Un Sistema Decentrato di Allocazione del Carico per Applicazioni di Calcolo Distribuito Mauro Bampo.
Distributed File System Service Dario Agostinone.
LNL M.Biasotto, Bologna, 13 dicembre Installazione automatica Massimo Biasotto – INFN LNL.
Grid monitoring: sviluppi futuri
1 DAQ Layout VME Readout Unit (XDAQ) TTCvi TTCex TRG BSY Builder Unit (XDAQ) Monitor (ORCA) BSY TRG CCB MiniCrate DT Chamber 1 ROB CCB MiniCrate DT Chamber.
5 Feb 2002Stefano Belforte – INFN Trieste calcolo per CDF in Italia1 Calcolo per CDF in Italia Prime idee per lanalisi di CDF al CNAF Numeri utili e concetti.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
1 w w w. g a t 4. c o m WI GAT WebIngelligence rappresenta una piattaforma funzionale e tecnologica per la creazione e gestione di un datawarehouse che.
Servizi Grid ed agenti mobili : un ambiente di sviluppo e delivering
C. Aiftimiei 1, S. Andreozzi 2, S. Dal Pra 1, G. Donvito 3, S. Fantinel 4, E. Fattibene 2, G. Cuscela 3, G. P. Maggi 3, G. Misurelli 2, A. Pierro 3 1 INFN-Padova.
lun mar mer gio ven SAB DOM FEBBRAIO.
INFN-BOLOGNA-T3 L. Rinaldi I siti Tier-3 nel modello di calcolo di Atlas Configurazione del sito INFN-BOLOGNA-T3 Attività di Analisi e Produzione Attività.
QMAN Queue Manager Documentazione Commerciale Presentazione prodotti.
FESR Consorzio COMETA Pier Paolo CORSO Giuseppe CASTGLIA Marco CIPOLLA Industry Day Catania, 30 Giugno 2011 Commercial applications.
CNAF 18/11/2004 Federica Fanzago INFN Padova a/grape... BAT... BATMAN...o? M.Corvo, F.Fanzago, N.Smirnov (INFN Padova) + tutte le persone che fanno i test.
10 azioni per lo scheduling su Grid Uno scheduler per Grid deve selezionare le risorse in un ambiente dove non ha il controllo diretto delle risorse locali,
16 Maggio CSN1 Computing-Software-Analysis CMS-INFN TEAM Analisi in CMS: stato e prospettive del supporto italiano.
FESR Trinacria Grid Virtual Laboratory Strumenti di gestione Rosanna Catania Rita Ricceri Gianni Mario Ricciardi INFN Catania Task force.
Condor standard. Sistema Batch. Tool di installazione D. Bortolotti,P.Mazzanti,F.Semeria Workshop Calcolo Paestum 9-12 Giugno 2003.
Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.
TW Asp - Active Server Pages Nicola Gessa. TW Nicola Gessa Introduzione n Con l’acronimo ASP (Active Server Pages) si identifica NON un linguaggio di.
Distribuzione controllata del software con Systems Management Server 2003 Fabrizio Grossi.
MCSA Mobile Code System Architecture Infrastruttura a supporto della code mobility Pierfrancesco Felicioni Reti di Calcolatori L.S. 2005/2006.
Progetto di Ingegneria del Web Anno Accademico 2007/2008 Stefano Pigiani Bruno Ricci Marco Ruzzon.
Sistemi di elaborazione dell’informazione Modulo 3 - Protocolli applicativi Unità didattica 1 - Domain Name System Ernesto Damiani Lezione 2 – Caratteristiche.
Sistemi operativi di rete Ing. A. Stile – Ing. L. Marchesano – 1/18.
SnippetSearch Database di snippet bilanciato e replicato di Gianluigi Salvi Reti di calcolatori LS – Prof. A.Corradi.
Layered Grid Architecture. Application Fabric “Controlling elements locally”: Access to, & control of, resources Connectivity “Talking to Grid elements”:
Tecnologie lato Server: i Server Web © 2005 Stefano Clemente I lucidi sono in parte realizzati con materiale tratto dal libro di testo adottato tradotto.
La Farm di Alice a Torino Workshop sulle problematiche di calcolo e reti Isola d’Elba 6-9 maggio 2002 Mario Sitta (Università del Piemonte Orientale e.
FESR Trinacria Grid Virtual Laboratory Rosanna Catania Rita Ricceri INFN Catania 25 Luglio 2006 Grid Monitoring: GridICE – bacct - lsload.
Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
FESR Trinacria Grid Virtual Laboratory PROGETTO “MAMMO” Sviluppo e ottimizzazione di algoritmi adattativi, specificatamente di Artificial.
Overview del middleware gLite Guido Cuscela INFN-Bari II Corso di formazione INFN su aspetti pratici dell'integrazione.
IV Corso di formazione INFN per amministratori di siti GRID Tutorial di amministrazione DGAS Giuseppe Patania.
ATLAS NAPOLI Software & Computing e il Tier-2 Gianpaolo Carlino INFN Napoli Il gruppo ATLAS di Napoli Le attività Software & Computing Il prototipo Tier-2.
JOB MONITORING Donvito Giacinto INFN-Bari. OUTLINE ● Use-case ● Informazioni utilizzate e metodologie di raccolta per il job monitoring ● Informazioni.
FESR Trinacria Grid Virtual Laboratory Workload Management System (WMS) Muoio Annamaria INFN - Catania Primo Workshop TriGrid VL Catania,
Offline Report Finale Grid! I Corso di formazione INFN su aspetti pratici dell'integrazione di applicazioni in GRID Domenico D’Urso Roberto.
La gestione della rete e dei server. Lista delle attività  Organizzare la rete  Configurare i servizi di base  Creare gli utenti e i gruppi  Condividere.
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
Transcript della presentazione:

Sistema di Calcolo Distribuito: Aspetti di un Sistema di Calcolo Distribuito: Monitoring della Grid AliEn@CERN Marco MEONI Tesi di Laurea – 19/12/2005

Contenuti Modifiche ed Estensioni di MonALISA Concetti di Grid e Grid Monitoring Analisi dei Risultati di Monitoring del PDC’04 Conclusioni http://cern.ch/mmeoni/thesis/thesis.ppt

Sezione I Concetti di Grid e Grid Monitoring

Esperimento ALICE al CERN LHC 1) Collisioni di nuclei pesanti e protoni-protoni 5) I fisici di ALICE analizzano i dati alla ricerca di segnali di interesse 2) Particelle secondarie vengono prodotte con le collisioni 4) Le proprietà delle particelle (traiettorie, momento, tipo) sono ricostruite dal software AliRoot 3) Queste particelle sono registrate dal detector di ALICE 2/3 PBs di dati all’anno che richiederanno adeguate capacità di elaborazione e storage

Grid Computing Definizione di Grid Computing AliEn: la Grid di ALICE “coordinated use of large sets of heterogenous, geographically distributed resources to allow high-performance computation” AliEn: la Grid di ALICE - Architettura pull piuttosto che push: lo scheduling service non ha bisogno di conoscere lo stato di tutte le risorse della Grid – le risorse si pubblicano; - Robusto e fault tolerant, poiché le risorse possono andare e venire in ogni momento; - Si interfaccia ad altre Grid favorendo una rapida espansione delle risorse di calcolo, in maniera trasparente per l’utente.

Grid Monitoring Architettura GMA R-GMA: un esempio di implementazione Producer Consumer Registry Transfer Data Store location Lookup Architettura GMA R-GMA: un esempio di implementazione Jini (Sun): fornisce le basi tecniche

MonALISA framework Sistema di servizi di monitoring distribuiti; usa le tecnologie JINI/JAVA e WSDL/SOAP Ogni server MonALISA agisce come un servizio dinamico che fornisce le funzionalità per essere individuato ed utilizzato da qualsiasi altro servizio o client che richiede tali informazioni

Sezione II Modifiche ed Estensioni di MonALISA

Configurazione di MonALISA • Monitoring delle Farm Classe Java per interfacciarsi agli agenti MonALISA (AliEnCMD.java) - estendere lia.Monitor.monitor.cmdExec - implementare lia.Monitor.monitor.MonitoringModule - implementare almeno i metodi init, doProcess, isRepetitive File di configurazione - script di monitoring da eseguire - elenco parametri di monitoring - frequenza monitoring Script bash per monitorare i siti (Monitoring.sh) - restituire alla classe java di interfaccia, in un formato standard, tanti valori quanti sono i parametri Remote Farm CE Monitored data WEB Repository Monitoring.sh MonALISA Agent AliEnCMD.java WNs Grid resources User code MonALISA framework

Setup del Repository • Un Repository Web come front-end per il monitoring Conserva la storia completa dei dati monitorati Mostra i dati in una moltitudine di istogrammi predefiniti Aggiunto nuovi formati di visualizzazione per fornire un set completo (gauge, distribuzioni) Semplici interfacce verso codice utente: custom consumers, custom tasks • Installazione e Manutenzione Installazione packages (Tomcat, MySQL) Configurazione servlet principali per VO ALICE Setup di script per startup/shutdown/backup Tutti i grafici prodotti sono stati costruiti e personalizzati a partire da altrettanti file di configurazione SQL, parametri, colori, tipo andamento cumulativo o medio, smooth, fluttuazioni, intervalli di tempo personalizzato …molti altri

Monitoring dei Job in AliEn Centralizzato o distribuito? API AliEn per acquisire snapshot dello stato dei job: queueinfo, queue list Job is submitted (Error_I) INSERTING AliEn TQ WAITING ASSIGNED (Error_A) QUEUED (Error_S) CE STARTED (Error_E) ZOMBIE RUNNING (Error_R) WN >1h VALIDATION (Error_V, VT, VN) FAILED >3h (Error_SV) SAVING DONE Aggiunto un thread Java (DirectInsert) per alimentare direttamente il Repository, senza passare dagli Agenti MonALISA Repository TOMCAT JSP/servlets queueinfo queue list Jobs information Ad hoc java thread (DirectInsert)

Repository DataBase(s) Acquisizione Dati: 7+ Gb di performance information, 24.5M record Durante il DC, in media ogni 2/3 min arrivano dati di ~2k parametri monitorati 1min 10 min 100 min 60 bins for each basic information { Averaging process FIFO alimonitor.cern.ch aliweb01.cern.ch Online Replication DB Replication: MASTER DB REPLICA DB ROOT CARROT MonALISA Agents Repository Web Services AliEn API LCG Interface WNs monitoring (UDP) Web Repository Data collecting e Grid Monitoring Grid Analysis

Interfaccia Web Parametri di monitoring e storage del Data Challenge, job-flow, completamento dei task e stato delle risorse

Formati di Visualizzazione Menù Carico dei CE e completamento dei task Statistiche e tabulati real-time Stacked Bars Running history Snapshots e grafici a torta

Parametri Monitorati L’analisi dei dati acquisiti favorisce il miglioramento delle performance della Grid Ottimizzazione del loro numero e della frequenza di memorizzazione!! Source Category Number Examples AliEn API CE load factors 63 Run load, queue load SE occupancy 62 Used space, free space, number of files Job information 557 Job status: running, saving, done, failures Soap CERN Network traffic 29 Size of traffic, number of files LCG CPU – Jobs 48 Free CPUs, jobs running and waiting ML service on MQ Job summary 34 AliEn parameters 15 DB load, Perl processes ML services Sites info 1060 Paging, threads, I/O, processes 1868 Classi Derivate: misure di Efficienza Job execution efficiency Successfuly done jobs / all submitted jobs System efficiency Error (CE) free jobs / all submitted jobs AliRoot efficiency Error (AliROOT) free jobs / all submitted jobs Resource efficiency Running (queued) jobs / max_running (queued)

Estensioni di MonALISA Monitoring degli utenti della Grid Application Monitoring (ApMon) nei WNs Repository Web Services Utilizzo dei comandi AliEn (ps –a, jobinfo #jobid, ps –X -st) e parsing dell’output Scansione della JDL dei Job I risultati sono mostrati nel solito front-end web ApMon è un set di API che può essere utilizzato da qualsiasi applicativo per inviare informazioni di monitoring agli agenti MonALISA, via datagrammi UDP Favorisce l’aggregazione dei dati e la scalabilità del sistema di monitoring Sviluppata una classe C++ light di monitoring da incapsulare nel payload del Process Monitor Alternativa ad ApMon per gli scopi del Web Repository: - non richiedono gli agenti MonALISA - memorizzano i dati monitorati direttamente nel DB del Repository Impiegati per monitorare Traffico di Rete attraverso i server ftp di ALICE al CERN

Estensioni di MonALISA Distribuzioni per principi di Analisi Primo tentativo di effetture un tuning delle prestazioni della Grid, basato su dati reali monitorati a partire dalla Grid stessa Utilizzo di funzionalità ROOT e Carrot Sistema di cache per ottimizzazione delle richieste ROOT histogram server process (central cache) HTTP A p a c h e 1. ask for histogram 2. query NEW data 3. send NEW data MonALISA Repository 4. send resulting object/file ROOT/Carrot histogram clients

Sezione III Analisi dei Risultati di Monitoring del PDC’04

PDC’04 Scopo: testare e validare il computing model di ALICE Off-line Produrre e analizzare ~10% dei campioni di dati acquisiti in un anno di standard data-taking Usare il set completo di software: AliEn, AliROOT, LCG, Proof Struttura: divisa logicamente in tre fasi: Fase 1 – Produzione di underlying Pb+Pb events con centralità differenti (parametri di impatto) + produzione di p+p events Fase 2 – Sovrapposizione di vari tipi di signal events agli underlying Pb+Pb events Fase 3 – Analisi distribuita

CERN CASTOR: disk servers, tape Fase 1 del PDC’04 Master job submission, Job Optimizer, RB, File catalogue, processes control, SE… Central servers CEs Sub-jobs Job processing AliEn-LCG interface RB CERN CASTOR: disk servers, tape Output files LCG is one AliEn CE Obiettivo – simulare il flusso dei dati al contrario: gli eventi sono prodotti nei centri remoti e memorizzati nel MSS del CERN Storage

Utilizzo CPU Non sempre possibile funzionare in modo continuativo a causa di limitazioni sulle risorse Total number of jobs running in parallel 18 computing centres participating Inizio 10/03, fine 29/05 (58 giorni di attività) Numero massimo di job eseguiti in parallelo: 1450 Numero medio di job nel periodo: 430

Efficienza Principio di calcolo: ogni job è immesso una sola volta Successfully done jobs all submitted jobs Error (CE) free jobs all submitted jobs Error (AliROOT) free jobs all submitted jobs

Statistiche della Fase 1 Number of jobs Job duration 56.000 8h (cent1), 5h (peripheral 1), 2.5h (peripheral 2-5) Files per job Number of entries in AliEn FC Number of files in CERN MSS 36 3.8M 1.3M File size 26TB Total CPU work LCG CPU work 285MSI-2k hours 67MSI-2k hours

Fase 2 del PDC’04 Central servers RB CEs CEs Local SEs Local SEs Obiettivo – simulare la ricostruzione degli eventi e lo storage presso i siti remoti Master job submission, Job Optimizer (N sub-jobs), RB, File catalogue, processes monitoring and control, SE… Register in AliEn FC: LCG SE: LCG LFN = AliEn PFN Sub-jobs Sub-jobs Storage AliEn-LCG interface Underlying event input files CERN CASTOR: underlying events RB Storage CEs CEs CERN CASTOR: backup copy Job processing Job processing Output files Output files zip archive of output files Local SEs Local SEs File catalogue Primary copy Primary copy

Siti individuali: contributo di CPU Inizio 01/07, fine 26/09 (88 giorni di attività) Come nella prima fase, equilibrio generale del contributo di CPU Sotto il controllo diretto di AliEn: 17 CEs, ciascuno con un SE CERN-LCG comprende le risorse LCG sparse per il mondo

Utilizzo dei Siti Fuori dal CERN, siti come Bari, Catania e JINR hanno generalmente funzionato al massimo delle capacità

Fase 2: Statistiche e Fallimenti Number of jobs Job duration 400.000 6h/job Conditions 62 Number of events 15.2M Number of files in AliEn FC Number of files in storage 9M 4.5M distributed at 20 CEs world-wide Storage at CERN MSS Storage at remote CEs 30TB 10TB Network transfer 200TB from CERN to remote CEs Total CPU work 750MSI-2k hours Submission CE local scheduler not responding 1% Loading input data Remote SE not responding 3% During execution Job aborted (insufficient WN memory or AliRoot problems) Job cannot start (missing application software directory) Job killed by CE local scheduler (too long) WN or global CE malfunction (all jobs on a given site are lost) 10% Saving output data Local SE not responding 2%

Fase 3 del PDC’04 File Catalogue query Data set Job Optimizer Obiettivo – Analisi utente distribuita Data set User job (many events) Job Optimizer Grouped by SE files location Sub-job 1 Sub-job 2 Sub-job n Job Broker Submit to CE with closest SE Job output CE and SE CE and SE CE and SE processing processing processing Output file 1 Output file 2 Output file n File merging job

Nuovi Strumenti di Analisi Inizio Settembre 2004, fine Gennaio 2005 Distribuzioni grafiche realizzate a partire dall’ambiente ROOT e con l’interfaccia web Carrot Distribuzione del numero di job in esecuzione - dipende principalmente dal numero di waiting job nella TQ e dalla disponibilità di CPU libere presso i CE remoti Occupazione rispetto al numero di job in coda - c’è un incremento dell’occupazione al crescere dei job in stato di waiting nella coda batch locale; la saturazione è raggiunta attorno ai 60 job in coda

Sezione IV Conclusioni e Prospettive

Lezioni dal Monitoring del PDC’04 Job utente sono stati eseguiti per 9 mesi utilizzando AliEn MonALISA ha fornito un framework di monitoring completo e flessibile che é stato adattato con successo alle necessità del Data Challenge MonALISA ha prodotto i risultati attesi in merito a rappresentazione immediata ed estesa dello stato corrente e passato dei parametri rilevanti per le operazioni della Grid Approccio step by step: dal setup delle procedure di monitoring e del numero dei parametri di interesse ad una loro ottimizzazione MonALISA ha permesso di acquisire, memorizzare, visualizzare, ordinare e raggruppare un’ampia varietà di parametri monitorati, sia di base che derivati, in un ricco set di formati di presentazione Il Repository è stato l’unica sorgente di informazioni storicizzate, e la sua architettura modulare ha reso possibile lo sviluppo di una varietà di moduli custom (~800 linee di codice sorgente fondamentale e ~5k linee per eseguire task di servizio) Il PDC’04 ha rappresentato un esempio reale di interoperabilità tra Grid, interfacciando AliEn e LCG e dando prova della scalabilità dell’architettura di AliEn L’utilizzo di MonALISA in ALICE é stato documentato in un articolo per la conferenza al Computing in High Energy and Nuclear Physics (CHEP) ‘04 a Interlaken - Svizzera Esperienza senza precedenti per sviluppare e migliorare un framework di monitoring sulla base di una Grid realmente funzionante, effettuando massicci test delle tecnologie software coinvolte Facile estendere il framework e sostituirne i componenti con altri equivalenti in base a necessità tecniche o scelte strategiche

Ringraziamenti Dott. F.Carminati, L.Betev, P.Buncic e tutti i colleghi di ALICE per l’entusiasmo trasmesso durante questo lavoro Team MonALISA collaborativo ogni volta che ne ho avuto necessità