GARR WS08 - Milano, 2-4 Aprile Grid Tutorial Parte 1 Introduzione alla Grid Mario Reale GARR GRID GARR WS08-Milano-2-Aprile-2008
GARR WS08 - Milano, 2-4 Aprile Contenuti 1. Cos’e’ la Grid ? 2. Service oriented architecture e Web Services 3. Grid computing ed e-Science 4. il Progetto EGEE
GARR WS08 - Milano, 2-4 Aprile Cos’e’ la Grid ?
GARR WS08 - Milano, 2-4 Aprile La GRID, ovvero: di che stiamo parlando? Una GRID e’ un insieme geograficamente distribuito di risorse di calcolo, storage, dati, appartenenti a domini amministrativi diversi che permettono l’utilizzo coerente delle risorse a gruppi di utenti omogeneii appartenenti a organizzazioni virtuali. e non solo……. Ian Foster Flexible and secure and coordinated resource sharing among dynamic collections of individuals, institutions and resources
GARR WS08 - Milano, 2-4 Aprile The Grid (Foster et. al) “ Resource sharing & coordinated problem solving in dynamic, multi-institutional virtual organizations” 1.Consentono l’ integrazione di risorse distribuite ed eterogenee 2.Usando infrastruttura e protocolli general-purpose 3.Per implementare un servizio better-than-best-effort
GARR WS08 - Milano, 2-4 Aprile Affinche’ una GRID sia una GRID: Una GRID deve avere un valore aggiunto rispetto alla somma del valore delle singole risorse e dei singoli servizii offerti Una GRID non puo’ avere un singolo punto di criticita’ (single point of failure) –e’ una struttura intrinsecamente distribuita –in nessun modo l’indisponibilita’ di una specifica risorsa puo’ danneggiare il funzionamento del resto della GRID
GARR WS08 - Milano, 2-4 Aprile Cosa vorremmo che fosse in definitiva una GRID Una rete informatica distribuita analoga alla rete elettrica ( da cui il nome) : –Dovunque sono mi posso connettere ed ho accesso immediato a CPU, storage, dati, programmi e documenti in maniera coordinata, efficente, concorrente ad uno scopo preciso legato al mio ruolo e alla mia professione Fare tutte queste cose in maniera user-friendly, sicura, coordinata, consistente, utile.
GARR WS08 - Milano, 2-4 Aprile Se la rete tra risorse e dominii diversi diventasse infinitamente veloce non saremmo piu’ capaci di distinguere i link interni sul nostro PC da quelli esterni, che ci connettono a risorse distribuite nel mondo. Avremmo cosi’ accesso ad una struttura globale, distribuita, universale di potenza di calcolo, dati, risorse di storage. Cosa vorremmo che fosse in definitiva una GRID
GARR WS08 - Milano, 2-4 Aprile La Grid vive sulla rete Le GRID hanno bisogno di reti veloci e auspicano bandwidth garantite –Lo stesso concetto di GRID e’ uno spin-off del concetto attuale di Internet –Dati, risorse di calcolo ed utenti distribuiti in tutto il mondo NRENs and GRIDS : due mondi che stanno cercando di parlarsi sempre di piu’
GARR WS08 - Milano, 2-4 Aprile La rete
GARR WS08 - Milano, 2-4 Aprile GRIDMIDDLEWAREGRIDMIDDLEWARE Visualising Workstation Mobile Access Supercomputer, PC-Cluster Data-storage, Sensors, Experiments Internet, networks GRID : l’idea
GARR WS08 - Milano, 2-4 Aprile Cosa non e’ una GRID: Una GRID non e’ un sistema proprietario e chiuso di risorse appartenenti ed ad esclusivo uso di una data societa’ privata ( anche se fossero distribuite) ovvero che in definitiva poi afferiscano ad un unico proprietario ed un unico manager amministrativo Una GRID non si puo’ basare su standard proprietari e non pubblici, non open. Una GRID non e’ internet e nemmeno la rete : non si occupa di nessun livello dello stack ISO/OSI nello specifico ma interagisce con tutti – dipende dalla rete Una GRID non e’ una struttura in cui ci sono servizi centralizzati non c’e’ posto nemmeno per 1 solo servizio che sia centralizzato
GARR WS08 - Milano, 2-4 Aprile L’idea GRID La Grid: centri di processamento dei dati interconnessi dalla rete e componenti middleware come collante tra risorse. I ricercatori svolgono le loro attivita’ indipendentemente dalla loro locazione geografica, interagiscono con i colleghi, accedono ai dati e li condividono. Gli strumenti scientifici e gli esperimenti forniscono un enorme quantita’ di dati.
GARR WS08 - Milano, 2-4 Aprile Cosa deve fare una GRID Consentire un uso ottimale e sicuro delle sue risorse Fornire agli utenti e a se stessa una descrizione delle sue risorse costitutive Autorizzare gli utenti su risorse di dominii amministrativi diversi Autenticare gli utenti Gestire i job degli utenti come gli utenti preferiscono Consetire livelli differenziati di delega sull utilizzo delle risorse -Fa tutto l’ utente -Fa tutto la GRID Fornire agli utenti e a se stessa Informazioni sull’ utilizzo delle sue risorse Attribuire un ruolo agli utenti per determinare il livello di autorizzazione sulle risorse Gestire i dati degli utenti come gli utenti preferiscono
GARR WS08 - Milano, 2-4 Aprile Service Oriented Architecture Service Oriented Architecture (SOA) e’ un architettura per lo sviluppo di applicazioni distribuite ( loosely coupled ) In effetti SOA e’ un insieme di diversi servizi in rete Questi servizi comunicano tra loro La comunicaizone implica –scambio di dati –coordinamento tra i servizi La SOA si basa sul paradigma dei Web Services 1. GRID computing
GARR WS08 - Milano, 2-4 Aprile Il paradigma dei Web Services Un Web Service e’ un unita’ di codice gestito che puo’ essere chiamato da remoto usando HTTP, puo’ essere cioe’ attivato utilizzando richieste HTTP I Web Services sono publicati, trovati ed utilizzati attraverso il web. Sono –Componenti di applicazioni –Che comunicano utilizzando protocolli aperti –Sono autodescrittivi e self-contained –Si localizzano utilizzando UDDI –Si basano su XML La piattaforma di base per I Web Services e’ HTML e XML. Elementi costitutivi sono –SOAP (Simple Object Access Protocol) –UDDI (Universal Description, Discovery and Integration) –WSDL (Web Services Description Language) 1. GRID computing A Web service is a software system identified by a URI, whose public interfaces and bindings are defined and described using XML. Its definition can be discovered by other software systems. These systems may then interact with the Web service in a manner prescribed by its definition, using XML based messages conveyed by internet protocols
GARR WS08 - Milano, 2-4 Aprile Grid Computing ed e-Science
GARR WS08 - Milano, 2-4 Aprile Grid Computing La visione GRID si basa sull’idea di Virtual Computing (+ information services per individuare risorse di computing e storage) –Una analogia: il web: “virtual documents” (+ un motore di ricerca per trovarli) MOTIVAZIONE: collaborare attraverso la condivisione delle risorse e dell’ expertise per allargare gli orizzonti di –Ricerca –Commercio, Ingegneria.. –Servizi pubblici, salute, medicina
GARR WS08 - Milano, 2-4 Aprile Grid : fondamento della e-Science Consente un approccio basato su un sistema complessivo, unitario di risorse Una sfida per il nostro ingegno. Effetto > Σ i (componente) i sensor nets Shared data archives computers software ricercatori strumenti scientifici GRID
GARR WS08 - Milano, 2-4 Aprile Alcuni esempi di e-Science
GARR WS08 - Milano, 2-4 Aprile Fisica delle particelle elementari Un enorme mole di dati Grandi collaborazioni mondiali Risorse di Computing e data management distribuite world- wide possedute e gestite da istituzioni diverse Mont Blanc (4810 m) Downtown Geneva Il Large Hadron Collider (LHC) al CERN di Ginevra, Svizzera: –Il piu’ potente strumento mai costruito per investigare la materia
GARR WS08 - Milano, 2-4 Aprile ATLASCMS LHCb ~10-15 PetaBytes /year ~10 8 events/year ~10 3 batch and interactive users Gli esperimenti di LHC
GARR WS08 - Milano, 2-4 Aprile La sfida dell’analisi dati LHC A partire da questo evento Cerchiamo queste tracce Quanto selezioniamo: 1 in (come cercare un ago in venti milioni di pagliai !!)
GARR WS08 - Milano, 2-4 Aprile Applicazioni Biomediche Biomedical community and the Grid, EGEE User Forum, March 1 st 2006, I. Magnin
GARR WS08 - Milano, 2-4 Aprile Data management – immagini mediche Biomedical community and the Grid, EGEE User Forum, March 1 st 2006, I. Magnin
GARR WS08 - Milano, 2-4 Aprile La prima data challenge biomedica: World-wide In Silico Docking On Malaria (WISDOM) Parametri biologici significativi –Due applicazioni di molecular docking (Autodock and FlexX) –Selezionati un milione di leganti –Ricerca di proteine legate al responsabile della malaria Numeri importanti : –Trattati 46 milioni di leganti in 6 settimane –Prodotto 1 TB di dati. –Piu di 1000 computers in 15 paesi usati contemporaneamente per un totale di 80 anni-CPU Roberto Barbera, 1 st EGEE User Forum, CERN, 1 st March 2006
EGEE tutorial, Seoul27 Applicazioni di Scienze della Terra Earth Observations con Satelliti –Profili di Ozono Fisica Terrestre –Previsioni dei terremoti Idrologia –Management delle risorse idriche nel Mediterraneo (SWIMED) Geologia –Geocluster: R&D initiative della Compagnie Générale de Géophysique Numerose applicazioni gia’ portate su EGEE
GARR WS08 - Milano, 2-4 Aprile Uso della Grid in industria Business Analysis (Risk Management, etc.) Business Data Processing (Data warehouse, BI, Fraud detection) IT Data Center (Resource utilization, Virtualization, Load Balancing, HA) Image processing Software Development and Testing Utility, (Pay per use) Utilization of Disaster Recovery Centers Engineering Simulations (EDA, Cars crash, airflow, etc.)
GARR WS08 - Milano, 2-4 Aprile “ Effetto > Σ i (componente) i ” Una orchestrazione flessibile e semplificata delle risorse disponibili per una collaborazione –Attraverso dominii amministrativi diversi –Le astrazioni nascondono i dettagli sulle singole risorse Meglio quindi uniformarsi agli standard GRID Un utilizzo piu’ efficace delle risorse –Una collaborazione condivide le sue risorse basandosi sui servizii GRID –Le collaborazioni condividono risorse Ogni membro contribuisce con un impegno ragionevole (CPU, storage) Ognuno beneficia di –Etereogenita’ –Scala
GARR WS08 - Milano, 2-4 Aprile Le organizzazioni Virtuali (VO) Cos’e’ un’ Organizzazione Virtuale (aka VO )? –Persone in istituiti e organizzazioni di ricerca diversi intenzionati a collaborare e condividere risorse al di la’ delle loro barriere organizzative e logistiche –Per esempio una collaborazione di ricerca, un esperimento internazionale Ogni GRID e’ un infrastruttura che consente a una o piu’ Organizzazioni Virtuali (VO) di accedere a e condividere risorse Ogni risorsa e’ esposta alla GRID attraverso un interfaccia astratta che nasconde i suoi dettagli interni e la sua possibile etereogenita’ costitutiva –Esistono svariate piattaforme computazionali differenti –Multipe sorgenti (risorse) di dati e di storage Le risorse sono di proprieta’ dei membri delle VO. Si negozia all’interno della VO la condivisione delle varie risorse tra I membri
GARR WS08 - Milano, 2-4 Aprile INTERNET Le Virtual organisations negoziano con i siti l accesso alle loro risorse Il Grid middleware su ogni risorsa condivisa fornisce –Data services –Computation services –Single sign-on I servizi distribuiti (sia il middleware che le persone) danno vita alla GRID Tipica GRID di oggi
GARR WS08 - Milano, 2-4 Aprile Tipica GRID di oggi Il middleware di GRID e’ installato e si esegue su ogni risorsa condivisa –Risorse di storage dati –Code batch su pools di processori (in genere) Gli utenti si registrano nelle VO Le VO negoziano con I vari siti per definire l’accesso alle risorse I vari servizii distribuiti e le persone creano la GRID, consentono una log-in unica INTERNET Presso ogni sito che fornisce risorse di calcolo: Local resource management system (= batch queue) PBS … In termini di EGEE e piu’ in generale di GRID una coda batch esposta si chiama “Computing Element”
GARR WS08 - Milano, 2-4 Aprile Uso di una GRID e del suo middleware Quando si usa un PC o una workstation: –Login usando username & password (“Authentication”) –Si dispone di certi diritti (“Authorisation”) –Si eseguono programmi o jobs –Si gesticono files: Si creano, leggono o scrivono, si listano directories Le varie componenti sono collegate da un bus Si sta usando il sistema operativo C’e’ un solo dominio amministrativo Quando si usa la GRID: –Si effettua la log-in utilizzando credenziali digitali – single sign-on (“Authentication”) –Si dispone di certi diritti (“Authorisation”) –Si eseguono programmi o jobs –Si gestiscono files… Componenti e servizi sono collegati tramite internet Si sta usando il GRID Middleware Ci sono tanti domini amministrativi differenti
GARR WS08 - Milano, 2-4 Aprile Dimensioni delle GRID Campus grids Regional grids (e.g. SEEGrid) National grids International grid (EGEE) Livello di collaborazione crescente. Maggiore condivisione delle risorse National datacentres, HPC, instruments Institutes’ data; Condor pools, clusters International instruments,.. Desktop
GARR WS08 - Milano, 2-4 Aprile Elementi di base per un middleware GRID Esigenze degli utenti –single sign-on: loggarsi un’unica volta su una macchina che poi passera’ le credenziali utente alle altre risorse. –Potersi fidare dei proprietari delle risorse che stanno utilizzando Il GRID middleware fornisce, su vari livelli: –Autenticazione: sapere chi vuole usare una data risorsa –Autorizzazione: sapere che cosa quell’utente e’ autorizzato a fare –Sicurezza: ridurre la vulnerabilita’ globale del sistema –Non-ripudiabilita’: sapere chi ha fatto cosa
GARR WS08 - Milano, 2-4 Aprile Il ruolo delle Virtual Organizations Compute Center VO Service slide based on presentation given by Carl Kesselman at GGF Summer School 2004
GARR WS08 - Milano, 2-4 Aprile Un Riassunto : cosa sono le GRID Le GRID permettono Virtual Computing tra dominii amministrativi diversi –Le risorse condividono autorizzazione e autenticazione –Si accede alle risorse attraverso le loro interfaccie astratte Motivazioni per le GRID: –Collaborazioni di ricerca, diagnostica, ingneria, servizi publici.. –Uso delle risorse e loro condivisione Network infrastructure & Resource centres Operations, Support and training Collaboration Grid
GARR WS08 - Milano, 2-4 Aprile Enabling Grids for E-sciencE (worldwide) : EGEEEGEE Open Science Grid ( USA) OSGOSG Nordic Data Grid Facility (Scandinavia) NDGFNDGF Nordugrid (Scandinavia) NORDUGRIDNORDUGRID NAREGI (Japan) NAREGINAREGI TeraGrid (USA) TeraGridTeraGrid PRAGMA (Pacific Rim) PRAGMAPRAGMA Distributed European Infrastructure for Supercomputing Applications (Europe) DEISADEISA National Grid Service (UK) NGSNGS Australian Partnership for Advanced Computing (Australia) APACAPAC China National GRID CNG –EuChinaGRID –EELA –EuMedGRID –EuIndiaGRID I maggiori progetti GRID nel mondo
GARR WS08 - Milano, 2-4 Aprile Infrastrutture GRID nazionali (NGIs) CroGrid
GARR WS08 - Milano, 2-4 Aprile EGEE Enabling Grids for E-SciencE
GARR WS08 - Milano, 2-4 Aprile Informazioni su EGEE: Cos’e’ ? –Scopo –Stato –Attivita’ Grid services Riferimenti per informazioni ulteriori
GARR WS08 - Milano, 2-4 Aprile EGEE – una e-infrastructure internazionale Network infrastructure & Resource centres Operations, Support and training Collaboration Pan-European Grid Un programma di 4+2 anni: il proposal originale dice “Build, deploy and operate a consistent, robust a large scale production grid service that –Links with and build on national, regional and international initiatives” “Improve and maintain the middleware in order to deliver a reliable service to users” “Attract new users from research and industry and ensure training and support for them “
GARR WS08 - Milano, 2-4 Aprile La missione di EGEE Infrastructure –Manage and operate production Grid for European Research Area –Interoperate with e-Infrastructure projects around the globe –Contribute to Grid standardisation efforts Support applications from diverse communities –High Energy Physics –Biomedicine –Earth Sciences –Astrophysics –Computational Chemistry –Fusion –Geophysics –Finance, Multimedia –… Business –Forge links with the full spectrum of interested business partners + Disseminate knowledge about the Grid through training + Prepare for sustainable European Grid Infrastructure
GARR WS08 - Milano, 2-4 Aprile EGEE: Enabling Grids for E-SciencE EGEE e’ il maggior progetto Europeo di Grid Inizia ora la fase 3 (EGEE-III: ) EGEE-II : –91 partners –32 paesi –Budget: 52 Milioni di Euro totali (37 dall’ UE) –Infrastruttura di circa CPUs - Distribuzione mondiale di EGEE e dei progetti correlati Parner EGEE-II in USA: Univ. Chicago Univ. South. California Univ. Wisconsin RENCI Bob Jones / CERN
GARR WS08 - Milano, 2-4 Aprile Le applicazioni & gli utenti di EGEE Applicazioni ed utenti da numerosi settori: –Astrofisica –Chimica Computazionale –Scienze della Terra –Simulazione Finanziaria –Fisica della Fusione Nucleare –Geofisica –Fisica delle Alte Energie (HEP) –Scienze della vita/Biologia –Multimedia –Scienza dei Materiali ~ 120 Virtual Organizations registrate…. Libro degli abstracts: pdfhttp://doc.cern.ch//archive/electronic/egee/tr/egee-tr pdf
GARR WS08 - Milano, 2-4 Aprile Risorse dell’infrastruttura EGEE RegionCountriesSitesCPU CERN UK/I Fr De/CH It NE SEE CE SWE A-P Ru Totals Da Ian Bird - EGEE'07 EGEE: ~250 siti, >45000 CPU 24% delle risorse provengono da gruppi esterni al progetto EGEE ~>20k jobs simultanei in esecuzione permanentemente
GARR WS08 - Milano, 2-4 Aprile EGEE : riassumendo FP6 and FP7 infrastructure Large-scale, production- quality grid for e-Science 240 sites, 91 partners, 45 countries 41,000 CPUs, 5PB 10,000 users, 150 VOs 100,000 jobs/day 24X7 EGEE-II review successfully passed in May’07 “…having achieved an operational infrastructure delivering production services to a broadly distributed and diverse user community is a remarkable achievement.” Archeology Astronomy Astrophysics Civil Protection Comp. Chemistry Earth Sciences Finance Fusion Geophysics High Energy Physics Life Sciences Multimedia Material Sciences …
GARR WS08 - Milano, 2-4 Aprile Registered Collaborating Projects 25 projects have registered as of Sept 2007: web pageweb page Applications improved services for academia, industry and the public Support Actions key complementary functions Infrastructures geographical or thematic coverage
GARR WS08 - Milano, 2-4 Aprile Progetti associati ad EGEE: infrastructure, engineering, education NameDescription BalticGridEGEE extension to Estonia, Latvia, Lithuania EELAEGEE extension to Brazil, Chile, Cuba, Mexico, Argentina EUChinaGRIDEGEE extension to China EUMedGRIDEGEE extension to Malta, Algeria, Morocco, Egypt, Syria, Tunisia, Turkey ISSeGSite security eIRGSPPolicies ETICSRepository, Testing OMII-Europeto provide key software components for building e-infrastructures; BELIEFDigital Library of Grid documentation, organisation of workshops, conferences BIOINFOGRIDBiomedical Health-e-ChildBiomedical – Integration of heterogeneous biomedical information for improved healthcare ICEAGEInternational Collaboration to Extend and Advance Grid Education
GARR WS08 - Milano, 2-4 Aprile EGEE working with collaborating infrastructure projects
GARR WS08 - Milano, 2-4 Aprile Roadmap EGEE-III proposal submitted 20th September, european Commission call INFRA –Key objective: a strong move towards a sustainable world-wide production quality Grid infrastructure EGI –Ensure the long-term sustainability of the European e-Infrastructure independent of short project funding cycles –Coordinate the integration and interaction between National Grid Infrastructures (NGIs) –Operate the production Grid infrastructure on a European level for a wide range of scientific disciplines
GARR WS08 - Milano, 2-4 Aprile Networking activitiesSpecific Service Activities NA1: ManagementSA1: Grid Operations NA2: Dissemination, Communication & Outreach SA2: Networking Support NA3: Training & induction SA3: Integration, testing & Cert. NA4: User Community support and expansion NA5: Policy & International Coop. Joint Research Activities NA6: Technology Transfer & outreach to Business JRA1: Middleware engineering Struttura(attivita’) di EGEE (EGEE-III)
GARR WS08 - Milano, 2-4 Aprile L’infrastruttura di EGEE Certification testbeds (SA3) Pre-production service Production service Test-beds & Services Operations Coordination Centre Regional Operations Centres Global Grid User Support EGEE Network Operations Centre (SA2) Operational Security Coordination Team Support Structures Operations Advisory Group (+NA4) Joint Security Policy GroupEuGridPMA (& IGTF) Grid Security Vulnerability Group Security & Policy Groups Infrastructure: Physical test-beds & services Support organisations & procedures Policy groups
GARR WS08 - Milano, 2-4 Aprile Grid management: la struttura Operations Coordination Centre (OCC) –management, oversight of all operational and support activities Regional Operations Centres (ROC) –providing the core of the support infrastructure, each supporting a number of resource centres within its region –Grid Operator on Duty Resource centres –providing resources (computing, storage, network, etc.); Grid User Support (GGUS) –At FZK, coordination and management of user support, single point of contact for users
GARR WS08 - Milano, 2-4 Aprile EGEE Production service
GARR WS08 - Milano, 2-4 Aprile :00 on 8 March
GARR WS08 - Milano, 2-4 Aprile Che sta succedendo in questo momento ? Real Time Monitor
GARR WS08 - Milano, 2-4 Aprile Ulteriori Informazioni su EGEE EGEE EGEE 08 Conference: Settembre 2008 Istanbul EGEE: 3 rd user Forum gLite Open Grid Forum Globus Alliance VDT
GARR WS08 - Milano, 2-4 Aprile EGEE: Conclusioni EGEE gestisce la piu’ grande GRID multi-VO del mondo ! Produce il “layer di GRID” nella e-infrastructure per la ricerca, la pubblica amministrazione e l’industria. Concetti chiave in EGEE: –Sostenibilita’, ovvero pianificazione a lungo termine –Qualita’ da sistema di produzione Inoltre…. Le GRID hanno a che vedere con le persone…..e come le persone in organizzazioni diverse decidono di collaborare...e come questo cooperare e’ reso possibile dalle operations, dal training e dal support e ovviamente dal middleware ( forse il piu’ variabile tra questi elementi?)