Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoGiorgina Giglio Modificato 8 anni fa
1
FESR www.trigrid.it Trinacria Grid Virtual Laboratory University of Coimbra Data Management System gLite – LCG Salvatore Scifo INFN Catania Primo Grid Tutorial Catania, 14-15 Marzo 2006
2
Catania, Primo Grid Tutorial, 14.03.2006 2 Sommario Introduzione al Data Management System Obiettivi e sfide della Gestione dei Dati Spazio dei nomi e convenzioni in ambiente GRID Storage Element (tipologia e interfacce) Gestione dei dati con il middleware LCG-2 Gestione dei dati con il middleware gLite 1.4
3
Catania, Primo Grid Tutorial, 14.03.2006 3 Introduzione (I) Il Sistema di Gestione dei Dati (DMS) è il sottosistema del middleware GRID dedicato alla manipolazione dei dati. Le funzionalità offerte sono comunissime all’esperienza di ognuno di noi: –Upload/Download di file –Creazione di file/directory –Rinominazione di file/directory –Cancellazione di file/directory –Trasferimento file/directory –Visualizzazione directory –Creazione di link simbolici I servizi del DMS vengono esportati tramite specifiche interfacce ai servizi GRID e tramite API per lo sviluppo di applicazioni.
4
Catania, Primo Grid Tutorial, 14.03.2006 4 Introduzione (II) In ambiente GRID i dati possono essere replicati in locazioni differenti a seconda delle applicazioni che devono utilizzarli L’utente non ha bisogno di sapere dove un file è conservato fisicamente, l’unica cosa che serve è il Logical File Name (LFN). DMS lavora con i file: –Ia semantica dei file è ben conosciuta da ognuno di noi nella comune esperienza quotidiana (*.doc, *.ppt, *.txt) –un file è la più fine granularità dei dati. –una ragione storica: le prime due organizzazioni virtuali ad usare Grid (HEP – High Energy Physics e Biomedical ) hanno cominciato conservando le informazioni proprio nei file.
5
Catania, Primo Grid Tutorial, 14.03.2006 5 DMS – Obiettivi Il Data Management System fornisce due principali funzionalità: –File Management –Metadata Management Un file rappresenta la granularità più fine dei dati Metadati sono dati che descrivono dati File Management storage (save, copy, read, list, …) movement (replica, transfer, ….) security (access control, ….); Metadata Management cataloguing secure database access database schema virtualization
6
Catania, Primo Grid Tutorial, 14.03.2006 6 DMS – Grid Data Management Challenge NEEDSRequirementsLCGgLite Eterogeneità: I dati sono conservati in diverse tipologie di “storage device” ognuno con la propria tecnologia di accesso. Una interfaccia comune per l’accesso alle risorse che mascheri la complessità dei “device” fisici adottati. SRM come interfaccia per RFIO + dCAP (local access) SRM come interfaccia per RFIO + dCAP (local access) gLite File I/O Server Distribuzione: I dati si trovano in locazioni differenti e nella maggior parte dei casi non esiste un “file system” condiviso ne uno spazio dei nomi comune. Una visione uniforme dello storage distribuito. Tenere traccia delle locazioni dei file all’interno dello storage distribuito. LFC (LCG File Catalog) File Catalog Replica Catalog Metadata Catalog Storage Index Recupero dati: Le applicazioni si trovano in locazioni differenti rispetto ai file che devono essere usati come input. I dati devono essere accessibili indipendentemente dalla loro posizione fisica. C’è bisogno di “schedulare” la disponibilità dei file al momento del loro utilizzo. GFAL come interfaccia per RFI/O + dCap (remote access) GSIFTP gLite File I/O Server POSIX-Like Library File Transfer Service Securezza: I dati devono essere gestiti in accordo con le regole di controllo d’accesso della Organizzazione Virtuale di appartenenza. Servizio di controllo d’accesso centralizzato. Secure RFIO dCAP (gsi compliant) File Authorization Service
7
Catania, Primo Grid Tutorial, 14.03.2006 7 File Naming (I) LFN – Logical File Name –Identificativo logico (human readable) di un file –LFN è unico ma mutabile nel tempo –Lo spazio dei nomi per gli LFNs è globale e gerarchico per singola VO –Sintassi : lfn: lfn:/home/gilda/catania/tutorial.txt GUID – Grid Unique Identifier –Identificativo logico di un file –Unico per construzione (basato sulle specifiche UUID). GUID ed LFN sono associati in una relazione di tipo 1:1 –Sintassi : guid: guid:38ed3f60-c402-11d7-a6b0-f53ee5a37e1d
8
Catania, Primo Grid Tutorial, 14.03.2006 8 File Naming (II) SURL – Site URL –È utilizzato dallo SRM per identificare i file replicati in uno SE. –GUID e SURLs sono associati in una relazione 1:n. –Sintassi : sfn:// srm://egee016.cnaf.infn.it:8443/srm/managerv1?SFN=/dpm/cnaf.infn.it/hom e/gilda/catania/tutorial.txt TURL – Transport URL –È un normalissimo URL utilizzato per trasferire file mediante un qualunque protocollo di trasferimento standard. –Sintassi: :// gsiftp://tbed0101.cern.ch/flatfiles/SE00/dteam/generated/2004-02- 26/file3596e86f-c402-11d7-a6b0-f53ee5a37e1d
9
Catania, Primo Grid Tutorial, 14.03.2006 9 Relazioni logiche tra i nomi dei file La seguente tabella mostra le relazioni tra i nomi dei file nell’ambiente GRID: –GUID e LFN 1:1 (gLite middleware) –GUID e LFN 1:N (LCG middleware) –LFN e Symbolic Link 1:N –GUID e SURL 1:N –SURL e TURL 1:1 Nota: gli Alias sono permessi nel LCG middleware, quindi uno GUID è referenziato da ‘N’ LFNs. SRM File Catalog Symbolic Link 1 Symbolic Link n Physical File SURL n Physical File SURL 1.... TURL 1 TURL n.... GUID.... LFN (Aliasing)
10
Catania, Primo Grid Tutorial, 14.03.2006 10 DMS – Access File Protocols File Access –RFIO remote file I/O (sviluppato per Cern Advanced STORage devices) –GSIDCAP – GSI dCache Access Protocol GFAL – Grid File Access Library –maschera le iterazioni tra RFIO and DCAP e si presenta come una interfaccia Posix-Like per le operazioni di I/O remote –RFIO e GSI DCAP sono utilizzati sia per l’accesso ai file locale che remoto, (es: il workernode utilizza GFAL per lavorare sui file da remoto) Transfer –GSIFTP è il protocollo di trasferimento più usato ed è supportato da ogni SE ProtocolTypeSecurity GSIDCAP – GSI dCache Access Protol (Access Protocol for dCache devices) File I/OGSI enabled RFIO - Remote File I/O (Access Protocol for CASTOR devices) File I/OSecure + Insecure GSI FTPFile TransferGSI enabled
11
Catania, Primo Grid Tutorial, 14.03.2006 11 DMS - Storage Resource Manager SRM è stato sviluppato come unica interfaccia per la gestione di dischi e sistemi di storage a tape. SRM è una collezione di protocolli di accesso nativi dipendenti dal sistema di storage. SRM è stato progettato per nascondere la complessità dello storage all’untente finale (sia esso un client tool o un qualunque altro servizio grid).
12
Catania, Primo Grid Tutorial, 14.03.2006 12 CERN SE SRM in un esempio SRM dCacheClassic SECastor Richiesta dati sperimentali Richiesta di file di analisi Replica dei risultati FermiLab SE Nikhef SE
13
Catania, Primo Grid Tutorial, 14.03.2006 13 DMS - Tipologia di Storage Element (I) CLASSIC SE –Consiste di un disco fisico o un array di dischi e un server GSIFTP e un insecure RFIO daemon come Front End. –Le uniche funzionalità di sicurezza sono fornite dal GSIFTP server, quindi l’RFIO daemon agisce solo dentro in confini della LAN del sito Grid. –Il Classic SE non supporta l’interfaccia SRM e le più comuni attività di gestione sono delegate all’amministratore dei sito. (Per esempio, l’allocazione di spazio per le VO avviene mediante partizionamento logico del disco.) dCACHE DISK POOL MANAGER –Consiste di un server dCache e uno o più pool nodes. Il server rappresenta il singolo punto di accesso allo SE e presenta i files contenuti nel pool di dischi sottoforma di un unico file system virtuale. –GSIFTP viene usato per assicurare il trasferimento dei dati e GSIDCAP per favorirne la manipolazione. –dCache espone una interfaccia SRM. I dischi possono essere aggiunti dinamicamente al pool manager in ogni momento.
14
Catania, Primo Grid Tutorial, 14.03.2006 14 DMS - Tipologia di Storage Element (II) LCG Disk Pool Manager –Alternativa leggera al dCache DPM. Facile da installare e da gestire e, sebbene no è così potente come dCache, rappresenta comunque una buona scelta per siti di piccola taglia. –Viene utilizzato GSIFTP per lo spostamento dei dati e GSIDCAP per la loro gestione. –I dischi possono essere aggiunti dinamicamente al pool manager in ogni momento ed è fornita una interfaccia SRM. –L’allocazione dinamica dello spazio per VOs è supportata. –In una parola, LCG DPM è una ottima soluzione per convertire velocemente un classic SE in un DPM con un solo disco nel pool server. GILDA test bed provides different SE: –classic SE (grid009) –dCache DPM (aliserv) –CASTOR is coming soon
15
Catania, Primo Grid Tutorial, 14.03.2006 15 DMS - Tipologia di Storage Element (III) MSS - MASS STORAGE SYSTEM –MSS è uno Storage Management System Gerarchico utilizzato per file che devono essere trasferiti da un front end di dischi ad un back end costituito da nastri magnetici. –Il processo che si occupa della migrazione asincrona di file si chiama STAGER. –MSS fornisce GSIFTP come protocollo di trasferimento e insecure RFIO per sistemi CASTOR oppure GSICAP per sistemi dCache come interfaccia di accesso ai file. –LCG supporta solo una interfaccia SRM per CASTOR MSS, quindi, ogni sito GRID dovrebbe provvedere alla interfaccia SRM per il proprio eventuale MSS diverso da CASTOR.
16
Catania, Primo Grid Tutorial, 14.03.2006 16 DMS in LCG-2 I file sono conservati nello Storage Element (SE) Il Catalog Service è fornito per la gestione delle repliche dei file su differenti SEs. L’utente può interagire con i Data Management Services attraverso appositi Client Tools. Non esiste alcuna politica per definire un file volatile piuttosto che permanente; tutti i file sono considerati per default permanenti e la loro gestione è sotto la piena responsabilità dell’utente.
17
Catania, Primo Grid Tutorial, 14.03.2006 17 LGG-2 File & Replica Catalog (I) Utenti e applicazioni necessitano di localizzare i files (o replica) sull’intera Grid. Il File Catalog è il servizio che permette questa caratteristica mantenendo il “mappings” (relazioni) tra LFNs, GUIDs e SURLs. In LCG-2, le operazioni di catalogazione dei file sono implementate dal LFC (LCG File Catalog); esso è il migliore sostituto per il meno recente RLS (Replica Location Server).
18
Catania, Primo Grid Tutorial, 14.03.2006 18 LGG-2 File & Replica Catalog (II) Il passato –RLS è il primo catalogo usato in LCG middleware –Composto da due sotto servizi: LRC (Local Replica Catalog) che mappa gli LFN con gli GUID e il RMC (Replica Metadata Catalog) che mappa i GUID con gli SURLs. Il presente –LFC è distribuito come servizio centralizzato ed il suo endpoint è pubblicato sul Information Service al fine di essere rintracciabile sia dai DMS tools quanto da ogni altro servizio GRID interessato. Nota1: un endpoint è semplicemente l’URL del servizio. Nota2: I due cataloghi non sono sincronizzati; se in un sito coesistono entrambi RLS ed LFC è solamente responsabilità dell’utente assicurare la consistenza delle entries nei due differenti cataloghi.
19
Catania, Primo Grid Tutorial, 14.03.2006 19 LGG-2 File & Replica Catalog (III) LFC è stato sviluppato per migliorare le performance e la sicurezza, ma sono state aggiunte altre funzionalità quali transazioni, roll-back e spazio dei nomi gerarchico per gli LFNs. LFC supporta la gestione dei metadati –i metadati di sistema vengono gestiti pienamente –la gestione dei metadati per l’utente è molto ristretta (una singola stringa testuale è permessa). –nel middleware gLite tale situazione si è nettamente evoluta, (si rimanda a FiReMan e AMGA per più dettagli). Come l’utente può interagire con LCG DMS? –Sono disponibili due tipologie di strumenti: high level tools (lcg- utils o lgc-* commands) e low level tools (edg-gridftp-* o globus-url-copy).
20
Catania, Primo Grid Tutorial, 14.03.2006 20 DMS in gLite 1.4 middleware Le funzionalità del Data Management System sono fornite da un set of web services che rispettano una service oriented architecture (SOA). L’architettura rispetta 4 parole chiave: –Interoperabilità –Portabilità –Scalabilità –Modularità Il Data Management System di gLite è composto da tre moduli principali: Storage Element, Catalog e File Transfer Service.
21
Catania, Primo Grid Tutorial, 14.03.2006 21 DMS – Architettura in gLite (I) Lo Storage Element ha in carica la gestione della conservazione permanente dei dati. Sono fornite due interfacce: –Storage Resource Manager (SRM) Per dialogare con i Mass Storage System presenti. –gLite File I/O server: Una interfaccia unica per accedere allo SRM e/o al catalogo Fornisce una POSIX-like (Portable Operating System Interface) File I/O API per permettere agli utenti l’implementazione delle proprie applicazioni client. Il Catalogo mantiene traccia della posizione dei file all’interno del file system distribuito e conserva qualunque tipo di informazione aggiuntiva su tali files. Il File Transfer Service abilita la GRID a spostare file da/a un sito all’altro.
22
Catania, Primo Grid Tutorial, 14.03.2006 22 DMS – Architettura in gLite (II)
23
Catania, Primo Grid Tutorial, 14.03.2006 23 Interazioni I/O server Provided by site Provided by VO
24
Catania, Primo Grid Tutorial, 14.03.2006 24 gLite File I/O at work Storage Element IO Server SRM Combined Catalog (FAS) Replica Catalog Metadata Catalog File Catalog Resolve LFN to GUIDResolve GUID to SURL Resolve GUID to Metadata 2. Check for the right access 3. Access the file by SURL LFN o GUID vengono presentati al I/O server. I/O client library API accetta in input sia LFN che GUID. Il File Authorization Service controlla se l’utente possiede i corretti diritti di accesso al file desiderato. GUID o LFN vengono risolti nel SURL corretto, il quale è utilizzato dal local SRM per accedere al file. Worker node Client 1. Ask for the file by GUID/LFN
25
Catania, Primo Grid Tutorial, 14.03.2006 25 gLite - File Transfer Service (I) Co-location Grid assume che i dati devono stare insieme alle applicazioni che li usano. Questa assunzione implica la co- schedulazione dei dati al momento dell’esecuzione del job associato affinchè essi siano effettivamente dispobibili. Paradigma Lo SE di destinazione è sempre lo SE locale, lo SE sorgente può stare all’interno o all’esterno dei confini del sito. Logicamente, per ogni SE esiste un File Transfer Service che controlla tutto il flusso di dati proveniente da altri SEs.
26
Catania, Primo Grid Tutorial, 14.03.2006 26 gLite – File Transfer Service (II) Il processo di trasferimento dei file coinvolge tre moduli differenti: Data Scheduler –è responsabile della schedulazione dei dati e tiene traccia del trasferimento di dati tra diversi sites. File Placement Service –Interroga continuamente il Data Scheduler per individuare tutte le richieste di trasferimento la cui destinazione è lo storage element locale per una data VO; –Tali richieste vengono inserite in una Queue di lavoro locale. –FPS provvede allo spostamento dei dati preoccupandosi di mantenere la consistenza tra il File Catalog e il Replica Catalog. Transfer Agent –Gestisce lo stato di ogni trasferimento. Esso utilizza la File Transfer Library (transfer tool di basso livello) per eseguire il trasferimento fisico.
27
Catania, Primo Grid Tutorial, 14.03.2006 27 gLite – Data Services Data Movement Data Scheduler (DS) Keep track of user/service transfer requests File Transfer/Placement Service (FTS/FPS) Transfer Queue (Table) Transfer Agent (Network)
28
Catania, Primo Grid Tutorial, 14.03.2006 28 gLite – Catalog services Il catalogo si preoccupa della organizazione dei file nello SE. Il requisito di ubiquità è soddisfatto dal meccanismo di replica dei file su più siti GRID. Il catalog contiene anche le informationi necessarie all’accesso autorizzato ai files conservati nello SE. Ancora, il catalogo gestisce le relazioni tra the LFN, (fornito dall’utente al momento della creazione), e GUID, (creato da GRID); e tra il GUID e i vari SURLs (identificatori dei diversi replica file).
29
Catania, Primo Grid Tutorial, 14.03.2006 29 Gestione dei nomi nei cataloghi in gLite Globally unique identifier Site URL Transport URL: includes protocol user needs only to see these
30
Catania, Primo Grid Tutorial, 14.03.2006 30 Tipi di Catalogo (I) File Catalog –Permette le operazioni sullo spazio dei nomi logici (LFN) Creazione di directory Rinominazione di file Creazione di link simbolici –Mantiene le relazioni LFN-GUID Replica Catalog –Fornisce le operazioni riguardanti gli aspetti della replica Lista di tutte le repliche di un file, Aggiunta di una replica Rimozione di una o tutte le repliche –Mantiene le relazioni GUID-SURL Storage Index –Favorisce le interazioni con il WMS, (per esempio: localizzazione dei file per il Resource Broker)
31
Catania, Primo Grid Tutorial, 14.03.2006 31 Catalog types (II) Metadata Catalog –Permette di collezionare e conservare informazioni che descrivono i file contenuti nello SE. –Fornisce strumenti per interrogare e manipolare i metadati conservati. Combined Catalog –Mantiene traccia di tutte le operazioni che vengono eseguite attraverso cataloghi di diverso tipo al fine di mantenere la coerenza e la sincronizzazine tra di essi FileReplicaManager –È l’implementazione del catalogo combinato adottato in gLite. –Implementa il File Catalog, il Replica Catalog e il Metadata Catalog. –FiReMan implementa anche l’interfaccia StorageIndex, per il job matchmaking process.
32
Catania, Primo Grid Tutorial, 14.03.2006 32 gLite - File Authorization Service Uso dei servizi Grid –I servizi Grid condividono tutti la stessa infrastruttura di sicurezza. Tutti gli utenti devono acquisire delle credenziali X.509 dalla propria Certificate Authority (CA). –Chiunque voglia accedere a qualunque servizio Grid deve essere registrato ad una Virtual Organization la quale gli permetterà di utilizzare la Grid in accordo con la politica di controllo d’accesso adottata. –DMS controlla l’accesso ai file basandosi sul meccanismo delle Access Control Lists (ACLs). –Prima di accedere ai file un utente deve richiedere al VOMS (Vitual Organization Membership Service) uno short-live proxy il quale contiene, (oltre alle credenziali per l’autenticazione), tutti i permessi necessari per l’autorizzazione all’accesso ai file.
33
Catania, Primo Grid Tutorial, 14.03.2006 33 Come interagire con il DMS di gLite Command Line tools accessibili da una GRID UI (user interface). –Attraverso una Shell di Unix, l’utente può utilizzare i servizi forniti dalla “command line” utilizzando il file system remoto virtuale in una modalità familiare gLite-I/O API –Per sviluppare applicazioni che si interfacciano allo SE catalogs API –Per sviluppare applicazioni che si interfacciano al Catalogo
34
Catania, Primo Grid Tutorial, 14.03.2006 34 DMS - Glossary DMS : Data Management System MMS : Mass Storage System FiReMan : File Replica Manager SRM : Storage Resource Manager FTS : File transfer service PFS : Placement file Service ACLs : Access Control List ACE : Access Control Element VOMS : Virtual Organization Membership Service LFN : Logical File Name GUID : Grid Unique Identifier URL : Universal Resource Locator SURL : Site URL TURL : Transport URL LHC: Large Handron Collider LCG: LHC Computing Grid LFC: LCG File Catalog RFIO: Remote File I/O GSIFTP: Grid Security Infrastructure FTP CASTOR: CERN Advanced Storage Manager dCAP: dCache Access Protocol
35
Catania, Primo Grid Tutorial, 14.03.2006 35 References gLite homepage –http://www.glite.orghttp://www.glite.org DM subsystem documentation –http://egee-jra1-dm.web.cern.ch/egee-jra1-dm/doc.htmhttp://egee-jra1-dm.web.cern.ch/egee-jra1-dm/doc.htm FiReMan catalog user guide –https://edms.cern.ch/file/570780/1/EGEE-TECH-570780-v1.0.pdfhttps://edms.cern.ch/file/570780/1/EGEE-TECH-570780-v1.0.pdf gLite-I/O user guide –https://edms.cern.ch/file/570771/1.1/EGEE-TECH-570771-v1.1.pdfhttps://edms.cern.ch/file/570771/1.1/EGEE-TECH-570771-v1.1.pdf
36
Catania, Primo Grid Tutorial, 14.03.2006 36 Domande…
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.