Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Slides:



Advertisements
Presentazioni simili
A.Fanfani - C.Grandi CMS Bologna 10 febbraio 2009 La nuova farm di CMS Bologna al CNAF Alessandra Fanfani Claudio Grandi.
Advertisements

Unità D1 Architetture di rete.
I file system.
Gli hard disk.
Giuseppe Fabio Fortugno.
Luglio 2004Storage Resource Management1 STORAGE RESOURCE MANAGEMENT (SRM) Luglio 2004.
Anno Accademico Corso di Informatica Informatica per Scienze Biologiche e Biotecnologie Anno Accademico
Workshop CCR Otranto - maggio 2006 General Parallel File System: caratteristiche, prestazioni ed esempi di utilizzo in produzione Alessandro Brunengo -
WP 2.4 al Cnaf Cnaf 13/11/00 P.M Hardware: - 12 PC Rack mountable IBM XSeries 330 (1U) 2 processori Pentium III 800 Mhz, FSB 133 Mhz 512 MB Mem Ecc, Controller.
Workshop sulle Problematiche di Calcolo e Reti nellINFN Maggio 2004 SantElmo Beach Hotel, Castiadas (CA) Esperienze di storage Test di funzionalità
File System NTFS 5.0 Disco: unità fisica di memorizzazione
Roma - 7 marzo 2007 Matteo Spatola direttore vendite
Polo SBN della Sapienza e della Regione Lazio tra passato, presente e futuro: uno sguardo alla tecnologia Ugo Contino SBN 2004 Vecchio.
Michele Michelotto INFN-Padova
LNL M.Biasotto, Bologna, 13 dicembre La farm di Legnaro Massimo Biasotto – INFN LNL.
M. Biasotto – INFN Legnaro
LNL M.Biasotto, Bologna, 18 ottobre La farm CMS di Padova - Legnaro Proposta di acquisto hardware 2° semestre 2001.
LNL M.Biasotto, Bologna, 19 marzo La farm CMS di Padova - Legnaro Proposta di acquisto hardware 1° semestre 2001.
1 M. Biasotto – Legnaro, 22 Dicembre 2005 Prototipo Tier 2 di Legnaro-Padova INFN Legnaro.
5 Feb 2002Stefano Belforte – INFN Trieste calcolo per CDF in Italia1 Calcolo per CDF in Italia Prime idee per lanalisi di CDF al CNAF Numeri utili e concetti.
Case study Maiora srl.
1 © 2008 DataCore Software Corp. Tutti i diritti riservati © 2008 DataCore Software Corp Dischi virtuali in un mondo meccanico Rapidi, affidabili, flessibili.
Benvenuti a Un incontro informativo di grande valore ed alto contenuto sulla Virtualizzazione e sistemi ad alta disponibiltà per le PMI.
LenovoEMC gennaio 2014 Presentazione del prodotto LenovoEMC px-400d 2013 INFORMAZIONI INTERNE LENOVO. TUTTI I DIRITTI RISERVATI.
LA RETE WEB di DOT s.r.l. DOT s.r.l. articola le sue offerte su formule di Hosting e di Housing che garantiscono e integrano numerosi servizi in grado.
PRESENTAZIONE di RICCARDO
Atempo Time Navigator HyperStream Server La prima installazione italiana Bologna, 27 aprile 2010.
Architettura di storage ad alta affidabilita e bilanciamento di carico per volumi centrali e di esperimento A.Brunengo, M.Corosu INFN Sezione di Genova.
Riunione CCR 20/10/2005 Gruppo Storage Relazione attivita primo semestre 2005 e pianificazione 2006 Alessandro Brunengo.
Dischi in RAID  Redundant Array of Independent Disk Configurazione che permette di combinare più dischi secondo obiettivi di performance e ridondanza.
Lenovo ® ThinkServer ® RD350 e RD450 Nome relatore, titolo - Data.
Works in progress.  Semplificazione e maggiore efficienza della gestione  Risparmio (nel medio periodo)  Riallocazione delle risorse (hardware e timesheet)
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Riunione gruppo storage – Roma 05/05/2005 Test di affidabilita’ e performance a Genova Alessandro Brunengo.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
RHCS XEN Cluster Dael Maselli – Workshop CCR – Maggio 2009.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Workshop CCR Otranto - giugno 2006 Gruppo storage CCR Status Report Alessandro Brunengo.
Alessandro Tirel - Sezione di Trieste Storage Area Network Riunione gruppo Storage Padova, 5 ottobre 2005.
La Farm di Atlas a Roma 1 Outline Architettura della farm Architettura della farm Installazione Installazione Monitoring Monitoring Conclusioni Conclusioni.
Federico Ruggieri INFN-CNAF Commissione Scientifica Nazionale I Lecce 24 Settembre 2003 Il Progetto TIER1 Status Update.
La Farm di Alice a Torino Workshop sulle problematiche di calcolo e reti Isola d’Elba 6-9 maggio 2002 Mario Sitta (Università del Piemonte Orientale e.
M.Biasotto, Bologna, 28 giugno 2004 M.Biasotto, Bologna, 28 giugno LNL CMS T2 Legnaro Stato attuale e richieste 2004/2005.
Dael Maselli – Workshop CCR – Maggio  SAN  Red Hat Cluster Suite ◦ RedHat Enterprise, Scientific Linux o CentOS  XEN.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
Dischi magnetici e scheduling del braccio del disco Pag. 216 – 224.
Roberto Covati INFN di Parma. Workshop CCR/INFN GRID Palau maggio Sommario VmWare Server (in produzione dal 2004 al 2008) VmWare Infrastructure.
Roberto Covati – Roberto Alfieri INFN di Parma. Incontri di lavoro CCR dicembre Sommario VmWare Server (in produzione dal 2004) VmWare ESX.
La Famiglia di Prodotti Network Analyzer. L’analizzatore J6801A DNA è un probe di cattura dati ultra leggero che comprende un sistema di acquisizione.
Brunengo - Padova - 18/12/2007 Infrastrutture di storage per Tier2 Gruppo storage CCR.
Gruppo Multimedia CCR “Report” Stefano Zani (INFN CNAF) Alfredo Pagano (INFN CNAF) Commissione Calcolo e Reti Roma, Dicembre 2006.
High Avaliability with RHCS HA INFN CNAF 22 Marzo 2006 Bologna Ricci Pier Paolo, on behalf of INFN TIER1 Staff
Attività e servizi di calcolo a Roma Tor Vergata R. Kwatera, R. Lulli, R. Sparvoli Roma Tor Vergata.
Progetto iSCSI Report alla CCR 12-13/12/2006 Alessandro Tirel – Sezione di Trieste.
Server & Storage Urgenze e anticipazioni seconde priorità CCR Marzo 2009 AG MM LC.
Netgroup (Rapporto di aggiornamento alla Commissione) Stefano Zani (INFN CNAF) CCR Roma, Ottobre 2013.
Martedi 8 novembre 2005 Consorzio COMETA “Progetto PI2S2” UNIONE EUROPEA Accesso all’infrastruttura Grid del Consorzio COMETA Grid Open Day alla Facoltà.
Test di storage a 10 Gbps proposta. Storage server a 10Gbps Si vuole vedere quali prestazioni si possano ottenere da server connessi a 10 GE –capacita’
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
The INFN Tier-1: progetto di ampliamento Cristina Vistoli – INFN CNAF Referee Meeting Sep
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
Alessandro Tirel - Sezione di Trieste Storage servers & TCP Tuning Proposta di studio delle problematiche connesse alla fornitura di servizi di storage.
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
Configurazioni Hardware  Esistono diversi tipi di configurazioni hardware, a seconda del compito che il sistema dovrà svolgere:  Casa/Ufficio (tipicamente.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
Assegnazione risorse Stato INFN CNAF,
Transcript della presentazione:

Stefano Zani e Pierpaolo Ricci (INFN CNAF) Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Storage Review Grazie all’aumento delle dimensioni dei dischi rigidi, oggi si possono superare i 3 TB di spazio disco applicando qualsiasi modello di storage: DAS (Direct attached storage), NAS (Network Attached Storage), SAN (Storage Area Network) . Ovviamente I modelli di NAS e SAN possono scalare a numeri notevolemte maggiori (dell’ordine delle decine o centinaia di TeraByte). Tecnologie in rapida evoluzione. Dischi rigidi Rapida evoluzione su Ultra ATA e SATA (320-400GB) con relativo crollo dei prezzi. Momentaneo rallentamento nella uscita dei Dischi FC (MAX 180GB). Raid Controller ATA,SCSI,FC. Controller ATA  FC, SATAFC. Switch Fibre Channel. Nuovi modelli sul mercato con relativo abbassamento dei costi.

DAS e NAS di fascia bassa In generale si tratta di Server Rack_mountable di 3-4 RackUnit “imbottiti” di dischi rigidi ATA o SATA gestiti da un paio di RAID controller (3Ware, Adaptec ..). Costi bassi (2K€ al TB) in calo. Buona flessibilita` nella gestione (Linux Box). Si trovano comunemente sul mercato Apparati basati su server biprocessore Intel in grado di ospitare 16 dischi da 250 GB (4TB Lordi, 3 TB Netti Raid5+2HotSpare). Problemi rilevati più frequentemente: Sono stati rilevati comportamenti anomali Blocco totale di alcuni modelli (Basati su 3Ware) per motivi che non sono stati diagnosticati nemmeno dalla casa madre. Guasti frequenti di dischi e controller.

NAS di fascia alta Apparati complessi (spesso sono delle Storage Area Network chiuse con un sistema di gestione proprietario). I principali produttori sono EmC2 (DELL), NetApp, Procom, IBM. I costi sono ancora alti (6-8K€ al TB) a fronte di una dichiarata maggiore continuita` di servizio e una ridondanza a caldo di tutti i componenti essenziali. Scalano fino a dimensioni di decine di TB con un unico sistema di controllo. I sistemi di controllo e notifica sono in genere molto efficienti. permettono in genere espansioni dei volumi logici senza interruzioni di servizio. Sono sistemi chiusi e in genere esportano i propri volumi solo via NFS, CIFS, HTTP e HTTPS. Alcuni produttori possono esportare porzioni di spazio Disco Via FC(Verso una SAN) o via iSCSI.

SAN Principali componenti Disk Device “semplici” Si tratta di “Shelf” di dischi (da 8 a 16 dischi ) dotati di 1 o 2 controller RAID con un numero di uscite Fibre Channel comprese fra 2 e 4. Tecnologia dei dischi: F.C., SCSI, ATA o SATA. Sistemi di gestione: permettono la configurazione dei raid set e la creazione di partizioni logiche (E’ fortemente consigliato verificare la presenza di un sistema efficiente di E-Mail Notification in caso di guasto sui componenti essenziali quali dischi, controller, alimentatori o ventole). Tramite il sistema di gestione è spesso possibile definire piu Array con Hot Spare dedicati o con un unico Hot Spare Globale. Principali produttori: Axus (Brownie), Dell, Infortrend, RAIDTech, Prezzi indicativi per soluzioni ATA to F.C. (2-2,8 K€ al TB).

SAN Principali componenti Disk Device “Complessi” Si tratta di apparati complessi dotati di unità dedicate alla gestione di quantità disco molto elevate (da decine a centinaia di TB). Sono in grado di fornire un numero elevato di uscite F.C. lato host. In pratica realizzano tutte le funzionalità tipiche di una SAN. Tecnologia dei dischi: F.C., SCSI, ATA o SATA. Sistemi di gestione: Creazione di Numerosi Array con Hot Spare comuni Espansione in corsa della capacità disco Creazione dinamica dei volumi Allarmistica e E-Mail Notification su guasto dei componenti. Principali produttori: Chaparral(RIO), Storagetek(BladeStore), IBM(FastT).. Prezzi indicativi per soluzioni ATA to F.C. (3,5-4K€ al TB).

Accenno alla Tecnologia BladeStore di Storagetek Blade: E’ l’unità di base del sistema ed e’ composto da 5 Dischi in tecnologia ATA in raid 0 fra di loro Array: E’ l’equivalente di un JBOD per dischi FC e contiene fino a 10 Balde Sistema Bladestore: 1 Control Module + Max. 12 Array Massima Espandibilità (B280): 12*10*5*250GB =150TB Control Module Fino a 8 Interfacce FC lato Host Fino a 2 controller(4FC) verso HD Blade (5 HD ADA) 1 2 4 5 9 10 8 7 6 3 1 Array (10 Blade) 1 2 4 5 9 10 8 7 6 3 2 3 . . . . . . . . 1 2 4 5 9 10 8 7 6 3 12

Focus Sulla Tecnologia BladeStore di Storagetek Il sistema permette di creare Raidset Raid 5 con Hot Spare Globali. E’ possibile creare volumi dinamicamente (Max 2TB per Volume con l’attuale release software) ed associare questi volumi alle diverse Interfacce FC “lato host”

“Prestazioni” verificate sui alcuni dei device in uso al CNAF Scrivendo e leggendo file grandi (6GB) da server direttamente collegati (non via NFS). Oxyria NAS (ATA) 2 Controller 3Ware 16 Dischi da 200GB 2 Raidset RAID5+HS (~2,4 TB) . 2 Gigabit Ethernet Read 65 MB/s Write 50 MB/s Brownie AXUS (ATA-FC) 16 Dischi da 200GB RAID5+1HS (~2.5 TB) . 2 Uscite in FC Read 55 MB/s Write 40 MB/s Dell Powevault 660f (FC-FC) 112 dischi FC da 73GB 8 enclosure da 14 7 Raidset (RAID-5) con 1 Global Hot Spare(~7TB) Read 42 MB/s Write 38 MB/s STK Bladestore (ATA-FC) 2 Controller con 4 uscite FC 10BLADE costituiti da 5 dischi da 250GB RAID-5 su10 Blade +1 Blade Hot-Spare (~10 TB) Read 75 MB/s Write 65 MB/s

“Prestazioni” verificate sui alcuni dei device in uso al CNAF Scrivendo e leggendo file grandi (6GB) da server direttamente collegati (non via NFS). Infortrend ES A16F-R (SATA-FC) 2 Controller con 4 uscite FC 16 Dischi da 250GB RAID-5+1Hot-Spare (~3.2 TB) Read 85 MB/s Write 90 MB/s Recente Misure via NFS 1 Client 30-35MB/s 2-3 Client 35-40 MB/s Oltre 5 client le prestazioni tendono a diminuire Con 92 Client -> 16MB/s (Aggreato) Non si sono notate differenze rilevanti via NFS fra accesso via NAS o SAN. NAS (NFS) IP (Gb Ethernet) SAN IP F.C. Server (NFS)

SAN IL MODELLO TEORICO F.C. Switch FC Server F.C. Rete IP Client

SAN Utilizzo degli Switch Fibre-Channel un server a piu device piu server a piu device piu server ad un device F.C. Switch FC un server ad un device. F.C. Server Server Server Server Con la funzione di “Zoning” sugli switch FC e’ possibile creare “Zone” (Simili a vlan per porta o per MAC) tramite le quali associare: Tutto lo storage in SAN viene cosi reso automaticamente disponibile a tutti i server collegati

SAN Utilizzo di base.. debian:~# dmesg F.C. Switch FC Server debian:~# dmesg SCSI device sda: 3481600000 512-byte hdwr sectors (1782579 MB) … SCSI device sdb: 3374219264 512-byte hdwr sectors (1727600 MB) debian:~# mdadm -C /dev/md0 --level 0 --raid-disks 2 /dev/sda /dev/sdb A questo punto il server “Vede” tutte le partizioni esportate dagli apparati FC come device /dev/sdx Per esempio /dev/sda, /dev/sdb, /dev/sdc… Limiti: Con kernel “vecchi” 2.4.18-xx  Partizioni <1TB Con Kernel piu recenti (2.6.6) le partizioni possono arrivare a 16TB ma…. Il modulo software delle schede FC Qlogic non permette di gestire singoli device superiori a 2TB! Quindi si e’ costretti ad utilizzare sistemi quali per esempio raid 0 software. debian:~# df -h Filesystem Size Used Avail Use% Mounted on /dev/hda2 110G 2.8G 101G 3% / tmpfs 2.0G 0 2.0G 0% /dev/shm /dev/hda1 37M 22M 14M 61% /boot /dev/md0 3.2T 35G 3.2T 2% /mnt/discone

SAN Ci piacerebbe di fare qualcosa di piu`.. Gestire volumi in maniera dinamica con un LVM in grado di accorpare le partizioni disponibili sulla SAN (Linux LVM, Veritas…) Server Alta affidabilità in caso di “Down” di uno dei server, il secondo si sostituisce automaticamente al primo senza disservizio per i client (RH Advanced ..) Vero e proprio “Service Cluster” con il quale, in maniera trasparente per i client, si può aumentare il numero dei server aumentando affidabilità e prestazioni. (IBM GPFS, Sistina GFS..) Di tutte queste funzionalità per ora nel T1 si utilizza per servizi di produzione solo NFS ed Oracle in alta affidabilità con RedHat Advanced Server.

Cluster RedHat A.S. 2.1 2 nodi in cluster con eth1 IP heartbeat e un “quorum disk” Ogni servizio “clustered” ha il suo indirizzo IP associato (IP alias) Si ha alta affidablità solo su un singolo servizio ma e’ possibile una configurazione “active/active” Su servizi differenti . E’ stato provato con successo con I servizi NFS e Oracle (NFS in produzione). Le operazioni di mount/dismount vengono forzate automaticamente usando la SAN per accedere ai volumi. E’ stato necesario “Patchare” l’agente stonith (Shot The Other Node In The Head) per forzare il reboot su nodi eventualmente “freezed” utlizzando le presiere controllabili via IP di APC.

Gadzoox 4218 Switch Fibre Channel Cluster RedHat A.S. 2.1 LAN/WAN APC Master Switch Controller AP9224 Remote Power on/off Using IP APC Master Switch Controller AP9224 Remote Power on/off Using IP Connection to LAN/WAN Ethernet- Eth0 Power Supply 220V Power Supply 220V Internal HeartBeat Ethernet- Eth1 2 Dell 1650 2GB RAM servers Fibre Channel connections Using HBA Qla2300 with SANsurfer persistent data (Fixed SCSI device order on SAN) Gadzoox 4218 Switch Fibre Channel QUORUM DISK ORACLE SERVICE (AXUS BROWIE 2TB) NFS SERVICE (2.5TB)

Attività di sperimentazione Cluster file system GPFS (IBM General Parallel Filesystem)  Test effettuato un anno fa con 3 nodi risultato parzialmente positivo: OK il volume manager ma Basse prestazioni soprattutto esportando in NFS lo spazio disco (20MB/s). GFS (Sistina Global File System)  NON Testato Object based File System (meta-data server e file distribuiti su più I/O server collegati in rete) PVFS (Parallel Virtual File System) Utile soprattutto per creare aree di disco ad accesso molto veloce (come raid 0 fra dischi distribuiti) utilizzando il secondo disco dei nodi di calcolo quando non viene utilizzato…. In fase di test (in collaborazione con LHCB) Dcache (Distributed storage data caching system) non POSIX compliant si accede comunque ai dati utilizzando dcap (dCache access protocol) in futuro SRM potrebbe essere una buona interfaccia per dCache. Da test effettuati al T1 (T1 staff+CMS) utilizzando 20 Pool Node e 100 Client il throuhput Globale ha raggiunto 1,2 Gbit/s (150MB/s) ... Lustre Basato anch’esso su Meta-Data Server (Ridondabili) OSS (Object Storage Server) che contengono effettivamente i dati. Su questi File System vale la pena spendere tempo in sperimentazione. Alcuni di questi file system verranno presi in considerazione nelle prossime presentazioni