La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Presentazioni simili


Presentazione sul tema: "Stefano Zani e Pierpaolo Ricci (INFN CNAF)"— Transcript della presentazione:

1 Stefano Zani e Pierpaolo Ricci (INFN CNAF)
Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

2 Storage Review Grazie all’aumento delle dimensioni dei dischi rigidi, oggi si possono superare i 3 TB di spazio disco applicando qualsiasi modello di storage: DAS (Direct attached storage), NAS (Network Attached Storage), SAN (Storage Area Network) . Ovviamente I modelli di NAS e SAN possono scalare a numeri notevolemte maggiori (dell’ordine delle decine o centinaia di TeraByte). Tecnologie in rapida evoluzione. Dischi rigidi Rapida evoluzione su Ultra ATA e SATA ( GB) con relativo crollo dei prezzi. Momentaneo rallentamento nella uscita dei Dischi FC (MAX 180GB). Raid Controller ATA,SCSI,FC. Controller ATA  FC, SATAFC. Switch Fibre Channel. Nuovi modelli sul mercato con relativo abbassamento dei costi.

3 DAS e NAS di fascia bassa
In generale si tratta di Server Rack_mountable di 3-4 RackUnit “imbottiti” di dischi rigidi ATA o SATA gestiti da un paio di RAID controller (3Ware, Adaptec ..). Costi bassi (2K€ al TB) in calo. Buona flessibilita` nella gestione (Linux Box). Si trovano comunemente sul mercato Apparati basati su server biprocessore Intel in grado di ospitare 16 dischi da 250 GB (4TB Lordi, 3 TB Netti Raid5+2HotSpare). Problemi rilevati più frequentemente: Sono stati rilevati comportamenti anomali Blocco totale di alcuni modelli (Basati su 3Ware) per motivi che non sono stati diagnosticati nemmeno dalla casa madre. Guasti frequenti di dischi e controller.

4 NAS di fascia alta Apparati complessi (spesso sono delle Storage Area Network chiuse con un sistema di gestione proprietario). I principali produttori sono EmC2 (DELL), NetApp, Procom, IBM. I costi sono ancora alti (6-8K€ al TB) a fronte di una dichiarata maggiore continuita` di servizio e una ridondanza a caldo di tutti i componenti essenziali. Scalano fino a dimensioni di decine di TB con un unico sistema di controllo. I sistemi di controllo e notifica sono in genere molto efficienti. permettono in genere espansioni dei volumi logici senza interruzioni di servizio. Sono sistemi chiusi e in genere esportano i propri volumi solo via NFS, CIFS, HTTP e HTTPS. Alcuni produttori possono esportare porzioni di spazio Disco Via FC(Verso una SAN) o via iSCSI.

5 SAN Principali componenti
Disk Device “semplici” Si tratta di “Shelf” di dischi (da 8 a 16 dischi ) dotati di 1 o 2 controller RAID con un numero di uscite Fibre Channel comprese fra 2 e 4. Tecnologia dei dischi: F.C., SCSI, ATA o SATA. Sistemi di gestione: permettono la configurazione dei raid set e la creazione di partizioni logiche (E’ fortemente consigliato verificare la presenza di un sistema efficiente di Notification in caso di guasto sui componenti essenziali quali dischi, controller, alimentatori o ventole). Tramite il sistema di gestione è spesso possibile definire piu Array con Hot Spare dedicati o con un unico Hot Spare Globale. Principali produttori: Axus (Brownie), Dell, Infortrend, RAIDTech, Prezzi indicativi per soluzioni ATA to F.C. (2-2,8 K€ al TB).

6 SAN Principali componenti
Disk Device “Complessi” Si tratta di apparati complessi dotati di unità dedicate alla gestione di quantità disco molto elevate (da decine a centinaia di TB). Sono in grado di fornire un numero elevato di uscite F.C. lato host. In pratica realizzano tutte le funzionalità tipiche di una SAN. Tecnologia dei dischi: F.C., SCSI, ATA o SATA. Sistemi di gestione: Creazione di Numerosi Array con Hot Spare comuni Espansione in corsa della capacità disco Creazione dinamica dei volumi Allarmistica e Notification su guasto dei componenti. Principali produttori: Chaparral(RIO), Storagetek(BladeStore), IBM(FastT).. Prezzi indicativi per soluzioni ATA to F.C. (3,5-4K€ al TB).

7 Accenno alla Tecnologia BladeStore di Storagetek
Blade: E’ l’unità di base del sistema ed e’ composto da 5 Dischi in tecnologia ATA in raid 0 fra di loro Array: E’ l’equivalente di un JBOD per dischi FC e contiene fino a 10 Balde Sistema Bladestore: 1 Control Module + Max. 12 Array Massima Espandibilità (B280): 12*10*5*250GB =150TB Control Module Fino a 8 Interfacce FC lato Host Fino a 2 controller(4FC) verso HD Blade (5 HD ADA) 1 2 4 5 9 10 8 7 6 3 1 Array (10 Blade) 1 2 4 5 9 10 8 7 6 3 2 3 . . . . . . . . 1 2 4 5 9 10 8 7 6 3 12

8 Focus Sulla Tecnologia BladeStore di Storagetek
Il sistema permette di creare Raidset Raid 5 con Hot Spare Globali. E’ possibile creare volumi dinamicamente (Max 2TB per Volume con l’attuale release software) ed associare questi volumi alle diverse Interfacce FC “lato host”

9 “Prestazioni” verificate sui alcuni dei device in uso al CNAF Scrivendo e leggendo file grandi (6GB) da server direttamente collegati (non via NFS). Oxyria NAS (ATA) 2 Controller 3Ware 16 Dischi da 200GB 2 Raidset RAID5+HS (~2,4 TB) . 2 Gigabit Ethernet Read 65 MB/s Write 50 MB/s Brownie AXUS (ATA-FC) 16 Dischi da 200GB RAID5+1HS (~2.5 TB) . 2 Uscite in FC Read 55 MB/s Write 40 MB/s Dell Powevault 660f (FC-FC) 112 dischi FC da 73GB 8 enclosure da 14 7 Raidset (RAID-5) con 1 Global Hot Spare(~7TB) Read 42 MB/s Write 38 MB/s STK Bladestore (ATA-FC) 2 Controller con 4 uscite FC 10BLADE costituiti da 5 dischi da 250GB RAID-5 su10 Blade +1 Blade Hot-Spare (~10 TB) Read 75 MB/s Write 65 MB/s

10 “Prestazioni” verificate sui alcuni dei device in uso al CNAF Scrivendo e leggendo file grandi (6GB) da server direttamente collegati (non via NFS). Infortrend ES A16F-R (SATA-FC) 2 Controller con 4 uscite FC 16 Dischi da 250GB RAID-5+1Hot-Spare (~3.2 TB) Read 85 MB/s Write 90 MB/s Recente Misure via NFS 1 Client 30-35MB/s 2-3 Client MB/s Oltre 5 client le prestazioni tendono a diminuire Con 92 Client -> 16MB/s (Aggreato) Non si sono notate differenze rilevanti via NFS fra accesso via NAS o SAN. NAS (NFS) IP (Gb Ethernet) SAN IP F.C. Server (NFS)

11 SAN IL MODELLO TEORICO F.C. Switch FC Server F.C. Rete IP Client

12 SAN Utilizzo degli Switch Fibre-Channel
un server a piu device piu server a piu device piu server ad un device F.C. Switch FC un server ad un device. F.C. Server Server Server Server Con la funzione di “Zoning” sugli switch FC e’ possibile creare “Zone” (Simili a vlan per porta o per MAC) tramite le quali associare: Tutto lo storage in SAN viene cosi reso automaticamente disponibile a tutti i server collegati

13 SAN Utilizzo di base.. debian:~# dmesg
F.C. Switch FC Server debian:~# dmesg SCSI device sda: byte hdwr sectors ( MB) SCSI device sdb: byte hdwr sectors ( MB) debian:~# mdadm -C /dev/md0 --level 0 --raid-disks 2 /dev/sda /dev/sdb A questo punto il server “Vede” tutte le partizioni esportate dagli apparati FC come device /dev/sdx Per esempio /dev/sda, /dev/sdb, /dev/sdc… Limiti: Con kernel “vecchi” xx  Partizioni <1TB Con Kernel piu recenti (2.6.6) le partizioni possono arrivare a 16TB ma…. Il modulo software delle schede FC Qlogic non permette di gestire singoli device superiori a 2TB! Quindi si e’ costretti ad utilizzare sistemi quali per esempio raid 0 software. debian:~# df -h Filesystem Size Used Avail Use% Mounted on /dev/hda G 2.8G 101G 3% / tmpfs G G 0% /dev/shm /dev/hda M 22M 14M % /boot /dev/md T 35G T % /mnt/discone

14 SAN Ci piacerebbe di fare qualcosa di piu`..
Gestire volumi in maniera dinamica con un LVM in grado di accorpare le partizioni disponibili sulla SAN (Linux LVM, Veritas…) Server Alta affidabilità in caso di “Down” di uno dei server, il secondo si sostituisce automaticamente al primo senza disservizio per i client (RH Advanced ..) Vero e proprio “Service Cluster” con il quale, in maniera trasparente per i client, si può aumentare il numero dei server aumentando affidabilità e prestazioni. (IBM GPFS, Sistina GFS..) Di tutte queste funzionalità per ora nel T1 si utilizza per servizi di produzione solo NFS ed Oracle in alta affidabilità con RedHat Advanced Server.

15 Cluster RedHat A.S. 2.1 2 nodi in cluster con eth1 IP heartbeat e un “quorum disk” Ogni servizio “clustered” ha il suo indirizzo IP associato (IP alias) Si ha alta affidablità solo su un singolo servizio ma e’ possibile una configurazione “active/active” Su servizi differenti . E’ stato provato con successo con I servizi NFS e Oracle (NFS in produzione). Le operazioni di mount/dismount vengono forzate automaticamente usando la SAN per accedere ai volumi. E’ stato necesario “Patchare” l’agente stonith (Shot The Other Node In The Head) per forzare il reboot su nodi eventualmente “freezed” utlizzando le presiere controllabili via IP di APC.

16 Gadzoox 4218 Switch Fibre Channel
Cluster RedHat A.S. 2.1 LAN/WAN APC Master Switch Controller AP9224 Remote Power on/off Using IP APC Master Switch Controller AP9224 Remote Power on/off Using IP Connection to LAN/WAN Ethernet- Eth0 Power Supply 220V Power Supply 220V Internal HeartBeat Ethernet- Eth1 2 Dell GB RAM servers Fibre Channel connections Using HBA Qla2300 with SANsurfer persistent data (Fixed SCSI device order on SAN) Gadzoox 4218 Switch Fibre Channel QUORUM DISK ORACLE SERVICE (AXUS BROWIE 2TB) NFS SERVICE (2.5TB)

17 Attività di sperimentazione
Cluster file system GPFS (IBM General Parallel Filesystem)  Test effettuato un anno fa con 3 nodi risultato parzialmente positivo: OK il volume manager ma Basse prestazioni soprattutto esportando in NFS lo spazio disco (20MB/s). GFS (Sistina Global File System)  NON Testato Object based File System (meta-data server e file distribuiti su più I/O server collegati in rete) PVFS (Parallel Virtual File System) Utile soprattutto per creare aree di disco ad accesso molto veloce (come raid 0 fra dischi distribuiti) utilizzando il secondo disco dei nodi di calcolo quando non viene utilizzato…. In fase di test (in collaborazione con LHCB) Dcache (Distributed storage data caching system) non POSIX compliant si accede comunque ai dati utilizzando dcap (dCache access protocol) in futuro SRM potrebbe essere una buona interfaccia per dCache. Da test effettuati al T1 (T1 staff+CMS) utilizzando 20 Pool Node e 100 Client il throuhput Globale ha raggiunto 1,2 Gbit/s (150MB/s) ... Lustre Basato anch’esso su Meta-Data Server (Ridondabili) OSS (Object Storage Server) che contengono effettivamente i dati. Su questi File System vale la pena spendere tempo in sperimentazione. Alcuni di questi file system verranno presi in considerazione nelle prossime presentazioni


Scaricare ppt "Stefano Zani e Pierpaolo Ricci (INFN CNAF)"

Presentazioni simili


Annunci Google