La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Benigno Gobbo – INFN Trieste 1 CSN1 13 ottobre 2003 Obsolescenza dei PC Riunione CSN1 Roma, 13 ottobre 2003 Benigno Gobbo INFN Sezione di Trieste

Presentazioni simili


Presentazione sul tema: "Benigno Gobbo – INFN Trieste 1 CSN1 13 ottobre 2003 Obsolescenza dei PC Riunione CSN1 Roma, 13 ottobre 2003 Benigno Gobbo INFN Sezione di Trieste"— Transcript della presentazione:

1 Benigno Gobbo – INFN Trieste 1 CSN1 13 ottobre 2003 Obsolescenza dei PC Riunione CSN1 Roma, 13 ottobre 2003 Benigno Gobbo INFN Sezione di Trieste Benigno.Gobbo@cern.ch

2 CSN1 Benigno Gobbo – INFN Trieste 2 13 ottobre 2003 Hardware Età della Farm PC Client Assemblati 1 a “nidiata”, dicembre 2000 (11 macchine) Motherboad MSI 694D Pro (soket 370, PC100/133 SDRAM, ATA/100, chipset VIA 694X), 2 P III a 800 MHz, 512 MB SDRAM, 2x 20 GB ATA 100 2 a “nidiata”, novembre 2001 (19 macchine) Motherboad Abit VP6 (soket 370, PC100/133 SDRAM, ATA/100, chipset VIA 694X), 2 P III a 1 GHz, 512 MB SDRAM, 2x 40 GB ATA 100 PC Server Assemblati (10/2000) Motherboard ASUS CUR-DLS (soket 370, PC100/133 SDRAM, Ultra 2 SCSI, chipset ServerSet III LE), 2 P III a 800 MHz, 512 MB SDRAM, 2x 36 GB SCSI (12/2000) Motherboard Intel L440GX (slot 1, PC100 SDRAM, chipset I440gx), 2 P III a 700 MHz, 512 MB SDRAM, 2x15 + 14x75 + 6x80 GB ATA 100 (*) (07/2001) Motherboard Intel STL2 (soket 370, PC100/133 SDRAM, chipset ServerSet III LE), 2 P III a 866 MHz, 512 MB SDRAM, 2x20 + 20x80 GB ATA100 (*) (*) 3 anni di garanzia

3 CSN1 Benigno Gobbo – INFN Trieste 3 13 ottobre 2003 Hardware (cont.) Server “di marca” (04/2001) SunBlade 1000 (**) (2 Spark III a 750 KHz, 512 MB RAM, 18+36 GB SCSI + 8x72 GB SCSI in RAID controller esterno CMD (***) (11/2001) DELL Power Edge 4400 (chipset: ServerSet III LE 2 Xeon a 1 GHz, 1 GB RAM, 2x36 + 6x72 GB SCSI in RAID controller interno (*) Switch di rete (10/2000) 3COM 3900 (36 Fast + 3 Giga SX) (**) (11/2001) 3COM 4900 (12 Giga SX) (**) Altro (12/2001) Tape Library STK L40 con 2 drive IBM Ultrium1 (12/2000) Switch KVM 16 porte Belkin OmniView Pro (12/2000) Monitor, tastiera, mouse Per i PC client ci si è dotati di un piccolo magazzino di pezzi di ricambio (soprattutto dischi); gli altri dispositivi hanno una garanzia triennale o sono in manutenzione. (*) 3 anni di garanzia (**) in contratto di manutenzione manutenzione (***) non mantenibile

4 CSN1 Benigno Gobbo – INFN Trieste 4 13 ottobre 2003 Cronistoria dei Problemi Hardware Singoli guasti Nei client subito dopo l’acquisto Client “vecchi”: 1 Power supply Client “nuovi”: 1 Power supply + graphic card Nei client, distribuite nel tempo Client “vecchi”: 5 dischi (02/02, 03/02, 11/02, 04/03, 08/03) Nei server “assemblati” Server “nuovo”: 3ware escalade 6800 (01/02), 3 dischi (11/01, 12/02, 06/03) Nei server “di marca” - In altro hardware -

5 CSN1 Benigno Gobbo – INFN Trieste 5 13 ottobre 2003 Cronistoria dei Problemi Hardware (cont.) Guasti su specifici hardware IBM DTLA-307075 (montati sul 1 o disk server) 7 dischi su 14 rotti (5 ~subito, 02/02, 02/03) Problema oggi noto, non lo ora quando vennero acquistati Per raffronto, su 26 Western Digital: 3 rotti MSI 694D Pro (motherboard dei client “vecchi”) Non si è ancora capito cosa succeda. Sintomi identici: reboot continuo della macchina. Le schede PCI, la pila, le CPU e la RAM sono state tutte testate e risultano funzionanti. 5 rotte su 11! Problema iniziato da poco, ma sembra un’epidemia: 02/09/03, 20/09/03, 25/09/03, 06/10/03, 06/10/03 Un’ipotesi? A fine agosto, con alte temperature esterne, c’è stato un blackout di 3 ore, una domenica notte. Le macchine sono rimaste in funzione per 30 min. e con alto load (running jobs) grazie all’UPS con condizionamento spento, la temperatura della stanza era salita oltre i 40 o. È molto difficile trovare in commercio schede per soket 370 biprocessori con bus a 133 e controller IDE. Non ho trovato MSI, Abit o SuperMicro. Sto aspettando una Asus CUV4X-D in prestito per fare dei test.

6 CSN1 Benigno Gobbo – INFN Trieste 6 13 ottobre 2003 Riassunto sull’hardware Le macchine più vecchie si avvicinano ai 3 anni di età, l’età media degli oggetti è comunque oltre i 2 anni Le macchine più vecchie si avvicinano ai 3 anni di età, l’età media degli oggetti è comunque oltre i 2 anni Ci sono due tipi di guasti Sporadici Su macchine nuove. Generico componente difettoso. La macchina è in garanzia ed essendo nuova ha poca installazione. Quindi il problema generalmente non è grave Distribuiti nel tempo. Praticamente solo dischi. In generale facile reperibilità sul mercato La creazione di un piccolo “magazzino” permette di ridurre al minimo il tempo di non disponibilità della macchina Facile operazione hardware di sostituzione Se non in RAID: problemi(ni) dal lato software (generalmente installazione ex-novo del sistema operativo, semplificata da utility come kickstart o simili) Legati a specifici componenti dimostratisi non affidabili In generale ci si aspetta che questi guasti avvengano su hardware nuovo, quindi con sostituzione in garanzia Ma non sempre avviene questo. Il caso delle motherboad è un esempio di caso peggiore: Non si trovano più sul mercato La sostituzione è particolarmente laboriosa

7 CSN1 Benigno Gobbo – INFN Trieste 7 13 ottobre 2003 Considerazioni Punto debole in caso di guasti Dopo poco più di 2 anni certi componenti fondamentali (es. schede madri) si trovano difficilmente sul mercato Sostituzione completa di una macchina in caso di rottura? Secondo me non è ragionevole: Dopo poco tempo è improbabile trovare una macchina gemella sul mercato L’omogeneità dei modelli aiuta moltissimo nella gestione di una farm Sostituzione “quantizzata” delle macchine guaste Preferibile Quando se ne sono rotte N se ne finanziamo es. M>N che devono bastare anche per successivi (almeno: le nuove sono più performanti) M-N guasti. Sostituzione di macchine per “limite di età” Trovo che a tutt’oggi macchine che si avvicinano ai 3 anni di età, con doppio PIII a 0.8-1.0 GHz, siano del tutto dignitose in performance su problemi tipici dell’HEP (le performance non scalano coi MHz del clock: cfr risultati SPECint2000)cfr risultati SPECint2000

8 CSN1 Benigno Gobbo – INFN Trieste 8 13 ottobre 2003 Problemi Firmware CUR-DLS BIOS Leggeva male la temperatura della 2 a CPU ed abbassava il clock supponendo un surriscaldamento Risolto con un BIOS upgrade Schede 3ware 6800 Talvolta incompatibilità tra driver linux e firmware Difficoltà soprattutto in fase di installazione di linux Risolti con updare di driver e/o firmware Alcuni modelli di dischi Western Digital Bug in una “nuova feature” del firmware introdotta per renderli meno rumorosi Le 3ware li credevano guasti e li mettevano offline Risolto con patch al firmware dei dischi (che fortunatamente supportava i controller 3ware) Quindi: fastidiosi ma, almeno fin’ora risolvibili con “pezze”. Naturalmente bisogna controllare a priori che i produttori di hardware/software supportino il nostro environment.

9 CSN1 Benigno Gobbo – INFN Trieste 9 13 ottobre 2003 Software Non ho, per ora, riscontrato nessun tipo di problemi legati a software upgrade (piuttosto si possono riscontrare problemi legati ai driver per hardware “nuovissimo”). Questo vale per I sistemi operativi (RedHat Linux 6.x, 7.x, AS2.1) I software commerciali (Objectivity, CA ARCerve, Oracle 9.20i (?), …) I software HEP (ROOT, CLHEP, CERNLib, CASTOR, DATE, …) I software di esperimento (programmi di ricostruzione ed analisi) Problemi potrebbero esserci in futuro (vedi Fedora Project) Fedora ProjectFedora Project Vedremo: la situazione è confusa e tutta da capire … In generale le farm locali, per non rendere la vita di gestione troppo dura, devono necessariamente rimanere “software compatibili” con “qualche riferimento” Nel nostro caso la farm al CERN Se a causa di hardware obsoleto e non più supportato non si potesse fare l’upgrade del software, il problema sarebbe serio

10 CSN1 Benigno Gobbo – INFN Trieste 10 13 ottobre 2003 In conclusione Secondo la mia esperienza, lo hardware di tre anni può ancora essere “dignitosamente” usato. Quattro anni possono ancora essere considerati come l’età buona per l’upgrade del materiale informatico. Cinque sembra un periodo lungo, assumendo gli attuali trend di evoluzione (raddoppio frequenza CPU/anno, 1.3-1.8 in SPECint), e considerando anche che dopo un paio d’anni certi componenti non si trovano più sul mercato Naturalmente salvo necessità dovute a scelte non influenzabili (cambiamenti di tecnologie hardware od incompatibilità dovute a nuovi software necessari) Ed ancora più naturalmente salvo “sfighe” contingenti (cfr motherboard) Domanda, soprattutto legata alle future grosse farm: una volta fatto un upgrade, cosa si fa delle macchine dismesse se ancora funzionanti? Si tengono nell’environment? Ma questo richiede investimenti in es. networking Si riciclano ad altri usi? Quali?


Scaricare ppt "Benigno Gobbo – INFN Trieste 1 CSN1 13 ottobre 2003 Obsolescenza dei PC Riunione CSN1 Roma, 13 ottobre 2003 Benigno Gobbo INFN Sezione di Trieste"

Presentazioni simili


Annunci Google