La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy.

Presentazioni simili


Presentazione sul tema: "Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy."— Transcript della presentazione:

1 Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy Prof. Ravi K. Iyer Center for Reliable and High-Performance Computing Department of Electrical and Computer Engineering and Coordinated Science Laboratory University of Illinois at Urbana-Champaign

2 Lecture 2, Slide 2 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Tipi di interconnessione I componenti di un sistema presentano indici daffidabilità e di disponibilità che dipendono sia dalla qualità dei loro componenti e delle politiche di manutenzione, sia dalle loro interconnessioni. Tipiche interconnessioni tra componenti sono: la serie, la parallela, la TMR, librida M su N.

3 Lecture 2, Slide 3 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Calcolo dellaffidabilità Interconnessione serie. K entità di un sistema si dicono interconnesse in modo seriale quando il funzionamento del sistema dipende dal corretto funzionamento di tutti e K le entità. Tale interconnessione è rappresentabile come in figura e denotando con Ri(t) e con Ai, rispettivamente, laffidabilità e la disponibilità della generica entità, laffidabilità e la disponibilità del sistema sono pari a:

4 Lecture 2, Slide 4 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Interconnessione parallela Interconnessione parallela. K entità di un sistema si dicono interconnesse in modo parallelo quando il funzionamento del sistema è garantito dalla presenza di almeno una entità funzionante correttamente. Tale interconnessione è rappresentabile come in figura e denotando con Ri(t) e con Ai, rispettivamente, laffidabilità e la disponibilità della generica entità, laffidabilità e la disponibilità del sistema sono pari a: Queste espressioni si possono giustificare considerando che il sistema non funziona correttamente, ovvero non è disponibile se sono guaste o non disponibili tutte le sue K entità. Nel caso di entità con la medesima affidabilità RC(t) o disponibilità AC si ha che:

5 Lecture 2, Slide 5 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Outline Basic approaches to hardware redundancy Static and dynamic redundancy Voting Hardware voter example

6 Lecture 2, Slide 6 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Basic Approaches to Hardware Redundancy Static or masking redundancy –add redundancy to mask out effects of faults immediately Static and dynamic redundancy –Detect fault –Locate fault –Reconfigure system around fault –Recover and restart Voting –hardware –software –synchronization issues

7 Lecture 2, Slide 7 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Hardware / Static Fault Tolerance Triple Modular Redundancy (TMR) with One Voter Extended to NMR Use static or masking redundancy

8 Lecture 2, Slide 8 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 In questo tipo di schema, vengono mascherati guasti a livello dei componenti, ma non eventuali guasti a livello del voter, per il quale non vi è alcuna ridondanza. Se il voter è soggetto a guasto allora il suo valore di output potrebbe essere scorretto ed originare quindi errori e poi malfunzionamenti. Per questo tipo di schema, l'affidabilità dell'intero sistema non può mai essere superiore all'affidabilità del voter. Dato un sistema, ogni singolo componente il cui guasto può dar luogo a malfunzionamento del sistema stesso viene denominato singolo punto di fallimento.

9 Lecture 2, Slide 9 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Hardware / Static Fault Tolerance TMR with 3 voters extended to NMR with N voters Use static or masking redundancy Una tecnica classica per prevenire che il voter diventi un singolo punto di fallimento è quella di replicarlo.

10 Lecture 2, Slide 10 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Una generalizzazione dell'approccio TMR è la cosiddetta ridondanza ad N moduli (N-modular redundancy - NMR), la quale differisce da TMR nel fatto che il componente in oggetto viene replicato N volte, con N possibilmente maggiore di 3. Il vantaggio di utilizzare N > 3 moduli risiede nel fatto che più di un singolo guasto può essere tollerato. Ad esempio, il voto di maggioranza permette ad un sistema di tipo 5MR di tollerare il guasto di un massimo di due componenti. Ovviamente lo svantaggio sarà associato al maggiore costo dovuto al più alto numero di copie del modulo per cui si adotta la ridondanza.

11 Lecture 2, Slide 11 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014

12 Lecture 2, Slide 12 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 TMR with 3 Voters Remove single point of failure Use TMR with 3 voters Cascade such systems V1V1 VnVn V n-1 Reliability expression can be obtained by considering module -voter combination as a unit, R v - R m Then simply apply TMR expression.

13 Lecture 2, Slide 13 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014

14 Lecture 2, Slide 14 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Interconnessione TMR Il sistema è guasto o non disponibile perché sono contemporaneamente guaste o non disponibili due entità o perché è guasto o non disponibile il voter, quindi:

15 Lecture 2, Slide 15 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 M-out-of-N Systems Consider TMR system Only 2 to work correctly For general M, N Out of N modules, need M to function A B C V N working N-1 working N-2 working N-M working Failed V

16 Lecture 2, Slide 16 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Interconnessione ibrida M su N. N entità di un sistema si dicono interconnesse in modo ibrido M su N se il sistema è funzionante qualora lo siano almeno M di loro, ovvero se sono guaste al più K = N – M entità. In tal caso indicando con RC(t) e con AC laffidabilità e la disponibilità di ogni singola entità si ha che:

17 Lecture 2, Slide 17 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Queste espressioni si possono giustificare notando che la probabilità che: siano sane N entità è pari a: siano sane N-1 entità è pari a: siano sane N-2 entità è pari a: siano sane N-K entità è pari a:

18 Lecture 2, Slide 18 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Hardware Redundancy – Compare reliability of simplex and TMR systems Instead of MTTF, look at mission time Reliability of M-out-of-N systems very high in the beginning – spare components tolerate failures Reliability sharply falls down in end – system exhausted redundancy, more hardware can possibly fail Such systems useful in aircraft control – very high short time reliability – over 10 hour period Instead of MTTF, look at mission time Reliability of M-out-of-N systems very high in the beginning – spare components tolerate failures Reliability sharply falls down in end – system exhausted redundancy, more hardware can possibly fail Such systems useful in aircraft control – very high short time reliability – over 10 hour period R simplex (t) = e - t MTTF simplex = MTTF simplex > MTTF TMR

19 Lecture 2, Slide 19 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Effect of Voter Previous expression for reliability assumed voter 100% reliable Assume voter reliability R v

20 Lecture 2, Slide 20 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Voting in Hardware & Software Guarantee majority vote on the input data to the voter Ability of detecting own errors (self-checking) Determine the faulty replica/node (building the exclusion logic) Voting in networked systems (software) –requires synchronization of inputs to the voter –may be difficult to determine voter timeout different relative speed of machines varying network communication delays Voting in hardware systems –generally does not require an external synchronization of inputs to the voter –lock step mode or loosely synchronized mode –CPUs internally can be out of synch because of non-deterministic execution of instructions

21 Lecture 2, Slide 21 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Voters Example (Tandem Integrity) Voting on CPU initiated operations –Voter divided into two parts: majority voter and vote analyzer the majority voter generates a bit by bit majority vote from the three inputs to the voter the vote analyzer is a three part comparator and determines whether one of the inputs is faulty –Voting logic is duplicated and compared a failure in the voting logic results in a self-check error Voting on external I/O operations –distributed, majority voting performed locally on each CPU CPU1CPU2CPU3 External Interrupt

22 Lecture 2, Slide 22 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Ridondanza attiva E' da notare che in questo caso non c'è alcun tentativo di prevenzione affinché guasti non diano origine ad errori ed a malfunzionamenti, ma esistono solo azioni di rimedio per riportare il sistema al corretto funzionamento. Quindi tale tipo di ridondanza risulterà più appropriata per tutte quelle applicazioni in cui la presenza, se pur temporanea, di errori e malfunzionamenti è accettabile.

23 Lecture 2, Slide 23 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014

24 Lecture 2, Slide 24 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Hardware / Dynamic Fault Tolerance Use dynamic or standby redundancy Detect fault, locate fault, replace fault with spare Use duplication and comparison for detection Switch Comparator

25 Lecture 2, Slide 25 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Coverage The more fault a test set detects, the better the test set is Fault coverage Ratios of faults detected by a test set to the total number of possible faults in the circuit Metric obtained through simulation

26 Lecture 2, Slide 26 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Effect of Coverage Failure detection is not perfect Reconfiguration may not succeed Attach a coverage c One spare system R sys = R 1 + c (1-R 1 ) R 2 n-1 spare system R sys = R m c i (1-R m ) i 2 3 n 1 i=0 n-1

27 Lecture 2, Slide 27 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Effect of Coverage (cont.) If coverage is 100%, then given low module reliability, can increase system reliability arbitrarily Rm = Rm = Rm = C=0.99, n=2 C=0.99, n=4 C=0.99, n=inf C= 0.8, n=2 C= 0.8, n=4 C=0.8, n=inf With low coverage, reliability saturates

28 Lecture 2, Slide 28 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Una forma particolare di ridondanza attiva è la cosiddetta riserva fredda, in cui per ogni modulo soggetto a ridondanza esiste una sua copia non attiva, che viene attivata in caso di guasto della copia originale, da cui il nome di riserva fredda. In tal caso, la riconfigurazione ha lo scopo di sostituire la copia originale con la riserva fredda. E' da notare che, durante il periodo di riconfigurazione necessario all'attivazione della riserva, la funzionalità del sistema viene interrotta. Per minimizzare la durata di questo periodo è possibile utilizzare riserve calde, che a differenza di quelle fredde, sono attive contemporaneamente al modulo per cui fungono da ridondanza. Lo svantaggio principale è che queste riserve consumano costantemente energia per rimanere attive, anche quando non forniscono reali servizi.

29 Lecture 2, Slide 29 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Ridondanza ibrida Infine, un terzo approccio classico alla ridondanza hardware, denominato ridondanza ibrida, combina le caratteristiche salienti delle due soluzioni precedenti. In particolare, in questa soluzione viene adottata sia una tecnica di mascheramento dei guasti per prevenire gli errori, sia una tecnica di diagnosi dei guasti stessi con relative azioni di riconfigurazione per isolare il componente guasto. In generale la ridondanza ibrida è implementata tramite una combinazione di ridondanza NMR in cui sono presenti anche riserve (fredde o calde). Le riserve subentreranno ad eventuali componenti guasti facenti parte dell' insieme originale di N repliche.

30 Lecture 2, Slide 30 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014

31 Lecture 2, Slide 31 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014


Scaricare ppt "Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy."

Presentazioni simili


Annunci Google