Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy.

Slides:



Advertisements
Presentazioni simili
Trieste, 26 novembre © 2005 – Renato Lukač Using OSS in Slovenian High Schools doc. dr. Renato Lukač LinuxDay Trieste.
Advertisements

Centro Internazionale per gli Antiparassitari e la Prevenzione Sanitaria Azienda Ospedaliera Luigi Sacco - Milano WP4: Cumulative Assessment Group refinement.
I numeri, l’ora, I giorni della settimana
Cache Memory Prof. G. Nicosia University of Catania
Teoria e Tecniche del Riconoscimento
/ fax
1 Teaching Cloud Computing and Windows Azure in Academia Domenico Talia UNIVERSITA DELLA CALABRIA & ICAR-CNR Italy Faculty Days 2010.
EBRCN General Meeting, Paris, 28-29/11/20021 WP4 Analysis of non-EBRCN databases and network services of interest to BRCs Current status Paolo Romano Questa.
DG Ricerca Ambientale e Sviluppo FIRMS' FUNDING SCHEMES AND ENVIRONMENTAL PURPOSES IN THE EU STRUCTURAL FUNDS (Monitoring of environmental firms funding.
Sequential Statements. – Il VHDL simula lo svolgersi in parallelo di varie operazioni – Loggetto fondamentale e il PROCESS – Un PROCESS contiene una serie.
Copia darchivio (Preservation copy) A Preservation copy (or Archive copy) is the artefact designated to be stored and maintained as the preservation master.
1.E un algoritmo ricorsivo: Tutti le istanze di oggetti raggiungibili da un oggetto persistente diventano anchessi persistenti.
5-1 Link Wireless Crediti Parte delle slide seguenti sono adattate dalla versione originale di J.F Kurose and K.W. Ross (© All Rights Reserved)
5-1 Point to Point Data Link Control Crediti Parte delle slide seguenti sono adattate dalla versione originale di J.F Kurose and K.W. Ross (©
Salvatore Pontarelli Fondamenti di affidabilità dei circuiti integrati.
HDM Information Design notation v.4. HDM Information Design.
Programmazione 1 9CFU – TANTE ore
Biometry to enhance smart card security (MOC using TOC protocol)
TIPOLOGIA DELLE VARIABILI SPERIMENTALI: Variabili nominali Variabili quantali Variabili semi-quantitative Variabili quantitative.
Comunicazione on-line, reti e virtualità Matteo Cristani.
1. Conoscere luso delle collezioni in Java Comprendere le principali caratteristiche nelle varie classi di Collection disponibili Saper individuare quali.
Chapter 6 Master Production Scheduling
Fanno ormai parte della nostra vita di tutti i giorni….
2000 Prentice Hall, Inc. All rights reserved. 1 Capitolo 3 - Functions Outline 3.1Introduction 3.2Program Components in C++ 3.3Math Library Functions 3.4Functions.
1 Astroparticle Physics in Space Claudia Cecchi Dipartimento di Fisica e Sezione INFN, Perugia Workshop Nazionale La Scienza e la Tecnologia sulla Stazione.
Magnetochimica AA Marco Ruzzi Marina Brustolon
Queuing or Waiting Line Models
2000 Prentice Hall, Inc. All rights reserved. 1 Capitolo 6: Classi e astrazione dati 1.Introduzione 2.Definizione delle strutture 3.Accedere ai membri.
Introduzione Grid1 Introduzione ai Sistemi Grid. Introduzione Grid2 Generalità Un sistema Grid permette allutente di richiedere lesecuzione di un servizio.
1 laboratorio di calcolo II AA 2003/04 ottava settimana a cura di Domizia Orestano Dipartimento di Fisica Stanza tel. ( )
FONDAMENTI DI INFORMATICA III WfMC-1. FONDAMENTI DI INFORMATICA III WfMC-2 WFMC Cose WfMC Workflow Management Coalition (WfMC), Brussels, è unorganizzazione.
Una rete sequenziale asincrona e' caratterizzata da due segnali di ingresso X1, X2 (i quali non cambiano mai contemporaneamente) e da un segnale di uscita.
LHCf Status Report Measurement of Photons and Neutral Pions in the Very Forward Region of LHC Oscar Adriani INFN Sezione di Firenze - Dipartimento di Fisica.
Palermo, may 2010 F.Doumaz, S.Vinci (INGV-CNT- Gruppo di telerilevamento)
Ischia, giugno 2006Riunione Annuale GE 2006 Exploiting the Body Effect to Improve Analog CMOS Circuit Performances *P. Monsurrò, **S. Pennisi, *G.
STAGE IN LINGUA INGLESE ISIS GREENWICH SCHOOL OF ENGLISH GREENWICH Data: dal al Studenti delle II-III-IV classi Docenti coordinatori:
NetApp: NON solo storage Metro Cluster e Cluster Mode
Gli ambienti di apprendimento Firenze, 3 marzo 2006.
Attivazione numero verde e casella di posta elettronica L'Istat ha predisposto anche un servizio di Contact Center telefonico (n. Verde ) e.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
Scuola Superiore SantAnna Simulazione di protocolli RT per Reti di Sensori Wireless in ambiente NS-2 Giuseppe Lipari, Paolo Pagano.
Motor Sizing.
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
1 Questionario di soddisfazione ATA - a. sc. 2008/09 Il questionario è stato somministrato nel mese di aprile Sono stati restituiti 29 questionari.
1101 = x 10 x 10 x x 10 x = CORRISPONDENZE
Tutor: Elisa Turrini Mail:
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
1 Simulated multiple inheritance Sandro Pedrazzini Approfondimento Simulated multiple inheritance in Java.
1 Jeopardy Verbi Regolari PreposizioniEssere Espressioni Con Avere Come si dice? Q $100 Q $200 Q $300 Q $400 Q $500 Q $100 Q $200 Q $300 Q $400 Q $500.
Water is Life. Belgium Netherlands Italy Water, our lives.
Corso di Web Services A A Domenico Rosaci Patterns di E-Business D. RosaciPatterns per l'e-Business.
DOMOTIC HOUSE WATER MONITOR Agalbato Francesco Buccheri Antonino.
UG40 Energy Saving & Twin Cool units Functioning and Adjustment
Collection & Generics in Java
"We firmly believe that the on-the-run issues should command a high liquidity premium in the current environment. But with very high probability, the.
Bando Pittori e Scultori in Piemonte alla metà del ‘700
A PEACEFUL BRIDGE BETWEEN THE CULTURES TROUGH OLYMPICS OLYMPIC CREED: the most significant thing in the olympic games is not to win but to take part OLYMPIC.
Moles and Formula Mass.
Guida alla compilazione del Piano di Studi Curricula Sistemi per l’Automazione Automation Engineering.
Passato Prossimo. What is it?  Passato Prossimo is a past tense and it is equivalent to our:  “ed” as in she studied  Or “has” + “ed” as in she has.
Lezione n°27 Università degli Studi Roma Tre – Dipartimento di Ingegneria Corso di Teoria e Progetto di Ponti – A/A Dott. Ing. Fabrizio Paolacci.
Prof. G.PassianteCorso di Economia dell’innovazione - A.A. 2012/13 The Process Handbook: A Tool for Business Process Redesign.
lun mar mer gio ven SAB DOM FEBBRAIO.
Buon giorno Io sono Professoressa Kachmar. Buon giorno Io sono Professoressa Kachmar.
1 Acceleratori e Reattori Nucleari Saverio Altieri Dipartimento di Fisica Università degli Studi - Pavia
Il tempo Signora Albanese.
Chapter 5 - Part 2 1 Procedura di sintesi  Specifiche  Formulazione – Ricavare un diagramma o una tabella di stato  Assegnazione della codifica di stato.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Transcript della presentazione:

Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy Prof. Ravi K. Iyer Center for Reliable and High-Performance Computing Department of Electrical and Computer Engineering and Coordinated Science Laboratory University of Illinois at Urbana-Champaign

Lecture 2, Slide 2 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Tipi di interconnessione I componenti di un sistema presentano indici daffidabilità e di disponibilità che dipendono sia dalla qualità dei loro componenti e delle politiche di manutenzione, sia dalle loro interconnessioni. Tipiche interconnessioni tra componenti sono: la serie, la parallela, la TMR, librida M su N.

Lecture 2, Slide 3 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Calcolo dellaffidabilità Interconnessione serie. K entità di un sistema si dicono interconnesse in modo seriale quando il funzionamento del sistema dipende dal corretto funzionamento di tutti e K le entità. Tale interconnessione è rappresentabile come in figura e denotando con Ri(t) e con Ai, rispettivamente, laffidabilità e la disponibilità della generica entità, laffidabilità e la disponibilità del sistema sono pari a:

Lecture 2, Slide 4 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Interconnessione parallela Interconnessione parallela. K entità di un sistema si dicono interconnesse in modo parallelo quando il funzionamento del sistema è garantito dalla presenza di almeno una entità funzionante correttamente. Tale interconnessione è rappresentabile come in figura e denotando con Ri(t) e con Ai, rispettivamente, laffidabilità e la disponibilità della generica entità, laffidabilità e la disponibilità del sistema sono pari a: Queste espressioni si possono giustificare considerando che il sistema non funziona correttamente, ovvero non è disponibile se sono guaste o non disponibili tutte le sue K entità. Nel caso di entità con la medesima affidabilità RC(t) o disponibilità AC si ha che:

Lecture 2, Slide 5 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Outline Basic approaches to hardware redundancy Static and dynamic redundancy Voting Hardware voter example

Lecture 2, Slide 6 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Basic Approaches to Hardware Redundancy Static or masking redundancy –add redundancy to mask out effects of faults immediately Static and dynamic redundancy –Detect fault –Locate fault –Reconfigure system around fault –Recover and restart Voting –hardware –software –synchronization issues

Lecture 2, Slide 7 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Hardware / Static Fault Tolerance Triple Modular Redundancy (TMR) with One Voter Extended to NMR Use static or masking redundancy

Lecture 2, Slide 8 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 In questo tipo di schema, vengono mascherati guasti a livello dei componenti, ma non eventuali guasti a livello del voter, per il quale non vi è alcuna ridondanza. Se il voter è soggetto a guasto allora il suo valore di output potrebbe essere scorretto ed originare quindi errori e poi malfunzionamenti. Per questo tipo di schema, l'affidabilità dell'intero sistema non può mai essere superiore all'affidabilità del voter. Dato un sistema, ogni singolo componente il cui guasto può dar luogo a malfunzionamento del sistema stesso viene denominato singolo punto di fallimento.

Lecture 2, Slide 9 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Hardware / Static Fault Tolerance TMR with 3 voters extended to NMR with N voters Use static or masking redundancy Una tecnica classica per prevenire che il voter diventi un singolo punto di fallimento è quella di replicarlo.

Lecture 2, Slide 10 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Una generalizzazione dell'approccio TMR è la cosiddetta ridondanza ad N moduli (N-modular redundancy - NMR), la quale differisce da TMR nel fatto che il componente in oggetto viene replicato N volte, con N possibilmente maggiore di 3. Il vantaggio di utilizzare N > 3 moduli risiede nel fatto che più di un singolo guasto può essere tollerato. Ad esempio, il voto di maggioranza permette ad un sistema di tipo 5MR di tollerare il guasto di un massimo di due componenti. Ovviamente lo svantaggio sarà associato al maggiore costo dovuto al più alto numero di copie del modulo per cui si adotta la ridondanza.

Lecture 2, Slide 11 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014

Lecture 2, Slide 12 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 TMR with 3 Voters Remove single point of failure Use TMR with 3 voters Cascade such systems V1V1 VnVn V n-1 Reliability expression can be obtained by considering module -voter combination as a unit, R v - R m Then simply apply TMR expression.

Lecture 2, Slide 13 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014

Lecture 2, Slide 14 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Interconnessione TMR Il sistema è guasto o non disponibile perché sono contemporaneamente guaste o non disponibili due entità o perché è guasto o non disponibile il voter, quindi:

Lecture 2, Slide 15 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 M-out-of-N Systems Consider TMR system Only 2 to work correctly For general M, N Out of N modules, need M to function A B C V N working N-1 working N-2 working N-M working Failed V

Lecture 2, Slide 16 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Interconnessione ibrida M su N. N entità di un sistema si dicono interconnesse in modo ibrido M su N se il sistema è funzionante qualora lo siano almeno M di loro, ovvero se sono guaste al più K = N – M entità. In tal caso indicando con RC(t) e con AC laffidabilità e la disponibilità di ogni singola entità si ha che:

Lecture 2, Slide 17 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Queste espressioni si possono giustificare notando che la probabilità che: siano sane N entità è pari a: siano sane N-1 entità è pari a: siano sane N-2 entità è pari a: siano sane N-K entità è pari a:

Lecture 2, Slide 18 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Hardware Redundancy – Compare reliability of simplex and TMR systems Instead of MTTF, look at mission time Reliability of M-out-of-N systems very high in the beginning – spare components tolerate failures Reliability sharply falls down in end – system exhausted redundancy, more hardware can possibly fail Such systems useful in aircraft control – very high short time reliability – over 10 hour period Instead of MTTF, look at mission time Reliability of M-out-of-N systems very high in the beginning – spare components tolerate failures Reliability sharply falls down in end – system exhausted redundancy, more hardware can possibly fail Such systems useful in aircraft control – very high short time reliability – over 10 hour period R simplex (t) = e - t MTTF simplex = MTTF simplex > MTTF TMR

Lecture 2, Slide 19 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Effect of Voter Previous expression for reliability assumed voter 100% reliable Assume voter reliability R v

Lecture 2, Slide 20 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Voting in Hardware & Software Guarantee majority vote on the input data to the voter Ability of detecting own errors (self-checking) Determine the faulty replica/node (building the exclusion logic) Voting in networked systems (software) –requires synchronization of inputs to the voter –may be difficult to determine voter timeout different relative speed of machines varying network communication delays Voting in hardware systems –generally does not require an external synchronization of inputs to the voter –lock step mode or loosely synchronized mode –CPUs internally can be out of synch because of non-deterministic execution of instructions

Lecture 2, Slide 21 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Voters Example (Tandem Integrity) Voting on CPU initiated operations –Voter divided into two parts: majority voter and vote analyzer the majority voter generates a bit by bit majority vote from the three inputs to the voter the vote analyzer is a three part comparator and determines whether one of the inputs is faulty –Voting logic is duplicated and compared a failure in the voting logic results in a self-check error Voting on external I/O operations –distributed, majority voting performed locally on each CPU CPU1CPU2CPU3 External Interrupt

Lecture 2, Slide 22 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Ridondanza attiva E' da notare che in questo caso non c'è alcun tentativo di prevenzione affinché guasti non diano origine ad errori ed a malfunzionamenti, ma esistono solo azioni di rimedio per riportare il sistema al corretto funzionamento. Quindi tale tipo di ridondanza risulterà più appropriata per tutte quelle applicazioni in cui la presenza, se pur temporanea, di errori e malfunzionamenti è accettabile.

Lecture 2, Slide 23 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014

Lecture 2, Slide 24 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Hardware / Dynamic Fault Tolerance Use dynamic or standby redundancy Detect fault, locate fault, replace fault with spare Use duplication and comparison for detection Switch Comparator

Lecture 2, Slide 25 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Coverage The more fault a test set detects, the better the test set is Fault coverage Ratios of faults detected by a test set to the total number of possible faults in the circuit Metric obtained through simulation

Lecture 2, Slide 26 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Effect of Coverage Failure detection is not perfect Reconfiguration may not succeed Attach a coverage c One spare system R sys = R 1 + c (1-R 1 ) R 2 n-1 spare system R sys = R m c i (1-R m ) i 2 3 n 1 i=0 n-1

Lecture 2, Slide 27 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Effect of Coverage (cont.) If coverage is 100%, then given low module reliability, can increase system reliability arbitrarily Rm = Rm = Rm = C=0.99, n=2 C=0.99, n=4 C=0.99, n=inf C= 0.8, n=2 C= 0.8, n=4 C=0.8, n=inf With low coverage, reliability saturates

Lecture 2, Slide 28 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Una forma particolare di ridondanza attiva è la cosiddetta riserva fredda, in cui per ogni modulo soggetto a ridondanza esiste una sua copia non attiva, che viene attivata in caso di guasto della copia originale, da cui il nome di riserva fredda. In tal caso, la riconfigurazione ha lo scopo di sostituire la copia originale con la riserva fredda. E' da notare che, durante il periodo di riconfigurazione necessario all'attivazione della riserva, la funzionalità del sistema viene interrotta. Per minimizzare la durata di questo periodo è possibile utilizzare riserve calde, che a differenza di quelle fredde, sono attive contemporaneamente al modulo per cui fungono da ridondanza. Lo svantaggio principale è che queste riserve consumano costantemente energia per rimanere attive, anche quando non forniscono reali servizi.

Lecture 2, Slide 29 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Ridondanza ibrida Infine, un terzo approccio classico alla ridondanza hardware, denominato ridondanza ibrida, combina le caratteristiche salienti delle due soluzioni precedenti. In particolare, in questa soluzione viene adottata sia una tecnica di mascheramento dei guasti per prevenire gli errori, sia una tecnica di diagnosi dei guasti stessi con relative azioni di riconfigurazione per isolare il componente guasto. In generale la ridondanza ibrida è implementata tramite una combinazione di ridondanza NMR in cui sono presenti anche riserve (fredde o calde). Le riserve subentreranno ad eventuali componenti guasti facenti parte dell' insieme originale di N repliche.

Lecture 2, Slide 30 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014

Lecture 2, Slide 31 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014