La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Affidabilità M. Arrigoni Neri & P. Borghese

Presentazioni simili


Presentazione sul tema: "Affidabilità M. Arrigoni Neri & P. Borghese"— Transcript della presentazione:

1 Affidabilità M. Arrigoni Neri & P. Borghese
Ingegneria Dalmine “Impianti Informatici”

2 “Impianti Informatici”
indice affidabilità (reliability) – disponibilità (availability) definizione calcolo probabilità di guasto Misure componenti in serie e in parallelo affidabilità di un sistema metodi di calcolo - RBD Ingegneria Dalmine “Impianti Informatici”

3 indici principali: MTTF, MTBF, MTTR
i guasti di un sistema avvengono in modo casuale  la sua evoluzione temporale è soggetta a leggi probabilistiche MTTF (Mean-Time-To-Failures) : indice di reliability (affidabilità) tempo medio perché si verifichi un guasto a partire da un istante arbitrario il cui il sistema è dato come funzionante MTBF (Mean-Time-Between-Failures) tempo medio che intercorre tra due guasti si ipotizza che un prodotto attraversi ciclicamente guasti e riparazioni si suppone che questi cicli avvengano in modo casuale e mediamente stazionario (indipendente dal tempo) la riparazione ripristina il prodotto nello stato di funzionamento iniziale Ingegneria Dalmine “Impianti Informatici”

4 indici principali: MTTF, MTBF, MTTR (cont.)
MTTR (Mean-Time-To-Repair) tempo medio occorrente per riparare un prodotto guasto rappresenta il tempo medio durante il quale il componente (o applicazione) non è disponibile comprende il tempo necessario per scoprire che c’è un guasto individuare il guasto rimuovere il componente difettoso (o sostituirlo con uno di scorta) effettuare la riparazione ripristinare il componente e il sistema ottenere un basso MTTR può essere molto costoso MTTF MTBF MTTR Ingegneria Dalmine “Impianti Informatici”

5 possibili cause per i guasti hardware
Design failures: guasti causati da errori di progetto o costruzione. Nei sistemi ben fatti questa categoria di guasti dovrebbe contribuire in modo trascurabile al totale dei guasti Infant Mortality: guasti che si presentano nei sistemi nuovi. Normalmente questa categoria di guasti non dovrebbe presentarsi nei sistemi in produzione ma emergere durante le fasi di test del prodotto Random Failures: guasti casuali che si presentano durante l’intera vita di un sistema. Questa è la categoria di guasti che viene tipicamente considerata negli studi di affidabilità Wear Out: quando un sistema ha raggiunto la fine della sua vita utile, la degradazione di alcune componenti aumenta la probabilità di guasto del sistema. La manutenzione preventiva può ritardare l’insorgere di questi guasti Ingegneria Dalmine “Impianti Informatici”

6 possibili cause per i guasti software
i guasti software sono caratterizzati dalla densità di difetti nel sistema. La densità dei difetti dipende dai seguenti fattori il processo utilizzato per sviluppare le applicazioni (l’utilizzo o meno di unit testing, ...) complessità del software dimensione del software esperienza del team di sviluppo percentuale di codice riutilizzato da altre applicazioni stabili rigore della metodologia di testing funzionale prima del rilascio in produzione la densità di difetti è misurata tipicamente come numero di difetti per migliaia di linee di codice (defects/KLOC) Ingegneria Dalmine “Impianti Informatici”

7 come stimare MTTR (software)
il MTTR per un modulo software può essere definito come il tempo necessario per riavviare l’applicativo dopo che si è individuato il guasto (però…) molte “failure” software vengono eliminate riavviando l’applicazione o l’intero sistema questo modo di procedere ovviamente non elimina le cause del guasto problematiche di recovery Ingegneria Dalmine “Impianti Informatici”

8 availability (disponibilità)
l’ availability di un sistema è la frazione di tempo in cui il sistema funziona correttamente, rappresenta la probabilità (media stazionaria) che in un qualsiasi istante il sistema sia funzionante una notazione tipica espressa in percentuale è quella dei nove una disponibilità a 3-nove corrisponde al 99.9% una disponibilità a 5-nove corrisponde al % Ingegneria Dalmine “Impianti Informatici”

9 costo della (non) disponibilità
due metodi usati per quantificare il costo di downtime: determinazione della produzione persa esempio: 50 sviluppatori (ciascuno dei quali costa € 100/h) si serve di un certo sistema perciò, in caso di guasto, si può stimare una perdita oraria di € 5000; determinazione del valore delle transazioni che non possono essere eseguite esempio: un sistema elabora 1000 transazioni/h; il valore di ciascuna di queste è di € 30, allora ogni ora di inattività costa € 30000; naturalmente nel modificare il sistema per ridurre il suo downtime bisogna anche tenere presente il costo delle modifiche. Ingegneria Dalmine “Impianti Informatici”

10 reliability (affidabilità) e failure rate
consideriamo n0 componenti indipendenti e statisticamente identici che vengano messi in esercizio al tempo t = 0 alle stesse condizioni al tempo t, n(t) sono gli elementi ancora funzionanti n(0) = n0 t1, t2, ... tn0 sono i tempi di vita dell’elemento imo (tempi intercorrenti tra l’istante 0 e l’istante in cui si verifica il guasto - tempi al guasto) i tempi al guasto sono realizzazioni indipendenti della grandezza casuale τ (ti: tempo al guasto del generico elemento jmo) E[τ]=(t1,+ t2, tn0) / n0 è la media empirica di τ per n0   converge al valore E[τ]  MTTF la funzione n(t) / n0 è la funzione empirica di affidabilità che per n0   converge al valore: n(t) / n0  R(t) Si ipotizza che, al tempo t = 0, il componente sia in perfette condizioni. Nella pratica si considera (t) = costante in quanto generalmente la “failure rate” varia solo sul lungo periodo. Ingegneria Dalmine “Impianti Informatici”

11 reliability e failure rate (cont.)
t i+1 n(t) n0 n01 n02 t tempi al guasto numero di elementi funzionanti n0i Si ipotizza che, al tempo t = 0, il componente sia in perfette condizioni. Nella pratica si considera (t) = costante in quanto generalmente la “failure rate” varia solo sul lungo periodo. R(t) è detta Reliability (affidabilità) al tempo t rappresenta la probabilità che al tempo t un generico componente non sia guasto Ingegneria Dalmine “Impianti Informatici”

12 reliability e failure rate (cont.)
X: istante di guasto di un componente F(t); f(t): distribuzione cumulativa; densità di probabilità R(t): probabilità che il componente (funzionante al tempo 0) sia ancora funzionante al tempo t R(t) = P(X > t) = 1 - F(t) (t): failure rate - probabilità che il componente si guasti (nell’unità di tempo) all’istante t cioè (t)t = prob. di guasto in t Si ipotizza che, al tempo t = 0, il componente sia in perfette condizioni. Nella pratica si considera (t) = costante in quanto generalmente la “failure rate” varia solo sul lungo periodo. Ingegneria Dalmine “Impianti Informatici”

13 reliability e failure rate (cont.)
1 t dt R(t) F(t) f(t)dt = dF(t) = - dR(t) prob(t<X<t+dt | X >t) densità di probabilità F(t) è esponenziale se e solo se:  = parametro (costante) della distribuzione Ingegneria Dalmine “Impianti Informatici”

14 reliability e failure rate (cont.)
se (t) =  = costante allora F(t) è la distribuzione esponenziale: f(t)dt è la probabilità di guasto in (t,t+dt) la media della distribuzione F(t) è il valore: MTTF (Mean Time To Failure) = 1/ Probabilità di guasto nell’unità di tempo R(t) : reliability (affidabilità) MTTF / MTBF : availability (disponibilità) (t) =  = costante = 1 / MTTF  t =  t / MTTF = probabilità di guasto in un intervallo t Un po’ diverso è il discorso della manutenzione preventiva: se ogni d ore di esercizio si impiegano h ore di manutenzione preventiva allora la disponibilità è data da h / (d + h). Dopo un tempo t = MTTF la probabilità che il sistema sia ancora funzionante vale R(MTTF) = e-1 = Ingegneria Dalmine “Impianti Informatici”

15 primo guasto di N dispositivi identici
i guasti sono indipendenti e hanno la stessa probabilità P(Xt) di verificarsi Prob(almeno uno si guasti nel tempo t) = 1-Prob(nessuno si guasti entro t) = 1-Prob(non si guasti il 1mo) .... Prob(non si guasti l’ Nmo) 1-[P(X>t)]N = 1 - R(t) Distribuzione esponenziale di media = MTTF / N R(t) : reliability (affidabilità) MTTF / MTBF : availability (disponibilità) (t) =  = costante = 1 / MTTF  t =  t / MTTF = probabilità di guasto in un intervallo t Un po’ diverso è il discorso della manutenzione preventiva: se ogni d ore di esercizio si impiegano h ore di manutenzione preventiva allora la disponibilità è data da h / (d + h). Dopo un tempo t = MTTF la probabilità che il sistema sia ancora funzionante vale R(MTTF) = e-1 = perciò se di N oggetti il primo si guasta in media dopo un tempo tN allora: MTTF = tN  N Ingegneria Dalmine “Impianti Informatici”

16 esercizio 1: probabilità di un guasto
calcolare la probabilità che un disco con MTTF = ore si guasti almeno una volta in tre anni: t = 3  365  24 = ore cioè  23% considerando il tempo di 3 anni piccolo rispetto a MTTF, la probabilità può essere approssimata da: 26280/  26% se i dischi fossero 2, la probabilità che almeno uno si guasti vale invece: R(t) : reliability (affidabilità) MTTF / MTBF : availability (disponibilità) (t) =  = costante = 1 / MTTF  t =  t / MTTF = probabilità di guasto in un intervallo t Un po’ diverso è il discorso della manutenzione preventiva: se ogni d ore di esercizio si impiegano h ore di manutenzione preventiva allora la disponibilità è data da h / (d + h). Dopo un tempo t = MTTF la probabilità che il sistema sia ancora funzionante vale R(MTTF) = e-1 = cioè  41% Ingegneria Dalmine “Impianti Informatici”

17 applicazione: misura effettiva della reliability
il calcolo pratico del valore MTTF può essere fatto misurando il tempo totale di funzionamento di un numero elevato di dispositivi con le stesse caratteristiche e dividendolo per il numero di guasti riscontrato nella popolazione: il tempo atteso al primo guasto di k dispositivi di identico MTTF vale: MTTF/k allora: in un certo periodo di tempo si verificano n guasti su N dispositivi inizialmente funzionanti sia ti durata dell’intervallo in cui sono in funzione j dispositivi Si ipotizza che, al tempo t = 0, il componente sia in perfette condizioni. Nella pratica si considera (t) = costante in quanto generalmente la “failure rate” varia solo sul lungo periodo. Ingegneria Dalmine “Impianti Informatici”

18 applicazione: misura effettiva della reliability (cont.)
N tN: contributo alla somma del periodo in cui funzionano N dispositivi (N-1) tN -1: contributo alla somma del periodo in cui funzionano N-1 dispositivi ..... se dividiamo la somma ottenuta per n otteniamo la stima del valore MTTF: (N tN + (N-1) tN -1 + (N-2) tN (N-n+1) tN -n+1) / n  (MTTF + MTTF MTTF) / n = (n MTTF) / n = MTTF Si ipotizza che, al tempo t = 0, il componente sia in perfette condizioni. Nella pratica si considera (t) = costante in quanto generalmente la “failure rate” varia solo sul lungo periodo. Ingegneria Dalmine “Impianti Informatici”

19 affidabilità di un sistema (di più componenti)
un sistema composto di elementi ridondanti può tollerare un certo numero di componenti guasti self-checking continuous operation (elementi in stand-by) life time (durata di vita del sistema) si definisce come: il tempo t* tale che: R(t*) = soglia prefissata esempio R(t*) = ½  t* = ln2 MTTF = 0.69 MTTF il confronto fra sistemi può essere fatto tenendo in considerazione i valori di life time. per aumentare l’affidabilità bisogna: usare componenti multipli ridondanti usare componenti di elevata affidabilità interna (grande MTTF) disporre di componenti spare che sostituiscano quelli guasti ridurre al minimo il MTTR ( disponibilità, però …) Ingegneria Dalmine “Impianti Informatici”

20 esercizio 2: numero di componenti spare necessari
un sistema è composto da N componenti identici (dischi) quando un componente si guasta viene immediatamente e automaticamente sostituto da uno spare (se disponibile) quanti spare occorrono, noti N, MTTR e MTTF, perché siano sufficienti nel 95% dei casi? il numero medio di dischi che si guastano nel tempo MTTR è: (N / MTTF)  MTTR; (questo perché vengono immediatamente sostituiti) tale numero ha distribuzione con una coda (approssimativamente) esponenziale allora: il 95 percentile vale: 3  valore medio in una installazione di 10•000 dischi, con un MTTF di 100•000 ore e un tempo di riparazione di 2 giorni, per supportare il 95% dei guasti occorrono: numero medio di guasti in 2 giorni  3 = (10000/100000)  2  24  3  15 dischi Per completezza, se le distribuzioni Fi(t) non sono identiche: sia Gk l’insieme di tutti i sottoinsiemi di {x1,.....xn} tali che ogni elemento in Gk è un insieme di dimensione almeno uguale a k, cioè: Gk = {gi { x1,.....xn} : |gi| k} allora: Ingegneria Dalmine “Impianti Informatici”

21 sistemi fault tolerant
I/O controller Array controller host Recovery group non esistono “single points of failure” Ingegneria Dalmine “Impianti Informatici”

22 sistemi fault tolerant (cont.)
supponiamo che ogni componente sia indipendente dagli altri (per quanto riguarda la possibilità di guasto) e che il sistema sia non operativo (down) se non può fornire un adeguato livello di servizio; lo stato di funzionamento dell’intero sistema dipende da quali e quanti componenti sono operativi - il suo comportamento può essere rappresentato da diagrammi di affidabilità RBD (Reliability Block Diagram) la chiave di lettura è: le connessioni in serie fra componenti significano che tutti devono essere funzionanti le connessioni in parallelo che solo uno (o alcuni se diversamente specificato) deve essere operativo Tanto più grande è il valore MTTF tanto più prossima a 1 è R Ingegneria Dalmine “Impianti Informatici”

23 “Impianti Informatici”
componenti in serie S: tempo di guasto del sistema c1 c2 c3 dualità indipendenza definizione Il sistema è il “duale” del precedente ottenuto scambiando formalmente F(t) con R(t). distribuzione del minimo xi fra n: il guasto del sistema è determinato dal guasto del primo componente (n componenti in serie) Ingegneria Dalmine “Impianti Informatici”

24 componenti in parallelo
affidabilità di un sistema calcolata da quella dei componenti, considerati indipendenti (il guasto di un elemento non rende più o meno facile quello degli altri) indipendenza definizione c1 c2 c3 Il diagramma mostrato nell’angolo, così come quelli delle pagine seguenti, (Reliability Block Diagram) è un modo simbolico e intuitivo di rappresentare il funzionamento di un sistema dal punto di vista dell’affidabilità: Il sistema è attivo se esiste almeno un cammino senza interruzione fra l’ingresso e l’uscita, un guasto del componente c interrompe il cammino che lo attraversa. In questa rappresentazione (RBD) componenti posti in parallelo indicano la necessità di almeno 1 elemento in funzione (OR), componenti in serie di tutti gli elementi in funzione (AND). Un guasto a un elemento parallelo, pur non interrompendo l’attività, può ridurre le prestazioni, una valutazione completa delle prestazioni dovrebbe includere anche lo studio del comportamento del sistema nei periodi di funzionamento degradato. Il calcolo viene fatto nell’ipotesi che, quando un componente si guasta, non si intraprenda subito alcuna riparazione ma si attenda eventualmente il guastarsi di altri elementi. distribuzione del massimo xi fra n: il sistema si guasta quando si guasta l’ultimo componente (n componenti in parallelo) Ingegneria Dalmine “Impianti Informatici”

25 k su n componenti in parallelo
il sistema si guasta se lo sono almeno k componenti degli n (caso di distribuzioni identiche) FS(t) = P(almeno k componenti si guastino) = P(k guasti OR k+1 guasti OR….OR n guasti) = P(k guasti) + P(k+1 guasti) +…+ P(n guasti) P(esattamente k guasti) = P(k guasti AND n-k funzionanti) incompatibilità Qui il calcolo si fa più complesso in quanto si richiede il funzionamento di (n-k) elementi su (n). Si tratta di una “composizione” dei due casi studiati in precedenza. Se le distribuzioni sono diverse le sommatorie vanno fatte su tutte le possibili combinazioni di almeno k guasti. Ingegneria Dalmine “Impianti Informatici”

26 affidabilità di un sistema (riassunto)
condizioni di guasto tutti i componenti (parallelo) un componente (serie) k su n componenti (di identiche caratteristiche) Per completezza, se le distribuzioni Fi(t) non sono identiche: sia Gk l’insieme di tutti i sottoinsiemi di {x1,.....xn} tali che ogni elemento in Gk è un insieme di dimensione almeno uguale a k, cioè: Gk = {gi { x1,.....xn} : |gi| k} allora: Ingegneria Dalmine “Impianti Informatici”

27 affidabilità di un sistema - MTTF (n componenti in serie)
Nota: a questa formula si perviene anche osservando che i guasti sono indipendenti e casuali perciò se i è il tasso di guasto del componente i: totale =  i Per completezza, se le distribuzioni Fi(t) non sono identiche: sia Gk l’insieme di tutti i sottoinsiemi di {x1,.....xn} tali che ogni elemento in Gk è un insieme di dimensione almeno uguale a k, cioè: Gk = {gi { x1,.....xn} : |gi| k} allora: (media armonica) se i componenti sono identici (hanno lo stesso MTTF) Ingegneria Dalmine “Impianti Informatici”

28 affidabilità di un sistema - MTTF (n componenti in parallelo)
consideriamo solo il caso di n componenti identici: il primo si guasta mediamente dopo un tempo t1 = MTTF/n il secondo dopo un tempo (a partire dall’inizio) t2 = t1 + MTTF/(n-1) infatti: in (0,t1) abbiamo n componenti in funzione, in (t1,t2) n -1 e così via in (tn -1, tn) uno solo, allora: MTTF1 MTTF2 MTTFn se t << MTTF  R(t)  1 – t / MTTF Per completezza, se le distribuzioni Fi(t) non sono identiche: sia Gk l’insieme di tutti i sottoinsiemi di {x1,.....xn} tali che ogni elemento in Gk è un insieme di dimensione almeno uguale a k, cioè: Gk = {gi { x1,.....xn} : |gi| k} allora: Ingegneria Dalmine “Impianti Informatici”

29 Reliability Block Diagram
web server load balancer R = Rlb [1  (1  Rweb)3] componenti in serie = non ridondanti componenti in parallelo = ridondanti Reliability di componenti in serie R =  Ri Reliability di componenti in parallelo R = 1   (1  Ri) l’argomento (t) non compare il calcolo è fatto per un valore fissato di t Ingegneria Dalmine “Impianti Informatici”

30 esercizio 3: calcolo della reliability R(t)
MTTF = 350 gg MTTR = 1gg MTTF = 1000 gg MTTR = 2 gg A B R(7): prob. che non si verifichi alcun guasto in 7 gg  / MTTF RA(7) = 1-7/1000 = 0.993 RB(7) = 1- (7/350)3 = (parallelo) RA+B(7) = RA(7)  RB(7) = (serie) Ingegneria Dalmine “Impianti Informatici”

31 esercizio 4: calcolo della availability stazionaria A
MTTF = 800 gg MTTR = 1gg MTTF = 1000 gg MTTR = 2 gg A B A = MTTF / (MTTF+MTTR) MTTFA = 1000 MTTFB = (1/2 + 1)  800 = 1200 (parallelo) MTTFA+B = 1/(1/MTTFA+ 1/MTTFB) = (serie) MTTRA+B = max(MTTRA , MTTRB) = 2 AA+B = / ( ) = la riparazione di B avviene quando entrambi i componenti si guastano Ingegneria Dalmine “Impianti Informatici”

32 esercizio 4b: calcolo della availability stazionaria A
A = MTTF / (MTTF+MTTR) MTTFA = 1000 la politica di riparazione è diversa: viene riparato (in un tempo di media MTTR) il componente di B che si guasta MTTFB = 1/ [prob(1mo guasto)  prob(2do guasto nel tempo MTTR)] = (1/ (2/800  1/800)) = MTTFA+B = 1/(1/MTTFA+ 1/MTTFB) = MTTRA+B = max(MTTRA , MTTRB) = 2 AA+B = / ( ) = il risultato non cambia di molto ma varia la frequenza di guasto nel tempo (1/MTTFA+B) 0,0018  0,001 Ingegneria Dalmine “Impianti Informatici”

33 “Impianti Informatici”
esercizio 5: uso di RBD un sistema funziona correttamente come indicato dal diagramma se sono funzionanti 2 computer su 3 (è tollerato un solo guasto), una rete veloce su 2 e una rete locale su due le affidabilità sono rispettivamente: RC RH RL C H L 2/3 1/2 In questo caso siamo in presenza di tre elementi in serie (computer, rete veloce, rete locale) perciò: RS = R1 · R2 · R3 R2 ed R3 si calcolano semplicemente, svolgendo il calcolo per R1 abbiamo: R1 = (1-2RC+ RC2)·RC - (1-3RC + 3RC2 -RC3) = 3RC2 - 2RC3 Ingegneria Dalmine “Impianti Informatici”

34 esercizio 5: uso di RBD - variazione sul calcolo
allo stesso risultato si giunge ponendo delle condizioni sulla operabilità di certi componenti chiave e operando per passi successivi: il primo C non è operativo  devono esserlo entrambi gli altri il primo C è in funzione  bisogna che almeno uno degli altri lo sia C Parte restante 1-RC RC in questo modo si possono studiare agevolmente anche casi in cui: RC1  RC2  RC3 Questo modo di operare, più semplice soprattutto nei casi complessi, si basa sulla divisione del problema iniziale in casi mutualmente esclusivi ed esaustivi (nella situazione esaminata sono quelli a cui corrispondono le probabilità RC e 1-RC rispettivamente). Ingegneria Dalmine “Impianti Informatici”

35 un esempio ideale più complesso
il sistema funziona se esiste una connessione fra 1 e 2 per semplificare l’analisi supponiamo: B inattivo  sistema equivalente  B attivo: C attivo  sistema equivalente ¬  C inattivo  sistema equivalente ¬  A B C D E F 1 2 In questo esempio utilizziamo due livelli di scomposizione. I componenti su cui basare la scomposizione vanno cercati fra i nodi che hanno più archi di connessione con il resto della rete. Il risultato deve contenere sottoreti elementari di cui è immediato calcolare le rispettive affidabilità. Chiamato  il sistema che si ottiene togliendo B e  quello che deriva dall’avere “cortocircuitato” il ramo che passa per B, allora: R(S) = (1 - R(B)) · R() + R(B) · R() Ingegneria Dalmine “Impianti Informatici”

36 “Impianti Informatici”
esempio -  A C D E F 1 2 (B non funziona) + (B funziona)  RS = (1 - RB) · R + RB · [RC · R + (1 - RC) · R] R = [1- (1-RA · RE) (1-RF · RC)] · RD R ¬ Della rete  la soluzione è nota, la rete  deve essere ulteriormente scomposta operando in modo analogo sul componente C. Avendo chiamato  e  le reti che si ottengono da  con C rispettivamente “cortocircuitato” o escluso e, usando la notazione della pagina precedente, abbiamo: R() = R(C) · R() + (1 - R(C)) · R( ) Ingegneria Dalmine “Impianti Informatici”

37 “Impianti Informatici”
esempio -   A C D E F 1 2 ¬ B funziona - C funziona  R = [1 - (1 - RA) · (1 - RF)] · RD B funziona - C non funziona  R = [1 - (1 - RA) · (1 - RF)] · RD · RE Ora anche le sottoreti  e  sono immediatamente risolubili. Si noti come il componente E, nella sottorete , non abbia nessuna influenza. È infatti, un secondo collegamento fra A e D. Ingegneria Dalmine “Impianti Informatici”


Scaricare ppt "Affidabilità M. Arrigoni Neri & P. Borghese"

Presentazioni simili


Annunci Google