La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Fault Tollerance and Bayesian Networks Progetto Tramp Applicazione di tecniche di intelligenza artificiale per la realizzazione di sistemi fault tolerant.

Presentazioni simili


Presentazione sul tema: "1 Fault Tollerance and Bayesian Networks Progetto Tramp Applicazione di tecniche di intelligenza artificiale per la realizzazione di sistemi fault tolerant."— Transcript della presentazione:

1 1 Fault Tollerance and Bayesian Networks Progetto Tramp Applicazione di tecniche di intelligenza artificiale per la realizzazione di sistemi fault tolerant Ing. Alessandra Scotto di Freca Ph.D. presso lUniversità degli Studi di Cassino

2 2 Fault Tolerance Cosa vuol dire essere tolleranti ai guasti? Cosa vuol dire essere tolleranti ai guasti? Prevedere i guasti prima che si verifichino e recuperarli Il problema della previsione di guasti Il problema della previsione di guasti Classificazione Classificazione Apprendimento Apprendimento Costruzione di un modello!! Costruzione di un modello!!

3 3 La Classificazione un problema di classificazione può essere: un problema di classificazione può essere: Possiamo formularlo in termini probabilistici: Possiamo formularlo in termini probabilistici: Loggetto X ha peso = 100 g e diametro = 10cm è una mela o una pera? P(oggetto = mela | peso = 100 g, diametro = 10cm ) = ?? P(oggetto = pera | peso = 100 g, diametro = 10cm ) = ?? P(oggetto = mela | peso = 100 g, diametro = 10cm ) = 0.7 P(oggetto = pera | peso = 100 g, diametro = 10cm ) = 0.3

4 4 Tecniche di Classificazione Come posso calcolare la P(oggetto = mela | peso = 100 g, diametro = 10cm ) ??? Teorema di Bayes P(A | B) = P(B | A) P(A) P(B) P(B) P (A | B) A Posteriori di A dato B P (B | A ) verosimiglianza (likelihood) P (A) A priori di A P (B) A priori di B

5 5 Classificazione in breve!

6 6 Introduzione alle reti Bayesiane Elementi di Probabilità Elementi di Probabilità Interpretazione Bayesiana della probabilità Interpretazione Bayesiana della probabilità Cosa è una Rete Bayesiana Cosa è una Rete Bayesiana Come viene usata per classificare (inferenza) Come viene usata per classificare (inferenza) Costruzione di una Rete Bayesiana (apprendimento ottenuto dal mix di conoscenza a priori e dallosservazione dei dati) Costruzione di una Rete Bayesiana (apprendimento ottenuto dal mix di conoscenza a priori e dallosservazione dei dati) Perché usare una Rete Bayesiana Perché usare una Rete Bayesiana Scenari applicativi Scenari applicativi

7 7 Elementi di probabilità Definizione di probabilità: Definizione di probabilità: Considerato un evento E la probabilità che esso si verifichi è il rapporto fra il numero F dei casi favorevoli (al verificarsi di E) e il numero N dei casi possibili, giudicati egualmente probabili. Considerato un evento E la probabilità che esso si verifichi è il rapporto fra il numero F dei casi favorevoli (al verificarsi di E) e il numero N dei casi possibili, giudicati egualmente probabili. P(E) = F / N Poiché lipotesi di eventi egualmente probabili è difficile da osservare si preferisce la definizione frequentista: Poiché lipotesi di eventi egualmente probabili è difficile da osservare si preferisce la definizione frequentista: P(E) = lim N-> F / N P(E) è un numero reale compreso tra 0 e 1 e la somma della probabilità dellevento e dellevento negato deve fare uno P(E)+P(!E)=1

8 8 Elementi di probabilità Definizione di probabilità Definizione di probabilità Media (o valore atteso di una variabile discreta X) Media (o valore atteso di una variabile discreta X) E [ X ] = Σ i x i P(x i ) E [ X ] = Σ i x i P(x i ) Varianza Varianza Var(X) = E [ ( X - E [ X ]) 2 ] = E[ X 2 ] - E [ X ] 2 Var(X) = E [ ( X - E [ X ]) 2 ] = E[ X 2 ] - E [ X ] 2 Probabilità congiunta è la probabilità che si verifichino congiuntamente più eventi P(A,B) = P (A ^ B) Probabilità congiunta è la probabilità che si verifichino congiuntamente più eventi P(A,B) = P (A ^ B) In generale P(A,B) = P(A | B)P(B) = P(B | A) P(A) In generale P(A,B) = P(A | B)P(B) = P(B | A) P(A) Nel caso in cui A e B siano indipendenti P(A,B) = P(A)* P(B) Nel caso in cui A e B siano indipendenti P(A,B) = P(A)* P(B) Probabilità condizionata Probabilità condizionata È la probabilità dellevento A condizionatamente a B: P(A | B) = P(A,B)/P(B) È la probabilità dellevento A condizionatamente a B: P(A | B) = P(A,B)/P(B) Teorema di Bayes Teorema di Bayes P(A | B) = P(B | A) P(A) P(B) P(B)

9 9 Elementi di probabilità Probabilità marginale Probabilità marginale È la probabilità di un unico evento, questa può essere ottenuta dalla congiunta sommando P(A)= Σ i P(A,B i ) È la probabilità di un unico evento, questa può essere ottenuta dalla congiunta sommando P(A)= Σ i P(A,B i ) B i A i Ai=0 Ai=1 Ai=0, Bi=0 Ai=1, Bi=1 Ai=0, Bi=1 Ai=1, Bi=0

10 10 Interpretazione Probabilità Bayesiana Probabilità classica: è una proprietà fisica del mondo Probabilità classica: è una proprietà fisica del mondo Ela vera probabilità!! Probabilità Bayesiana: è il grado con il quale una persona crede che un evento X si verifichi. Euna probabilità personale!! Probabilità Bayesiana: è il grado con il quale una persona crede che un evento X si verifichi. Euna probabilità personale!! Al contrario della probabilità classica calcolata con lapproccio frequentista, le probabilità bayesiane beneficiano del fatto che sono richieste un numero di prove inferiore. ESEMPIO: Calcolare la probabilità che il Napoli vinca la prossima partita? nella definizione classica è contenuto un vizio logico. Il fatto di supporre che tutti i casi siano egualmente possibili implica di avere definito in precedenza la probabilità nel momento stesso in cui la si definisce. nella definizione classica è contenuto un vizio logico. Il fatto di supporre che tutti i casi siano egualmente possibili implica di avere definito in precedenza la probabilità nel momento stesso in cui la si definisce. P( Napoli vinca) = 1/3 ?? P( Napoli vinca) = 1/3 ?? Nella definizione frequentista si potrebbe controllare lalmanacco e calcolate il limite N->inf Nella definizione frequentista si potrebbe controllare lalmanacco e calcolate il limite N->inf Nella definizione bayesiana si vanno a cercare eventi che condizionano levento da prevedere. Da questi si acquisisce un grado di credenza(belief) tale da consentire la stima della probabilità Nella definizione bayesiana si vanno a cercare eventi che condizionano levento da prevedere. Da questi si acquisisce un grado di credenza(belief) tale da consentire la stima della probabilità Gioca in casa? Gioca in casa? In che condizioni sono i sui giocatori? In che condizioni sono i sui giocatori? P( Napoli vinca| conoscenza dei fattori condizionanti e dellesperienza )

11 11 Problema della punessa: Problema della punessa: quando la lancio essa cadrà sulla testa o sulla punta?? Come faccio a stimare la probabilità che al prossimo lancio la punessa cada sulla testa avendo a disposizione N lanci precedenti? Grazie alla teoria Bayesiana: Definendo D = {X 1 = h, X 2 = h, X 3 = t, ………, X N = t} dati osservati e esperienza o conoscenza a priori del fenomeno Devo calcolare P(X N+1 = heads | D, ) Probabilità Bayesiana

12 12 Inferenza Classificare il prossimo evento consiste nel calcolo della probabilità di interesse dato un modello: fare inferenza dati osservati Query x1x2 x[ N ] x[ N+1 ]

13 13 Problema: determina la P(testa) Da N osservazioni vogliamo determinare la probabilità che al lancio N+1 la punessa cada sulla testa: Approccio Classico : Asserire alcune probabilità fisiche delle teste delle punesse (sconosciute) Asserire alcune probabilità fisiche delle teste delle punesse (sconosciute) Stimare questa probabilità fisica da N osservazioni Stimare questa probabilità fisica da N osservazioni Usare questa stima come probabilità di avere testa al lancio N+1. Usare questa stima come probabilità di avere testa al lancio N+1. Approccio Bayesiana Asserire alcune probabilità fisiche Asserire alcune probabilità fisiche Codificare lincertezza sulla probabilità fisica delle teste usando una probabilità bayesiana Codificare lincertezza sulla probabilità fisica delle teste usando una probabilità bayesiana Usare le regole di probabilità per calcolare la probabilità richiesta Usare le regole di probabilità per calcolare la probabilità richiesta

14 14 Definendo corrispondente al possibile valore vero della probabilità fisica, a cui nella teoria bayesiana ci si riferisce come parametro di cui posso calcolare una A Priori p( | ) ed un A Posteriori Definendo corrispondente al possibile valore vero della probabilità fisica, a cui nella teoria bayesiana ci si riferisce come parametro di cui posso calcolare una A Priori p( | ) ed un A Posteriori p( | D, ) P(X N+1 =heads | D, ) = p( | D, ) d = E p( | D, ) ( ) valore atteso di rispetto alla distribuzione p( | D, ) Dal teorema di Bayes possiamo calcolare la probabilità a posteriori di dato D (dati osservati) e conoscenza a priori: p( | D, ) = p( | ) p (D |, ) dove p(D | ) = p(D |, ) p( | ) d p( | D, ) = p( | ) p (D |, ) dove p(D | ) = p(D |, ) p( | ) d P(D | ) p( | ) è la A Priori di p( | ) è la A Priori di p (D |, ) è la likelihood che nel problema della punessa in cui le osservazioni si D sono mutuamente indipendenti può essere considerata binomiale h (1- ) t Probabilità Bayesiana

15 15 Funzione di verosimiglianza La bontà del parametro viene misurata con la funzione di verosimiglianza: L (, D ) = P( D | ) (una volta scelto lo si testa vedendo quanto bene esso è capace di generare dati osservati) Quindi la funzione di verosimiglianza della sequenza H, T,H,T,T può essere: L (,D ) =. (1- ).. (1 - ). (1 - )

16 16 statistica sufficiente Per calcolare la funzione di verosimiglianza nel problema della punessa sono richiesti solo h e t ossia il numero di volte che la punessa è caduta sulla testa e quello in cui è caduta sulla punta h e t sono chiamate statistiche sufficienti per una distribuzione binomiale h e t sono chiamate statistiche sufficienti per una distribuzione binomiale Una statistica sufficiente riassume dai dati le informazioni rilevanti per la funzione di verosimiglianza

17 17 A Priori Possiamo descrivere lincertezza su usando la densità di probabilità: p( | ) Un approccio comunemente adottato per esprimerla usa la distribuzione Beta: Dove α h > 0 e α t >0 sono detti iperparametri della distribuzione Beta e rappresentano il grado di conoscenza a priori

18 18 Esempi di distribuzioni Beta Nel coso di assoluta ignoranza α h e α t rappresentano la condizione di equiprobabilità, una volta note α h e α t la distribuzione a posteriori diventa: α h = α h + h e α t = α t + t quindi le osservazioni possono poi diventare la conoscenza attuale!!

19 19 In fine ….. Mediando sui possibili valori di per determinare la probabilità che al lancio N+1 la punessa cada sulla testa: P(X N+1 =heads | D, ) = p( | D, ) d P(X N+1 =heads | D, ) = p( | D, ) d Usando la distribuzione Beta tale valore atteso di rispetto alla distribuzione di p( /D, ) diventa : Dove α = α h + α t e N è il numero di osservazioni totali

20 20 … più in generale … più in generale Lesempio della punessa descrive un caso in cui la variabile aleatoria da considerare assume valori discreti In questo caso abbiamo assunto che la distribuzioni a priori fosse una Beta ma nel caso generale la P(X N+1 =heads | D, ) = p( | D, ) d P(X N+1 =heads | D, ) = p( | D, ) d Può essere calcolata efficientemente e in forma chiusa ipotizzando distribuzioni multinomiali, normali, Gamma, Poisson e normali multivariate che includono anche il caso in cui X assume valori continui e quello in cui invece di una signola X ho un vettore di variabili aleatorie. Se ad esempio la modelliamo con una gaussiana il parametro da stimare sarà ={media, varianza} Nel caso in cui X è un vettore di variabili aleatorie la P(X) può essere studiata tramite una rete bayesiana andando a considerare anche le dipendenze tra variabili Nel caso in cui X è un vettore di variabili aleatorie la P(X) può essere studiata tramite una rete bayesiana andando a considerare anche le dipendenze tra variabili

21 21 Problema di Classificazione Come usiamo le informazioni viste fin ora per costruire un classificatore? Bisogna capire a quale è levidenza dalla quale vogliamo trarre informazioni allo scopo di classificare ! Possiamo usare più informazioni contemporaneamente per ottenete risultati di classificazione migliori

22 22 Esempio La storia: Paolo ha un nuovo allarme anti-scasso sulla sua autovettura che funziona molto bene nel prevenire i furti, ma alcune volte risponde positivamente a piccole scosse di terremoto. Due vicini di casa di Paolo, Mary e John, hanno promesso di avvisarlo nel caso scattasse lallarme mentre lui si trova al lavoro. John chiama sempre quando scatta lallarme, ma a volte si confonde con il suono del telefono e avverte Paolo lo stesso. Mary ama ascoltare la musica a tutto volume e qualche volta non sente lallarme e non avverte Paolo. La storia: Paolo ha un nuovo allarme anti-scasso sulla sua autovettura che funziona molto bene nel prevenire i furti, ma alcune volte risponde positivamente a piccole scosse di terremoto. Due vicini di casa di Paolo, Mary e John, hanno promesso di avvisarlo nel caso scattasse lallarme mentre lui si trova al lavoro. John chiama sempre quando scatta lallarme, ma a volte si confonde con il suono del telefono e avverte Paolo lo stesso. Mary ama ascoltare la musica a tutto volume e qualche volta non sente lallarme e non avverte Paolo. Problema: Stimare la probabilità che ci sia uno scassinatore sulla base di chi ha o no telefonato ( classificare un furto! ) Problema: Stimare la probabilità che ci sia uno scassinatore sulla base di chi ha o no telefonato ( classificare un furto! ) Variabili: Scassinatore(B), Terremoto(E), Allarme(A), Chiamata di John (J), Chiamata di Mary (M) Variabili: Scassinatore(B), Terremoto(E), Allarme(A), Chiamata di John (J), Chiamata di Mary (M) Conoscenza richiesta per risolvere il problema: Conoscenza richiesta per risolvere il problema: P(B, E, A, J, M) P(B, E, A, J, M) (distribuzione congiunta di probabilità) (distribuzione congiunta di probabilità) Tale conoscenza viene usata per formalizzare il problema di classificazione come: Tale conoscenza viene usata per formalizzare il problema di classificazione come: P(B| E, A, J, M) apprendendo la congiunta precedente da i dati osservati D ossia dalle istanze degli stati del vettore di v.a. {B, E, A, J, M} P(B| E, A, J, M) apprendendo la congiunta precedente da i dati osservati D ossia dalle istanze degli stati del vettore di v.a. {B, E, A, J, M}

23 23 Nota la distribuzione congiunta Ho 2 5 valori che abbiamo assunto essre noti ma come faccia in genere per apprenderli ?

24 24 Costruzione del modello Il dominio del problema è modellato attraverso una lista di variabili X1, …, Xn Il dominio del problema è modellato attraverso una lista di variabili X1, …, Xn La conoscenza del dominio del problema è rappresentata dalla sua distribuzione di probabilità congiunta P(X1, …, Xn) La conoscenza del dominio del problema è rappresentata dalla sua distribuzione di probabilità congiunta P(X1, …, Xn) E la P(X1, …, Xn) può essere descritta e calcolata con varie tecniche tra cui le reti Bayeiane E la P(X1, …, Xn) può essere descritta e calcolata con varie tecniche tra cui le reti Bayeiane

25 25 Un modello grafico che descrive efficientemente le probabilità congiunte di un insieme di variabili Nellesempio precedente un BN consente di descrivere il comportamento delle v.a. { B, E, A, J, M} e calcolare efficientemente la P(B, E, A, J, M) Cosa è una rete Bayesiana?

26 26 Come? Per mezzo di un Directed Acyclic Graph (DAG) i cui nodi rappresentano variabili aleatorie e gli archi le dipendenze tra esse: La mancanza di un arco denota lindipendenza condizionata tra le variabili. P(J | A,B,E,M) = P(J | A) Una rete Bayesiana è definita per mezzo di: Una struttura di rete S che codifica le indipendenze condizionali tra le variabili X Una struttura di rete S che codifica le indipendenze condizionali tra le variabili X Un insieme di distribuzioni locali di probabilità P Un insieme di distribuzioni locali di probabilità P

27 27 Causalità Per rappresentare graficamente le relazioni di dipendenza condizionata, bisogna costruire un grafo diretto Se ad esempio tracciamo un arco che va da Xj a Xi tale operazione identifica in modo univoco il set pa(Xi) di parents o genitori del nodo Xi che in questo caso semplice contiene solo Xj

28 28 Distribuzioni condizionate Ad ogni nodo è associata una la distribuzione condizionata, rappresentata da una Conditional Probability Table (CPT) P(Xi | pa(Xi)) per ogni nodo Xi

29 29 Conditional Probability Tables

30 30 In generale i casi per i queli bisogna calcolare la probabilità sono 2 5 in realta 31 perché il 32esimo è ottenuto per (1- tutti gli altri casi) Nel caso si usi una rete bayesiana essi sono = 8 !! Vantaggio della BN (1)

31 31 è sempre possibile scrivere la probabilità congiunta tramite la chain-rule: Fattorizzazione della Congiunta Grazie allassunzione di indipendenza condizionata tra le variabili nel DAG

32 32 Grazie alla formulazione fatta, il dominio consente di identificare un sottoinsieme pa(Xi) (genitori di Xi) di {X1, …, Xi –1} tale che: Grazie alla formulazione fatta, il dominio consente di identificare un sottoinsieme pa(Xi) (genitori di Xi) di {X1, …, Xi –1} tale che: Dato pa(Xi), Xi è indipendente da tutte le variabili in {X1, …, Xi -1} tranne pa{Xi}, cioè: Dato pa(Xi), Xi è indipendente da tutte le variabili in {X1, …, Xi -1} tranne pa{Xi}, cioè: P(Xi| X1, …, Xi –1) = P(Xi| pa(Xi)) la distribuzione congiunta totale è definita come prodotto di termini locali: la distribuzione congiunta totale è definita come prodotto di termini locali: P (X 1, …,X n ) = π i = 1 P (X i | pa ( X i ) ) P( j, m, a, b,e)= P (j | a) P (m | a) P (a | b, e) P (b) P (e) Probabilità congiunta:

33 33 Inferenza - classificazione Qual è la probabilità che ci sia uno scassinatore dato che Mary ha telefonato P(B = y | M = y)? Qual è la probabilità che ci sia uno scassinatore dato che Mary ha telefonato P(B = y | M = y)? Si calcolala probabilità marginale: Si calcolala probabilità marginale: P(B, M) = Σ E,A,J P(B, E, A, J, M) P(M) = Σ B P(B, M) Si usa infine la definizione di probabilità condizionata Si usa infine la definizione di probabilità condizionata P(B = y | M = y)= P(B = y, M = y)* P(M = y) Classifico che lo scassinatore è in casa se P(B = y | M = y) > P(B = n | M = y) Classifico che lo scassinatore è in casa se P(B = y | M = y) > P(B = n | M = y)

34 34 Vantaggio della BN (2) Se non assumessimo che alcune variabili sono condizionatamente indipendenti tra loro avremmo una complessità maggiore sia nella costruzione del modello che nel fare inferenza Se non assumessimo che alcune variabili sono condizionatamente indipendenti tra loro avremmo una complessità maggiore sia nella costruzione del modello che nel fare inferenza Nellesempio: Nellesempio: Sono richiesti 31 valori di probabilità (2 5 -1) Sono richiesti 31 valori di probabilità (2 5 -1) Calcolare P(B = y | M = y) richiede un gran numero di addizioni (29) Calcolare P(B = y | M = y) richiede un gran numero di addizioni (29) In generale In generale P(X1, …, Xn) richiede almeno 2 n –1 valori per specificare la probabilità congiunta P(X1, …, Xn) richiede almeno 2 n –1 valori per specificare la probabilità congiunta Inferenza e spazio di memorizzazione esponenziali Inferenza e spazio di memorizzazione esponenziali

35 35 Sono necessari due tipi di apprendimento uno della struttura e laltro delle probabilità condizionate Sono necessari due tipi di apprendimento uno della struttura e laltro delle probabilità condizionate Entrambi possono essere acquisiti dai dati con opportuni algoritmi di apprendimento Entrambi possono essere acquisiti dai dati con opportuni algoritmi di apprendimento È possibile costruire la struttura conoscendo un problema ed andando a collegare le variabili in modo opportuno dando al collegamento il significato di causa->effetto come nel caso È possibile costruire la struttura conoscendo un problema ed andando a collegare le variabili in modo opportuno dando al collegamento il significato di causa->effetto come nel caso I giudizi di indipendenza condizionale e/o causa ed effetto possono influenzare la formulazione di problema I giudizi di indipendenza condizionale e/o causa ed effetto possono influenzare la formulazione di problema le valutazioni di probabilità possono condurre ai cambiamenti nella struttura della rete le valutazioni di probabilità possono condurre ai cambiamenti nella struttura della rete Come costruiamo una BN

36 36 Esempio di costruzione di un grafo Nel caso volessimo apprendere la struttura solo dai dati: Scegliere un insieme di variabili che descrivono il dominio dellapplicazione Scegliere un insieme di variabili che descrivono il dominio dellapplicazione Scegliere un ordine per le variabili Scegliere un ordine per le variabili Partire dalla rete vuota ed aggiungere le variabili alla rete una per una in accordo allordine prescelto Partire dalla rete vuota ed aggiungere le variabili alla rete una per una in accordo allordine prescelto Aggiungere li-sima variabile Xi e determinare pa(Xi) delle variabili già nella rete (X1, …, Xi –1) tale che: Aggiungere li-sima variabile Xi e determinare pa(Xi) delle variabili già nella rete (X1, …, Xi –1) tale che: P(Xi| X1, …, Xi –1) = P(Xi| pa(Xi)) Tracciare un arco da ognuna delle variabili in pa(Xi) a Xi Tracciare un arco da ognuna delle variabili in pa(Xi) a Xi

37 37 Esempi:

38 38 Supponiamo di scegliere lordine M, J, A, B, E Supponiamo di scegliere lordine M, J, A, B, E P(J | M) = P(J)? Esempio di costruzione del grafo

39 39 Supponiamo di scegliere lordine M, J, A, B, E Supponiamo di scegliere lordine M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Esempio di costruzione del grafo

40 40 Supponiamo di scegliere lordine M, J, A, B, E Supponiamo di scegliere lordine M, J, A, B, E P(J | M) = P(J)?No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? P(B | A, J, M) = P(B)? Esempio: di costruzione del grafo:

41 41 Supponiamo di scegliere lordine M, J, A, B, E Supponiamo di scegliere lordine M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? Yes P(B | A, J, M) = P(B)? No P(E | B, A,J, M) = P(E | A)? P(E | B, A, J, M) = P(E | A, B)? Esempio: di costruzione del grafo:

42 42 Supponiamo di scegliere lordine M, J, A, B, E Supponiamo di scegliere lordine M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? Yes P(B | A, J, M) = P(B)? No P(E | B, A,J, M) = P(E | A)? No P(E | B, A, J, M) = P(E | A, B)? Yes Example

43 43 Decidere lindipendenza condizionale è difficile e la causalità può essere appresa in modo totalmente inconsistente con quanto ci viene dallesperienza! Decidere lindipendenza condizionale è difficile e la causalità può essere appresa in modo totalmente inconsistente con quanto ci viene dallesperienza! La rete diventa lievemente più complessa: abbiamo bisogno di = 13 numeri La rete diventa lievemente più complessa: abbiamo bisogno di = 13 numeri Abbiamo bisogno di metodo che ci guidi nella costruzione del grafo Abbiamo bisogno di metodo che ci guidi nella costruzione del grafo Esempio: di costruzione del grafo

44 44 Apprendimento Il precedente metodo per costruire una BN risente di alcune controindicazioni. In particolare, la scelta dellordine delle variabili è un task delicato. Scegliere un ordine sbagliato può portare la BN a degenerare verso un grafo completamente connesso (caso peggiore) Quali sono i requisiti per valutare la bontà di un grafo? Quali sono i requisiti per valutare la bontà di un grafo? ad esempio la likelihood: Esistono metodi di apprendimento che massimizzano la funzione di score: Esistono metodi di apprendimento che massimizzano la funzione di score: score score che dipende dalle statistiche di Xi e dei sui parents In una rete causale lo score totale può essere scomposto in somma di termini locali! Permettendo un algoritmo di ricerca locale

45 45 Come usare una BN per classificare? Per usare una BN come un classificatore, occorre calcolare: Per usare una BN come un classificatore, occorre calcolare: dove y rappresenta la variabile classe e x è listanza da classificare. dove y rappresenta la variabile classe e x è listanza da classificare. Usando la distribuzione di probabilità P(U) rappresentata dalla BN, possiamo scrivere che: Usando la distribuzione di probabilità P(U) rappresentata dalla BN, possiamo scrivere che:

46 46 Perché usare un una rete bayesiana? sono una struttura teorica molto utilizzata nellambito dellapprendimento, della classificazione, della rappresentazione della conoscenza combinano conoscenza a priori e dati combinano conoscenza a priori e dati Imparano relazioni causali -> fattorizzo la probabilità congiunta Imparano relazioni causali -> fattorizzo la probabilità congiunta I metodi Bayesiani sono importanti perché capaci di gestire data sets incompleti e rumorosi I metodi Bayesiani sono importanti perché capaci di gestire data sets incompleti e rumorosi

47 47 Benefici di apprendere strutture Benefici di apprendere strutture Apprendimento efficiente: modelli più accurati con meno dati Apprendimento efficiente: modelli più accurati con meno dati Scoperta di proprietà strutturali del dominio (grazie al comportamento di A posso prevedere la P(B|A) anche avendoa disposizione un ridotto numero di dati provenienti dal solo B) Scoperta di proprietà strutturali del dominio (grazie al comportamento di A posso prevedere la P(B|A) anche avendoa disposizione un ridotto numero di dati provenienti dal solo B) Aiuta ad ordinare eventi che avvengono sequenzialmente nella analisi dellinferenza Aiuta ad ordinare eventi che avvengono sequenzialmente nella analisi dellinferenza Predizione di effetti di azioni Predizione di effetti di azioni

48 48 Limitazioni di una rete Bayesiana Richiedono tipicamente una conoscenza iniziale di molte probabilità … e la qualità e grado della conoscenza a priori giocano un ruolo importante Richiedono tipicamente una conoscenza iniziale di molte probabilità … e la qualità e grado della conoscenza a priori giocano un ruolo importante Gli algoritmi di apprendimento strutturale hanno un costo computazionale significativo Gli algoritmi di apprendimento strutturale hanno un costo computazionale significativo

49 49 Utilizzo Induce Bayesian Network Data +prior knowledge

50 50 Scenario 1 Addestramento (lab) Addestramento (lab) esercizio esercizio codec UDP IP Data link fisico BER jitter PLR BN Q Computed QoE Ref. P(Q | X 1,…,X N )

51 51 Scenario 2 (Gap Filler) Addestramento (in situ) Addestramento (in situ) esercizio esercizio P(X 5 | X 1, X 2,X 3, X 4 ) X 5 ?? X2X2 X1X1 X3X3 X4X4

52 52 Classificazione tramite rete bayesiana Studio reti Bayesiane Studio reti Bayesiane Strumento potente calcolo veloce probabilità conguinte (dipendenze tra variabili aleatorie) Strumento potente calcolo veloce probabilità conguinte (dipendenze tra variabili aleatorie) Realizzazione di un classificatore Realizzazione di un classificatore Contesto applicativo (Predittore Guasti Meccanici) Contesto applicativo (Predittore Guasti Meccanici) Evento a massima probabilità a posteriori dati gli osservabili Evento a massima probabilità a posteriori dati gli osservabili Cause scatenati del guasto (osservabili direttamente connessi col guasto) Cause scatenati del guasto (osservabili direttamente connessi col guasto) Applicazioni Applicazioni Database di dati simulati Database di dati simulati Database di rilevazioni dal parco macchine (carrelli movimentatori) del porto di Genova Database di rilevazioni dal parco macchine (carrelli movimentatori) del porto di Genova

53 53 Implementations in real life : DLR/ESA knowledge information mining DLR/ESA knowledge information mining Microsoft products(Microsoft Office) Microsoft products(Microsoft Office) Medical applications and Biostatistics (BUGS) Medical applications and Biostatistics (BUGS) In NASA Autoclass projectfor data analysis In NASA Autoclass projectfor data analysis Collaborative filtering (Microsoft – MSBN) Collaborative filtering (Microsoft – MSBN) Fraud Detection (ATT) Fraud Detection (ATT) Speech recognition (UC, Berkeley ) Speech recognition (UC, Berkeley ) Predizione incidentalità stradale Predizione incidentalità stradale Carrelli movimentatori porto di Genova Carrelli movimentatori porto di Genova

54 54 Fault Tolerance Nello specifico se il nostro scopo è prevedere i guasti in sistemi meccanici che si trovano a bordo di camion che trasportano merci pericolose: Nello specifico se il nostro scopo è prevedere i guasti in sistemi meccanici che si trovano a bordo di camion che trasportano merci pericolose: Bisogna costruire un sistema affidabile Bisogna costruire un sistema affidabile Bisogna considerare che un guasto può provocare un nuovo guasto al motore Bisogna considerare che un guasto può provocare un nuovo guasto al motore Dallo studio di uno specifico guasto potremmo trovare relazioni tra le cause: Esempio: ho fuso il motore! quali sono le possibili cause?

55 55 Fault Tolerance Esercitazione in lab temperatura dellacqua alta temperatura dellacqua alta poco olio nel motore poco olio nel motore....ABC…. Realizzare una rete Bayesiana con il software Netica Da cosa può dipendere la fusione di un motore?


Scaricare ppt "1 Fault Tollerance and Bayesian Networks Progetto Tramp Applicazione di tecniche di intelligenza artificiale per la realizzazione di sistemi fault tolerant."

Presentazioni simili


Annunci Google