La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Corso di Sistemi di Telecomunicazione 1 A.A 2009/2010 TEORIA DELLA DECISIONE Ref. Detection, Estimation and Modulation Theory, Part I, H.L.Van Trees,

Presentazioni simili


Presentazione sul tema: "1 Corso di Sistemi di Telecomunicazione 1 A.A 2009/2010 TEORIA DELLA DECISIONE Ref. Detection, Estimation and Modulation Theory, Part I, H.L.Van Trees,"— Transcript della presentazione:

1 1 Corso di Sistemi di Telecomunicazione 1 A.A 2009/2010 TEORIA DELLA DECISIONE Ref. Detection, Estimation and Modulation Theory, Part I, H.L.Van Trees, ed. John Wiley&Sons, Inc Prof. Carlo S. Regazzoni

2 2 CONTENUTI Introduzione Test di ipotesi binaria Criteri di decisione Misure di prestazione: curve ROC M-ipotesi

3 3 INTRODUZIONE: Il problema della decisione Componenti del problema della decisione: 1. Sorgente 2. Meccanismo probabilistico di rumore 3. Spazio dellosservazione 4. Regola di decisione Sorgente H0H0 H1H1 Meccanismo probabilistico di rumore Spazio della osservazione DECISIONE Regola di decisione

4 4 INTRODUZIONE: Il problema della decisione Sorgente La sorgenete genera unuscita che, nel caso più semplice è una tra due possibili scelte e ESEMPIO Un sistema di comunicazione digitale trasmette informazioni mandando 0 e 1: = è stato trasmesso 1 = è stato trasmesso 0 Meccanismo probabilistico di rumore Può essere visto come un dispositivo che sa quale ipotesi è vera. Sulla base di questa conoscenza, genera un punto nello spazio delle osservazioni, in accordo con date leggi probabilistiche. Spazio delle osservazioni: ESEMPIO Quando H 1 è vera, la sorgente genera +1. Quando H 0 è vera, la sorgente genera -1.

5 5 INTRODUZIONE: Il problema della decisione Un problema di decisione: Fig. a: Modello Fig. b: Densità di probabilità Una variabile casuale discreta indipendente n la cui densità di probabilità è mostrata nella figura (b) è aggiunta alluscita della sorgente. Losservazione r è data dalla somma delluscita della sorgente con n. Sotto le due ipotesi abbiamo due possibili osservazioni r le cui densità di probabilità sono mostrate in figura (b). Regola di decisione La regola di decisione assegna ogni punto dello spazio dellosservazione ad una delle ipotesi

6 6 IPOTESI BINARIA Ognuna delle due uscite della sorgente corrisponde ad una ipotesi Ogni ipotesi viene mappata in un punto dello spazio delle osservazioni Assumiamo che lo spazio delle osservazioni corrisponde a un insieme di N osservazioni: Ogni insieme può essere pensato come un punto in uno spazio N-dimensionale e può essere denotato da un vettore r: Il meccanismo probabilistico di rumore genera punti in accordo con due densità di probabilità condizionali note e OBIETTIVO: usare questa informazione per sviluppare una buona regola di decisione vediamo diversi criteri di decisione

7 7 CRITERI DI DECISIONE Nellipotesi binaria sappiamo che una delle ipotesi H 1 o H 0 è vera. Confiniamo la discussione sulle regole di decisione che sono richieste per prendere una decisione. Ogni volta che lesperimento viene condotto, può verificarsi una delle seguenti 4 situazioni: 1. H 0 è vera - scelgo H 0 ; 2. H 0 è vera - scelgo H 1 ; 3. H 1 è vera - scelgo H 1 ; 4. H 1 è vera - scelgo H 0 ; La prima e la terza alternativa corrispondono a scelte corrette. La seconda e la quarta alternativa corrispondono a scelte sbagliate. Lo scopo di un criterio di decisione è quello di dare una importanza relativa ai possibili quattro eventi.

8 8 CRITERIO DI BAYES Il test di Bayes è basato si due assunzioni: 1. Prima assunzione Le uscite sono governate da assegnazioni probabilistiche, che sono denotate da P 1 e P 0 e sono chiamate probabilità a priori. Queste probabilità rappresentano linformazione che ha losservatore sulla sorgente, prima che lesperimento sia condotto. 2. Seconda assunzione Ad ogni possibile azione viene associato un costo C 00, C 10, C 11, C 01, dove il primo pedice indica lipotesi scelta e il secondo lipotesi vera. Ogni volta che lesperimento viene eseguito, si paga un certo costo. Vogliamo progettare la nostra regola di decisione in modo tale che il costo medio sia minimizzato.

9 9 CRITERIO DI BAYES Per minimizzare il costo medio, scriviamo unespressione per il costo aspettato (rischio): Siccome abbiamo assunto che la regola di decisione possa decidere per H 0 o per H 1, questa può essere vista come una regola che divide lo spazio di osservazione Z in due parti, Z 0 e Z 1 : Sorgente R R Z0Z0 Z0Z0 Z1Z1 Decido per Z 0 Decido per Z 1 dove:

10 10 CRITERIO DI BAYES Possiamo scrivere lespressione per il rischio in termini di probabilità di transizione e di regioni di decisione: Assumiamo che il costo relativo ad una decisione sbagliata sia più alto del costo relativo ad una decisione corretta(data la stessa H i vera ): Per trovare il test di Bayes dobbiamo scegliere le regioni di decisione in modo tale che il rischio sia minimizzato Siccome vogliamo che una decisione venga comunque presa, occorre che lo spazio di osservazione Z sia tale che: (1) (2)

11 11 CRITERIO DI BAYES La (1) può essere riscritta nel seguente modo: Osserviamo che: I primi due termini rappresentano il costo fissato se decido H 1 sempre e l integrale rappresenta il costo controllato da quei punti R che assegniamo a Zo. Lassunzione (2) implica che i due termini dentro le parentesi tonde siano positivi. tutti i valori di R per cui il secondo termine è più grande del primo dovrebbero essere inclusi in Zo perché danno contributo negativo allintegranda; tutti i valori di R per cui il primo termine è più grande del secondo dovrebbero essere esclusi da Zo (assegnati a Z 1 ). (3)

12 12 CRITERIO DI BAYES Le regioni di decisione sono definite dalla seguente relazione: La (4) può essere riscritta nel seguente modo: (4) SE ASSEGNIAMO R A Z 1, QUINDI SCELGO LIPOTESI H 1 E VERA. (5) (R) è chiamato rapporto di verosimiglianza ed è una variabile aleatoria. La quantità a destra della (5) è la soglia del test:

13 13 CRITERIO DI BAYES OSSERVAZIONI Il criterio di Bayes può essere riscritto come segue: Tutta lelaborazione è contenuta nel calcolo del rapporto di verosimiglianza e non dipende dalle probabilità a priori o dallassegnazione dei costi. Siccome il logaritmo naturale è una funzione monotona ed entrambi i termini della (6) sono positivi, un test equivalente è il seguente: (6) (7)

14 14 CRITERIO DI BAYES Esempio 1 Ipotesi H 1 uscita della sorgente = tensione m Ipotesi H 0 uscita della sorgente = tensione 0 Prima dellosservazione la tensione è corrotta da un rumore additivo. Campioniamo la forma donda in uscita ogni secondo e otteniamo N campioni. Ogni campione di rumore è una variabile aleatoria Gaussiana a media nulla e varianza I campioni di rumore sono indipendenti tra di loro e sono indipendenti dalluscita della sorgente.

15 15 CRITERIO DI BAYES Esempio 1 Le osservazioni sotto le due ipotesi sono: e La densità di probabilità dellosservazione sotto le due ipotesi risulta essere: e

16 16 CRITERIO DI BAYES Esempio 1 Siccome i campioni di rumore sono statisticamente indipendenti, è possibile scrivere: e Il rapporto di verosimiglianza risulta essere:

17 17 CRITERIO DI BAYES Esempio 1 Il test di verosimiglianza è: o, equivalentemente: Il processore semplicemente somma i campioni osservati e confronta la somma con una soglia. Loperazione: è chiamata statistica sufficiente.

18 18 CRITERIO DI BAYES Esempio 2 Losservazione consiste di un insieme di N valori: che sono indipendenti, identicamente distribuiti, con distribuzione Gaussiana a media nulla. Sotto lipotesi H1, i campioni osservati hanno varianza e sotto lipotesi Ho Siccome le variabili sono indipendenti: Il test di verosimiglianza diventa:

19 19 CRITERIO DI BAYES Esempio 2 In questo caso la statistica sufficiente è data da: Un test equivalente per è: Per si ha invece:

20 20 CRITERIO DI BAYES Caso particolare: ricevitore a minima probabilità di errore Supponiamo che: La funzione di rischio (1) diventa: Lespressione (8) rappresenta la probabilità totale di fare un errore, che viene perciò minimizzata. Il test di verosimiglianza è: (8) Quando le due ipotesi sono equiprobabili, la soglia è nulla. Questa ipotesi è generalmente vera nei sistemi di comunicazione digitale. Questo tipo di criterio viene normalmente chiamato ricevitore a minima probabilità di errore.

21 21 CRITERIO MINIMAX Il criterio minimax è un caso particolare del test di Bayes in cui le probabilità a priori non sono note. Introduciamo le seguenti quantità, con analogia al problema del radar, in cui lipotesi H 1 corrisponde alla presenza di un target, e lipotesi Ho corrisponde alla sua assenza: (9) P F è la probabilità di falso allarme (il target è rilevato quando in realtà non cè); P M è la probabilità di mancato allarme (il target non è rilevato quando in realtà cè); P D è la probabilità di detection (il target è rilevato correttamente). (10) (11)

22 22 CRITERIO MINIMAX La funzione di rischio (3) può essere riscritta nel seguente modo: Poiché, è possibile scrivere: (13) In figura è riportata la funzione di rischio Bayesiana in funzione di P 1 ; si può osservare come P 1 cambia le regioni di decisione e quindi le probabilità P F e P M. (12)

23 23 CRITERIO MINIMAX Fissiamo P 1 =P 1 * e costruiamo il corrispondente test di Bayes; Fissiamo la soglia e ora assumiamo che P 1 possa cambiare; Denotiamo il rischio per questa soglia fissata come: Siccome la soglia è fissata, allora P F e P M sono fissate e la (13) rappresenta una retta; Se vediamo come è definita la soglia, osserviamo che questa cambia continuamente al variare di P 1 ogni volta che, la soglia nel test di Bayes sarà differente. Siccome il test di Bayes minimizza il rischio, allora: Se è una variabile aleatoria continua con funzione di distribuzione probabilistica strettamente monotona, allora cambiando viene cambiato il rischio; R B ha concavità verso il basso; R F è tangente a R B nel punto. Queste curve dimostrano leffetto della conoscenza errata delle probabilità a priori.

24 24 CRITERIO MINIMAX Il criterio minimax minimizza il massimo rischio P 1 è scelto in modo da massimizzare il rischio R F. ESEMPIO 1 Il massimo di R b si ha in P 1 =1 per minimizzare il massimo rischio usiamo il test di Bayes con P 1 =1. ESEMPIO 2 Il massimo di R b si ha in P 1 =0 per minimizzare il massimo rischio usiamo il test di Bayes con P 1 =0.

25 25 CRITERIO MINIMAX ESEMPIO 3 Il massimo di R B cade nellintervallo (0,1), quindi scegliamo R F orizzontale. Questop implica che il coefficiente di P 1 nella (13) deve essere nullo (equazione del minimax) Nel caso particolare in cui, indicando: lequazione del minimax è:

26 26 CRITERIO DI NEYMAN-PEARSON In molti casi reali è difficile assegnare costi realistici o probabilità a priori; Una procedura semplice per evitare questo problema è lavorare con le probabilità condizionali P F e P D ; In generale, vogliamo minimizzare P F e massimizzare P D ; In molti casi pratici questi due obiettivi sono in conflitto un criterio ovvio consiste nel limitare una delle probabilità e massimizzare o minimizzare laltra. Il criterio di Neyman-Pearson la probabilità di falso allarme: e progetta un test per massimizzare la probabilità di detection (o minimizzare la probabilità di mancato allarme), con questo vincolo.

27 27 CRITERIO DI NEYMAN-PEARSON La soluzione è facilmente ottenuta usando i moltiplicatori di Lagrange.; costruiamo la funzione F: o Se, minimizzare F equivale a minimizzare P M. Per ogni valore positivo di, un rapporto di verosimiglianza minimizzerà F, infatti per minimizzare F noi assegniamo un punto R a Zo solo quando il termine tra parentesi è negativo; questo equivale al test: assegno il punto a Zo F è minimizzata dal test di verosimiglianza:

28 28 CRITERIO DI NEYMAN-PEARSON Per soddisfare il vincolo scegliamo in modo tale che: Se indichiamo la densità di probabilità di quando Ho è vera come: allora deve essere: (14) Risolvendo la (14), si ottiene la soglia Osserviamo che diminuire è equivalente ad aumentare Z 1, la regione in cui decidiamo per H 1 ; P D aumenta al diminuire di diminuiamo finché non otteniamo il valore più alto possibile

29 29 PERFORMANCES: Receiver Operating Characteristic Per il test di Neyman-Pearson i valori di P F e P D specifica completamente le prestazioni del test; Osservando lequazione (12), vediamo che il rischio di Bayes R B è dato, se sono note le probabilità P F e P D ci concentriamo sul calcolo di P F e P D Riprendiamo lesempio 1, in cui il test di verosimiglianza è rappresentato da: Equivalentemente, il test di verosimiglianza può essere espresso dalla seguente espressione: Sotto lipotesi Ho, l è ottenuto aggiungendo N variabili indipendenti con varianza e quindi dividendo per l ha distribuzione Gaussiana normalizzata N(0,1)

30 30 PERFORMANCES: Receiver Operating Characteristic Sotto lipotesi H1, l ha distribuzione Gaussiana con media e varianza 1. Le densità di probabilità di l sono mostrate nella seguente figura, in cui è riportata anche la soglia del test di verosimiglianza:

31 31 PERFORMANCES: Receiver Operating Characteristic La probabilità di falso allarme P F è lintegrale di a destra della soglia, cioè: dove: d rappresenta la distanza tra i valori medi delle due densità di probabilità. Introduciamo la seguente notazione: (15)

32 32 PERFORMANCES: Receiver Operating Characteristic Analogamente, la probabilità di detection P D è lintegrale di: a destra della soglia; dopo qualche calcolo elementare si può ottenere che:

33 33 PERFORMANCES: Receiver Operating Characteristic Nella seguente figura abbiamo tracciato P F per diversi valori di d al variare di. Quando = 0, ln -, quindi il ricevitore decide sempre per H 1, quindi P F = 1 e P D = 1; quando -, il decisore sceglie sempre H 0, per cui P F = 0 e P D = 0.

34 34 PERFORMANCES: Receiver Operating Characteristic Come ci si aspetta dalle figure delle densità di probabilità, le prestazioni crescono monotonicamente con d. Le curve tracciate nel lucido precedente vengono chiamate curve ROC (Receiver Operating Characteristic); le curve ROC descrivono completamente le prestazioni del test in funzione dei parametri di interesse. CASO PARTICOLARE: volgiamo minimizzare la probabilità di errore totale: Quando P 1 = Po la probabilità di errore totale è:

35 35 PERFORMANCES: Receiver Operating Characteristic LIMITI DI ERFC * Il calcolo dei limiti della funzione erfc * ci permettono di discutere analiticamente il suo comportamento approssimato. Per X > 0, risolvendo lintegrale (15) per parti, si trova che: Un altro limite è, sempre per X > 0:

36 36 PERFORMANCES: Receiver Operating Characteristic La seguente figura mostra le 4 curve di interesse: Notiamo che erfc * decresce esponenzialmente.

37 37 PERFORMANCES: Receiver Operating Characteristic Esempio Riprendiamo lesempio 2 del test di Bayes in cui avevamo ricavato che: Per valutare lespressione sopra, consideriamo le coordinate polari: Il calcolo delle prestazioni per N arbitrario è molto difficile. Consideriamo per semplicità il caso di N=2. Sotto lipotesi Ho, i valori r i sono variabili indipendenti Gaussiane a media nulla e con varianza uguale a :

38 38 PERFORMANCES: Receiver Operating Characteristic Esempio Analogamente si trova che: Integrando rispetto a otteniamo: Osserviamo che la statistica sufficiente l è uguale a z 2. Facendo un cambiamento di variabili, otteniamo: (16) (17)

39 39 PERFORMANCES: Receiver Operating Characteristic Esempio Come ci si poteva aspettare, le prestazioni aumentano in modo monotono con il rapporto: Per costruire le curve ROC, combiniamo le equazioni (16) e (17) per eliminare la soglia : Applicando il il logaritmo naturale si ha::

40 40 PERFORMANCES: Receiver Operating Characteristic Proprietà Riprendiamo lespressione (14) della probabilità di falso allarme e denotiamo la soglia con ; abbiamo che: Se P F ( ) è una funzione continua di, è possibile raggiungere un valore desiderato compreso tra 0 e 1 per la probabilità di falso allarme, scegliendo opportunamente ; Supponendo vera lipotesi precedente (test di verosimiglianza continuo), è possibile ricavare alcune propietà generali delle curve ROC. PROPRIETA 1 Tutti i test di verosimiglianza continui hanno curve ROC con concavità verso il basso. Se così non fosse, allora sarebbe meglio usare un test discreto, e questo è in contraddizione con lottimalità del test di verosimiglianza.

41 41 PERFORMANCES: Receiver Operating Characteristic Proprietà PROPRIETA 2 Tutti i test di verosimiglianza continui hanno curve ROC che stanno sopra la retta P F = P D. Questo è un caso particolare della proprietà 1, perché tutte le curve ROC contengono i punti (P F = 0, P D = 0) e (P F = 1, P D = 1). PROPRIETA 3 La pendenza in ogni punto delle curve ROC è uguale al valore della soglia richiesta per raggiungere le probabilità P F e P D in quel punto. Dim.

42 42 PERFORMANCES: Receiver Operating Characteristic Proprietà Differenziando rispetto a e facendo il rapporto tra le due equazioni si ottiene: Dobbiamo dimostrare che: Poniamo: Quindi: Lultima uguaglianza segue dalla definizione del rapporto di verosimiglianza. (18)

43 43 PERFORMANCES: Receiver Operating Characteristic Proprietà Usando la definizione di ( ), lultimo integrale può essere riscritto nel seguente modo: Differenziando rispetto a otteniamo: Tenendo conto dellequazione (18) possiamo ottenere il risultato desiderato. PROPRIETA 4 Ogni volta che il massimo valore del rischio di Bayes è interno allintervallo (0,1) sullasse P1, il punto del minimax è dato dallintersezione tra la curva ROC appropriata e la retta

44 44 PERFORMANCES: Receiver Operating Characteristic Proprietà Nella figura seguente, osserviamo il caso speciale del minimax definito dalla seguente espressione: Osserviamo che la retta del minimax parte dal punto (P F = 0, P D = 1) e interseca la linea P F = 1 nel punto:

45 45 M-IPOTESI Generalizziamo i concetti della teoria della decisione al caso in cui noi dobbiamo scegliere una tra M ipotesi possibili. Abbiamo una sorgente che genera M uscite; assumiamo di dovere fare comunque una scelta, quindi ci sono M 2 possibili alternative che possono verificarsi ogni volta che lesperimento viene eseguito; il criterio di Bayes assegna un costo ad ognuna di queste alternative, assume un insieme di probabilità a priori, P 0, P 1, … P M e minimizza il rischio; la generalizzazione di Neyman-Pearson è possibile, ma in pratica viene poco usata, quindi vediamo solo il caso del test di Bayes.

46 46 M-IPOTESI Indichiamo i costi con la notazione Cij, analogamente al caso binario; Il modello è mostrato nella seguente figura: Sorgente HoHo H M-1 ZoZo ZoZo ZoZo Z M-1 Z1Z1 Lespressione per il rischio è: Il minimo rischio viene determinato facendo variare Z i (equivalent a def. La regola di decisione).

47 47 M-IPOTESI ESEMPIO: =3 Si ha che: Z 0 =Z – Z 1 - Z 2 perché le regioni sono disgiunte e coprono tutto Z Facendo qualche calcolo si ottiene: (19)

48 48 M-IPOTESI Indicando le funzioni integrande con I 0 (R), I 1 (R) e I 2 (R), abbiamo la seguente regola di decisione : Questi termini possono essere scritti in termini di rapporti di verosimiglianza definendo: (20) (In generale M-1 rapporti di verosimiglianza)

49 49 M-IPOTESI Usando le espressioni (19) e (20), si ottiene: Le regole di decisione corrispondono a tre linee nel piano 1, 2 (in generale,


Scaricare ppt "1 Corso di Sistemi di Telecomunicazione 1 A.A 2009/2010 TEORIA DELLA DECISIONE Ref. Detection, Estimation and Modulation Theory, Part I, H.L.Van Trees,"

Presentazioni simili


Annunci Google