La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Corso di Sistemi di telecomunicazione A.A. 2009/2010 TEORIA DELLA STIMA Ref. Detection, Estimation and Modulation Theory, Part I, H.L.Van Trees, ed.

Presentazioni simili


Presentazione sul tema: "1 Corso di Sistemi di telecomunicazione A.A. 2009/2010 TEORIA DELLA STIMA Ref. Detection, Estimation and Modulation Theory, Part I, H.L.Van Trees, ed."— Transcript della presentazione:

1 1 Corso di Sistemi di telecomunicazione A.A. 2009/2010 TEORIA DELLA STIMA Ref. Detection, Estimation and Modulation Theory, Part I, H.L.Van Trees, ed. John Wiley&Sons, Inc Prof. C. Regazzoni

2 2 CONTENUTI Introduzione Parametri casuali: stima Bayesiana Stima di parametri non casuali Stima di parametri multipli Ipotesi composta Stima a massima verosimiglianza Disuguaglianza di Cramer-Rao Limite inferiore del minimo MSE

3 3 INTRODUZIONE Nella teoria della decisione viene considerato un problema in cui si presenta una tra diverse ipotesi; Come risultato di una particolare ipotesi, veniva osservato una variabile casuale vettoriale r. Basandoci sulla nostra osservazione, occorreva cercare di scegliere lipotesi vera. Adesso consideriamo il problema della stima di parametri

4 4 INTRODUZIONE Il problema della stima: esempio Vogliamo misurare una tensione a ad un certo istante di tempo; da considerazioni fisiche sappiamo che la tensione è tra -V e +V volt; La misurazione della tensione è corrotta da rumore che può essere modellato come variabile casuale n indipendente con distribuzione Gaussiana a media nulla; La variabile osservata è: La densità di probabilità che governa il processo dellosservazione è, in questo caso: Il problema della teoria della stima consiste nellosservare r e stimare a

5 5 INTRODUZIONE Il problema della stima Lesempio precedente mostra le caratteristiche principali del problema della stima; Un modello per il problema generico della stima è mostrato nella seguente figura:

6 6 Il modello ha 4 componenti: 1. Spazio dei parametri Luscita della sorgente è un parametro (o variabile). Noi vediamo questa uscita come un punto nello spazio dei parametri. Nel caso di un singolo parametro, questo corrisponde ad un segmento nella retta: INTRODUZIONE Il problema della stima 2. Mappaggio probabilistico dallo spazio dei parametri allo spazio delle osservazioni Questa componente è la legge probabilistica che governa leffetto di a sullosservazione.(es rumore) 3. Spazio delle osservazioni Losservazione è un punto denotato dal vettore R. 4. Regola di stima Dopo avere osservato R, vogliamo stimare il valore del parametro a. Denotiamo la stima con: Studieremo diverse regole di stima e la loro implementazione

7 7 PARAMETRI CASUALI: STIMA DI BAYES Nel problema del decisore di Bayes alle quantità che dobbiamo specificare sono assegnati dei costi C ij e delle probabilità a priori P i ; La matrice dei costi assegna un costo ad ogni possibile azione da intraprendere, data ogni possibile ipotesi vera Nel problema della stima a e sono variabili continue; occorre assegnare un costo a tutte le possibili coppie [a, ] nellintervallo di interesse. Il costo è una funzione a due variabili C(a, â); In molti casi di interesse è realistico assumere che il costo dipenda solo dallerrore di stima, che è: La funzione di costo C(a ) è funzione di ununica variabile.

8 8 Nella seguente figura sono mostrati alcuni esempi di funzioni di costo: PARAMETRI CASUALI: STIMA DI BAYES Un costo elevato è assegnato se lerrore è elevato.

9 9 La funzione di costo viene scelta tenendo conto di due fattori: 1. Vorremmo che la funzione di costo sia coerente con la natura del problema (richieste dellutente); 2. Vorremmo che la funzione di costo sia tale per cui il problema della stima risulti analiticamente trattabile (lo scopo è trovare una stima che minimizzi il valore aspettato del costo). In pratica, le funzioni di costo rappresentano un compromesso tra i due obiettivi sopra citati. Analogamente alle probabilità a priori del problema della decisione, nel problema della stima abbiamo una densità di probabilità a priori p a (A). Assumeremo che p a (A) sia nota; nel caso che non fosse nota, può essere adottata una procedura analoga al test minimax. PARAMETRI CASUALI: STIMA DI BAYES

10 10 Una volta specificate la funzione di costo e la probabilità a priori, possima screivere unespressione per la funzione di rischio: PARAMETRI CASUALI: STIMA DI BAYES La media è eseguita sulla variabile a e sulle variabili osservate r. La stima di Bayes è la stima che minimizza il rischio. Consideriamo il caso in cui la funzione di costo è rappresentato dall errore quadratico. Il rischio in questo caso è: La densità congiunta può essere riscritta come segue:

11 11 Lintegrale più interno della funzione di rischio a minimo MSE e P r (R) sono non negativi possiamo minimizzare la funzione di rischio minimizzando lintegrale più interno. Denotiamo la stima a minimo MSE con Per trovare la stima differenziamo lintegrale interno rispetto ad e poniamo il risultato uguale a 0: PARAMETRI CASUALI: STIMA DI BAYES Ponendo il risultato uguale a zero ed osservando che il secondo integrale è uguale a 1, abbiamo: Questo minimo è unico, poiché la derivata seconda della funzione da minimizzare è uguale a due; La stima è uguale alla media della densità a posteriori.

12 12 Ricaviamo ora la stima di Bayes per il criterio del valore assoluto dellerrore: PARAMETRI CASUALI: STIMA DI BAYES Per minimizzare lintegrale più interno scriviamo: Differenziando rispetto a â(R) e ponendo il risultato uguale a zero, abbiamo: Questa è la definizione del mediano della densità a posteriori.

13 13 Ricaviamo ora la stima di Bayes nel caso di costo uniforme: PARAMETRI CASUALI: STIMA DI BAYES Per minimizzare questa equazione, massimizziamo lintegrale più interno. Di particolare interesse è il caso in cui è arbitrariamente piccolo, ma non zero. Un andamento tipico di densità di probabilità a posteriori è mostrato nella seguente figura:

14 14 Si vede che per piccolo, la migliore stima è il valore di A per cui la densità di probabilità a posteriori ha il suo massimo; Denotiamo la stima per questo caso particolare con â map (R), la stima massima a posteriori. Per trovare la stima massima a posteriori, dobbiamo conoscere dove si trova il massimo della probabilità condizionale. Poiché il logaritmo è una funzione monotona, possiamo cercare il massimo di ln[p a|r (A|R)] Se il massimo cade nellintervallo di valori di A permesso e ln[p a|r (A|R)] ha una derivata prima continua, allora una condizione necessaria, ma non sufficiente, per un massimo può essere ottenuta differenziando ln[p a|r (A|R)] rispetto ad A e ponendo il risultato uguale a zero: PARAMETRI CASUALI: STIMA DI BAYES (1)

15 15 Lequazione (1) è lequazione MAP; Dobbiamo cercare di verificare che la soluzione ottenuta sia effettivamente il massimo assoluto. Possiamo riscrivere lespressione di p a|r (A|R) per cercare di separare la variabile osservata R dalla conoscenza a priori: PARAMETRI CASUALI: STIMA DI BAYES Facendo il logaritmo: Per la stima MAP siamo interessati solo nel trovare il valore di A in cui il termine a sinistra è massimo; Siccome lultimo termine a destra non è funzione di A, possiamo considerare solo la funzione: (2)

16 16 Il primo termine dellequazione (2) descrive la dipendenza di R da A e il secondo termine descrive la conoscenza a priori. Lequazione MAP può essere riscritta come: PARAMETRI CASUALI: STIMA DI BAYES

17 17 Consideriamo: PARAMETRI CASUALI: STIMA DI BAYES Esempio 1 Assumiamo che la variabile a sia Gaussiana, N(0, a ), e che i campioni n i siano variabili Gaussiane indipendenti N(0, n ). Quindi: Per trovare â ms (R) abbiamo bisogno di conoscere p a|r (A|R). Una possibilità consiste nel trovare p r (R) e sostituirla nella regola di Bayes sulla probabilità condizionale per ricavare p r|a (R|A), ma questa procedura è piuttosto noiosa.

18 18 E più facile osservare che p a|r (A|R) è la densità di probabilità di a per ogni R dato, quindi: PARAMETRI CASUALI: STIMA DI BAYES Esempio 1 Completando il quadrato allesponente e considerando come una costante i termini dipendenti solo da R i 2 si ottiene: Pr(R) è solo una costante di normalizzazione. dove: è la varianza a posteriori.

19 19 Osserviamo che p a|r (A|R) è una densità Gaussiana. La stima â ms (R) è la seguente media condizionale: PARAMETRI CASUALI: STIMA DI BAYES Esempio 1 Siccome la varianza a posteriori non è funzione di R, il rischio quadratico medio è uguale alla varianza a posteriori (v. espressione del rischio). OSSERVAZIONI: 1. I valori R i entrano nella densità a posteriori solo attraverso la loro somma, cioè: è la statistica sufficiente. Il concetto di statistica sufficiente è lo stesso introdotto nella teoria della decisione.

20 20 2. La regola di stima usa linformazione disponibile in maniera logica ed intuitiva: - Se a 2 << n 2 /N, la conoscenza a priori è migliore dei dati osservati è la stima è molto vicina alla media a priori (in questo caso la media a priori è zero). - Se a 2 >> n 2 /N, la conoscenza a priori è di poca utilità e la stima usa principalmente i dati ricevuti. Nel caso limite â ms è la media aritmetica degli R i : PARAMETRI CASUALI: STIMA DI BAYES Esempio 1

21 21 PARAMETRI CASUALI: STIMA DI BAYES Esempio 1 La stima MAP per questo caso si ricava facilmente: - Osservando lespressione della p a|r (A|R), vediamo che siccome la densità è Gaussiana, il massimo valore di p a|r (A|R) si ha in corrispondenza della media condizionale, cioè: - Siccome il valore mediano condizionale di una densità Gaussiana corrisponde alla media condizionale, abbiamo anche che:

22 22 PARAMETRI CASUALI: STIMA DI BAYES Nellesempio precedente si può quindi osservare che tutte e tre le funzioni di costo considerate in precedenza portano alla stessa stima. Questa invarianza rispetto alla scelta della funzione di costo è una caratteristica importante perché spesso, nella scelta della funzione di costo C(a ), sono considerati giudizi soggettivi. Alcune condizioni per cui vale questa proprietà di invarianza sono contenute nelle due proprietà seguenti:

23 23 PARAMETRI CASUALI: STIMA DI BAYES PROPRIETA 1 Assumiamo che la funzione di costo C(a ) sia una funzione simmetrica con convessità verso lalto e che la densità di probabilità a posteriori p a|r (A|R) sia simmetrica rispetto alla sua media condizionale: simmetria convessità per ogni b nellintervallo (0,1) e per ogni x 1 e x 2. Funzione simmetrica convessa Funzione simmetrica strettamente convessa

24 24 PARAMETRI CASUALI: STIMA DI BAYES Definendo: la simmetria della densità a posteriori implica che: La stima â che minimizza qualsiasi funzione di questa classe è identica a â ms (che è la media condizionale). DIM: Possiamo minimizzare il rischio condizionale. Usando la definizione di z e la proprietà di simmetria definiamo:

25 25 PARAMETRI CASUALI: STIMA DI BAYES Usando la condizione di convessità e considerando il secondo integrale dellespressione precedente, possiamo scrivere: Nellespressione, luguaglianza può essere raggiunta se â ms = â. Questo completa la dimostrazione. Se la funzione di costo è strettamente convessa, allora la stima â è unica ed uguale a â ms. La funzione di costo uniforme non è convessa, quindi si introduce la seconda proprietà.

26 26 PARAMETRI CASUALI: STIMA DI BAYES PROPRIETA 2 Assumiamo che la funzione di costo sia simmetrica, non decrescente e che la densità a posteriori p a|r (A|R) sia simmetrica (rispetto alla media condizionale), unimodale e soddisfi la seguente condizione: La stima â che minimizza ogni funzione di costo in questa classe è identica a â ms. La dimostrazione di questa proprietà è simile alla precedente.

27 27 PARAMETRI CASUALI: STIMA DI BAYES Dora in poi prenderemo in considerazione solo le stime a minimo valore quadratico medio e a massima probabilità a posteriori. Le proprietà 1 e 2 assicurano che ogni volta che le densità a posteriori soddisfano le assunzioni date precedentemente, le stime che otteniamo saranno ottime per una larga classe di funzioni di costo.

28 28 PARAMETRI CASUALI: STIMA DI BAYES Esempio 2 Il parametro a appare nel segnale in modo non lineare. Denotiamo questa dipendenza con s(A). Ogni osservazione r i consiste di s(A) più una variabile aleatoria n i Gaussiana N(0, n ). Le variabili n i sono statisticamente indipendenti tra loro e rispetto al parametro a: Quindi:

29 29 PARAMETRI CASUALI: STIMA DI BAYES Esempio 2 Lespressione precedente non può essere semplificata ulteriormente senza specificare esplicitamente s(A). Lequazione MAP risulta essere: Per risolvere lequazione in maniera esplicita, occorre specificare s(A). Quando s(A) è una funzione non lineare di A, non è possibile trovare una soluzione analitica.

30 30 PARAMETRI CASUALI: STIMA DI BAYES Esempio 3 Un altro tipo di problema che frequentemente si presenta è la stima di un parametro in una densità di probabilità. Il numero di eventi in un esperimento obbedisce ad una legge di Poisson con valore medio a: Vogliamo osservare il numero di eventi e stimare il parametro a della legge di Poisson. Assumiamo che a sia una variabile casuale con una densità esponenziale: La probabilità a posteriori di a è:

31 31 PARAMETRI CASUALI: STIMA DI BAYES Esempio 3 Quindi la densità a posteriori risulta essere: dove ha lo scopo di normalizzare la densità in modo che il suo integrale sia unitario. La stima a minimo valore quadratico medio (MS) è la media condizionale:

32 32 PARAMETRI CASUALI: STIMA DI BAYES Esempio 3 Per trovare â map facciamo il logaritmo della densità a posteriori: Differenziando rispetto ad A, ponendo la derivata uguale a zero e risolvendo, otteniamo: Osserviamo che â map è diverso da â ms (la p a|n (A|N) non è simmetrica rispetto alla media).

33 33 PARAMETRI CASUALI: STIMA DI BAYES SINTESI La stima a minimo errore quadratico medio è sempre la media della densità a posteriori (media condizionale); La stima massima a posteriori (MAP) è il valore di A in corrispondenza del quale la densità a posteriori ha il suo massimo; Per una vasta classe di funzioni di costo la stima ottima è la media condizionale ogni volta che la densità a posteriori è una funzione unimodale simmetrica rispetto alla media condizionale.

34 34 STIMA DI PARAMETRI NON ALEATORI In molti casi non è realistico trattare i parametri sconosciuti come variabili aleatorie; Vogliamo trovare criteri di stima adatti per la stima di parametri non aleatori; cerchiamo di adattare la procedura di Bayes a questo caso, cercando di eliminare la media su p a (A). Come esempio consideriamo la stima MMSE: dove loperazione di media è solo su R, poiché è lunica variabile aleatoria nel modello. Minimizzando la funzione di rischio, si ottiene: Il risultato ottenuto è corretto, ma di nessun valore, poiché A è la quantità sconosciuta che stiamo cercando di stimare questo approccio non è di alcun aiuto.

35 35 STIMA DI PARAMETRI NON ALEATORI Un metodo più utile per la stima di parametri non aleatori consiste nellesaminare altre possibili misure di qualità delle procedure di stima e quindi vedere se possiamo trovare stime che siano buone in termini di queste misure. La prima misura di qualità da considerare è il valore medio della stima: I possibili valori della media possono essere raggruppati in tre classi: 1. Se E[â(R)] =A per tutti i valori di A, diciamo che la stima è non polarizzata. Questo significa che il valore medio della stima è uguale alla quantità che vogliamo stimare. 2.Se E[â(R)] =A+B, dove B non è funzione di A, diciamo che la stima ha polarizzazione nota. Possiamo ottenere una stima non polarizzata sottraendo B da â(R). 3.Se E[â(R)] =A+B(A), diciamo che la stima ha una polarizzazione non nota.

36 36 STIMA DI PARAMETRI NON ALEATORI Chiaramente anche una stima non polarizzata potrebbe dare un cattivo risultato su una particolare realizzazione. Un semplice esempio è dato dalla seguente figura: La densità di probabilità della stima è centrata in A, ma la varianza di questa densità è così larga che è molto probabile commettere errori grandi. Una seconda misura di qualità è la varianza dellerrore di stima: Questa fornisce una misura di quanto si può espandere lerrore. In generale noi cercheremo di trovare stime non polarizzate con piccola varianza.

37 37 STIMA A MASSIMA VEROSIMIGLIANZA Consideriamo il semplice problema riportato nellesempio 1: Scegliamo come stima il valore di A che più verosimilmente genera il valore ricevuto R. Nel semplice caso additivo vediamo che questo equivale a scegliere il valore più probabile del rumore (N=0) e sottraendola da R. Denotiamo il valore ottenuto usando questa procedura come stima a massima verosimiglianza: Nel caso generale denotiamo la funzione p r|a (R|A), vista come funzione di A, come funzione di verosimiglianza (likelihood). Frequentemente noi lavoriamo con il logaritmo, ln[p a|r (A|R)], e denotiamo questa funzione come loglikelihood.

38 38 STIMA A MASSIMA VEROSIMIGLIANZA La stima a massima verosimiglianza (ML) â ml (R) è quel valore di A per cui la funzione di verosimiglianza è massima. Se il massimo è interno al rango di A e la ln[p r|a (R|A)], ha una derivata prima continua, allora una condizione necessaria su â ml (R) è ottenuta differenziando ln[p r|a (R|A)] rispetto ad A e ponendo il risultato uguale a zero: Questa è chiamata equazione di verosimiglianza. Se confrontiamo lequazione MAP con lequazione di verosimiglianza vediamo che la stima ML corrisponde matematicamente al caso limite di una stima MAP in cui la conoscenza a priori tende a zero.

39 39 STIMA A MASSIMA VEROSIMIGLIANZA Per vedere se la stima ML è una buona stima, dovremmo calcolarne la polarizzazione e la varianza. Spesso questi calcoli sono difficili da svolgere anziché affrontare il problema direttamente, procederemo nel seguente modo: 1. ricaveremo, per prima cosa, un limite inferiore sulla varianza di ogni stima non polarizzata; 2.in secondo luogo, confronteremo la varianza di â ml (R) con questo limite inferiore

40 40 DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori Consideriamo la varianza di ogni stima â(R) di una variabile A. Può essere dimostrato il seguente: TEOREMA: (a) Se â(R) è una qualunque stima non polarizzata di A, allora: o equivalentemente: (b) dove si assume che siano soddisfatte le seguenti condizioni: esistono e sono integrabili in senso assoluto. Quando la stima è tale per cui vale luguaglianza, allora viene chiamata stima efficiente. (c)

41 41 DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori DIM: La dimostrazione è una semplice applicazione della disuguaglianza di Schwartz. Siccome â(R) è una stima non polarizzata, allora: Differenziando rispetto ad A: dove la condizione (c) ci permette di portare la differenziazione dentro lintegrale.

42 42 DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori Il primo integrale è uguale a 1. Osserviamo che: Sostituendo questa espressione nella precedente abbiamo: Usando la disuguaglianza di Schwartz:

43 43 DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori Nella disuguaglianza precedente, luguaglianza si ottiene se: per tutti i valori di R e A. I due termini a sinistra nella disuguaglianza precedente sono le medie dellespressione (a): (4) Per dimostrare la (b) osserviamo che: Differenziando rispetto ad A, abbiamo: (3)

44 44 DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori Differenziando di nuovo rispetto ad A, abbiamo: che insieme alla equazione (4) dà la condizione (b).

45 45 DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori OSSERVAZIONI 1. Il risultato ottenuto mostra che ogni stima non polarizzata deve avere una varianza più grande di un certo valore; 2.Se luguaglianza (3) è soddisfatta, la stima â ml (R) sarà proprio uguale al limite; questo può essere dimostrato combinando lequazione (4) con lequazione di verosimiglianza: Il termine a destra è uguale a zero se: oppure Siccome ci interessa una soluzione che dipende dai dati, allora consideriamo la prima delle due condizioni se una stima efficiente esiste, allora è â ml (R) e può essere ottenuta come unica soluzione alla equazione di verosimiglianza.

46 46 DISUGUAGLIANZA DI CRAMER-RAO Parametri non aleatori 3.Se una stima efficiente non esiste, non sappiamo quanto buona sia â ml (R); inoltre non sappiamo quanto la varianza si avvicini al limite inferiore. 4.Allo scopo di utilizzare il limite, dobbiamo verificare che la stima che stiamo considerando sia non polarizzata. Vediamo ora alcuni esempi dellapplicazione della disuguaglianza di Cramer-Rao, considerando la stima di parametri non aleatori.

47 47 DISUGUAGLIANZA DI CRAMER-RAO Esempio 2 Riprendiamo lesempio 1: Abbiamo che: ponendo la derivata uguale a zero, otteniamo: Per ricavare la polarizzazione, eseguiamo loperazione di media: la stima â ml (R) è non polarizzata. (5)

48 48 DISUGUAGLIANZA DI CRAMER-RAO Esempio 2 Siccome lespressione (5) ha la forma richiesta dalla (3), possiamo affermare che â ml (R) è una stima efficiente. Per valutare la varianza differenziamo lequazione (5): Usando la condizione (b) della disuguaglianza di Cramer-Rao e il risultato di efficienza appena ottenuto, abbiamo:

49 49 DISUGUAGLIANZA DI CRAMER-RAO Esempio 3 Riprendiamo lesempio 3. In questo caso abbiamo che: La stima ML è: La stima è chiaramente non polarizzata ed efficiente. (6)

50 50 DISUGUAGLIANZA DI CRAMER-RAO Esempio 4 Per valutare la varianza, differenziamo lequazione (6): Quindi: In entrambi gli esempi 1 e 3, osserviamo che la stima potrebbe essere ricavata con la stima MAP (ponendo a nellequazione MAP, ricordando che â ms = â map e ponendo 0 nel risultato ottenuto precedentemente nellesempio 4.

51 51 DISUGUAGLIANZA DI CRAMER-RAO Esempio 2 Riprendiamo ora lesempio 2. In questo caso abbiamo: (togliendo il contributo della p a (A)): In generale, il termine a destra non può essere scritto nella forma richiesta dallequazione (3), e quindi una stima non polarizzata ed efficiente non esiste. Lequazione di verosimiglianza è: Se lintervallo di valori assunto da s(A) contiene allora una soluzione esiste: (8) (7)

52 52 DISUGUAGLIANZA DI CRAMER-RAO Esempio 3 Se la (8) è soddisfatta, allora: Questa equazione assume che esista la funzione inversa di s(. ). Se questa non esiste allora anche in assenza di rumore non siamo in grado di determinare A senza ambiguità. Quando progettiamo un sistema, dobbiamo sempre scegliere una funzione s(. ) che ci permetta di trovare A senza ambiguità in assenza di rumore. Se lintervallo di valori assunto da s(A) non contiene allora il massimo si trova in uno dei punti estremi dellintervallo.

53 53 DISUGUAGLIANZA DI CRAMER-RAO Esempio 3 Vediamo che la stima a massima verosimiglianza commuta su operazioni non lineari (questo non è vero per le stime MS o MAP). Se la stima non è polarizzata, valutiamo il limite sulla varianza differenziando la (7): Osservando che: otteniamo il seguente limite per ogni stima non polarizzata:

54 54 DISUGUAGLIANZA DI CRAMER-RAO Esempio 3 Vediamo che il limite è esattamente lo stesso ricavato per lesempio 2, a meno del fattore La ragione intuitiva per cui abbiamo questo fattore può essere ottenuta analizzando la tipica funzione mostrata nella seguente figura: Definiamo:

55 55 DISUGUAGLIANZA DI CRAMER-RAO Esempio 3 La varianza nella stima di Y è proprio 2 /N. Se y, lerrore nella stima di Y, è abbastanza piccolo, così che la pendenza è costante, allora: Osserviamo che se y è elevato, non ci sarà più una semplice relazione lineare tra y e a questo ci dice quando ci possiamo aspettare che il limite di Cramer-Rao fornisca una risposta accurata nel caso in cui il parametro da stimare sia presente nel problema con una legge non lineare. Precisamente, quando lerrore di stima è piccolo relativamente a, dovremmo aspettarci che la vera varianza sia vicina al limite dato dalla disuguaglianza di Cramer-Rao. e

56 56 STIMA ML: proprietà Possono essere dimostrate le seguenti proprietà: 1. La soluzione dellequazione di verosimiglianza converge in probabilità al valore corretto di A per N che tende allinfinito.(N numero di osservazioni indipendenti) Ogni stima con questa proprietà è chiamata consistente, quindi la stima ML è consistente. 2.La stima ML è asintoticamente efficiente, cioè: 3.La stima ML è asintoticamente Gaussiana, N(A, a ). Queste proprietà riguardano il comportamento della stima ML con un elevato numero di osservazioni; esse forniscono una motivazione per lutilizzo della stima ML anche quando una stima efficiente non esiste.

57 57 Limite inferiore sul minimo MSE nella stima di parametri casuali Dimostriamo il seguente teorema: Siano a una variabile aleatoria e r il vettore di osservazioni. Il valore MSE di ogni stima â(R) soddisfa la disuguaglianza: Osserviamo che la densità di probabilità è una densità congiunta e che la media è eseguita sia su a che su r. Si assume che esistano le funzioni indicate e valgano: 1. è assolutamente integrabile rispetto ad R e A. 2. è assolutamente integrabile rispetto ad R e A. (9)

58 58 Limite inferiore sul minimo MSE nella stima di parametri casuali 3. La media condizionale dellerrore, dato A, è: Assumiamo che: (10) DIM. Moltiplichiamo entrambi i membri della (10) per p a (A) e quindi differenziamo rispetto ad A:

59 59 Limite inferiore sul minimo MSE nella stima di parametri casuali Integriamo rispetto ad A: Lassunzione nella condizione (3) rende la parte a sinistra uguale a zero. Seguendo lo stesso procedimento usato per la dimostrazione della disuguaglianza di Cramer-Rao si ottiene alla fine: o, equivalentemente: Luguaglianza vale solo se: per ogni R e A.

60 60 Limite inferiore sul minimo MSE nella stima di parametri casuali Differenziando nuovamente, si ottiene una condizione equivalente: Osservando che questa equazione può essere riscritta in termini della densità a posteriori, abbiamo che: Integrando questultima equazione due volte e applicando lesponenziale al risultato, abbiamo: Lequazione (11) afferma semplicemente che la densità di probabilità a posteriori di a deve essere Gaussiana per tutti gli R per fare in modo che esista una stima efficiente. per ogni R e A. (12) (11)

61 61 Limite inferiore sul minimo MSE nella stima di parametri casuali Possiamo osservare che se la (11) è soddisfatta allora la stima MAP sarà efficiente. Siccome la stima a minimo MSE non può avere un errore maggiore, questo ci dice che: ogni volta che esiste una stima efficiente. Quando una stima efficiente non esiste, generalmente è computazionalmente più semplice risolvere la equazione MAP piuttosto che trovare la media condizionale. Quando non esiste una stima efficiente, non sappiamo, usando sia â ms (R), sia â map (R), quanto il valore MSE si avvicina al limite inferiore. Si hanno propieta asintotiche buone. (v. ML per parametri non random).

62 62 STIMA DI PARAMETRI MULTIPLI In molti problemi di interesse noi vogliamo stimare più di un parametro. Il modello è mostrato nella seguente figura:

63 63 STIMA DI PARAMETRI MULTIPLI Se ci sono K parametri da stimare, allora li descriviamo tramite un vettore di parametri a nello spazio K-dimensionale. Gli altri elementi del modello rimangono invariati. Può essere considerato sia il caso in cui a sia un vettore di parametri aleatori, sia il caso in cui a sia un vettore di parametri reali (non aleatori). Anche nel caso vettoriale ci sono tre cose di interesse, che sono: 1. Procedure di stima; 2. Misure di errore; 3. Limiti sulle prestazioni.

64 64 STIMA DI PARAMETRI MULTIPLI Procedure di stima Nel caso di stima di Bayes minimizziamo il rischio per unarbitraria funzione di costo scalare C(a, â), ma per i nostri scopi consideriamo solo funzioni di costo dipendenti dallerrore: Per il criterio MSE la funzione di costo è: Si può dimostrare che la stima MS si riduce: dove D è una matrice L x K, e vogliamo minimizzare il risultato sarà: Inoltre la stima MS commuta su operazioni lineari,cioe se:

65 65 STIMA DI PARAMETRI MULTIPLI Procedure di stima Nel caso di stima MAP, abbiamo un insieme di K equazioni simultanee: Per la stima ML dobbiamo trovare il valore di A che massimizza p r|a (R|A). Se il massimo è interno ed esiste la derivata parziale di p r|a (R|A) rispetto ad A i, allora una condizione necessaria è ottenuta dalle seguenti equazioni di verosimiglianza: In entrambi i casi si deve verificare che si abbia un massimo assoluto.

66 66 STIMA DI PARAMETRI MULTIPLI Misure di errore Per parametri non casuali la prima misura di errore è la polarizzazione: Se ogni componente del vettore è nulla per ogni A, allora la stima è polarizzata. La seconda misura di interesse analoga alla varianza dellerrore è la matrice di covarianza: Dove: Consideriamo il caso di limite sullerrore relativo ad una singola componente Ai. Si possono definire altri limiti, ad esempio nel caso Gaussiano utilizzando lintera matrice di covarianza.(v. Van Trees).

67 67 STIMA DI PARAMETRI MULTIPLI Limiti sulle prestazioni Consideriamo una stima non polarizzata A i. Allora: dove J * ii sono gli elementi ii-esimi della matrice KxK J -1. Gli elementi di J sono: La matrice J e detta matrice dellinformazione di Fisher (Fishers information matrix). Luguaglianza vale se e solo se:

68 68 IPOTESI COMPOSITE Fino ad ora abbiamo considerato lipotesi semplice. Per capire cosa si intende per ipotesi composite consideriamo il seguente ESEMPIO 1 Sotto lipotesi 0 la variabile osservata r è Gaussiana a media nulla e varianza 2. Sotto lipotesi 1 la variabile osservata r è Gaussiana a media m e varianza 2. Il valore di m può essere un qualsiasi valore nello intervallo [M 0,M 1 ]. Quindi:

69 69 IPOTESI COMPOSITE Chiamiamo H 1 ipotesi composita perché il valore del parametro M, che caratterizza lipotesi, può assumere un insieme di valori. Un modello per questo problema di decisione è mostrato nella figura seguente:

70 70 IPOTESI COMPOSITE (Esempio-continuazione) Luscita della sorgente è un valore M che vediamo come un punto nello spazio dei parametri. Quindi definiamo le ipotesi come un sottospazio di. In questo caso H 0 corrisponde al punto M=0 e H 1 corrisponde allintervallo [M 0, M 1 ]. Assumiamo che la densità di probabilità che governa il processo di mapping dallo spazio dei parametri allo spazio dellosservazione p r|m (R|M) sia nota per tutti i valori di M in. La componente finale è una regola di decisione che divide lo spazio delle osservazioni in due parti che corrispondono alle due possibili decisioni. È importante osservare che siamo interessati solo nel prendere una decisione è che lattuale valore di M non è di nostro interesse. Per questa ragione il parametro M è spesso chiamato parametro non voluto. Fine esempio

71 71 IPOTESI COMPOSITE Nel test di ipotesi composita luscita della sorgente è quindi un punto nello spazio dei parametri denotato dal vettore. Le ipotesi sono sottospazi di. La densità di probabilità che governa il mapping dallo spazio dei parametri allo spazio delle osservazioni è denotata da p r| (R| ) e si assume essere nota per tutti i valori di in. La componente finale del modello è la regola di decisione.

72 72 IPOTESI COMPOSITE Per completare la formulazione del problema, dobbiamo caratterizzare il parametro. Come nel caso della stima dei parametri, può essere una variabile aleatoria o non aleatoria. Consideriamo il caso in cui sia una variabile (vettore) aleatoria con una densità di probabilità nota; denotiamo la densità di sotto le due ipotesi con p |H 0 ( |H 0 ) e p |H1 ( |H 1 ) il rapporto di verosimiglianza è: La densità di probabilità nota su ci permette di ridurre questo problema ad un semplice problema di hipothesis-testing integrando su.

73 73 IPOTESI COMPOSITE Esempio 1 Riprendiamo lesempio 1. Assumiamo che la densità di probabilità che governa m su H 1 sia: Quindi il rapporto di verosimiglianza diventa:

74 74 IPOTESI COMPOSITE Esempio 1 Integrando ed applicando il logaritmo naturale ad entrambi i membri delluguaglianza, otteniamo: Questo risultato è identico a quello ottenuto nel secondo esempio visto nella teoria della decisione; ciò è dovuto alla particolare scelta della densità di probabilità che governa m. ( ha lo stesso significato visto in quel caso: soglia determinata dal criterio adottato).

75 75 IPOTESI COMPOSITE Come ci aspettavamo, il test usa solo lampiezza di R, perché m ha una densità di probabilità simmetrica. Per il caso generale rappresentato dallequazione di verosimiglianza, il calcolo può risultare più complicato, ma la procedura da seguire rimane la stessa. Quando è una variabile aleatoria con una densità non nota, la migliore procedura di test non è chiaramente specificata. Un approccio possibile consiste nel test minimax sulla densità sconosciuta. Un approccio alternativo consiste nel considerare diverse densità basandosi sulla parziale conoscenza a priori di che si ha a disposizione. In molti casi la struttura del test non e molto sensibile allandamento della densità di probabilità.

76 76 IPOTESI COMPOSITE Il secondo caso di interesse è il caso in cui è una variabile non aleatoria. Qui, come nel problema della stima di parametri non aleatori, cercheremo una procedura ed analizzeremo i risultati. Una prima osservazione è che, siccome non ha densità di probabilità su cui eseguire una media, il test di Bayes non è significativo. consideriamo il test di Neyman-Pearson Cominciamo la discussione esaminando ciò che chiamiamo limite di misurazione perfetta sulle prestazioni del test. Per chiarire lidea, riprendiamo lesempio 1.

77 77 IPOTESI COMPOSITE Esempio 2 In questo caso = M e si ha che: dove M è un parametro non aleatorio sconosciuto. È chiaro che ogni test che progettiamo, non potrà mai essere migliore di un ipotetico test in cui il ricevitore prima misura perfettamente M (o, alternativamente, conosce M perché gli viene detto) e quindi progetta il test ad ottimo rapporto di verosimiglianza. Quindi noi possiamo limitare le curve ROC per ogni test con la curva ROC di questa misurazione fittizia.

78 78 IPOTESI COMPOSITE Esempio 2 In questo esempio consideriamo le seguenti curve dette Power Function:

79 79 IPOTESI COMPOSITE Esempio 2 Questa curva è chiamata funzione di potenza. Essa è semplicemente P D per tutti i valori di M (più generalmente ) per diversi valori di P F. Siccome H 0 =H 1 per M = 0, P D = P F. Le curve mostrate nella figura precedente rappresentano un limite sulla bontà di un test. Ora volgiamo vedere quanto le prestazioni ottenute dal nostro test si avvicinano a questo limite.

80 80 IPOTESI COMPOSITE Esempio 2 Le migliori prestazioni che possiamo ottenere sarebbero raggiunte se la curva di test uguagliasse il limite per tutti gli M appartenenti. Chiamiamo questo test UMP (il più uniformemente potente). In altre parole, per una data P F un test UMP ha una P D maggiore o uguale ad ogni altro test per ogni M appartenente. Le condizioni affinchè esista un test UMP possono essere viste nella seguente figura:

81 81 IPOTESI COMPOSITE Esempio 2 Costruiamo prima il limite di misurazione perfetta; poi consideriamo altri possibili test e le relative prestazioni; Il test A è un normale test a rapporto di verosimiglianza (LRT) progettato secondo lassunzione che M = 1. La prima osservazione è che la potenza di questo test è uguale al limite quando M = 1, che segue dal modo in cui abbiamo costruito il limite. Per altri valori di M la potenza del test A può essere uguale o meno al limite. Similarmente il test B è un LRT progettato sotto lassunzione M = 2 e il test C è un LRT progettato sotto lassunzione M = -1. In ogni caso la loro potenza uguaglia il limite nei punti per i quali il test è stato progettato.

82 82 IPOTESI COMPOSITE Esempio 2 Nella figura le curve relative ai test LRT non sono quantitativamente corrette, ma servono per fare notare che la potenza uguaglia il limite per il valore di M per cui e stato progettato il test. Cio non toglie che possa eguagliarlo anche in altri punti. Le condizioni per un test UMP ora sono chiare: dobbiamo essere in grado di progettare un test LRT completo (compreso il valore di soglia) per ogni M appartenente a senza conoscere M.

83 83 IPOTESI COMPOSITE In generale il limite può essere raggiunto per ogni particolare semplicemente progettando un normale LRT per quel particolare. Ogni UMP test deve essere non meno buono di altro test per quel particolare. Ciò fornisce una condizione necessaria e sufficiente per la sua esistenza. PROPRIETA: Un test UMP esiste se e solo se il test LRT per ogni appartenente a può essere completamente definito (inclusa la soglia) senza la conoscenza di. Il se della proprietà è ovvio. Il solo se segue direttamente dalla nostra discussione nel paragrafo precedente: se esiste per cui non possiamo trovare un LRT senza conoscere, dovremmo usare un altro test perché non conosciamo. Però questo test sarà inferiore per quel particolare al test LRT e quindi non è uniformemente il più potente.

84 84 IPOTESI COMPOSITE Esempio 2 Ritorniamo allesempio e usiamo il risultato ottenuto dalla seguente figura: Sappiamo che il test di verosimiglianza è: e Lapice + indica che M assume solo valori positivi.

85 85 IPOTESI COMPOSITE Esempio 2 Questo è mostrato nella seguente figura: Analogamente, se M è minore di zero: e

86 86 IPOTESI COMPOSITE Esempio 2 Rispetto allesempio 1 traiamo le seguenti conclusioni: 1. Se M può assumere solo valori non negativi, allora esiste il test UMP. 2.Se M può assumere solo valori non positivi, allora esiste il test UMP. 3.Se M può assumere valori positivi e negativi, allora il test UMP non esiste. Nella seguente figura è mostrata la funzione potenza per i test LRT ottenuti sotto lipotesi che M sia positivo.

87 87 IPOTESI COMPOSITE Ogni volta che il test UMP esiste, lo usiamo e il test lavora bene come se conoscessimo. Un problema più difficile si ha quando il test UMP non esiste. Discuteremo ora alcuni test possibili per il caso in cui non esiste il test UMP. Confiniamo la nostra discussione ad una possibile procedura di test, il test di verosimiglianza generalizzato. Se conosciamo il segno di M: Il test UMP esiste perche,per Neym.Pears., serve solo P F e questa dipende solo da p(R|Ho). In questo caso se p(R|Ho) e nota e non dipende da M (fissata p F, fisso la soglia). Se non conosciamo il segno di M, anche fissato P F, non sappiamo fissare la soglia (conosciamo |R th |, ma non il segno).

88 88 IPOTESI COMPOSITE Test di verosimiglianza generalizzato Il limite di misurazione perfetta suggerisce che una procedura logica consista nello stimare assumendo che H 1 sia vera, quindi nello stimare assumendo che H 0 sia vera ed nellusare queste stime nel test di verosimiglianza, come se fossero corrette. Se sono usate le stime a massima verosimiglianza il risultato è chiamato LRT generalizzato. In particolare: dove 1 assume tutti i valori in H 1 e 0 assume tutti i valori in H 0. In altre parole, facciamo una stima ML di 1 assumendo che sia vera lipotesi H 1, quindi valutiamo p r| 1 (R| 1 ) per e usiamo questo valore al numeratore. Una procedura simile fornisce il valore per il denominatore.

89 89 IPOTESI COMPOSITE Esempio 2 Riprendiamo i dati dellesempio 1, quindi = M. Anziché una, abbiamo N osservazioni indipendenti, che denotiamo con il vettore R. Le densità di probabilità sono: In questo esempio H 1 è unipotesi composita, mentre H 0 è unipotesi semplice.

90 90 IPOTESI COMPOSITE Esempio 2 Dalla stima a massima verosimiglianza otteniamo: (come visto prima) Cancellando i termini comuni ed applicando il logaritmo: quindi Il termine a sinistra è sempre maggiore o uguale a zero, così può sempre essere scelto maggiore o uguale a uno. un test equivalente è: dove 1 è maggiore o uguale a zero. Equivalentemente:

91 91 IPOTESI COMPOSITE Esempio 2 La funzione di potenza di questo test si ricava facilmente. La variabile z ha una varianza pari a 2 ; su H 0 la sua media è zero e su H 1 la sua media è Le densità di probabilità sono riportate nella figura seguente.

92 92 IPOTESI COMPOSITE Esempio 2 Si ha che: e

93 93 IPOTESI COMPOSITE Esempio 2 La funzione di potenza risultante è riportata nella figura seguente: Nella figura è riportato il limite di misurazione perfetta per fare un confronto. Come ci si aspetta, la differenza si avvicina a zero quando

94 94 IPOTESI COMPOSITE Esempio 2 Come esistono casi in cui la stima ML fornisce risultati scarsi, ci sono casi in cui il test di verosimiglianza generalizzato fornisce risultati scadenti. In questi ultimi casi dobbiamo cercare altre procedure test. Fortunatamente, nella maggior parte dei problemi fisici di interesse sia il test UMP che il test di verosimiglianza generalizzato danno risultati soddisfacenti.


Scaricare ppt "1 Corso di Sistemi di telecomunicazione A.A. 2009/2010 TEORIA DELLA STIMA Ref. Detection, Estimation and Modulation Theory, Part I, H.L.Van Trees, ed."

Presentazioni simili


Annunci Google