Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoRoberta Villani Modificato 11 anni fa
1
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA
2
Cenni sulla stima parametrica Definizione del problema Nel processo reale di stima di parametri si presentano quattro diversi tipi di errori: imperfezioni nei segnali di test, errori di misura, disturbi, errori della struttura del modello. Le imperfezioni nei segnali di test sono di norma note e dunque possono essere tenute debitamente in conto o trascurate se non significative. Gli eventuali errori presenti nella struttura del modello non possono essere considerati esplicitamente durante la fase di stima dei parametri (in quanto non noti a priori). Sarà in fase di validazione del modello che lappropriatezza di una data struttura verrà valutata. In questa sede si analizzeranno esplicitamente gli effetti dovuti al rumore e agli errori di misura inevitabilmente presenti in un processo di acquisizione dati. Nei casi più semplici è sufficiente assumere lipotesi di rumore additivo, tale ipotesi dovrà essere rimossa in caso di situazioni sperimentali più complesse.
3
Definizione del problema Dato il modello defnito dalle equazioni: dx(t, )/dt = f[x(t, ), u(t),, t]xo = x(to, ) y(t, ) = g[x(t, ), ] h[x(t, ), u(t), ] = 0 Siano: z l (t k, ) = y l (t k, )+e l (t k )per l=1,2,……..,me per k=1,2,…….,N Le componenti del vettore di misura. Il problema consiste nello stimare il vettore incognito dei parametri attraverso i dati corrispondenti alle variabili accessibili e i rispettivi valori forniti dal modello. Si noti che il valore misurato z l (t k, ) delluscita l-esima allistante t k è affetta da rumore additivo e l (t k ). Il caso di misura tempo discreto è dovuto al fatto che non sempre è possibile misurare alcune variabili in modo continuo e che comunque lapplicazione degli algoritmi di stima implica in generale un campionamento delle misure. Per motivi di semplicità si considererà nel seguito un sistema a una sola uscita: y(t, ) = g[x(t, ), ] z(t k,, ) = y (t k, )+e(t k )per k=1,2,…….,N
4
STIMATORI Uno stimatore è essenzialmente una funzione opportuna che lega i dati misurati alla stima di una quantità incognita. Sia z è il vettore dei dati ottenuto misurando luscita in N istanti di tempo z=[z(t 1 ), z(t 2 ), …….., z(t N )] Si definisce stimatore di un vettore a p dimensioni di funzioni della variabile aleatoria Z così definito: (z) = [ 1 (z), 2 (z), …………, p (z)] T Dove ciascuna funzione è definita nel dominio R N e assume valori nello spazio ammissibile R p i del parametro i i : R N R i per i=1,2,…….,p ed è tale che tutte le i soddisfino simultaneamente le seguenti condizioni: 1.1. Le funzioni i devono essere non polarizzate, cioè il valore atteso della stima deve coincidere con il valore vero 2.2. Le funzioni i devono essere tali che la varianza della stima ottenuta con lo stimatore i ( 2 i ( i )) sia inferiore alla varianza delle stime ottenute con ogni altro stimatore non polarizzato. 3.3. Le funzioni i devono essere tali che la corrispondente matrice di covarianza i cui elementi sono dati da hk = E [ h (z) – E h (z) ]·[ k (z) – E k (z) ] deve essere uguale allinversa della matrice dinformazione di Fisher che, come stabilito dal teorema di Cramer-Rao, coincide con il più piccolo valore teoricamente ottenibile per la covarianza. 4.4. Le funzioni i devono essere consistenti, cioè tali che al crescere del numero di campioni disponibili forniscano una stima sempre più vicina al valore vero. Il valore deterministico fornito dalla (z) è detto stima di basata sui dati z.
5
STIMA DI MASSIMA VEROSIMIGLIANZA Il procedimento di stima di massima verosimiglianza richiede un modello che descriva i dati sperimentali, un modello del rumore e la definizione della funzione di verosimiglianza che descrive la probabilità di generazione dei dati sperimentali. Considerando sempre il caso di una sola uscita, sia L(z, ) la funzione di verosimiglianza, il principio del metodo della massima verosimiglianza consiste nel considerare come stima di quel valore che rende a posteriori più probabile losservazione dei dati z. Cioè deve essere: L[z(t 1 ), z(t 2 ), ……., z(t N ), ) Questo problema di massimizzazione è di difficile soluzione e inoltre in molti casi la funzione di verosimiglianza non è nota. Tuttavia la stima di massima verosimiglianza riveste unimportanza fondamentale nelle applicazioni pratiche in quanto essa gode delle quattro proprietà precedentemente pronunciate. Inoltre, nellipotesi di campioni di rumore statisticamente indipendenti e normalmente distribuiti, essa coincide con la stima di Markov e se il rumore è bianco coincide con la stima ai minimi quadrati.
6
STIMA LINEARE AI MINIMI QUADRATI Si faccia riferimento ad un modello a una sola uscita in cui questa dipenda linearmente dai parametri: y(t, ) = g(x(t)) g i (x(t)) i = r i (t) i Lobiettivo del processo di stima è di ottenere i valori numerici di a partire dai dati rumorosi z(ti) e dalla forma funzionale del modello. La relazione esistente tra la risposta del modello e i dati sperimentali è data da: z(t l, ) = y(t l, ) + e(t l ) l= 1, 2, 3,...., N dove le proprietà statistiche dellerrore sono descritte dal suo valore atteso e dalla matrice di varianza e covarianza. Lesistenza dello stimatore generalizzato ai minimi quadrati è basata su quattro ipotesi fondamentali: La variabile y è una variabile aleatoria il cui valore atteso per ogni istante t è descritto da una relazione lineare rispetto a Le variabili indipendenti r i (t) sono quantità deterministiche Per ogni vettore r k =(r 1 (t k ), r 2 (t k ), ………., r p (t k )) i corrispondenti valori sono indipendenti. Gli errori e(t k ) sono statisticamente indipendenti, normalmente distribuiti, a media nulla con matrice di varianza covarianza G
7
STIMA LINEARE AI MINIMI QUADRATI Utilizzando una notazione matriciale si potrà quindi scrivere: e = z-y = z-R· con Il procedimento di stima ai minimi quadrati generalizzato consiste nellimpostare una funzione di costo J da minimizzare data da: J = e·W·e dove W è una matrice peso non singolare diagonale. Sostituendo lespressione dellerrore e derivando rispetto a si ottiene con ovvi passaggi il valore di che minimizza lindice J = [R T W R] -1 r T Wz V ) = [R T W R] -1 R T W G W R [R T W R] -1 Con V ) matrice di varianza e covarianza della stima Dalla particolare scelta della matrice peso derivano due stimatori di importanza pratica, W = IStimatore ai minimi quadrati: L = [R T R] 1 R T z V L ) = [R T R] -1 R T GR [R T R] -1 W = G -1 Stimatore di Markov.: M = [R T G -1 R] 1 R T G -1 z V M ) = [R T G -1 R] -1 r1(t1)...rp(t1)..................... r1(tN)...rp(tN) R =
8
STIMA LINEARE AI MINIMI QUADRATI Per dimostrare che lo stimatore di Markov è uno stimatore di massima verosimiglianza sotto lipotesi di errori normalmente distribuiti, si consideri la funzione di massima verosimiglianza che nel caso considerato assume la forma : L(z,q) = exp ( (z – R ) T ·G -1 ·(z – R ))/ (2 (2 )N/2G 1/2 ) Il valore che si ottiene utilizzando il criterio di stima alla massima verosimiglianza è per definizione quel valore per cui la funzione di verosimiglianza è massima. Ne consegue che massimizzare rispetto a equivale a massimizzare il suo logaritmo: ln[L] = c – [(z – R ) T ·G -1 ·(z – R )]/2 dove c è una costante indipendente dal valore dei parametri. Per risolvere il problema di stima occorre quindi minimizzare la quantità: F( ) = (z – R ) T ·G -1 ·(z – R ) che conduce ad un valore del vettore ottimo dei parametri pari a quello fornito dallo stimatore di Markov. Con argomentazioni analoghe si può dimostrare che, in presenza di un rumore gaussiano bianco lo stimatore di Markov è ancora uno stimatore alla massima verosimiglianza e coincide con lo stimatore ai minimi quadrati. Questa circostanza ci permette di usare lo stimatore ai minimi quadrati propriamente detto, ogni volta che si è in presenza di rumore gaussiano bianco.
9
STIMA LINEARE AI MINIMI QUADRATI Nella pratica, purtroppo, la matrice di covarianza dellerrore è generalmente incognita e ciò che è possibile fare è soltanto avanzare delle ipotesi a priori sulle sue proprietà, ipotesi che dovranno essere verificate a posteriori. I casi pratici che più frequentemente si presentano durante i processi di misura sono sostanzialmente due: Si è in presenza di un rumore in cui i campioni sono incorrelati, a media nulla, con varianze diverse ma note a meno di un fattore di scala 2 (G = W * 2 ). Si può dimostrare in modo analogo a quanto già fatto, che in queste condizioni lo stimatore che si ottiene ponendo W = W * è ancora uno stimatore alla massima verosimiglianza. Si è in presenza di un rumore bianco e stazionario. In questo caso la matrice di varianza e covarianza G sarà una matrice diagonale con gli elementi della diagonale principale uguali tra loro (G = 2 ·I) con 2 fattore di scala incognito. Si ricade quindi in un caso particolare dellipotesi precedente, ne consegue quindi che in queste condizioni lo stimatore che si ottiene ponendo W = I è ancora uno stimatore alla massima verosimiglianza.
10
STIMA NON LINEARE AI MINIMI QUADRATI I modelli più frequentemente usati hanno, in generale, uscite non lineari nei parametri. Con riferimento al caso particolare di una sola uscita si avrà y(t)= g(x(t), ) Per quanto detto nel paragrafo precedente, se le informazioni sul rumore sono tali da far supporre la presenza di rumore gaussiano, è corretto applicare una procedura di stima ai minimi quadrati al problema in questione. Il problema della sima dei parametri è così ricondotto alla minimizzazione della solita funzione costo dove in questo caso risulta e = z – g(x(t), Poiché il modello è non lineare ai parametri, la funzione di costo non sarà in generale quadratica nei parametri e quindi non sarà possibile, nella maggioranza dei casi, ottenere una soluzione analitica esplicita del problema di ottimizzazione. Sarà quindi necessario adottare un approccio di tipo iterativo.
11
Stima di parametri di popolazione Esistono vari metodi per la stima dei parametri di una popolazione. Questi metodi ottengono tali stime mediante la minimizzazione di una funzione obiettivo, derivata dallapplicazione dei minimi quadrati pesati o estesi a sviluppi di Taylor dellequazione di uscita del modello arrestati al primo o al secondo termine (NONMEM). Metodi più recenti (NPML) forniscono una stima per la distribuzione di probabilità dei parametri da cui è possibile stimare le grandezze statistiche di interesse.
12
IL METODO NPD ( Naive Pooled Data ) Il principio su cui è basato tale metodo è quello di considerare tutti i dati di popolazione come provenienti da un unico individuo: da qui il nome del metodo: Metodo ingenuo dei dati raggruppati. Si consideri per semplicità il caso in cui luscita del sistema sia monodimensionale e sia y i il valore di tale uscita misurato nellistante di tempo t i. Sia inoltre N il numero complessivo delle osservazioni su tutti gli individui del campione. Se y modi = h(x(ti); ) è luscita del modello calcolata nello stesso istante t i in funzione dello stato e dei parametri, la funzione obiettivo ai minimi quadrati per tale tipo di approccio sarà: J( ) = i=1...N [yi-h(x(ti; )] 2 Il minimo della J rispetto a fornisce la stima * dei valori medi dei parametri di popolazione. La matrice di covarianza della stima può essere ottenuta in modo approssimato calcolando linversa della matrice delle derivate parziali del secondo ordine di J( rispetto a valutata in * Gli errori standard sono proporzionali agli elementi della diagonale principale dellinversa di tale matrice. Il metodo NPD non fornisce stime relative alle varianze dei parametri nella popolazione.
13
IL METODO TS (Two-Stage) In tale metodo i dati relativi a ciascun individuo sono analizzati separatamente (Primo Stadio), ottenendo così stime individuali dei parametri. Nel Secondo Stadio, da tali stime si determinano le caratteristiche statistiche della popolazione (Media e Varianza dei parametri sulla popolazione). Per i parametri individuali si utilizza in genere una stima ai minimi quadrati pesata con la varianza dellerrore di misura. Se si hanno M individui nella popolazione e sono p i parametri da stimare, al termine del primo stadio si avranno p valori dei parametri ottimi per ognuno degli M individui: * kj con j = 1...M e k = 1...p. Le stime dei parametri di popolazione si ottengono mediante le relazioni che forniscono media e varianza del campione. kjMedio = 1/M kj s 2 k = 1/(M-1) ( kj - kjMedio ) con j = 1,..., M e k = 1,..., p. I problemi principali di questo metodo derivano dalla scarsa affidabilità delle stime individuali. Se queste sono errate (ad es. a causa delle poche misure disponibili) gli errori saranno elevati anche nelle stime di popolazione. Inoltre la correlazione degli errori sulle stime individuali potrà simulare una correlazione tra soggetti della popolazione anche quando questa non sussiste
14
IL METODO NONMEM (Non Linear Mixed Effect Model) Il metodo NONMEM proposto nel 1980 da Sheiner e Beal fornisce stime accurate dei parametri di popolazione e si basa sulle seguenti assunzioni: Si consideri per lindividuo j-esimo della popolazione (j = 1,..., M), il modello statistico: y j = f(t ij, x j ; j ) + ij in cui i = 1,... Nj sono le misure sul soggetto j. Il vettore dei parametri risulterà essere una variabile aleatoria, supposta avente la stessa distribuzione per ogni individuo e normale, con valore atteso medio e matrice di covarianza : ( j N( medio, ) Sviluppando in serie di Taylor intorno a medio e arrestandosi al primo termine si ottiene: yij = f(t ij, x ij ; medio ) + k=1,...,m f/ k tij; medio ( kj – medio ) + ij Indicando con j = ( j – medio) si avrà in forma più compatta: y j = f( medio,x j ) + G j ( medio,x j ) j + j Ove G j è la matrice Jacobiana f/ k tij; medio di dimensioni Nj x p. Per ottenere unespressione della cov(yj), poichè la G j + j è combinazione lineare di vettori aleatori, gaussiani e a media nulla, la cov(yj) avrà media nulla e covarianza data da: cov(y j ) = G j ( medio,x j ) G j ( medio,x j ) T + 2 I Nj Con I Nj matrice identità di dimensione Nj e 2 varianza dellerrore di misura.
15
IL METODO NONMEM (Non Linear Mixed Effect Model) Si osservi che le covarianze sulle osservazioni, relative ad un dato individuo, cioè gli elementi fuori della diagonale principale di cov(yj) sono non nulle, e sono anche funzioni della variabilità interindividuale. Il NONMEM riconosce quindi che le componenti di ogni vettore yj devono essere correlate le une alle altre tramite il set comune di differenze dei parametri di ciascun individuo dai valori medi di popolazione. La funzione obiettivo fornita dallapplicazione della massima verosimiglianza è quindi: J( medio, j=1,...,M [ ln cov(y j ) + (y j - f( medio,x j ) ) T (cov(yj)) -1 (y j - f( medio,x j ) )] Dove cov(yj) indica il determinante di cov(yj). Se il numero di parametri è elevato ed esiste possibilità di correlazione fra essi ed il numero dei soggetti è ridotto, si può utilizzare un approccio in cui si stima il valore medio dei parametri sulla popolazione, costruendo la matrice di covarianza a partire dai dati (Metodo MACOV). Assumendo che per ognuno degli M soggetti si abbiano N misure (N uguale per tutti i soggetti) si determina il vettore [ j=1,...,M y 1j /M,..., j=1,...,M y Nj /M] T e il vettore Y = [Y 1 -......Y N - ]. Una stima della matrice di covarianza delle misure è quindi fornita dalla matrice NxN: =1/(M-1) YY T. La funzione obiettivo da minimizzare rispetto a medio è: J( medio ) = j=1,...,M (y j - f( medio ) T -1 (y j - f( medio )
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.