L23 Politiche fuori linea senza apprendimento: progetto funzionale Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini Sessa.
R. Soncini Sessa, MODSS, Problema di controllo Problema di minimizzazione del costo totale atteso su un orizzonte finito di lunghezza h. Funzione obiettivo separabile Disturbo bianco
R. Soncini Sessa, MODSS, ma, tramite il nuovo stato che produce, influenza anche i costi degli stadi futuri. Il costo futuro Il Problema è un problema decisionale a più stadi, in ciascuno dei quali, noto lo stato x t, si deve adottare una decisione u t. L’orizzonte è finito. Ogni decisione comporta un costo immediato,
R. Soncini Sessa, MODSS, Un semplice esempio Ad ogni istante dobbiamo stabilire il volume u t che vorremmo inviare al distretto irriguo; da cui consegue il volume s t+1 inviato al futuro.
R. Soncini Sessa, MODSS, Un semplice esempio tempot-1t+1t
R. Soncini Sessa, MODSS, Un semplice esempio
R. Soncini Sessa, MODSS, Il costo futuro La decisione all’istante t deve quindi considerare : Il costo immediato g t (x t,u t, t+1 ) i costi futuri sul resto dell’orizzonte h, che dipendono però anche dalle decisioni future. EQUAZIONE DI BELLMAN Definiamo il costo futuro ottimo (totale atteso) come il costo in cui incorreremmo se dall’istante t adottassimo decisioni ottime. Quali costi dunque ? Consideriamoli entrambi!
R. Soncini Sessa, MODSS, Isolamento di un passo del processo
R. Soncini Sessa, MODSS, La Programmazione Dinamica (DP) 1 Il costo futuro. 4. Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito. 2 Esempio. 3 Derivazione formale. 3.1 Una legge di dualità. 2 Esempio.
R. Soncini Sessa, MODSS, Esempio ∞ ∞ t Penale
R. Soncini Sessa, MODSS, ∞ ∞ t Esempio = [∞, 0, ∞] = [4, 2, 1] =[G, D, S] = [4, 4, 2] =[G, G, D]
R. Soncini Sessa, MODSS, ∞ ∞ t Esempio Una delle possibili sequenze di controlli ottimi è quindi : u 0 =D u 1 =S u 2 =G u 3 =D = [6, 5, 7] =[D, S/G, D] = [7]=[S/D]
R. Soncini Sessa, MODSS, Esempio S/GS/D GD DDS GD G t x u In realtà abbiamo trovato molto di più di una sequenza di controlli ottimi, abbiamo trovato una politica APV t xtxt
R. Soncini Sessa, MODSS, Esempio t x ∞ 0 ∞H*H* Conviene quindi memorizzare solo la tabella H *. Abbiamo ottenuto anche i valori dei costi futuri ottimi per tutti i t e tutti gli stati. Nota si può calcolare ad ogni istante la decisione ottima risolvendo l’equazione
R. Soncini Sessa, MODSS, La Programmazione Dinamica (DP) 1 Il costo futuro. 4 Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito. 2 Esempio. 3 Derivazione formale. 3.1 Una legge di dualità. 3 Derivazione formale.
R. Soncini Sessa, MODSS, Derivazione formale Problema di minimizzazione del costo totale atteso su un orizzonte finito di lunghezza h. Ipotesi: processo bianco Funzione obiettivo separabile
R. Soncini Sessa, MODSS, Derivazione formale Ipotesi di processo bianco
R. Soncini Sessa, MODSS, Derivazione formale In generale quindi il costo futuro ottimo sull’orizzonte temporale [0,h] è calcolabile con la seguente equazione ricorsiva: Il controllo ottimo è dato da: EQUAZIONE DI BELLMAN
R. Soncini Sessa, MODSS, La Programmazione Dinamica (DP) 1 Il costo futuro. 2 Esempio. 3 Derivazione formale. 3.1 Una legge di dualità. 4 Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito. 3.1 Una legge di dualità.
R. Soncini Sessa, MODSS, LAPLACE La legge di dualità L’equazione di Bellman per i problemi di Wald si ottiene dalla precedente con le seguenti sostituzioni: + max Per questo mostreremo gli algoritmi solo per il caso di Laplace. va al posto di WALD
R. Soncini Sessa, MODSS, Equazione di Bellman con criterio di Wald In generale quindi il costo sull’orizzonte temporale [t,h] è calcolabile con la seguente equazione ricorsiva: Il controllo ottimo è dato da: EQUAZIONE DI BELLMAN
R. Soncini Sessa, MODSS, La Programmazione Dinamica (DP) 1 Il costo futuro. 4 Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito. 2 Esempio. 3 Derivazione formale. 3.1 Una legge di dualità. 4 Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito.
R. Soncini Sessa, MODSS, L’algoritmo risolvente per orizzonte finito Passo 0 (inizializzazione): si calcolino ricorsivamente i costi-futuri mediante l’equazione di Bellman: si ponga Passo 1:
R. Soncini Sessa, MODSS, L’algoritmo risolvente per orizzonte finito Passo 2 (terminazione):
R. Soncini Sessa, MODSS, Complessità dell’algoritmo
R. Soncini Sessa, MODSS, Procedura esaustiva confronti
R. Soncini Sessa, MODSS, La strategia della DP 9 confronti
R. Soncini Sessa, MODSS, La strategia della DP confronti Complessivamente 9+9+3=21 confronti invece di 27.
R. Soncini Sessa, MODSS, Complessità dell’algoritmo Se il vettore di disturbo ha una unica componente, che assume n ε valori, il calcolo del valore atteso richiede n ε valutazioni di L. L(ε t+1 ) tt nεnε 1
R. Soncini Sessa, MODSS, Complessità dell’algoritmo Se il vettore di disturbo ha un’ unica componente, che assume n ε valori, il calcolo del valore atteso richiede n ε valutazioni di L. Se invece il disturbo ha due componenti ε=(υ,η), ciascuna delle quali assume n ε valori, le valutazioni di L sono n ε 2. L(ε t+1 ) nεnε 1 1 nεnε
R. Soncini Sessa, MODSS, Complessità dell’algoritmo Occorre poi trovare il minimo rispetto ai valori che può assumere il controllo. Come nel caso di ε, se il controllo è scalare e assume n u valori, occorre effettuare n u valutazioni per individuare il minimo. Se il controllo ha due componenti, ne occorrono n u … nunu …nunu
R. Soncini Sessa, MODSS, Complessità dell’algoritmo Occorre infine valutare il costo futuro per tutti gli stati: Se lo stato ha due componenti, ne occorrono n x nxnx …nxnx … Se lo stato è scalare e assume n x valori, occorre effettuare n x valutazioni per determinare l’intera funzione
R. Soncini Sessa, MODSS, Complessità dell’algoritmo Il tempo di calcolo della DP cresce: esponenzialmente con la dimensione di stato, controllo e disturbo, linearmente con la durata dell’orizzonte.
R. Soncini Sessa, MODSS, Complessità dell’algoritmo Il tempo di calcolo della DP cresce: esponenzialmente con la dimensione di stato, controllo e disturbo, linearmente con la durata dell’orizzonte.
R. Soncini Sessa, MODSS, Leggere MODSS Cap. 12