La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

L23 Politiche fuori linea senza apprendimento: progetto funzionale Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini Sessa.

Presentazioni simili


Presentazione sul tema: "L23 Politiche fuori linea senza apprendimento: progetto funzionale Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini Sessa."— Transcript della presentazione:

1 L23 Politiche fuori linea senza apprendimento: progetto funzionale Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini Sessa.

2 R. Soncini Sessa, MODSS, Problema di controllo Problema di minimizzazione del costo totale atteso su un orizzonte finito di lunghezza h. Funzione obiettivo separabile Disturbo bianco

3 R. Soncini Sessa, MODSS, ma, tramite il nuovo stato che produce, influenza anche i costi degli stadi futuri. Il costo futuro Il Problema è un problema decisionale a più stadi, in ciascuno dei quali, noto lo stato x t, si deve adottare una decisione u t. L’orizzonte è finito. Ogni decisione comporta un costo immediato, 

4 R. Soncini Sessa, MODSS, Un semplice esempio Ad ogni istante dobbiamo stabilire il volume u t che vorremmo inviare al distretto irriguo; da cui consegue il volume s t+1 inviato al futuro.

5 R. Soncini Sessa, MODSS, Un semplice esempio tempot-1t+1t

6 R. Soncini Sessa, MODSS, Un semplice esempio

7 R. Soncini Sessa, MODSS, Il costo futuro La decisione all’istante t deve quindi considerare : Il costo immediato g t (x t,u t,  t+1 ) i costi futuri sul resto dell’orizzonte h, che dipendono però anche dalle decisioni future. EQUAZIONE DI BELLMAN Definiamo il costo futuro ottimo (totale atteso) come il costo in cui incorreremmo se dall’istante t adottassimo decisioni ottime. Quali costi dunque ? Consideriamoli entrambi!

8 R. Soncini Sessa, MODSS, Isolamento di un passo del processo

9 R. Soncini Sessa, MODSS, La Programmazione Dinamica (DP) 1 Il costo futuro. 4. Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito. 2 Esempio. 3 Derivazione formale. 3.1 Una legge di dualità. 2 Esempio.

10 R. Soncini Sessa, MODSS, Esempio ∞ ∞ t Penale

11 R. Soncini Sessa, MODSS, ∞ ∞ t Esempio = [∞, 0, ∞] = [4, 2, 1] =[G, D, S] = [4, 4, 2] =[G, G, D]

12 R. Soncini Sessa, MODSS, ∞ ∞ t Esempio Una delle possibili sequenze di controlli ottimi è quindi : u 0 =D u 1 =S u 2 =G u 3 =D = [6, 5, 7] =[D, S/G, D] = [7]=[S/D]

13 R. Soncini Sessa, MODSS, Esempio S/GS/D GD DDS GD G t x u In realtà abbiamo trovato molto di più di una sequenza di controlli ottimi, abbiamo trovato una politica APV t xtxt

14 R. Soncini Sessa, MODSS, Esempio t x ∞ 0 ∞H*H* Conviene quindi memorizzare solo la tabella H *. Abbiamo ottenuto anche i valori dei costi futuri ottimi per tutti i t e tutti gli stati. Nota si può calcolare ad ogni istante la decisione ottima risolvendo l’equazione

15 R. Soncini Sessa, MODSS, La Programmazione Dinamica (DP) 1 Il costo futuro. 4 Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito. 2 Esempio. 3 Derivazione formale. 3.1 Una legge di dualità. 3 Derivazione formale.

16 R. Soncini Sessa, MODSS, Derivazione formale Problema di minimizzazione del costo totale atteso su un orizzonte finito di lunghezza h. Ipotesi: processo bianco Funzione obiettivo separabile

17 R. Soncini Sessa, MODSS, Derivazione formale Ipotesi di processo bianco

18 R. Soncini Sessa, MODSS, Derivazione formale In generale quindi il costo futuro ottimo sull’orizzonte temporale [0,h] è calcolabile con la seguente equazione ricorsiva: Il controllo ottimo è dato da: EQUAZIONE DI BELLMAN

19 R. Soncini Sessa, MODSS, La Programmazione Dinamica (DP) 1 Il costo futuro. 2 Esempio. 3 Derivazione formale. 3.1 Una legge di dualità. 4 Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito. 3.1 Una legge di dualità.

20 R. Soncini Sessa, MODSS, LAPLACE La legge di dualità L’equazione di Bellman per i problemi di Wald si ottiene dalla precedente con le seguenti sostituzioni: + max Per questo mostreremo gli algoritmi solo per il caso di Laplace. va al posto di WALD

21 R. Soncini Sessa, MODSS, Equazione di Bellman con criterio di Wald In generale quindi il costo sull’orizzonte temporale [t,h] è calcolabile con la seguente equazione ricorsiva: Il controllo ottimo è dato da: EQUAZIONE DI BELLMAN

22 R. Soncini Sessa, MODSS, La Programmazione Dinamica (DP) 1 Il costo futuro. 4 Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito. 2 Esempio. 3 Derivazione formale. 3.1 Una legge di dualità. 4 Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito.

23 R. Soncini Sessa, MODSS, L’algoritmo risolvente per orizzonte finito Passo 0 (inizializzazione): si calcolino ricorsivamente i costi-futuri mediante l’equazione di Bellman: si ponga Passo 1:

24 R. Soncini Sessa, MODSS, L’algoritmo risolvente per orizzonte finito Passo 2 (terminazione):

25 R. Soncini Sessa, MODSS, Complessità dell’algoritmo

26 R. Soncini Sessa, MODSS, Procedura esaustiva confronti

27 R. Soncini Sessa, MODSS, La strategia della DP 9 confronti

28 R. Soncini Sessa, MODSS, La strategia della DP confronti Complessivamente 9+9+3=21 confronti invece di 27.

29 R. Soncini Sessa, MODSS, Complessità dell’algoritmo Se il vettore di disturbo ha una unica componente, che assume n ε valori, il calcolo del valore atteso richiede n ε valutazioni di L. L(ε t+1 ) tt nεnε 1

30 R. Soncini Sessa, MODSS, Complessità dell’algoritmo Se il vettore di disturbo ha un’ unica componente, che assume n ε valori, il calcolo del valore atteso richiede n ε valutazioni di L. Se invece il disturbo ha due componenti ε=(υ,η), ciascuna delle quali assume n ε valori, le valutazioni di L sono n ε 2. L(ε t+1 ) nεnε 1 1 nεnε

31 R. Soncini Sessa, MODSS, Complessità dell’algoritmo Occorre poi trovare il minimo rispetto ai valori che può assumere il controllo. Come nel caso di ε, se il controllo è scalare e assume n u valori, occorre effettuare n u valutazioni per individuare il minimo. Se il controllo ha due componenti, ne occorrono n u … nunu …nunu

32 R. Soncini Sessa, MODSS, Complessità dell’algoritmo Occorre infine valutare il costo futuro per tutti gli stati: Se lo stato ha due componenti, ne occorrono n x nxnx …nxnx … Se lo stato è scalare e assume n x valori, occorre effettuare n x valutazioni per determinare l’intera funzione

33 R. Soncini Sessa, MODSS, Complessità dell’algoritmo Il tempo di calcolo della DP cresce: esponenzialmente con la dimensione di stato, controllo e disturbo, linearmente con la durata dell’orizzonte.

34 R. Soncini Sessa, MODSS, Complessità dell’algoritmo Il tempo di calcolo della DP cresce: esponenzialmente con la dimensione di stato, controllo e disturbo, linearmente con la durata dell’orizzonte.

35 R. Soncini Sessa, MODSS, Leggere MODSS Cap. 12


Scaricare ppt "L23 Politiche fuori linea senza apprendimento: progetto funzionale Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini Sessa."

Presentazioni simili


Annunci Google