La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

L23 Politiche fuori linea senza apprendimento: progetto funzionale Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini Sessa.

Presentazioni simili


Presentazione sul tema: "L23 Politiche fuori linea senza apprendimento: progetto funzionale Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini Sessa."— Transcript della presentazione:

1 L23 Politiche fuori linea senza apprendimento: progetto funzionale Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini Sessa.

2 R. Soncini Sessa, MODSS, 2004 2 Problema di controllo Problema di minimizzazione del costo totale atteso su un orizzonte finito di lunghezza h. Funzione obiettivo separabile Disturbo bianco

3 R. Soncini Sessa, MODSS, 2004 3 ma, tramite il nuovo stato che produce, influenza anche i costi degli stadi futuri. Il costo futuro Il Problema è un problema decisionale a più stadi, in ciascuno dei quali, noto lo stato x t, si deve adottare una decisione u t. L’orizzonte è finito. Ogni decisione comporta un costo immediato, 

4 R. Soncini Sessa, MODSS, 2004 4 Un semplice esempio Ad ogni istante dobbiamo stabilire il volume u t che vorremmo inviare al distretto irriguo; da cui consegue il volume s t+1 inviato al futuro.

5 R. Soncini Sessa, MODSS, 2004 5 Un semplice esempio tempot-1t+1t

6 R. Soncini Sessa, MODSS, 2004 6 Un semplice esempio

7 R. Soncini Sessa, MODSS, 2004 7 Il costo futuro La decisione all’istante t deve quindi considerare : Il costo immediato g t (x t,u t,  t+1 ) i costi futuri sul resto dell’orizzonte h, che dipendono però anche dalle decisioni future. EQUAZIONE DI BELLMAN Definiamo il costo futuro ottimo (totale atteso) come il costo in cui incorreremmo se dall’istante t adottassimo decisioni ottime. Quali costi dunque ? Consideriamoli entrambi!

8 R. Soncini Sessa, MODSS, 2004 8 Isolamento di un passo del processo

9 R. Soncini Sessa, MODSS, 2004 9 La Programmazione Dinamica (DP) 1 Il costo futuro. 4. Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito. 2 Esempio. 3 Derivazione formale. 3.1 Una legge di dualità. 2 Esempio.

10 R. Soncini Sessa, MODSS, 2004 10 Esempio 1 2 2 5 2 3 1 3 3 10 11 ∞ ∞ 0 1 4 1 2 1 1 1 2 1 3 3 01234 t Penale

11 R. Soncini Sessa, MODSS, 2004 11 1 2 2 5 2 3 1 3 3 10 11 ∞ ∞ 0 1 4 1 2 1 1 1 2 1 3 3 01234 t Esempio 2 1 4 2 4 4 = [∞, 0, ∞] = [4, 2, 1] =[G, D, S] = [4, 4, 2] =[G, G, D]

12 R. Soncini Sessa, MODSS, 2004 12 1 2 2 5 2 3 1 3 3 10 11 ∞ ∞ 0 1 4 1 2 1 1 1 2 1 3 3 01234 t 2 1 4 2 4 4 Esempio Una delle possibili sequenze di controlli ottimi è quindi : u 0 =D u 1 =S u 2 =G u 3 =D 7 6 57 = [6, 5, 7] =[D, S/G, D] = [7]=[S/D]

13 R. Soncini Sessa, MODSS, 2004 13 Esempio S/GS/D GD DDS GD G t x 012 1 2 3 3 u In realtà abbiamo trovato molto di più di una sequenza di controlli ottimi, abbiamo trovato una politica APV t xtxt

14 R. Soncini Sessa, MODSS, 2004 14 Esempio t 7 46 721 42 4 x 012 1 2 3 3 5 4 ∞ 0 ∞H*H* Conviene quindi memorizzare solo la tabella H *. Abbiamo ottenuto anche i valori dei costi futuri ottimi per tutti i t e tutti gli stati. Nota si può calcolare ad ogni istante la decisione ottima risolvendo l’equazione

15 R. Soncini Sessa, MODSS, 2004 15 La Programmazione Dinamica (DP) 1 Il costo futuro. 4 Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito. 2 Esempio. 3 Derivazione formale. 3.1 Una legge di dualità. 3 Derivazione formale.

16 R. Soncini Sessa, MODSS, 2004 16 Derivazione formale Problema di minimizzazione del costo totale atteso su un orizzonte finito di lunghezza h. Ipotesi: processo bianco Funzione obiettivo separabile

17 R. Soncini Sessa, MODSS, 2004 17 Derivazione formale Ipotesi di processo bianco

18 R. Soncini Sessa, MODSS, 2004 18 Derivazione formale In generale quindi il costo futuro ottimo sull’orizzonte temporale [0,h] è calcolabile con la seguente equazione ricorsiva: Il controllo ottimo è dato da: EQUAZIONE DI BELLMAN

19 R. Soncini Sessa, MODSS, 2004 19 La Programmazione Dinamica (DP) 1 Il costo futuro. 2 Esempio. 3 Derivazione formale. 3.1 Una legge di dualità. 4 Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito. 3.1 Una legge di dualità.

20 R. Soncini Sessa, MODSS, 2004 20 LAPLACE La legge di dualità L’equazione di Bellman per i problemi di Wald si ottiene dalla precedente con le seguenti sostituzioni: + max Per questo mostreremo gli algoritmi solo per il caso di Laplace. va al posto di WALD

21 R. Soncini Sessa, MODSS, 2004 21 Equazione di Bellman con criterio di Wald In generale quindi il costo sull’orizzonte temporale [t,h] è calcolabile con la seguente equazione ricorsiva: Il controllo ottimo è dato da: EQUAZIONE DI BELLMAN

22 R. Soncini Sessa, MODSS, 2004 22 La Programmazione Dinamica (DP) 1 Il costo futuro. 4 Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito. 2 Esempio. 3 Derivazione formale. 3.1 Una legge di dualità. 4 Politiche AUV, progetto funzionale: l’algoritmo risolvente per il problema su orizzonte finito.

23 R. Soncini Sessa, MODSS, 2004 23 L’algoritmo risolvente per orizzonte finito Passo 0 (inizializzazione): si calcolino ricorsivamente i costi-futuri mediante l’equazione di Bellman: si ponga Passo 1:

24 R. Soncini Sessa, MODSS, 2004 24 L’algoritmo risolvente per orizzonte finito Passo 2 (terminazione):

25 R. Soncini Sessa, MODSS, 2004 25 Complessità dell’algoritmo 0 321 2 3 1 1 1 5 1 0 4 3 4 1 2 3 1 2 4 4 3 4 1 0 0 0

26 R. Soncini Sessa, MODSS, 2004 26 Procedura esaustiva 2 3 1 1 1 5 1 0 4 3 4 1 2 3 1 2 4 4 3 1 4 0 0 0 27 confronti

27 R. Soncini Sessa, MODSS, 2004 27 0 0 0 2 3 1 2 4 4 3 4 1 2 3 1 1 1 5 1 0 4 3 4 1 2 3 1 2 4 4 3 1 4 1 1 3 2 3 5 1 0 4 3 4 1 La strategia della DP 9 confronti

28 R. Soncini Sessa, MODSS, 2004 28 2 3 1 1 1 5 1 0 4 3 4 1 2 3 1 2 4 4 3 1 4 1 1 3 2 3 5 1 0 4 3 4 1 La strategia della DP 2 4 3 1 1 1 3 3 confronti Complessivamente 9+9+3=21 confronti invece di 27.

29 R. Soncini Sessa, MODSS, 2004 29 Complessità dell’algoritmo Se il vettore di disturbo ha una unica componente, che assume n ε valori, il calcolo del valore atteso richiede n ε valutazioni di L. L(ε t+1 ) tt nεnε 1

30 R. Soncini Sessa, MODSS, 2004 30 Complessità dell’algoritmo Se il vettore di disturbo ha un’ unica componente, che assume n ε valori, il calcolo del valore atteso richiede n ε valutazioni di L. Se invece il disturbo ha due componenti ε=(υ,η), ciascuna delle quali assume n ε valori, le valutazioni di L sono n ε 2. L(ε t+1 ) nεnε 1 1 nεnε

31 R. Soncini Sessa, MODSS, 2004 31 Complessità dell’algoritmo Occorre poi trovare il minimo rispetto ai valori che può assumere il controllo. Come nel caso di ε, se il controllo è scalare e assume n u valori, occorre effettuare n u valutazioni per individuare il minimo. Se il controllo ha due componenti, ne occorrono n u 2. 1 1 … nunu …nunu

32 R. Soncini Sessa, MODSS, 2004 32 Complessità dell’algoritmo Occorre infine valutare il costo futuro per tutti gli stati: Se lo stato ha due componenti, ne occorrono n x 2. 1 1 nxnx …nxnx … Se lo stato è scalare e assume n x valori, occorre effettuare n x valutazioni per determinare l’intera funzione

33 R. Soncini Sessa, MODSS, 2004 33 Complessità dell’algoritmo Il tempo di calcolo della DP cresce: esponenzialmente con la dimensione di stato, controllo e disturbo, linearmente con la durata dell’orizzonte.

34 R. Soncini Sessa, MODSS, 2004 34 Complessità dell’algoritmo Il tempo di calcolo della DP cresce: esponenzialmente con la dimensione di stato, controllo e disturbo, linearmente con la durata dell’orizzonte.

35 R. Soncini Sessa, MODSS, 2004 35 Leggere MODSS Cap. 12


Scaricare ppt "L23 Politiche fuori linea senza apprendimento: progetto funzionale Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini Sessa."

Presentazioni simili


Annunci Google