La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Algoritmi online Maria Simi, a.a. 2007/08 Problemi di esplorazione  Gli agenti per il problem-solving assumono:  ambienti deterministici e osservabili.

Presentazioni simili


Presentazione sul tema: "Algoritmi online Maria Simi, a.a. 2007/08 Problemi di esplorazione  Gli agenti per il problem-solving assumono:  ambienti deterministici e osservabili."— Transcript della presentazione:

1

2 Algoritmi online Maria Simi, a.a. 2007/08

3 Problemi di esplorazione  Gli agenti per il problem-solving assumono:  ambienti deterministici e osservabili  il piano generato può essere generato offline e eseguito senza imprevisti  Che cosa succede se rilasciamo queste assunzioni?  Solo lo stato corrente è osservabile, non si conosce l’effetto delle azioni e il loro costo  Gli stati futuri e le azioni che saranno possibili non sono conosciute a priori

4 Algoritmi online  Si devono compiere azioni esplorative  Si alternano pianificazione e azione  Cosa conosce un agente online …  Le azioni legali nello stato attuale  Il costo della mossa c(s1, a, s2) ma dopo averla eseguita  Goal-test(s)  La stima della distanza: dal goal: h(s) 

5 Esempio: Teseo con mappa e senza  Con mappa  applicabili tutti gli algoritmi di pianificazione visti  Senza mappa  l'agente non può pianificare può solo esplorare nel modo più razionale possibile  Ricerca online h=4h=3h=2h=1 T h=3 h=2h=1h=0 h=4h=3h=2h=1 h=5h=4h=3h=2 h=4h=3h=2h=1 T h=3 h=2h=1h=0 h=4h=3h=2h=1 h=5h=4h=3h=2

6 Assunzione ulteriore  Ambienti esplorabili in maniera sicura  Non esistono azioni irreversibili  Diversamente non si può garantire una soluzione

7 Ricerca in profondità online  Gli agenti online ad ogni passo decidono l'azione da fare (non il piano) e la eseguono.  Ricerca in profondità online  Un metodo locale  Il backtracking significa tornare sui propri passi  È necessario ricordarsi ciò che si è scoperto  Esplorazione sistematica delle alternative

8 Esempio  Nota: aggiunta di un violo cieco per mostrare backtracking  Sceglie il primo tra (1,1) e (2,2)  In (1, 1) deve tornare indietro T T T TT T T T T T

9 Algoritmo DF online function Agente-Online-DFS(s) returns an action static: risultato, notexp, notback, s- ( stato precedente ), a- ( ultima azione) if Goal-Test(s) then return stop if s nuovo stato then notexpl[s]  AzioniLegali(s) if s- non è null then risultato[a-, s-]  s; notback[s]  s-; if notexpl[s] vuoto then if notbackl[s] vuoto then return stop else a  azione per tornare in POP(notback[s]) else a  POP(notexpl[s]) s-  s; return a

10 Ricerca euristica online  Nella ricerca online si conosce il valore della funzione euristica una volta esplorato lo stato.  Un algoritmo di tipo Best First non funzionerebbe.  Serve un metodo locale  Hill-climbing con random-restart non praticabile  Come sfuggire a minimi locali?

11 Due soluzioni  Random-walk  si fanno mosse casuali in discesa  Apprendimento Real-Time:  esplorando si aggiustano i valori dell'euristica per renderli più realistici.  H: migliore stima fin qui  Come si valutano i successori: Costo-LRTA*(s, a, s', H) = h(s) se s' indefinito H(s') + costo(s,a,s') altrimenti

12 Esempio di Real Time Learning A* (LRTA*) T (h=3) T (h=4) T (h=3) T (h=2) T (h=3) T (h=2) T (h=1) T (h=2) (h=3) T (h=3) (h=4) T (h=2) T (h=1) T (h=0)

13 LRTA* function Agente-LRTA*(s) returns an action static: risultato, H, s-, a- if Goal-Test(s) then return stop if s nuovo (non in H) then H[s]  h[s] 1. if s-  null risultato[a-, s-]  s H[s-]  min Costo-LRTA*(s-, b, risultato[b, s-], H) 2. a  un'azione b tale che minimizza Costo-LRTA*(s, b, risultato[b, s], H) s-  s; return a b  AzioniLegali(s)

14 Considerazioni su LRTA*  LRTA* cerca di simulare A* con un metodo locale: tiene conto del costo delle mosse come può aggiornando al volo la H  Completo in spazi esplorabili in maniera sicura  Nel caso pessimo visita tutti gli stati due volte ma è mediamente più efficiente della profondità online  Non ottimale, a meno di usare una euristica perfetta (non basta una f=g+h con h ammissibile)


Scaricare ppt "Algoritmi online Maria Simi, a.a. 2007/08 Problemi di esplorazione  Gli agenti per il problem-solving assumono:  ambienti deterministici e osservabili."

Presentazioni simili


Annunci Google