Convergence to Approximate Nash Equilibria in Congestion Games Strumenti della Teoria dei Giochi per l’Informatica A.A. 2009/2010 Sebastiano Panichella
Scenario L’emergente ricerca di algoritmi di “game theory” ha portato a una fondamentale riesaminazione dei classici concetti relativi agli “equilibri di Nash”, con grosse prospettive computazionali Tratteremo i “Congestion Game” Esempio di Congestion Game: siano e due giocatori; sia che vogliono andare da S (Sorgente) a D (Destinazione); le strade disponibili per andare da S a D sono due, A e B A / A B 4 3 2 2 1 1 3 4 S D B Tabella dei payoff
Motivazioni I Congestion Game hanno attirato l’attenzione dei ricercatori per varie ragioni: Riguardano una gran parte di scenari con problemi di allocazione delle risorse, e di routing dove è sempre presente un “equilibrio di Nash puro”: a differenza di altri giochi, hanno sempre un N.E. dove ogni giocatore sceglie un’unica strategia Per il meccanismo noto come “Nash dynamics”, dove a ogni passo qualche giocatore cambia la sua strategia verso un’altra ritenuta più conveniente, è garantita la convergenza a un “pure Nash equilibria”.
Maggiore è il numero dei giocatori che utilizzano una risorsa Congestion Game Definizione di Congestion Game: n giocatori ; a ciascun giocatore i viene assegnato un insieme finito di strategie (ossia un insieme di risorse disponibili all’i-esimo giocatore); a ciascun giocatore i viene assegnata una funzione di costo che desidera minimizzare (il costo di ogni strategia dipende solo dal numero di giocatori che usano la risorsa in questione) Maggiore è il numero dei giocatori che utilizzano una risorsa Maggiore è il costo
numero di giocatori che usano la risorsa “e” Congestion Game funzione di costo (non negativa) Formalmente il costo per pi è Uno stato è una qualsiasi combinazione di strategie per gli n giocatori. equilibrio di Nash puro: uno stato è un equilibrio di Nash se numero di giocatori che usano la risorsa “e” Per ogni giocatore Il costo della strategia scelta da pi Il giocatore pi non è incentivato a cambiare Per ogni altra strategia
Classe di Congestion Game Nella Classe di Congestion Game che consideriamo: i giocatori condividono un insieme di risorse (gioco simmetrico) chiamate archi l’insieme di strategie, , di un giocatore pi è una collezione arbitraria di sottoinsiemi di E la strategia del giocatore pi, è un sottoinsieme di E a ogni arco è associata una funzione di costo (o ritardo) non decrescente
Classe di Congestion Game Se t giocatori utilizzano l’arco e ciascuno di essi pagherà un costo de(t) In uno stato s=(s1 ,…, sn) il costo del giocatore pi è Esempio dstrada(1)=2 dstrada(2)=4 dstrada(3)=8 In generale dstrada(t)= numero di giocatori che usano l’arco “e” nello stato “s”
Sommiamo i costi sostenuti in base ai giocatori che lo utilizzano Funzioni Potenziali Funzione potenziale: i giochi a congestione sono in possesso una precisa funzione potenziale definita come proprietà: il cambiamento in 𝜙 rispecchia esattamente la variazione dei costi del giocatore Sommiamo i costi sostenuti in base ai giocatori che lo utilizzano Per ogni arco se il giocatore pi cambia la sua strategia da si a s’i Variazione del potenziale Variazione del costo per pi =
Niente ci assicura “la rapida convergenza” a un equilibrio di Nash Funzioni Potenziali Osservazione: Se a ogni passo permettiamo ai giocatori di modificare la propria strategia (più conveniente) fino a raggiungere un minimo locale diminuirà ossia un equilibrio di Nash puro ma Niente ci assicura “la rapida convergenza” a un equilibrio di Nash
Approssimazione di equilibri di Nash ottimo Accuratezza Tempo
Definizioni ε-equilibrio di Nash: sia , uno stato è un ε-equilibrio di Nash se Dinamiche best response ε-approssimate: dinamiche best response nelle quali ciascun giocatore può fare solo ε-mosse, ossia movimenti che migliorano il costo di un fattore maggiore di ε. Più formalmente se il giocatore pi si sposta da si a si’ allora Per ogni giocatore Per ogni strategia Il giocatore pi non ha più di un ε-incentivo a cambiare strategia
ε-N.E. e Dinamiche ε-Nash Se i giocatori non hanno più ε-mosse da effettuare I giocatori hanno raggiunto un ε-equilibrio di Nash Se più di un giocatore ha una ε-mossa disponibile, solo il giocatore il cui relativo guadagno è il più grande effettuerà la sua mossa. In altre parole, il giocatore pi effettua la sua mossa se, tale mossa massimizza il rapporto Costo ottenuto nel caso in cui il giocatore effettua la mossa si’ Minore è tale costo e maggiore è il rapporto R Costo Precedente
Definizioni Bounded Jump: dato un grafo G(V,E) con funzione di peso sugli archi , diciamo che l’arco “e” soddisfa la condizione di α-bounded jump se sia t ≥ 0 il numero di giocatori ∀ costante α ≥ 1 la sua funzione di costo soddisfa la condizione costo dell’arco e per (t +1) giocatori costo dell’arco e per t giocatori quando un nuovo player sceglie di utilizzare un determinato arco, il costo che pagheranno tutti i giocatori che lo usano sarà incrementato di un fattore di al più α
Lemma 3.2 ENUNCIATO In un gioco a congestione simmetrico dove, ogni arco soddisfa la condizione “α-bounded jump “, se nelle dinamiche ε-approssimate nello stato s la prossima mossa è fatto dal giocatore pi ,allora Per ogni giocatore pj diverso dal giocatore pi Il costo del giocatore pj è al più α volte il costo del giocatore pi
Lemma 3.2 DIMOSTRAZIONE Supponiamo che il gioco si trovi in uno stato Supponiamo che un giocatore pi voglia effettuare una mossa da si a si’ con guadagno relativo Supponiamo che un altro giocatore pj≠pi voglia effettuare la stessa mossa,ossia, si muove da sj a sj’’ = si’ con guadagno relativo Per come abbiamo definito il gioco, solo il giocatore con il massimo guadagno relativo effettua la sua mossa; quindi se nel gioco, solo il giocatore pi effettua la sua mossa, deve valere che Rj≤Ri
Lemma 3.2 1. pi sta già usando l’arco “e” prima della mossa (1) Ossia A questo punto, confrontiamo il costo che il giocatore pi paga per effettuare la sua mossa con quanto avrebbe pagato il giocatore pj per effettuare la sua mossa da sj’’ (se vedessimo vincere l’uno o l’altro giocatore): ∀ arco che il giocatore pi vuole usare, possiamo avere che 1. pi sta già usando l’arco “e” prima della mossa pj paga al più per usare l’arco e pi paga per usare l’arco e (perchè pj stesso potrebbe essere il nuovo giocatore che utilizza l’arco e) Per la condizione di “bounded jump” abbiamo che .
Lemma 3.2 2. pi non sta già usando l’arco e prima della mossa (2) pj paga al più lo stesso prezzo pi paga per usare l’arco e Sommando su tutti gli archi abbiamo che (2) Sostituendo la (2) nella disequazione (1) abbiamo che
Lemma 3.2 Semplificando, abbiamo
Teorema 3.1 ENUNCIATO In qualsiasi gioco a congestione simmetrico, dove n è il numero di giocatori tutti gli archi soddisfano l’α-bounded jump condition C è un limite superiore al costo di ciascun giocatore le dinamiche ε-approssimate convergono partendo da un qualsiasi stato iniziale in numero di passi pari a Il fattore di approssimazione > 0 Bounded condition Limite superiore al costo di ciascun giocatore
Il potenziale ≤ costo complessivo Teorema 3.1 DIMOSTRAZIONE Dal Lemma 3.2 sappiamo che se pi è il giocatore che si muove da si a si’ allora il costo che paga il giocatore è di almeno volte il più grande costo di ogni giocatore Siccome Il potenziale ≤ costo complessivo Il costo del giocatore pi ≥ la media del potenziale
Variazione del potenziale Teorema 3.1 Dato che Da cui, dopo un movimento di pi stato s allo stato s’ Variazione del potenziale Variazione del costo per pi = Trattandosi di un ε-mossa la variazione del costo per pi è più di ε-volte il costo dello stato precedente s In generale Nello stato iniziale 𝜙 =𝜙max = potenziale iniziale; dato che Ad ogni passo Numero totale di passi per la convergenza
PLS-completezza di giochi con Bounded Jump Mentre un ε-equilibrio di Nash viene raggiunto in un numero di passi polinomiale ( il Teorema 3.1) lo stesso non accade per un equilibrio di Nash puro Proposition 3.3 Il problema della ricerca di un equilibrio di Nash in giochi a congestione simmetrici che soddisfano la condizione di bounded jump con α = 2 è PLS-completo I risultati finora ottenuti sugli equilibri di Nash esatti non hanno effetti hanno effetti significativi sugli ε-equilibri di Nash
L’Esempio è PLS-completo… Anche se gode della Bounded Jump condition questo semplice problema di allocazione di risorse Esempio dstrada(1)=2 In generale dstrada(t)= dstrada(2)=4 dstrada(3)=8 è PLS-completo…
Meccanismi di coordinamento Osservazione: finora abbiamo sempre utilizzato un meccanismo di coordinamento nel quale il giocatore con il maggiore incentivo fa la prima mossa 1) Domanda: quando vengono utilizzati altri meccanismi di coordinamento cosa succede? Per queste varianti dell’ ε-Nash dynamics, il teorema 3.1 è ancora valido (convergenza polinomiale a ε-equilibri di Nash)? 2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E’ possibile convergere polinomiale a ε-equilibri di Nash?
Varianti della ε-Nash dynamics Largest gain dynamics: ad ogni passo, tra tutti i giocatori con un ε-mossa disponibili, quello che si muove è quello il cui miglioramento dei costi (assoluto) è il maggiore. Una variante della ε-Nash dynamics Costo Precedente Costo del giocatore se effettua la mossa si’ Un’altra variante della ε-Nash dynamics Heaviest first dynamics: ad ogni passo, tra tutti i giocatori con un ε-mossa disponibili, si consente la mossa al giocatore con il maggior costo corrente
Varianti della ε-Nash dynamics 1) Domanda: per queste varianti dell’ ε-Nash dynamics, il teorema 3.1 è ancora valido? Dai teoremi Teorema 3.4 Il Teorema 3.1 continua a essere valido anche nel Largest gain dynamics. Teorema 3.5 Il Teorema 3.1 continua a essere valido anche per Heaviest first ε-Nash dynamics Risposta: Si
Le dinamiche senza “restrizioni” Osservazione: finora abbiamo sempre utilizzato un meccanismo di coordinamento nel quale il giocatore con il maggiore incentivo fa la prima mossa 2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E’ possibile convergere polinomiale a ε-equilibri di Nash? The unrestricted dynamics è un meccanismo in cui i giocatori: possono muoversi in un ordine arbitrario sono soggetti ad una sola condizione “necessaria”: a ogni giocatore deve essere data la possibilità di fare la propria mossa entro un certo limite di tempo
Le dinamiche senza “restrizioni” Più formalmente la dinamica senza restrizioni è una sequenza di q1 ,q2 ,… ,qn dove ogni qt indica un giocatore al passo t al giocatore qt è data la possibilità di muoversi Si Fa la mossa qt ha un ε-mossa? No Non fa nulla Vogliamo che per qualche costante T ogni giocatore pi compaia almeno una volta in ogni intervallo di sequenza con lunghezza T
Le dinamiche senza “restrizioni” Esempio: La “Round-Robin” dynamics A turno a ogni player pi viene data la possibilità di fare la sua mossa
Le dinamiche senza “restrizioni” 2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E’ possibile convergere polinomiale a ε-equilibri di Nash? Risposta: Si Dal Teorema 4.1 In ogni gioco a congestione simmetrico con n giocatori i cui archi soddisfano α-bounded jump condition, qualsiasi ε-Nash-dynamics, in cui a ogni giocatore viene data la possibilità di fare la propria mossa all'interno di ogni intervallo di tempo di lunghezza t , converge da qualsiasi stato iniziale in un numero di passi pari a è un limite superiore al costo di ogni giocatore
Le dinamiche senza “restrizioni” Per provare il teorema 4.1 è utile enunciare (e dimostrare) il seguente Lemma: Lemma 4.2 Sia ci (s) il costo sostenuto dal giocatore pi nello stato s , e sia ci (s’) il costo di pi “in uno stato futuro s’ in cui non si è mosso”. Allora “Concettualmente” mette in relazione il miglioramento della funzione potenziale la variazione del costo per pi, anche quando il giocatore non fa nessuna mossa per molti steps
Le dinamiche senza “restrizioni” Dimostrazione lemma Sappiamo che la variazione del costo per pi I contributi positivi a questa somma sono dati dagli archi e che altri giocatori hanno liberato Sapendo che il primo giocatore pj che rinuncia a e aveva un costo di almeno allora la funzione potenziale migliora di almeno
Le dinamiche senza “restrizioni” ε-volte quanto ci guadagna pi Il miglioramento totale di 𝜙 è Dimostrazione Teorema 4.1 Ai fini della prova è sufficiente mostrare che durante ogni intervallo in cui a ogni giocatore è data la possibilità di effettuare una mossa, la funzione potenziale 𝜙 diminuisce di almeno Convergenza in al più valore che ha assunto la funzione potenziale all'inizio dell'intervallo
Le dinamiche senza “restrizioni” Siano gli stati durante questo intervallo (non necessariamente differenti) Sia ph il giocatore con il maggior costo in s0 Sia t ≥ 0 la prima volta in cui,durante l’intervallo, al giocatore ph è data la possibilità di muoversi Avremo due casi: Caso(i): al tempo t , ph ha un ε-mossa a disposizione Caso(ii): al tempo t , ph non ha un ε-mossa a disposizione
Le dinamiche senza “restrizioni” Caso(i) dal Lemma 4.2, abbiamo la garanzia che il miglioramento della funzione potenziale la variazione del costo per ph, anche quando il giocatore non fa nessuna mossa per molti steps Dopo l’ ε-mossa di ph , 𝜙 sarà migliorata di almeno ε-Media del potenziale iniziale Il teorema è soddisfatto Convergenza in al più
Le dinamiche senza “restrizioni” Caso(ii) Non avendo un ε-mossa a disposizione non vogliamo che ph possa fare un ε-mossa adottando semplicemente la strategia di un altro giocatore, pi Al momento t, dobbiamo avere Costo di ph per simulare la mossa di pi Utilità di ph per simulare la mossa di pi
Le dinamiche senza “restrizioni” Analizzeremo due casi: (1° caso) Consideriamo un giocatore pi, a cui è data la possibilità di fare la sua mossa al tempo t’ > t ossia, dopo che a ph è stata data la possibilità di muoversi (2° caso) Consideriamo l’ultimo giocatore, pi ,a cui è data la possibilità di fare la sua mossa al tempo t’ < t
Le dinamiche senza “restrizioni” (1° caso) Sia pi , un giocatore che fa la sua mossa al tempo t’ > t ossia, dopo che a ph è stata data la possibilità di muoversi, avremo che = La variazione della funzione = potenziale Il teorema è soddisfatto
Le dinamiche senza “restrizioni” (2° caso) Sia pi , l’ultimo giocatore che fa la sua mossa al tempo t’ < t, Nell’istante t’ Infatti da (3) la condizione deve essere soddisfatta da pi anche al tempo t (e anche subito dopo) Dato che fare la mossa può solo ridurre il suo costo, soddisfa la condizione anche al tempo t’
Le dinamiche senza “restrizioni” Allora la variazione di potenziale Deriva dalla condizione massimo miglioramento ottenuto da pi per la sua mossa Deriva dal LEMMA 4.2
Le dinamiche senza “restrizioni” Allora la variazione di potenziale Deriva dal LEMMA 4.2 massimo miglioramento ottenuto da pi per la sua mossa è minima quando È soddisfatta
Le dinamiche senza “restrizioni” Risposta: Si 2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E’ possibile convergere polinomiale a ε-equilibri di Nash? 3) Domanda: se generalizziamo il gioco permettendo a ciascun giocatore di dichiarare il proprio ε (che in un certo qual modo indica la “tolleranza” all’infelicità o, se vogliamo, la propensione a accontentarsi del giocatore). E’ possibile convergere polinomiale a ε-equilibri di Nash? Parliamo di Giocatori eterogenei
Giocatori eterogenei Heterogeneouse players: è una generalizzazione delle impostazione precedenti dove ciascun giocatore pi ha un proprio valore ε, che chiameremo εi che specifica la sua “tolleranza” all’infelicità ε-equilibrio di Nash: per , uno stato è un ε- equilibrio di Nash se Per ogni giocatore Per ogni strategia Il giocatore pi non ha più di un εi-incentivo a cambiare strategia
Giocatori eterogenei Dinamiche best response ε-approssimate: dinamiche best response nelle quali ciascun giocatore pi può fare solo εi-mosse, ossia movimenti che migliorano il costo di un fattore maggiore di εi. più formalmente se il giocatore pi si sposta da si a si’ allora Cambiare strategia non conviene più di εi volte il costo della strategia attuale
Giocatori eterogenei Vedremo che questa dinamica converge in passi il numero di passi di tempo in cui un giocatore con tolleranza εi "sarà" infelice "(cioè, avrà un ε-move disponibile) è essenzialmente a prescindere dagli εj-valori degli altri giocatori.
Giocatori eterogenei Teorema 5.2 Sia εmax < 1 il valore massimo di εi , tra tutti i giocatori pi . Allora, , ci sono al massimo “volte” in cui qualche giocatore pj con εj ≥ ε sarà in grado di muoversi prima che l’ ε- Nash dynamics converga Dimostrazione Teorema 5.2 Sia s =(s1,…,sn), uno stato in cui un giocatore pj con εj ≥ ε ha una εj -move disponibile. Ai fini della prova è sufficiente dimostrare che la riduzione della funzione potenziale 𝜙 è almeno
Giocatori eterogenei Sia pi il giocatore che si muove “attualmente” dallo stato s a . . Sia ph il giocatore con il “maggior costo” in s Analizzeremo due casi: Caso(i): ph = pi , ossia, pi ha il maggior costo Caso(ii): ph ≠ pi ossia, pi non ha il maggior costo
Il teorema è soddisfatto Giocatori eterogenei Caso(i) Se il ph= pi allora abbiamo già finito, dal momento che ad ogni passo il potenziale si riduce di almeno Il teorema è soddisfatto Convergenza in al più n. passi pari a
Giocatori eterogenei Caso(ii): ph ≠ pi ossia, pi non ha il maggior costo Supponiamo che ph possa muoversi da s a s’’ simulando la strategia s’i del giocatore pi . Siccome non vogliamo che ph possa muoversi da s, dato che non è il suo turno Analizziamo due casi: Caso(1): la mossa da s a s’’ non deve essere una εh-move per ph Caso(2): il guadagno relativo per ph non è più grande del guadagno relativo che ottiene consentendo a pi di effettuare la sua mossa.
Il teorema è soddisfatto Giocatori eterogenei Caso(1): la mossa da s a s’’ non deve essere una εh-move per ph Sappiamo che Combinando le due disequazioni, abbiamo (Dal teorema 3.1) Allora Il teorema è soddisfatto
Giocatori eterogenei □ Siccome Caso(2): il guadagno relativo per ph non è più grande del guadagno relativo che ottiene consentendo a pi di effettuare la sua mossa ,ossia, Dato che Siccome Allora □