Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica.

Slides:

Advertisements

Presentazioni simili

Misure ed Errori Prof Valerio CURCIO.

Advertisements

La probabilità nei giochi

Matematica I: Calcolo differenziale, Algebra lineare, Probabilità e statistica Giovanni Naldi, Lorenzo Pareschi, Giacomo Aletti Copyright © The.

Teoria dei giochi Eliminazione iterata delle strategie strettamente dominate Il diritto di proprietà.

6. Catene di Markov a tempo continuo (CMTC)

Integrazione Corso: Analisi Numerica Anno Accademico:

Lez. 41 Universita' di Ferrara Facolta' di Scienze Matematiche, Fisiche e Naturali Laurea Specialistica in Informatica Algoritmi Avanzati Programmazione.

Analisi delle Decisioni Esistenza della funzione di utilita’

Analisi delle Decisioni Funzioni di utilita’ e lotterie

Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Lezione 2 Chiara Mocenni Corso di laurea L1.

Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Scelte di consumo Chiara Mocenni Corso di laurea.

Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Lezione 5 Chiara Mocenni Corso di laurea L1.

Lezione 5 I MERCATI FINANZIARI

Lezione 4 IL MERCATO DEI BENI

RISPARMIO, ACCUMULAZIONE DI CAPITALE E PRODUZIONE

6. Catene di Markov a tempo continuo (CMTC)

3. Processi Stocastici Un processo stocastico è una funzione del tempo i cui valori x(t) ad ogni istante di tempo t sono v.a. Notazione: X : insieme di.

Dinamica del punto Argomenti della lezione

Università degli Studi di Cagliari

Introduzione alla Teoria dei giochi

Elementi di Matematica

Teoria dei giochi - D'Orio - prima parte

Processi Aleatori : Introduzione – Parte I

Abbiamo visto un esempio di applicazione del teorema, ma a noi interessa l’applicazione del Teorema di Bayes alla combinazione delle informazioni, ovvero.

Che cosa intendiamo per Dinamica della combustione? Che cosa intendiamo per Dinamica? Comportamenti che variano nel tempo.

Liceo Scientifico P.Calamandrei presenta: Il Gioco preferito dagli studenti: un compito in classe… A cura del gruppo che ha partecipato al progetto Lauree.

CAMPO ELETTRICO E POTENZIALE

Le forze conservative g P2 P1 U= energia potenziale

Corso di biomatematica Lezione 2: Probabilità e distribuzioni di probabilità Davide Grandi.

Avviamento ai giochi sportivi

Ricerca della Legge di Controllo

Misurazione del sistema macroeconomico

CAPITOLO 19 L’avversione al rischio e l’utilità attesa

aspettative di inflazione e valore attuale

Microeconomia Corso D John Hey. Il programma Questa settimana Martedì: capitolo 30 (teoria dei giochi), una pausa e capitolo 31 (duopolio). Notate: non.

Modelli simulativi per le Scienze Cognitive Paolo Bouquet (Università di Trento) Marco Casarotti (Università di Padova)

Studente Claudia Puzzo

1 Esempio : Utile per considerare limportanza delle ALTE FREQUENZE nella ricostruzione del segnale, in particolare dei FRONTI di SALITA e di DISCESA (trailing.

TRINOMIO DI II °: fattorizzazione o completamento del quadrato?

Corso di Matematica Discreta cont. 2

IL GIOCO DELLA LOGICA.

10 Appendice Non farsi spaventare da un grafico Non farsi spaventare da un grafico Esci.

Convergence to Approximate Nash Equilibria in Congestion Games

CdLM in Economia e Management A.a. 2012/2013 Docente: Domenico Sarno

Radix-Sort(A,d) // A[i] = cd...c2c1

INFORMATICA PER IL COMMERCIO ELETTRONICO

INFORMATICA PER IL COMMERCIO ELETTRONICO

DIDATTICA DELLA MATEMATICA TFA A059

INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA

La rappresentazione delle informazioni in un computer Seconda parte.

Capitolo III. Il mercato dei beni.

Misure ed Errori.

Esercizi (attrito trascurabile)

Test basati su due campioni Test Chi - quadro

LE ASPETTATIVE: NOZIONI DI BASE

Forma normale delle equazioni di 2° grado Definizione. Un'equazione di secondo grado è in forma normale se si presenta nella forma Dove sono numeri.

Università degli Studi di Napoli Federico II IL “GIOCO” DEL CALCIO FACOLTA’ DI INGEGNERIA Scuola di Dottorato in Ingegneria Industriale Claudio D’Ambra.

Analisi ed Approfondimento dell’Equilibrio di Nash: Lo studio di situazioni critiche UNIVERSITA' DEGLI STUDI "G.d'ANNUNZIO" CHIETI-PESCARA LAUREANDA: Ileana.

Analisi matematica Introduzione ai limiti

Ontologia analitica Lezz Lezione 13 7/3/16.

DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.

Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.

L’effetto delle asimmetrie informative sul mercato del credito Fausto Panunzi.

L’unità frazionaria ESEMPIO Rappresentazione

Giochi Bayesiani 19/07/2011 Università degli studi di Napoli “Federico II” Emiliano Iuliano Francesco De Domenico Corso di teoria dei giochi Prof.ssa Lina.

Formazione Professionale. Sommario Formazione professionale generica  Formazione che aumenta la produttività del lavoratore in qualsiasi impresa. Formazione.

6 Inchiesta Giulio Vidotto Raffaele Cioffi. Indice: 6.1 Come si prepara un questionario 6.2 Come somministrare un questionario 6.3 Campionamento.

1 ELEMENTI DI CALCOLO COMBINATORIO. 2 Elementi di calcolo combinatorio Si tratta di una serie di tecniche per determinare il numero di elementi di un.

Classe II a.s. 2010/2011 Prof.ssa Rita Schettino

Transcript della presentazione:

Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Il nostro percorso Breve introduzione Classificazione dei modelli dinamici Definizione del problema Regret Matching Distribuzione Congiunta di gioco Equilibri Correlati Teorema del Regret Matching Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Breve Introduzione (1) Una configurazione dinamica è rappresentata da uninsieme di giocatori che interagiscono ripetutamente tra di loro. In tale situazione le nostre regole di comportamento saranno chiamate Adaptive heuristics se sono semplici e allo stesso tempo portano i giocatori in una buona direzione. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Breve Introduzione (2) Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica Una semplice Adaptive heuristics potrebbe essere quella di scegliere sempre la best response in base a ciò che hanno fatto i giocatori nellimmediato passato. Possiamo subito notare una differenza con gli argomenti visti durante il corso: i giochi non saranno più one-step, ma saranno dinamici ossia i giocatori interagiranno più volte tra di loro.

Domanda… La domanda di maggiore interesse è: Queste semplici regole comportamentali (Adaptive heuristics), a lungo andare, possono rendere il comportamento dei giocatori razionale e altamente sofisticato? Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Il nostro percorso Breve introduzione Classificazione dei modelli dinamici Definizione del problema Regret Matching Distribuzione Congiunta di gioco Equilibri Correlati Teorema del Regret Matching Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Classificazione delle Dinamiche Nella teoria dei giochi e nella teoria economica è possibile suddividere i modelli dinamici in tre classi: Learning Dynamics Evolutionary Dynamics Adaptive Heuristics Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Learning Dynamics Ogni giocatore inizia con una predeterminata opinione sui dati pertinenti al gioco (state of the world), i quali includono il gioco che si sta giocando e le strategie che possono intraprendere gli altri giocatori. Ad ogni fase, dopo aver osservato le azioni prese allinterno del gioco, ogni giocatore aggiorna la propria opinione e gioca la sua best respons. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Evolutionary Dynamics (1) Ogni giocatore i viene sostituito da una serie di individui che giocano sempre la stessa azione (genotype) al posto del giocatore i. Le relative frequenze delle azioni degli individui possono essere viste come una mixed action del giocatore i. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Evolutionary Dynamics (2) Per esempio un terzo della popolazione gioca la strategia R e due terzi giocano la strategia L. Tutto ciò può essere visto come una mixed action con probabilità (1/3, 2/3) sulinsieme di strategie (L, R). Le Evolutionary Dynamics si basano su due punti di forza: Selection Mutation Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Evolutionary Dynamics (3) Selection: è il processo per il quale le strategie migliori prevalgono; Mutation: è il processo che genera azioni in maniera randomizzata (che siano esse buone o cattive). Possiamo vedere come questi due punti di forza sono nettamente contrapposti, ma è proprio la combinazione di entrambi che permette il naturale adattamento (il mutante migliore sopravvive). Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Adaptive Heuristics (1) Abbiamo già detto che uneuristica è una regola comportamentale semplice che il giocatore usa per prendere le proprie decisioni. Chiameremo adaptive queste euristiche se inducono il giocatore a comportarsi nel modo apparentemente migliore rispetto a come si sta svolgendo il gioco. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Adaptive Heuristics (2) Per esempio fare sempre la stessa azione o randomizzare le scelte sono heuristic, ma non sono adaptive dato che non sappiamo se le decisioni prese convergeranno ad una buona soluzione. Invece una buona adaptive heuristic è quella di giocare ad ogni passo unazione che risulta la migliore in base alla distribuzione di frequenza delle azioni fatte in passato dagli altri giocatori (fictitious play). Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Differenze tra le dinamiche (1) Un modo per capire le differenze tra le tre dinamiche viste prima è tramite il concetto di Razionalità intesa come un processo di ottimizzazione in un ambiente interattivo. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Differenze tra le dinamiche (2) Learning Dynamics richiedono un alto livello di razionalità infatti è molto difficile aggiornare ad ogni passo il proprio comportamento e calcolare poi la best response. Dallaltro lato invece nelle Evolutionary Dynamics il livello di razionalità è praticamente nullo in quanto ogni individuo fa sempre la stessa azione dettata dal proprio genotype. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Differenze tra le dinamiche (3) Nel mezzo troviamo le Adaptive Heuristics che da un lato fanno si che i giocatori eseguano dei semplici calcoli in base allambiente del gioco (diversamente dalle Evolutionary Dynamics) ma dalllatro lato bisogna pur dire che questi calcoli sono molto distanti dai calcoli altamente razionali fatti nei modelli Learning Dynamics. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Il nostro percorso Breve introduzione Classificazione dei modelli dinamici Definizione del problema Regret Matching Distribuzione Congiunta di gioco Equilibri Correlati Teorema del Regret Matching Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Definizione del problema (1) Insieme N di giocatori (i = 1, 2, ……, n). Ad ogni giocatore corrisponde un insieme di azioni S i Funzione di utilità u i : S R S = (S 1 x S 2 x … x S n ) è linsieme delle azioni. Dato che il gioco verrà ripetuto nel tempo indicheremo con (s i t ) lazione giocata dal giocatore i al tempo t. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Definizione del problema (2) Il concetto base è quello del perfect monitoring: alla fine di ogni periodo t, tutti i giocatori osservano linsieme s t in base al quale verrà scelta la successiva azione. s t = (s 1 t, s 2 t, ……., s n t ) = azioni intraprese da tutti i giocatori nel periodo t. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Il nostro percorso Breve introduzione Classificazione dei modelli dinamici Definizione del problema Regret Matching Distribuzione Congiunta di gioco Equilibri Correlati Teorema del Regret Matching Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Regret Matching LAdaptive Heuristic che prenderemo in considerazione sarà il Regret Matching così definito: Passaremo nella prossima fase di gioco ad una differente azione con una probabilità proporzionale al regret, dove il regret è definito come lincremento di utilità ottenuto se avessimo utilizzato questazione nel passato. Più formalmente..... Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Definizione Formale (1)... consideriamo il giocatore i al tempo T+1 e denotiamo con U la media dellutilità ottenuta fino al tempo T: Consideriamo j = s i T lazione che il giocatore i ha giocato al tempo T, e unazione alternativa k = j. Naturalmente sia j che k devono appartenere ad S i. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Definizione Formale (2) Calcoliamo adesso V(k) ossia la media di utilità che il giocatore i avrebbe ottenuto sostituendo lazione k al posto di j ogni volta che i ha giocato j: Dove: Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Definizione Formale (3) Possiamo ora definire il regret per lazione k: Dove [x] + = max{x, 0} cioè la parte positiva di x. Cosa ce ne facciamo del parametro R(k)? Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Come usiamo R(k) Ogni azione k differente dallazione j viene giocata con una probabilità proporzionale al suo regret R(K), mentre con la rimanente probabilità rigiochiamo j. Quindi la probabilità σ T+1 (k) di giocare lazione k al tempo T+1 è data da : Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Come calcoliamo la costante c c è una costante maggiore di zero che deve essere minore di 1/(2mM) dove: m è il numero di azioni di i vale a dire m =|S i |. M è la massima utilità ottenibile da i quindi M = max s in S |u i (s)| Una tale c garantisce una corretta distribuzione di probabilità sullinsieme S i e che la probabilità di j sia strettamente positiva. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Torniamo al regret R(k) Adesso il giocatore i deve considerare se continuare ad utilizzare j come prossima azione oppure cambiare ed utilizzare k al posto di j. Praticamente il giocatore i non deve fare altro che controllare il valore del regret R(k). Due casi possibili: R(k) = 0 R(k) > 0 Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Caso 1 : R(k) = 0 Questo caso avviene quando lutilità media che avremmo ottenuto utilizzando k (V(k)) è minore o uguale dellutilità media ottenuta utilizzando j (U), quindi non cè regret per lazione k. Per questo motivo il giocatore i non sarà portato a cambiare azione dato che non avrà nessun incremento di utilità. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Caso 2 : R(k) > 0 Questo caso, invece, avviene quando lutilità media che avremmo ottenuto utilizzando k (V(k)) è maggiore dellutilità media ottenuta utilizzando j (U), quindi il regret di k è maggiore di zero ed uguale proprio a V(k) - U. A questo punto il giocatore i utilizzerà lazione k al posto di j in base alla distribuzione di probabilità mostrata in precedenza. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Il nostro percorso Breve introduzione Classificazione dei modelli dinamici Definizione del problema Regret Matching Distribuzione Congiunta di gioco Equilibri Correlati Teorema del Regret Matching Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Distribuzione Congiunta di gioco Misura la frequenza relativa di ogni n-upla di azioni giocata. Ad ogni fase i giocatori randomizzano le proprie scelte indipendentemente dagli altri giocatori. Ma questo non implica che la distribuzione congiunta sia indipendente tra i giocatori o che essa potrebbe diventare indipendente a lungo andare Questo accade perché le probabilità che i giocatori usano possono cambiare andando avanti nel tempo. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Esempio 1 (1) Supponiamo che nei periodi dispari i giocatori 1 e 2 utilizzino un distribuzioni di probabilità: E nei periodi pari ne utilizzino unaltra: Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica TB 3/41/4 LR 3/41/4 TB 3/4 LR 1/43/4

Esempio 1 (2) La distribuzione congiunta di gioco convergerà quasi sicuramente a (5/16, 3/16, 3/16, 5/16) per TL, TR, BL e BR rispettivamente. Che non corrisponde al prodotto delle probabilità marginali (1/2, 1/2) su (T, B) e (1/2, 1/2) su (L, R). La distribuzione congiunta è completamente determinata dalla storia del gioco che i giocatori osservano. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Esempio 1 (3) Quindi i giocatori determinano le loro azioni basandosi sulla distribuzione congiunta (invece che sulla marginale) il che è quello che di solito avviene. Vediamo un esempio di tutto ciò rapportandolo ad un gioco visto durante il corso: Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Esempio 2 : Matching Pennies (1) Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica Pensiamo al gioco del Matching Pennies Supponiamo che metà delle volte viene giocato HH e laltra metà TT. I giocatori se ne accorgeranno molto rapidamente e almeno un giocatore cambierà il proprio comportamento. Matching PenniesTH T1, -1-1, 1 H 1, -1

Esempio 2 : Matching Pennies (2) Possiamo vedere che se il mismatching player avesse guardato solo le distribuzioni marginali, in questo caso (1/2, 1/2) per entrambi i giocatori, non avrebbe avuto ragione di cambiare azione. Ma il fatto che abbia cambiato azione ci porta a pensare che il mismatching player abbia osservato la distribuzione congiunta di gioco. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Per riassumere un modello di gioco che si rispetti può (e dovrebbe) prendere in considerazione la distribuzione congiunta di gioco. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Il nostro percorso Breve introduzione Classificazione dei modelli dinamici Definizione del problema Regret Matching Distribuzione Congiunta di gioco Equilibri Correlati Teorema del Regret Matching Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Equilibri Correlati (1) È un equilibrio di Nash dove gli agenti fanno le proprie scelte in base ad un segnale ricevuto prima che il gioco inizi. Consideriamo un gioco one-shot e assumiamo che prima di iniziare a giocare ogni agente riceva un segnale θ i. Questi segnali possono essere correlati a seconda di una distribuzione di probabilità congiunta F conosciuta da tutti i giocatori. Notiamo che i segnali non cambieranno le utilità dei giocatori. Può tutto ciò influenzare loutcome? Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Equilibri correlati (2) La risposta è SI. Dato che i giocatori possono utilizzare questi segnali per correlare le proprie scelte. E per dimostrarlo utilizzeremo due esempi visti anche durante il corso: Battle of Sexes Chicken Game Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Esempio: Battle of Sexes (1) Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica Matrice dei payoff: Introduciamo adesso un lancio della moneta per determinare i segnali. Diciamo che Θ 1 = Θ 2, quindi il segnale ricevuto dai due giocatori è lo stesso con probabilità (1/2, 1/2). Battle of SexesHockeyTheater Hockey2,10, 0 Theater0, 01, 2

Esempio: Battle of Sexes (2) Di conseguenza la matrice degli equilibri correlati risulterà la seguente: Così facendo i giocatori decideranno la stessa cosa e le loro utilità saranno sempre positive. In pratica abbiamo raggiunto un equilibrio di Nash che non potevamo raggiungere prima. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica Battle of SexesHockeyTheater Hockey1/20 Theater01/2

Esempio: Chicken Game (1) Matrice dei payoff: In questo tipo di gioco possiamo raggiungere un equilibrio correlato che rende equiprobabili tutte le combinazioni tranne (Stay, Stay). Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica Chicken GameLeaveStay Leave5,53, 6 Stay6, 30, 0

Esempio: Chicken Game (2) La matrice degli equilibri correlati risulterà la seguente: Possiamo vedere che quando il giocatore riga riceve il segnale Leave, lo stesso giocatore assegnerà una probabilità di (1/2, 1/2) alle due combinazioni di segnali possibili (Leave, Stay) o (Leave, Leave). Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica Chicken GameLeaveStay Leave1/3 Stay1/30

Esempio: Chicken Game (3) Così che il giocatore riga avrà un payoff atteso uguale a 4 = (1/2)5 + (1/2)3 dalla giocata Leave, mentre il payoff atteso dalla giocata Stay sarà 3 = (1/2)6 + (1/2)0. Mentre quando il giocatore riga riceverà il segnale Stay, potrà dedurre che la combinazione di segnali sarà sicuramente (Stay, Leave) dato che (Stay, Stay) ha probabilità zero). Anche in questo caso si è raggiunto un equilibrio di Nash. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Il nostro percorso Breve introduzione Classificazione dei modelli dinamici Definizione del problema Regret Matching Distribuzione Congiunta di gioco Equilibri Correlati Teorema del Regret Matching Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Teorema del Regret Matching Lasciamo che ogni giocatore giochi in base alla teoria del Regret Matching. In questo modo la distribuzione congiunta di gioco convergerà allinsieme degli equilibri correlati. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Distribuzione congiunta di gioco Per esempio la distribuzione congiunta per le prime T fasi di gioco è una distribuzione di probabilità z T su S, dove per ogni s in S, è la proporzione su T periodi nei quali la combinazione di azioni s è stata giocata Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Teorema del Regret Matching Il Teorema del Regret Matching dice che, per quasi tutte le storie di gioco, la sequenza di distribuzione congiunta di gioco z 1, z 2,..... z T,.... converge ad un equilibrio correlato, 0, in modo equivalente possiamo dire che essa è un equilibrio correlato approssimato. N.B.: converge verso linsieme di equilibrio correlato non necessariamente ad un punto nellinsieme. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Dimostrazione Per dimostrare il teorema si dovrebbe mostrare: che tutti i regret svaniscono nel tempo; e che questa situazione di assenza di regret corrisponde ad un equilibrio correlato approssimato. Ma noi questo non lo vedremo!!! Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

In definitiva Da dove viene fuori questa correlazione? La risposta è, di sicuro, dal fatto che i giocatori osservano tutti la storia del gioco (come il gioco si è svolto in quel momento). Infatti ogni azione dei giocatori è determinata dal suo regret, che è determinato esso stesso dalla storia. Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica

Grazie a tutti per lattenzione … … alla prossima!!! Università degli Studi di Salerno - Università degli Studi di Salerno - Corso di Laurea Specialistica in Informatica