Laboratorio Processi Stocastici

Slides:



Advertisements
Presentazioni simili
Metodo di Calcolo Numerico per Equazioni differenziali Ordinarie
Advertisements

Teoria e Tecniche del Riconoscimento
8) GLI INTERVALLI DI CONFIDENZA
Equazioni differenziali
Laboratorio Processi Stocastici
2. Introduzione alla probabilità
Intervalli di confidenza
Capitolo 8 Sistemi lineari.
Laboratorio Processi Stocastici
AGENTI CHE RISOLVONO PROBLEMI Ottimizzazione euristica
6. Catene di Markov a tempo continuo (CMTC)
1 2. Introduzione alla probabilità Definizioni preliminari: Prova: è un esperimento il cui esito è aleatorio Spazio degli eventi elementari : è linsieme.
Dinamica del manipolatore
Integrazione Corso: Analisi Numerica Anno Accademico:
Fisica 1 Termodinamica 9a lezione.
Fisica 2 18° lezione.
Fisica 2 Elettrostatica
2.VARIABILI CONTINUE A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.
Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Dynamic Programming Chiara Mocenni Corso di.
Analisi delle Decisioni Funzioni di utilita’ e lotterie
Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Lezione 2 Chiara Mocenni Corso di laurea L1.
Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Scelte di consumo Chiara Mocenni Corso di laurea.
Hash Tables Indirizzamento diretto Tabelle Hash Risoluzioni di collisioni Indirizzamento aperto.
Alberi binari di ricerca
6. Catene di Markov a tempo continuo (CMTC)
3. Processi Stocastici Un processo stocastico è una funzione del tempo i cui valori x(t) ad ogni istante di tempo t sono v.a. Notazione: X : insieme di.
5. Catene di Markov a tempo discreto (CMTD)
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Iterazione enumerativa (for)
Valutazione delle ipotesi
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Processi Aleatori : Introduzione – Parte I
8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.
Alberi di Ricorrenza Gli alberi di ricorrenza rappresentano un modo conveniente per visualizzare i passi di sostitu- zione necessari per risolvere una.
LEGGE DELLA CIRCUITAZIONE
Le forze conservative g P2 P1 U= energia potenziale
Ricerca della Legge di Controllo
INGEGNERIA CLINICA E BIOMEDICA
Dinamica Molecolare.
Modelli simulativi per le Scienze Cognitive
Studente Claudia Puzzo
QuickSort Quick-Sort(A,s,d) IF s < d THEN q = Partiziona(A,s,d) Quick-Sort(A,s,q-1) Quick-Sort(A,q + 1,d)
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Processi aleatori (stocastici o probabilistici)
Metodi numerici per equazioni differenziali ordinarie Laboratorio di Metodi Numerici a.a. 2008/2009.
Lezione 13 Equazione di Klein-Gordon Equazione di Dirac (prima parte)
Metodo della moltiplicazione
Elementi di Informatica di base
Radix-Sort(A,d) // A[i] = cd...c2c1
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Statistica economica (6 CFU) Corso di Laurea in Economia e Commercio a.a Docente: Lucia Buzzigoli Lezione 5 1.
Passo 3: calcolo del costo minimo
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Implementazione di dizionari Problema del dizionario dinamico Scegliere una struttura dati in cui memorizzare dei record con un campo key e alcuni altri.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Lezione B.10 Regressione e inferenza: il modello lineare
R. Soncini Sessa, MODSS, L 26 Stima degli effetti Calcolo degli obiettivi (Laplace) Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini.
IL CAMPIONE.
Calcolo delle probabilità a cura di Maurizio Brizzi
Analisi e Gestione del Rischio Lezione 7 Prodotti con pay-off non lineare.
Intelligenza Artificiale Risoluzione di Problemi
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
1 Lezione IX seconda parte Avviare la presentazione col tasto “Invio”
Proprietà macromolecolari Il calcolo delle proprietà macromolecolari implica l’utilizzo della statistica della catena polimerica in termini di distanze.
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Se A e B sono variabili random statisticamente indipendenti P (2) (B,A)=P(B)P(A) P(A)=probabilità che la variabile stocastica A assuma un certo valore.
Lezione n. Parole chiave: Corso di Laurea: Insegnamento: Docente: A.A Salvatore Cuomo La ricorsione 15 Approccio ricorsivo, esercizi sulla.
Transcript della presentazione:

Laboratorio Processi Stocastici Annalisa Pascarella Istituto per le Applicazioni del Calcolo "M. Picone" Consiglio Nazionale delle Ricerche

Metodo Monte Carlo L’idea è quella di estrarre un insieme i.i.d. di campioni da una pdf target p definita su uno spazio a grandi dimensioni ai quali sono associati dei pesi tale che l’integrale di una qualsiasi funzione misurabile rispetto alla pdf target p(x) possa essere approssimato dalla somma pesata i pesi wi sono determinati dalla stessa pdf Tre approcci random sampling -> campiono direttamente dalla pdf target importance sampling -> uso una pdf dalla quale so campionare MCMC Lo spazio sul quale è definito X può essere l’insieme delle possibili configurazioni di un sistema, lo spazio sul quale la pdf a posteriori è definita, l’insieme combinatoriale delle possibili soluzioni

Random sampling Se è un insieme i.i.d. di campioni generato dalla pdf target p il metodo Monte Carlo approssima la pdf target con la seguente funzione di densità empirica Usando tale densità empirica si può calcolare un’approssimazione dell’integrale I Per la legge dei grandi numeri si ha la convergenza a I(f) La velocità di convergenza dipende da N e non dallo spazio nel quale vivono i campioni principale vantaggio rispetto alle tecniche di quadratura La velocità di convergenza dipende da N

Random sampling I campioni così ottenuti possono essere usati per calcolare ad es Se ad es f(x)=x e la pdf target è la pdf a posteriori p(x|y), I(f) è il valor medio condizionale e una sua stima è La principale hp è che si possano estrarre N i.i.d. campioni dalla pdf target nel caso gaussiano esistono diverse routine per campionare da esse in generale si devono campionare pdf complicate => per ottenere un insieme di campioni con cui approssimare l’integrale I(f) si ricorre a tecniche più sofisticate come l’importance sampling o i metoti MCMC La velocità di convergenza dipende da N

Importance sampling L’idea alla base dell’IS è usare una pdf q(x) dalla quale si sa campionare q(x) prende il nome di proposal pdf w(x) = p(x)/q(x) il supporto di q deve contenere quello della pdf target p Se si possono estrarre N i.i.d. campioni da q(x) e calcolare i pesi p(x)/q(x) una stima Monte Carlo di I(f) sarà data da in pratica stiamo effettuando un random sampling di f(x)w(x) IN(f) stimatore unbias e sotto deboli hp la legge dei grandi numeri ci assicura la convergenza a I(f) Scegliere una buona proposal è importante per ridurre il costo computazionale e migliorare l’accuratezza delle approssimazioni

Importance sampling Se sono in un contesto di inferenza Bayesiana vorrei poter campionare p(x|y) campionare tale pdf usando l’IS non è sempre possibile in quanto spesso non si può calcolare la costante di normalizzazione Una possibile soluzione Markox Chain Monte Carlo: usano catene di Markov per generare campioni da usare nell’integrazione Monte Carlo. L’algoritmo Metropolis è considerato tra uno dei dieci metodi che hanno avuto maggiore influenza sulle scienze e l’ingegneria nel XX secolo I metodi MCMC sono spesso usati per risolvere problemi di integrazione o ottimizzazione in spazi a grandi dimensioni machine learning, fisica, economia,…

MCMC Tecniche per la generazione di numeri casuali: generazione di realizzazioni di variabili discrete, generazione di realizzazioni di variabili continue Tecniche di simulazione: Costruzione e validazione di modelli di simulazione; Metodi Monte Carlo;Tecniche di riduzione della varianza; Analisi dei risultati

Da MC a MCMC L’obiettivo dei metodi MC, e il loro principale utilizzo nelle applicazioni, è l’integrazione stima del valore atteso di una funzione di X ∼ p (x) tramite simulazione di un campione da p (distribuzione target che può essere valutata facilmente ma dalla quale non è immediato campionare). simulare un campione da una generica funzione target p può risultare di fondamentale importanza anche in altri contesti Il metodo Markov Chain Monte Carlo (MCMC), che ci consente di ottenere campioni da funzioni target qualsiasi, consente quindi di raggiungere obiettivi inferenziali più generali del solo calcolo di un integrale.

MCMC L’idea di base dei metodi MCMC è di generare un campione dalla distribuzione d’interesse p costruendo una catena di Markov irriducibile e aperiodica, avente la distribuzione target p come distribuzione stazionaria; per n sufficientemente grande, una realizzazione Xn della catena è equivalente ad un campionamento da p . L’applicazione più popolare dei metodi MCMC è nell’ambito dell’inferenza Bayesiana, dove la distribuzione target p è la distribuzione a posteriori, generalmente indicata con π, ed X sono i parametri di interesse, generalmente indicati con θ. In altre parole, la catena viene costruita in modo che ogni stato Xt assuma valori in I ed abbia asintoticamente p come distribuzione di probabilità

Differenze La differenza sostanziale tra il metodo Monte Carlo classico e i metodi MCMC è che nel primo caso i campioni generati sono indipendenti tra loro, mentre nel secondo caso vengono generati attraverso un processo stocastico di Markov. nei metodi MCMC i campioni sono correlati tra loro e di conseguenza vi è la necessità di un maggior numero di iterazioni per avere un risultato sufficientemente accurato. Non sempre è possibile trovare una distribuzione da cui generare i campioni indipendenti, mentre è molto semplice generare una catena di Markov che si muova nello spazio delle soluzioni, addirittura anche nel caso in cui le probabilità che stiamo cercando siano proporzionali a una costante a noi sconosciuta, o di cui è difficile trovare il valore esatto. MCMC esplora meglio le regioni di alta probabilità mentre IS no, soprattutto se si sceglie male la proposal Un vantaggio di tali metodi è che non è necessario conoscere la costante di normalizzazione, ad es nel metropolis si considera il rapporto delle pdf target e quindi la costante scompare

Catene di Markov Sia Xt il valore di una v.a. a t e sia S={s1, …, sm} l’insieme degli stati. Il processo stocastico {Xt} è un processo di Markov se La variabile n caratterizza una successione temporale discreta. In sostanza lo stato del sistema al passo n + 1 dipende solo dallo stato del sistema al passo n. Tale proprietà è soddisfatta da quasi tutti i sistemi nell’ambito della fisica e della scienza dei calcolatori. MEG!

Catene di Markov Nella dinamica delle catene di Markov abbiamo una matrice P, detta matrice di transizione, i cui elementi rappresentano delle probabilità di transizione tra diversi stati. Più precisamente pij è la probabilità condizionata che il sistema si trovi “domani” nello stato j essendo “oggi” nello stato i. P è una matrice stocastica la somma di ogni riga di P è uguale ad 1. Indicato con p0 il vettore iniziale di probabilità degli stati si è interessati a sapere cosa succede al variare di n al vettore pn definito come pn+1 = Ppn = Pnp0, n >= 0 La probabilità che la catena assuma lo stato si a t+1 si ottiene mediante l’equazione di Chapman-Kolmogorov

Catene di Markov Si noti che anche Pn è una matrice di transizione avente righe a somma 1, un suo generico elemento di indici i e j rappresenta quindi la probabilità che il sistema si trovi dopo n passi nello stato j trovandosi nello stato i all’istante iniziale. elemento ij della matrice Pn Si è interessati a sapere cosa succede per n crescente. Cosa possiamo dire sul “comportamento” della matrice Pn e di pn? un concetto chiave in questo contesto è la distribuzione stazionaria, che indicheremo d’ora in poi con π. una distribuzione π si dice stazionaria per una catena con probabilità di transizione P(x,y) se il vettore delle probabilità di essere in un certo stato è indipendente dalla condizione iniziale. Un aspetto fondamentale legato alle catene di Markov nel contesto della simulazione è lo studio del comportamento asintotico della catena al tendere ad infinito del numero di iterazioni. se la catena di Markov è irriducibile e aperiodica la distribuzione stazionaria è unica Se esiste una distribuzione limite della catena deve essere una distribuzione stazionaria

Esempio spazio degli stati S={pioggia, sole, nuvole} il tempo segue un processo di Markov: la probabilità del tempo di domani dipende solo da quello di oggi P(pioggia domani| pioggia oggi) = 0.5 P(sole domani| pioggia oggi) = 0.25 P(nuvole domani| pioggia oggi) = 0.25 Se oggi c’è il sole p0 = (0 1 0) tra 2 giorni p2= p0P2 =(0.375 0.25 0.375) e tra 7 p2= p0P7 =(0.4 0.2 0.4) Se oggi piove p0 = (1 0 0) tra 2 giorni p2= p0P2 =(0.4375 0.1875 0.375) e tra 7 p2= p0P7 =(0.4 0.2 0.4) Dopo un certo tempo il tempo atteso è indipendente dal vettore delle probabilità iniziali la catena ha raggiunto una distribuzione stazionaria, dove i valori di probabilità sono indipendenti dai valori iniziali di partenza

Irriducibilità e aperiodicità Una catena di Markov è irriducibile se in altre parole tutti gli stati comunicano con gli altri, è sempre possibile muoversi da uno stato all’altro Una catena di Markov è aperiodica se il numero di step richiesti per muoversi tra due stati non è un multiplo di qualche intero. La catena non è intrappolata in qualche ciclo di lunghezza fissata tra certi stati il periodo di uno stato x è il massimo comune divisore dell’insieme dx={n ≥ 1 : Pn(x, x) > 0}. uno stato x si dice aperiodico se dx = 1. Nel caso discreto Segue dalla definizione che gli stati di una catena irriducibile hanno tutti lo stesso periodo. Se uno stato `e aperiodico e ricorrente positivo, allora esso `e detto ergodico. Una catena `e aperiodica se lo sono tutti i suoi stati, ed ergodica se lo sono tutti i suoi stati.

Ergodicità Se {Xt} è una catena di Markox aperiodica e irriducibile con distribuzione stazionaria p p è l’unica distribuzione invariante La media campionaria degli stati della catena è stimatore consistente del valore atteso della distribuzione limite π, nonostante gli stati siano fra loro dipendenti. Si osservi che il teorema ergodico è per le catene di Markov l’equivalente della legge dei grandi numeri per i campioni i.i.d.

Catene reversibili Condizione sufficiente per avere una distribuzione stazionaria è la condizione di reversibilità Una catena di Markov che soddisfa tale condizione si dice reversibile tale condizione implica che la catena ammette distribuzione stazionaria L’importanza delle catene reversibili si spiega immediatamente: se esiste una distribuzione π che soddisfa la condizione di reversibilità per una catena di Markov irriducibile e aperiodica la distribuzione π è distribuzione stazionaria e anche distribuzione limite. La costruzione di catene di Markov con distribuzione limite si riduce a trovare probabilità di transizione che soddisfano la condizione di reversibilità

MCMC La strategia di campionamento MCMC consiste nella costruzione di catene di Markov aperiodiche e irriducibili per le quali la distribuzione stazionaria sia esattamente la distribuzione target π. Due sono gli algoritmi utilizzati nel contesto della simulazione MCMC: Algoritmo Metropolis-Hasting Algoritmo Gibbs Sampler La principale applicazione dei metodi MCMC consiste nella facilitazione delle procedure inferenziali in contesto Bayesiano, dove π è la distribuzione a posteriori dei parametri θ di interesse. I metodi più conosciuti per simulare una catena markoviana, in modo che questa converga ad una distribuzione data e ottenere cos`ı una serie di valori generati da essa, sono due: il metodo di Gibbs e quello di Metropolis- Hastings

MCMC Sia S = {s1, s2, . . . , sm} un insieme di stati, dove m è la cardinalità dell’insieme S, e sia X una variabile aleatoria a valori in S, con probabilità pj = P(X = sj ). Sia, inoltre, f una funzione definita su S a valori in R. Si vuole calcolare Tale quantità potrebbe essere calcolata direttamente utilizzando la formula sopra riportata. Tuttavia, se la cardinalità di S è molto grande, tale approccio può risultate eccessivamente oneroso. Alternativamente, la quantità potrebbe essere approssimata utilizzando il metodo di Monte Carlo, ovvero campionando la variabile X, e utilizzando lo stimatore di media campionaria. Questo presuppone, tuttavia, di saper campionare dall’insieme S, cosa non sempre scontata. Inoltre, in talune applicazioni, la densità di probabilità è nota soltanto a meno di una costante moltiplicativa il che rende impossibile l’utilizzo delle tecniche menzionate.

MCMC L’idea dei metodi Markov Chain Monte Carlo è la seguente se siamo in grado di costruire una catena di Markov Xn sugli stati S, che sia ergodica e abbia p come probabilità limite, possiamo approssimare la quantità q mediante Per la proprietà di ergodicità, sappiamo infatti che qualunque sia il punto di partenza della catena. Poiché i primi stati della catena sono fortemente influenzati dallo stato iniziale, è buona norma iniziare a calcolare la media campionaria, lungo la traiettoria della catena, soltanto dopo k iterazioni, con k scelto opportunamente. Definiamo dunque lo stimatore E’ opportuno notare che lo stimatore theta_k,n è solo asintoticamente non distorto, per k -> 1. Inoltre, la convergenza a theta è, in generale, piu` lenta rispetto al metodo Monte Carlo, in quanto i campioni Xi non sono tra di loro indipendenti. L’algoritmo di Hastings-Metropolis fornisce un modo per costruire una catena di Markov avente le proprietà`a sopra elencate.

Metropolis-Hastings Presenteremo ora l’algortimo MCMC universalmente noto con il nome di Metropolis-Hastings. Esso risale all’originale idea di Metropolis, alla base di svariati algoritmi di campionamento (i.e. simulated annealing): l’algoritmo è basato sull’analogia termodinamica con la posizione di equilibrio di un certo numero di molecole in una sostanza, la cui distribuzione è data da un’energia potenziale; dal momento che il campionamento diretto da questa distribuzione non è possibile, Metropolis propose l’utlizzo di metodi Monte Carlo. In seguito, Hastings riprese l’idea originale inserendola nel framework del campionamento da catene di Markov, e mantenendo l’accettazione o il rifiuto del valore campionato nel nucleo di transizione della catena.

Metropolis-Hastings L’idea è la seguente: supponiamo di poter costruire una catena di Markov {Xn} irriducibile e aperiodica, con un’unica legge limite p Se noi simuliamo l’evoluzione della catena la legge di Xn al tempo n, quando n ->∞, convergerà a p, indipendentemente dalla legge iniziale scelta. Consideriamo una matrice stocastica irriducibile e aperiodica t.c. qij≠0 se qji≠0 , i,j=1,…,m. Sia Yn la catena di Markov sugli stati S avente Q come matrice di transizione. La catena Yn non avrà, in generale, probabilità limite pari a p.

Metropolis-Hastings Costruiamo la matrice di transizione P definita da La catena Xn è ergodica, reversibile e ammette p come distribuzione limite L’equazione di bilancio è infatti soddisfatta analizzando i due casi l’eq è sempre soddisfatta Dall’equazione di bilancio dettagliato consegue che p è anche probabilità invariante di P, e quindi probabilità limite, essendo la catena ergodica: Abbiamo assunto per ipotesi che se rij != 0, allora anche rji != 0 e di consegueneza anche pigregoij e pij sono non nulli. Perciò, la matrice P ha gli stessi elementi non nulli della matrice R ed eredita, di conseguenza le proprietà di irriducibilità e aperiodicità. Lavorando su un insieme finito di stati, questo implica l’ergodicità della catena Xn.

Metropolis-Hastings - algoritmo Un modo per generare il nuovo stato Xk+1 della catena a partire da Xk campionare la variabile Y avente distribuzione qXkj e calcolare la probabilità di accettazione dello spostamento da xk a y accettare y con tale probabilità; come? estrarre t in [0,1] da una distribuzione di probabilità uniforme se se k=K stop else k=k+1 and go to step 2 Nel caso dell’algoritmo metropolis si accetta uno spostamento verso regioni con + alta probabilità e qualche volta ci si muove verso punti con + bassa probabilità. La condizione di simmetria è ad es soddisfatta se la proposal corrisponde ad un random walk q(x,y)=g(x-y) Un aspetto fondamentale è il criterio di stopping, ossia come decidere quando il campione è abbastanza largo Genero una catena di Markov perché le probabilità di transizione dipendono solo da Dopo tot passi la catena approssima la distribuzione stazionaria

Esercizio Si consideri un sistema di particelle che possa assumere solo m configurazioni possibili S = {1, 2, . . . ,m}. La probabilità che il sistema si trovi nella configurazione j-esima è pj = Ce−Ej/T (distribuzione di Boltzmann), essendo Ej = j2 l l’energia del sistema, T la temperatura e C la costante di normalizzazione. Scrivere una funzione Matlab che implementi l’algoritmo di Hastings-Metropolis, dati i valori m e T, il numero n di passi da simulare e lo stato iniziale X0 della catena e restituisca il vettore X degli stati visitati. Si prenda la matrice di transizione qij = 1/m (ovvero partendo dallo stato i, lo stato candidato è uno qualunque degli altri stati con uguale probabilità). Si prenda m = 100, T = 100 e si parta da uno stato a caso. Si valuti lo stimatore. confrontandolo col valore esatto stima del valor medio

function X = my_mh(m,T,n,X0) Esercizio S = {1, 2, . . . ,m}, pj = Ce−Ej/T , Ej = j2 function X = my_mh(m,T,n,X0) n numero di passi da simulare, stato iniziale X0 della catena , X vettore degli stati visitati, matrice di transizione qij = 1/m (partendo dallo stato i, lo stato candidato è uno qualunque degli altri stati con uguale probabilità) Algoritmo campionare la variabile Y avente distribuzione qXkj e calcolare la probabilità di accettazione dello spostamento da xk a y. P(Xk=si)=pi accettare y con tale probabilità; come? estrarre u in [0,1] da una distribuzione di probabilità uniforme se k=K stop else k=k+1 and go to step 2 stima del valor medio

Metropolis-Hastings Costruiamo un opportuno nucleo di transizione P(x, y) tale che p sia la distribuzione stazionaria Un modo immediato è scegliere una q tale che: p(x)P(x, y) = p(y)P(y, x), ∀ (x, y) In tal caso la catena è reversibile, condizione sufficiente perché p sia distribuzione stazionaria della catena risultante. Il nucleo P(x, y) è scelto tale che P(x, y) = q(x, y)α(x, y), se x !=y, dove q(x, y) è un nucleo di transizione arbitrario, mentre α(x, y) è una probabilità di accettazione. la probabilità di accettazione α(·, ·) è scelta in modo che la catena risultante sia reversibile, ovvero L’idea è generare dei campioni da una distribuzione target pi(x)=f(x)/K la costante di normalizzazione può essere non nota e difficile da calcolare Si sceglie un nucleo di transizione che soddisfa l’eq di bilancio => la catena è reversibile e la reversibilità è condizione sufficiente affinchè la distribuzione sia stazionaria

Metropolis-Hastings Per dimostrare che tale algoritmo genera una catena di Markov la cui densità di equilibrio è p(x) è sufficiente mostrare che il transition kernel P soddisfa l’equazione di bilancio Noi campioniamo da q(x,y) e accettiamo di muoverci con probabilità α(x, y) Il transition kernel è P(x,y)=q(x,y) α(x, y) si dimostra che con questo transition è soddisfatta l’equazione di bilancio la dimostrazione che la condizione di reversibilità è soddisfatta dalla scelta di P e dunque definisce una catena reversibile con distribuzione di equilibrio π, segue immediatamente dalla definizione della probabilità di accettazione.

Metropolis-Hastings La scelta del nucleo q(·, ·) è arbitraria, e fornisce uno strumento molto flessibile per la costruzione dell’algoritmo; 5 2 1 3 4 1 1 2 3 4 4 5 …

Metropolis-Hastings Il nucleo di transizione q definisce solo una possibile mossa della catena, che deve essere confermata in base ad α; per tale ragione viene solitamente chiamato proposal. q deve dosare opportunamente i movimenti proposti in modo che non risulti troppo basso, ma lo spazio degli stati venga visitato sufficientemente in fretta. La catena potrebbe rimanere nello stesso stato per molte iterazioni: la potenza del metodo si esplica quando si riesce ad avere un tasso di accettazione non troppo basso. Monitoraggio: percentuale di iterazioni in cui la proposta è accettata. Deve essere facile campionare dalla proposal, in quanto il metodo sostituisce il campionamento da p (difficile) con molti campionamenti da q (facili); I movimenti della catena sono determinati dalla proposal q, dunque di fatto è la scelta di q a controllare il trade-off su α: - se mi muovo poco cresce e accetterò spesso, ma d’altra parte il metodo visiterà più lentamente tutto lo spazio dei parametri (convergenza lenta); - se mi muovo molto visito prima l’intero spazio dei parametri, ma d’altra parte α decresce diminuendo la probabilità di accettare.

Metropolis-Hastings - algoritmo inizializzare il contatore delle iterazioni k=0 ed il valore iniziale x0 per lo stato della catena estrarre y da una proposal distribution q(xk,y) e calcolare la probabilità di accettazione dello spostamento da xk a y accettare y con tale probabilità; come? estrarre t in [0,1] da una distribuzione di probabilità uniforme se se k=K stop else k=k+1 and go to step 2 Nel caso dell’algoritmo metropolis si accetta uno spostamento verso regioni con + alta probabilità e qualche volta ci si muove verso punti con + bassa probabilità. La condizione di simmetria è ad es soddisfatta se la proposal corrisponde ad un random walk q(x,y)=g(x-y) Un aspetto fondamentale è il criterio di stopping, ossia come decidere quando il campione è abbastanza largo Dopo tot passi la catena approssima la distribuzione stazionaria

Metropolis L'algoritmo base genera una sequenza stocastica di stati, a partire da x0, e la seguente regola dinamica per passare dallo stato x a y: propone un candidato y a partire da q(y,x) che potrebbe dipendere da x. Se il kernel è simmetrico q(x,y)=q(y,x) per ogni x,y allora La generazione del candidato si può implementare come y = x + e. Possibili scelte per la distribuzione di e sono distribuzioni di Cauchy, Gaussiane, o T con pochi gradi di liberta. se y usa meno energia dello stato corrente x si accetta con probabilità 1. Altrimenti si accetta con una probabilità esponenzialmente decrescente nella dierenza di energia; formalmente y è uno stato “candidato” per costruire una catena di Markov Xt a tempo discreto con spazio degli stati I, distribuzione di equilibrio pi, generato dalla densità di probabilità di transizione, q(x, ·) Lo stato candidato è accettato con probabilità alpha in generale q definisce sempre transizioni simmetriche rispetto alle precedenti posizioni: quindi q(θ, φ) = q(φ, θ) per ogni (θ, φ), e la probabilità di accettazione diventa

accettare y con tale probabilità; come? inizializzare il contatore delle iterazioni k=0 ed il valore iniziale x0 per lo stato della catena estrarre y da una proposal distribution q(xk,y) e calcolare la probabilità di accettazione dello spostamento da xk a y accettare y con tale probabilità; come? estrarre t in [0,1] da una distribuzione di probabilità uniforme se se k=K stop else k=k+1 and go to step 2 Nel caso dell’algoritmo metropolis si accetta uno spostamento verso regioni con + alta probabilità e qualche volta ci si muove verso punti con + bassa probabilità. La condizione di simmetria è ad es soddisfatta se la proposal corrisponde ad un random walk q(x,y)=g(x-y) Un aspetto fondamentale è il criterio di stopping, ossia come decidere quando il campione è abbastanza largo Dopo tot passi la catena approssima la distribuzione stazionaria

Esercizio Si assuma di voler campionare da una densità di Cauchy non normalizzata Usiamo il random walk come proposal fare il contour plot della densità il random step da x a y è distribuito come white noise, W=Y-X che ha densita N(0,gamma^2I)

Riassumendo Le tecniche Monte Carlo per l’approssimazione di integrali possono essere contestualizzate in ambito statistico (inferenziale) e sfruttate per il calcolo di tutte quelle quantità di interesse statistico esprimibili sottoforma di integrali. Le tecniche Markov Chain Monte Carlo, che permettono di ottenere un campione da una qualsiasi distribuzione target di interesse, consentono tra le altre cose di utilizzarlo per calcolare stime e fare inferenza. In questo senso possono considerarsi una generalizzazione delle tecniche Monte Carlo. I metodi di inferenza statistica Bayesiana, basati sulla simulazione stocastica, utilizzano campioni dalla distribuzione a posteriori (target) per riassumere l’informazione in essa contenuta. Ci occuperemo ora di descrivere tecniche di tipo MCMC, che permettono di ottenere un campione dalla distribuzione target di interesse, e di contestualizzare il loro utilizzo nell’ambito dell’inferenza Bayesiana. L'applicazione piu comune in cui vengono utilizzate queste tecniche e il calcolo di integrali multidimensionali, che compaiono spesso nell'ambito della statistica Bayesiana, della fisica computazionale, della biologia computazionale e della linguistica computazionale.