Introduzione alle catene di Markov

La proprietà di Markov

Una sequenza di variabili aleatorie $X_{1}, X_{2}, X_{3}, \dots$ gode della proprietà di Markov se vale:

$$ P(X_{n}| X_{n - 1}, X_{n - 2}, \dots, X_{1}) = P(X_{n}|X_{n-1}) $$

Ossia posso scordarmi tutta la storia precedente, mi interessa solamente lo stato precedente per sapere la probabilità attuale.

Da un punto di vista filosofico/fisico, ha senso perché mi sta dicendo che posso predire lo stato successivo se ho una conoscenza (completa, (lo dico io completo, originariamente non esiste)) del presente.

La catena di Markov

$$ \mathbb{P}(X_{t+1} = j \mid X_{0} = i_{0}, \dots, X_{t} = i_{t}) = \mathbb{P}(X_{t + 1} = j \mid X_{t} = i_{t}) = P_{ij} $$

Queste catene sono dette time-homogeneus. Con la probabilità di Markov si può dimostrare che se $X_{0} \sim \mu_{0}$ con $\mu_{0}$ il vettore riga, allora la probabilità della distribuzione $X_{t}$ sarà $\mu_{t} = \mu_{0}P^{t}$. We have that $\mu$ is a stationary distribution if $\mu = \mu P$ is valid. A study of this property is sometimes interesting.

Catena di 3 variabili

$$ p(x, y, z) = p(x)p(y|x)p(z|y) $$$$ p(x, y, z) = p(z)p(y|z)p(x|y) $$$$ P(x, z|y) = P(x|y)P(z|y) $$

Che dovrebbe essere una conseguenza diretta della parte di sopra. Una altra osservazione è che se vale quella catena, vale anche l’inversa, ossia $Z \to Y \to X$.

Abbiamo analizzato molte catene di questo genere quando abbiamo parlato di d-separabilità in Counterfactual Invariance.

Data processing inequality

$$ I(X ; Y) \geq I(X; Z) $$

Perché una parte di computazione è possibile modellarlo con la catena di Markov. E mi sta dicendo che l’informazione comune all’input $X$ con l’output $Y$ o output $Z$ dopo seguente computazione viene sempre meno con più computazione, e anche che non aggiungo informazione con più computazione.

$$ X \to Y \to Z $$$$ I(X; Y) \geq I(X; Z) $$

If the equality is satisfied then $Z$ is the sufficient statistic for $Y$. This has some relation with The Exponential Family.

$$ \begin{align} I(X;Z) &= I(X; Y, Z) - I(X; Y \mid Z) \\ &= I(X;Y) - I(X; Z \mid Y)- I(X; Y \mid Z) \\ &\implies I(X;Y) \geq I(X;Z) \end{align} $$

Definizioni Comuni

Raggiungibilità

$$ P_{ij}^{m} > 0 $$

Molto più facile vedere sta cosa se lo rappresentiamo come un comunissimo grafo.

Classe di stati

Sono un insieme di stati tutti raggiungibili fra di loro (comunque presi due stati all’interno della classe, esiste un percorso che parte da uno e finisce sull’altro per dire).

Recurrent vs Transient

È recurrent se per ogni nodo, tutti i nodi raggiungibili da un nodo $i$ raggiungono anche il nodo $i$ stesso. Transient se non è recurrent. Alcuni chiamano la recurrent come irreducible come in (Cover & Thomas 2012).

Periodic vs Aperiodic

Sia $d$ il massimo comune divisore per tutti gli $m$ tali per cui vale $P_{ii}^{m} > 0$ (ossia può raggiungere sé stesso con probabilità non nulla), allora è periodico se $d > 1$ altrimenti è aperiodico. Questo implica che non esistono cicli di passi che siano divisibili per un numero $d$, e abbiamo una definizione un poco più intuitiva di periodicità. Una catena di Markov è aperiodica se tutti i nodi sono aperiodici.

Ergodic Markov Chain

Una catena di Markov si dice Ergodico se è recurrent e aperiodico. Si può anche definire come se esista un $t$ finito tale per cui tutti gli stati siano raggiungibili da tutti gli altri in esattamente $t$ steps, questa è una definizione molto più intuitiva, che è anche giustificata dal teorema seguente.

$$ P^{(M - 1)^{2} + 1}_{ij} > 0 $$

Con $M$ il numero totale di stati, e $ij$ qualunque stato iniziale o finale. Dimostrazione è un esercizio. Può essere molto utile il Chicken McNugget Theorem per dimostrare questo, e fare ragionamenti sul massimo risultato ottenibile. Comunque possiamo dire che esiste un $t$ tale per cui tutti gli stati sono raggiungibili da tutti gli altri in $t$ steps, la dimostrazione si può trovare nel teorema 1.7 di questo Originariamente preso da qui al corso di discrete stochastic processes.

Unichain

Una catena che contiene una singola classe recurrent più alcuni stati transienti

Chapman-Kolmogorov Equation

$$ P^{n + m}_{ij} = \sum_{k = 0}^{N} P_{ik}^{n} P_{kj}^{m} $$

Ossia posso moltiplicare matrici di transizione assieme per avere la probabilità di muovermi da uno stato $i$ a uno stato $j$ in $n + m$ passi.

Possiamo scrivere questa equazione nella forma continua, che è utile per l’analisi di processi di diffusione: Quando scritto è preso da qui, pagina 30: in questo caso $t$ sono i passi di tempo

Convergenza

Ha senso pensare che una catena di Markov converga nel proseguire delle transazioni.

Teorema di convergenza per catene ergodiche

Questo è un teorema importante. Fatto sta che esiste una distribuzione stazionaria una volta che ho fatto abbastanza passi. Da fare.

Convergenza per unichains ergodiche.

Stationary distributions

Una distribuzione $\pi$ è detta stazionaria se vale che $\pi = \pi P$. ossia la probabilità di finire in uno stato $x$ dopo aver fatto una altra mossa seguendo la distribuzione $\pi$ è uguale a $\pi(x)$.

The Ergodic Theorem

Questa è una generalizzazione della Legge dei grandi numeri (guarda qui Central Limit Theorem and Law of Large Numbers), per catene di Markov ergodiche. In generale ci permette di utilizzare catene di markov per fare stime di probabilità, elementi che risultano molto utili per fare Markov Chain Monte Carlo.

$$ \lim_{n \to \infty} \frac{1}{n}\sum_{t = 0}^{n}f(X_{t}) = \sum_{x \in S}\pi(x)f(x) \approx \mathbb{E}_{x \sim \pi}[f(x)] $$

Questo teorema ci permetterà di fare sampling, utilizzando catene di Markov.

See appendix C of “Markov chains and mixing times” (Levin and Peres, 2017) for a proof.

Questo ci dice che l’estimatore che abbiamo è unbiased.

Inoltre abbiamo un burn-in time prima di iniziare a fare sampling in modo corretto, quindi i primi samples vengono scartati.

Detailed Balance Equation

Intuitivamente questa assunzione ci dice che per catene di Markov Ergodiche tale che per cui probabilità di andare da $x \to x'$ e da $x' \to x$ è esattamente uguale, cosa non ovvia per catene di Markov qualunque, ammettono una distribuzione stazionaria $Q(x)$ per ogni stato $Q$. Questo ci da un modo per costruire Markov Chains in modo che producano seguendo una distribuzione $Q$ data a priori.

$$ \pi(x)P(x \mid y) = \pi(y)P(y\mid x) $$

Queste catene di Markov si dicono anche reversible per l’osservazione di sopra.

Se una catena di Markov è reversible per una certa distribuzione $\pi$ allora quella è la distribuzione stazionaria della catena.

$$ \begin{align} P(X_{t + 1} = x') = \\ \sum_{x}\pi(X_{t} = x)P(X_{t + 1} = x' \mid x) = && \text{ using marginalization and product}\\ \sum_{x}\pi(X_{t} = x')P(X_{t+1} =x \mid x') = && \text{reversibility}\\ \pi(X_{t} = x')\sum_{x}P(X_{t+1} =x \mid x') = \pi( x') \\ \end{align} $$

Che è la distribuzione stazionaria che volevamo. Si vede che è stazionaria perché facendo un update della catena, la probabilità resta ancora la stessa, per ogni stato di partenza.

Con rewards

Vogliamo associare a ogni stato $i$ un reward $r_{i}$ Si può creare allora una altra variabile aleatoria che prende la variabile aleatoria di Markov $X_{i}$ e lo mappa a un reward. Quello che ci interessano di più sono le expectation dei rewards.

Noi vogliamo il valore

$$ E[R(X_{n})| X_{0} = i] = \sum_{j}r_{j}P_{ij}^{n} $$

E per la proprietà di Markov credo sia la stessa cosa quando non parto da step 0.

Aggregate reward function

Questo è definito anche come value function in Reinforcement Learning, a introduction.

$v_{i}(n) = E[R(X_{m}) + \dots + R(X_{m + n - 1}) | X_{m} = i]$

Se la catena è convergente, abbiamo che anche il value function è convergente a un valore preciso, ed è:

$$ g = \sum \pi_{j}r_{j} = \vec{\pi} \cdot \vec{r} $$

Indipendentemente allo stato iniziale (che stupisce molto).

References

[1] Cover & Thomas “Elements of Information Theory” John Wiley \& Sons 2012

Introduzione alle catene di Markov#

La proprietà di Markov#

La catena di Markov#

Catena di 3 variabili#

Data processing inequality#

Definizioni Comuni#

Raggiungibilità#

Classe di stati#

Recurrent vs Transient#

Periodic vs Aperiodic#

Ergodic Markov Chain#

Unichain#

Chapman-Kolmogorov Equation#

Convergenza#

Teorema di convergenza per catene ergodiche#

Convergenza per unichains ergodiche.#

Stationary distributions#

The Ergodic Theorem#

Detailed Balance Equation#

Con rewards#

Aggregate reward function#

References#