Introduzione alle catene di Markov
La proprietà di Markov
Una sequenza di variabili aleatorie gode della proprietà di Markov se vale:
Ossia posso scordarmi tutta la storia precedente, mi interessa solamente lo stato precedente per sapere la probabilità attuale.
Da un punto di vista filosofico/fisico, ha senso perché mi sta dicendo che posso predire lo stato successivo se ho una conoscenza (completa, (lo dico io completo, originariamente non esiste)) del presente.
La catena di Markov
La catena di Markov è una successione di variabili aleatorie che possiede la proprietà di Markov. Solitamente lo rappresentiamo a grafi oppure tramite la matrice di transizione. A me piace più la versione a grafi. Matematicamente scriviamo su uno spazio di stati tali per cui per ogni abbiamo:
Queste catene sono dette time-homogeneus. Con la probabilità di Markov si può dimostrare che se con il vettore riga, allora la probabilità della distribuzione sarà . We have that is a stationary distribution if is valid. A study of this property is sometimes interesting.
Catena di 3 variabili
Siano è chiaro che se viene formata la Catena di Markov allora deve valere
Con Bayes si può dimostrare che vale anche la catena contraria:
Altra cosa è che deve fare se e solo se sono indipendenti, dato ossia se vale
Che dovrebbe essere una conseguenza diretta della parte di sopra. Una altra osservazione è che se vale quella catena, vale anche l'inversa, ossia .
Abbiamo analizzato molte catene di questo genere quando abbiamo parlato di d-separabilità in Counterfactual Invariance.
Data processing inequality
Se abbiamo una catena di Markov allora vale che
Perché una parte di computazione è possibile modellarlo con la catena di Markov. E mi sta dicendo che l'informazione comune all'input con l'output o output dopo seguente computazione viene sempre meno con più computazione, e anche che non aggiungo informazione con più computazione.
The Data Processing Inequality states that given three random variables and the given graphical model:
Then it is true that:
If the equality is satisfied then is the sufficient statistic for . This has some relation with The Exponential Family.
Dimostrazione Sappiamo che la mutua informazione è sempre non negativa. Possiamo poi utilizzare la propria della mutua informazione condizionale:
Definizioni Comuni
Raggiungibilità
Il nodo è raggiungibile da un nodo se esiste un numero di passi , tale per cui
Molto più facile vedere sta cosa se lo rappresentiamo come un comunissimo grafo.
Classe di stati
Sono un insieme di stati tutti raggiungibili fra di loro (comunque presi due stati all'interno della classe, esiste un percorso che parte da uno e finisce sull'altro per dire).
Recurrent vs Transient
È recurrent se per ogni nodo, tutti i nodi raggiungibili da un nodo raggiungono anche il nodo stesso. Transient se non è recurrent. Alcuni chiamano la recurrent come irreducible come in (Cover & Thomas 2012).
Periodic vs Aperiodic
Sia il massimo comune divisore per tutti gli tali per cui vale (ossia può raggiungere sé stesso con probabilità non nulla), allora è periodico se altrimenti è aperiodico. Questo implica che non esistono cicli di passi che siano divisibili per un numero , e abbiamo una definizione un poco più intuitiva di periodicità. Una catena di Markov è aperiodica se tutti i nodi sono aperiodici.
Ergodic Markov Chain
Una catena di Markov si dice Ergodico se è recurrent e aperiodico. Si può anche definire come se esista un finito tale per cui tutti gli stati siano raggiungibili da tutti gli altri in esattamente steps, questa è una definizione molto più intuitiva, che è anche giustificata dal teorema seguente.
Possiamo avere un teoremino carino su queste tipologie di catene, ed è più o meno il motivo per cui si chiamano ergodiche, ossia che una particella che segue questa legge prima o poi va a visitare tutti gli stati una volta. Abbiamo come teorema:
Con il numero totale di stati, e qualunque stato iniziale o finale. Dimostrazione è un esercizio. Può essere molto utile il Chicken McNugget Theorem per dimostrare questo, e fare ragionamenti sul massimo risultato ottenibile. Comunque possiamo dire che esiste un tale per cui tutti gli stati sono raggiungibili da tutti gli altri in steps, la dimostrazione si può trovare nel teorema 1.7 di questo Originariamente preso da qui al corso di discrete stochastic processes.
Unichain
Una catena che contiene una singola classe recurrent più alcuni stati transienti
Chapman-Kolmogorov Equation
Alla fine è una relazione molto semplice, che deriva in modo facile dalle matrici di transizione, dice che Sia una matrice di transizione per un processo di Markov, allora
Ossia posso moltiplicare matrici di transizione assieme per avere la probabilità di muovermi da uno stato a uno stato in passi.
Possiamo scrivere questa equazione nella forma continua, che è utile per l'analisi di processi di diffusione: Quando scritto è preso da qui, pagina 30: in questo caso sono i passi di tempo
Convergenza
Ha senso pensare che una catena di Markov converga nel proseguire delle transazioni.
Teorema di convergenza per catene ergodiche
Questo è un teorema importante. Fatto sta che esiste una distribuzione stazionaria una volta che ho fatto abbastanza passi. Da fare.
Convergenza per unichains ergodiche.
Stationary distributions
Una distribuzione è detta stazionaria se vale che . ossia la probabilità di finire in uno stato dopo aver fatto una altra mossa seguendo la distribuzione è uguale a .
The Ergodic Theorem
Questa è una generalizzazione della Legge dei grandi numeri (guarda qui Central Limit Theorem and Law of Large Numbers), per catene di Markov ergodiche. In generale ci permette di utilizzare catene di markov per fare stime di probabilità, elementi che risultano molto utili per fare Markov Chain Monte Carlo.
Questo teorema asserisce che data una catena di Markov con distribuzione stazionaria se spazio finito e una funzione allora vale che
Questo teorema ci permetterà di fare sampling, utilizzando catene di Markov.
See appendix C of “Markov chains and mixing times” (Levin and Peres, 2017) for a proof.
Questo ci dice che l'estimatore che abbiamo è unbiased.
Inoltre abbiamo un burn-in time prima di iniziare a fare sampling in modo corretto, quindi i primi samples vengono scartati.
Detailed Balance Equation
Intuitivamente questa assunzione ci dice che per catene di Markov Ergodiche tale che per cui probabilità di andare da e da è esattamente uguale, cosa non ovvia per catene di Markov qualunque, ammettono una distribuzione stazionaria per ogni stato . Questo ci da un modo per costruire Markov Chains in modo che producano seguendo una distribuzione data a priori.
Diciamo che una catena di Markov soddisfa questa equazione rispetto a una distribuzione se vale che
Queste catene di Markov si dicono anche reversible per l'osservazione di sopra.
Se una catena di Markov è reversible per una certa distribuzione allora quella è la distribuzione stazionaria della catena.
Dimostriamo quanto sopra.
Che è la distribuzione stazionaria che volevamo. Si vede che è stazionaria perché facendo un update della catena, la probabilità resta ancora la stessa, per ogni stato di partenza.
Con rewards
Vogliamo associare a ogni stato un reward Si può creare allora una altra variabile aleatoria che prende la variabile aleatoria di Markov e lo mappa a un reward. Quello che ci interessano di più sono le expectation dei rewards.
Noi vogliamo il valore
E per la proprietà di Markov credo sia la stessa cosa quando non parto da step 0.
Aggregate reward function
Questo è definito anche come value function in Reinforcement Learning, a introduction.
Se la catena è convergente, abbiamo che anche il value function è convergente a un valore preciso, ed è:
Indipendentemente allo stato iniziale (che stupisce molto).
References
[1] Cover & Thomas “Elements of Information Theory” John Wiley & Sons 2012