Central Limit Theorem and Law of Large Numbers

Huang, Xuanqiang Angelo

Home » Notes

Central Limit Theorem and Law of Large Numbers

March 5, 2024 · Reading Time: 9 minutes · By Xuanqiang Angelo Huang

Bounds

Markov Bound

Questo bound è abbastanza banale se fatto da un punto di vista grafico, comunque afferma che

P (X \geq y) \leq \frac{E [ X ]}{y}

Il motivo è che (assumendo che $X$ sia una variabile aleatoria non negativa)

y P (X \geq y) = y \int_{x = y}^{+ \infty} f (x) d x \leq \int_{x = y}^{+ \infty} x f (x) d \leq \int_{- \infty}^{+ \infty} x f (x) d = E [X]

Il che finisce la dimostrazione.

Chebychev Bound

Questa è una conseguenza abbastanza diretta sul bound precedente: Afferma che

P (∣ x - E [X]∣ \geq y) \leq \frac{σ ^{2}}{y ^{2}}

E in pratica dice che all'infinito viene tutto compattata sul valore atteso La dimostrazione è abbastanza semplice, si sostituisce $(x - E [X])^{2}$ su $X$ di Markov e $ε^{2}$ a $y$ e poi si dovrebbe già avere il risultato

Chernoff Bound

Asserisce che

P (Z \geq t) \leq s > 0 in f e^{- s t} M_{Z} (s) = s > 0 in f e^{- s t} E [e^{s Z}]

Moments of random variable

https://en.wikipedia.org/wiki/Moment-generating_function Per capire il significato di questo bound invece, è necessario prima capire cosa sia un moment generating function. È una funzione generale che crea i momenti di una variabile aleatoria. Un momento per una variabile aleatoria è descrivibile come n-esimo momento: $E [X^{n}]$ La funzione generatrice dei momenti è describile come:

M_{X} (λ) = E [exp (λ X)]

Il motivo per cui vale, è che con l'espansione di taylor, vedi Hopital, Taylor, Peano Possiamo estrarre in modo abbastanza semplice i momenti: Infatti:

e^{tX} = 1 + tX + \frac{t ^{2} X ^{2}}{2 !} + \frac{t ^{3} X ^{3}}{3 !} + \dots

Quindi per esempio se volessimo il primo momento, prendiamo la derivata rispetto a $t$ e settiamo $t = 0$ , perché la cosa molto bella è che i coefficienti si cancellano tutti, e l'unico termine che rimane senza $t$ è il momento cercato, per questo motivo estraiamo easy i momenti.

Dimostrazione Chernoff's Bound

Anche questa è una conseguenza abbastanza immediata di Markov, viene affermato che

P (Z \geq t) \leq s > 0 in f e^{- s t} M_{Z} (s) = s > 0 in f e^{- s t} E [e^{s Z}]

Guardandolo dall'altro in basso non ho idea del perché valga.

La dimostrazione avviene così

P (Z \geq t) = P (e^{s Z} \geq e^{s t}) \leq \frac{E [ e ^{s Z} ]}{e ^{s t}}

Dove $s$ è qualunque $s > 0$ perché per quello la funzione resta crescente, e quindi la dimostrazione vale ancora. La cosa interessante di questo bound è che la probabilità che succeda scende in modo esponenziale.

Hoeffding's Inequality

Anche conosciuto come Chernoff or Okamoto Bound. L'enunciato è che se considero la somma delle classiche variabili aleatorie con stessa media varianza $S_{n}$ allora vale che, tale per cui con probabilità $1$ vale che $a_{i} \leq X_{i} \leq b_{i}$ . Ricorda che $S_{n} = \sum_{i = 1}^{n} X_{i}$

P (∣ S_{n} - E [S_{n}]∣ \geq t) \leq 2 e^{- 2 t^{2} / \sum (b_{i} - a_{i})^{2}}

Questo ci dice quanto velocemente la media converge nel valore atteso che ci aspettiamo per la legge dei grandi numeri.

Simpler form

Se supponiamo che $X_{i}$ siano tutte in $[0, C]$ allora possiamo scrivere la relazione in forma più elegante come

P (∣ S_{n} - E [S_{n}]∣ \geq t) \leq 2 e^{- 2 N t^{2} / C^{2}}

Ci permette di avere un bound su accuratezza in funzione del numero di samples che andiamo a prendere.

La dimostrazione di questo mi sembra abbastanza tecnica, c'è bisogno di guardare https://web.eecs.umich.edu/~cscott/past_courses/eecs598w14/notes/03_hoeffding.pdf Oppure https://cs229.stanford.edu/extra-notes/hoeffding.pdf.

Non ho bene capito l'utilità se non nel caso Bernoulliano in cui sembra si semplifichi abbastanza questo.

This inequality has been proven quite useful. See Provably Approximately Correct Learning, Tabular Reinforcement Learning.

Hoeffding's Lemma

E [e^{s X}] \leq exp (\frac{s ^{2} ( b - a ) ^{2}}{8})

Proof of Hoeffding's Inequality

TODO.

Law of Large numbers

Weak Law

La dimostrazione di questo è molto semplice, basta avere Chebicheff

Questa è l'intuizione di quanto presente nell WLLN Central Limit Theorem and Law of Large Numbers-20240127132749421

Abbiamo mean square convergence.

Abbiamo che vale:

P ((\frac{S _{n} - n X ˉ}{n})^{2} > y) \leq \frac{σ _{X}^{2}}{n y}

E poi settando $y = ε^{2}$ si può avere il risultato. Nella forma corretta. Vedere capitolo 1.5 in questo.

Si può scrivere:

n \to \infty lim E [(\frac{S _{n}}{n} - \overset{ˉ}{X})^{2}] = 0

In questo senso possiamo dire che la successione $S_{n}$ arriverà sempre alla media.

Ricordiamo che $S_{n} = X_{1} + X_{2} + \dots + X_{n}$ . Dove tutte le variabili $X_{i}$ sono IID con media $\overset{ˉ}{X}$ e varianza $σ^{2}$ .

Weak law without finite variance

Potremo scrivere

n \to \infty lim P (∣ \frac{S _{n}}{n} - E [X] ∣> ε) = 0

Teorema 1.5.3 nelle note. Questa è la convergenza in probabilità della serie di variabili aleatorie. Con strumenti più avanzati è possibile dimostrare anche la convergenza con probabilità 1 anche in casi di varianza infinita. Questa è l'unica differenza con la versione Strong della legge dei grandi numeri.

Convergence types

We need a lot of care when defining the notions of convergence for probability distributions because the same ideas that applied to the real numbers do not apply here anymore. For example, in calculus if we have a sequence $x_{1}, \dots, x_{n} \dots$ such that $\forall i \in N, x_{i} = x$ for a certain $x$ it's clear that $lim_{n \to \infty} x_{n} = x$ , by that definition. The same does not apply if we take a sequence of normally distributed random values $X_{1}, \dots, X_{n} \dots$ , this does not converge to the distribution $X \sim N (0, 1)$ in the classical sense, because we can't directly compare them. For instance $P (X_{n} = X) = 0$ because both are continuous random variables, and the probability of it is always zero for the integral has zero length. This is why it's important to distinguish various types of convergence in probability.

Convergence in distribution

Una sequenza di variabili aleatorie $Z_{1}, Z_{2}, \dots$ converge in distribuzione se vale

n \to \infty lim F_{Z_{n}} (z) = F_{Z} (z)

Per ogni $z$ in cui $F_{Z} (z)$ è continua. Una sequenza di distribuzioni che converge a una distribuzione. Un esempio in cui questo vale è il central limit theorem in cui definiamo

Z_{n} = \frac{S _{n} - n X ˉ}{σ n}

Converge alla normale, 0, 1 gaussiana. Un altro esempio è la weak law of large numbers, in cui $\frac{S _{n}}{n}$ converge a $\overset{ˉ}{X}$ .

Convergence in probability

Given the sequence of random variables $Z_{1}, Z_{2}, \dots$ , this converges in probability to $Z$ if the following holds:

n \to \infty lim P (∣ Z_{n} - Z ∣> ε) = 0

So we care about the value of the single probability. Vale anche qui l'esempio della WLLN.

Convergence in mean square

Una sequenza di $Z_{1}, Z_{2}, \dots$ converge in mean square a $Z$ se vale

n \to \infty lim E [(Z_{n} - Z)^{2}] = 0

La nota è che Mean Square -> Convergence probability -> Convergence in distribution. This is usually useful just to prove the convergence in probability.

Convergence almost everywhere

(Il prof. lo chiama with probability 1 e secondo lui serve sapere measure theory per poter comprendere la definizione originale).

Definiamo una sequenza $Z_{1}, Z_{2}, \dots$ e $Ω$ il suo spazio campionatorio e sia $Z$ una altra variabile aleatoria, allora la sequenza converge con probabilità 1 se vale

P ({ω \in Ω : n \to \infty lim Z_{n} (ω) = Z (ω)}) = 1

Ossia, per definizione di variabile aleatoria $Z_{n} (ω)$ è un valore reale, queste sequenze di numeri reali a volte convergono, se convergono vogliamo che il valore sia esattamente $Z (ω)$ . Quello che vogliamo dire con questo è che la probabilità degli elementi dello spazio campionatorio che creano sequenze che convergono è uguale a 1.