Logistic Regression

Huang, Xuanqiang Angelo

Logistic Regression

September 20, 2024 · Reading Time: 5 minutes · By Xuanqiang Angelo Huang

Table of Contents

Introduzione alla logistic regression
- Giustificazione del metodo
- Ottimizzazione discesa del gradiente

Queste note sono molto di base. Per cose leggermente più avanzate bisogna guardare Bayesian Linear Regression, Linear Regression methods.

Introduzione alla logistic regression

Giustificazione del metodo

Questo è uno dei modelli classici, creati da Minsky qualche decennio fa In questo caso andiamo direttamente a computare il valore di $P (Y ∣ X)$ durante l'inferenza, quindi si parla di modello discriminativo.

Introduzione al problema

Supponiamo che

$Y$ siano variabili booleane
$X_{i}$ siano variabili continue
$X_{i}$ siano indipendenti uno dall'altro.
$P (X_{i} ∣ Y = k)$ sono modellate tramite distribuzioni gaussiane $N (μ_{ik}, σ_{i})$
- NOTA! la varianza non dipende dalle feature!, questo mi permetterebbe di poi togliere la cosa quadratico dopo, rendendo poi l'approssimazione lineare
- Per esempio se utilizziamo nelle immagini, avrebbe senso normalizzare pixel by pixel, e non image wide con un unico valore, è una assunzione, che se funziona dovrebbe poi far andare meglio la regressione logistica!
$Y$ è una distribuzione bernoulliana.

Ci chiediamo come è fatto $P (Y ∣ X)$ ?

Caratterizzazione di P(Y|X)

Proviamo a calcolare analiticamente come è fatto $P (Y ∣ X)$ usando le assunzioni di sopra

Theorem Assunte le cose di sopra si avrà che

P (Y = 1∣ X = ⟨ x_{1}, \dots, x_{n} ⟩) = \frac{1}{1 + exp ( w _{0} + \sum _{i} w _{i} x _{i} )}

Logistic Regression-1697464292967 Nella derivazione di sopra si ha che $π = P (Y = 1)$

E poi sappiamo che

ln \frac{P ( X _{i} ∣ Y = 0 )}{P ( X _{i} ∣ Y = 1 )} = ln \frac{e ^{- \frac{( X _{i} - μ _{i 0} ) ^{2}}{2 σ _{0}^{2}}}}{e ^{- \frac{( X _{i} - μ _{i_{1}} ) ^{2}}{2 σ _{1}^{2}}}} = - \frac{( X _{i} - μ _{i 0} ) ^{2}}{2 σ _{i}^{2}} + \frac{( X _{i} - μ _{i 1} ) ^{2}}{2 σ _{i}^{2}}

E si può notare che poi abbiamo il risultato di sopra e diventa sensato avere la forma di Sigmoid, che esce in modo molto molto naturale

Dalla parte in blu capiamo che è una cosa lineare, perché se è maggiore di zero allora è meglio la probabilità di stare da una parte rispetto all'altra.

Funzione di Sigmoid

Logistic Regression-1697464563385 Questo ci dà una motivazione del motivo per cui utilizziamo

Funzione di sigmoid: σ (x) = \frac{1}{1 + e ^{- x}}

Questa funzione si può vedere come un caso particolare di Softmax Function.

Derivata Si può calcolare che ha una derivata molto molto carina, ma è anche il problema per cui esiste vanishing gradient.

σ^{'} (x) = σ (x) (1 - σ (x))

Quindi diventa vero che

P (Y = 1∣ x, w) = σ (w_{0} + i \sum w_{i} x_{i})

Possiamo scrivere la probabilità di ogni singolo campione come in figura sotto

Funzione di loss

Logistic Regression-1697462930410 Che sembra una cross-entropy classica, che però non ha una soluzione analitica, per questo motivo si utilizza discesa del gradiente.

Ottimizzazione discesa del gradiente

Intuizione sul gradiente

abbiamo alla fine che il gradiente è

\frac{δ L ( w )}{δ w _{i}} = l \sum x_{i}^{l} \cdot (y^{l} - α^{l})

Perché già $(y - α)$ sta misurando in un certo senso la differenza (l'errore), e il prodotto lo sta legando all'input preciso, quindi è molto bello quando la formula è interpretabile in modo fisico quasi.

Sometimes is clearer to write $α$ in an explicit fashion:

\nabla_{w} ℓ (w) (x, y) = [σ (w \cdot x) - y] x

Calcolo del gradiente cross entropy

a^{l} = σ (w_{0} + i \sum x_{i} w_{i}) = σ (z)

l \sum lo g P (Y = y^{l} ∣ x^{l}, w) = l \sum y^{l} lo g (α^{l}) + (1 - y^{l}) (1 - lo g (α^{l}))

Dalla formula di sopra riscritta in altro modo.

Logistic Regression-1697463186166 Questo è esattamente poi quanto sarà fatto durante il percettrone, per l'aggiornamento delle variabili in quelle istanze.

Fase update del gradiente

Una volta calcolato che il valore di update è analiticamente uguale a

\frac{δ L ( w )}{δ w _{i}} = l \sum (y^{l} - α^{l}) x^{l}

Possiamo usare questa per aggiornare il peso di $w_{i}$

Update step:

w_{i} = w_{i} + μ \frac{δ L ( w )}{δ w _{i}}

A volte viene aggiunto un fattore di regolarizzazione che fa diventare la regola di update come

w_{i} = w_{i} + μ \frac{δ L ( w )}{δ w _{i}} + μ λ ∣ w_{i} ∣

Che implica il fatto che se abbiamo un singolo peso grande, farà molta fatica ad esserci nel regolarizzatore (quindi ho meno varianza fra i pesi diciamo).

Introduzione alla logistic regression#

Giustificazione del metodo#

Introduzione al problema#

Caratterizzazione di P(Y|X)#

Funzione di Sigmoid#

Funzione di loss#

Ottimizzazione discesa del gradiente#

Intuizione sul gradiente#

Calcolo del gradiente cross entropy#

Fase update del gradiente#