Massimi minimi multi-variabile

Huang, Xuanqiang Angelo

Home » Notes

Massimi minimi multi-variabile

July 16, 2025 · Reading Time: 8 minutes · By Xuanqiang Angelo Huang

Table of Contents

Matrice Jacobiana

Matrice Jacobiana

È un modo per scrivere il gradiente di una funzione quando è in una certa forma.

Data una funzione $f : R^{n} \to R^{p}$ ossia per esempio $x = (x_{1}, ..., x_{n}) \to (f_{1} (x), ..., f_{p} (x))$ Se le p funzioni di arrivo sono differenziabili, allora la matrice Jacobiana è definita in questo modo:

\delta_{x_1} f_1(x) & ... & \delta_{x_n} f_1(x)\\ . & . & . \\ \delta_{x_1} f_p(x) & ... & \delta_{x_n} f_p(x) \end{pmatrix}$$ Una matrice con p righe e n colonne, che rappresentano **tutte le derivate parziali possibile** **Osservazione** Da una funzione differenziabile $f(r(x))$ in modo simile a quanto fatto prima, abbiamo che $J_f(r(t)) J_r(t)$ è uguale al prodotto scalare!

(\delta_1f(r(t)), ..., \delta_nf(r(t))) \cdot \begin{pmatrix} \delta_{s} r_1(t) \ . \ \delta_{s} r_n(t) \end{pmatrix}

Ossia è proprio $\delta_t(f(r(t))$ il prodotto scalare, ossia $J_{f \cdot r}(t)$ e la cosa bella è che **vale per dimensione qualsiasi**. (vedere gli appunti lezione 11, ci dovrebbe essere l'enunciato di questo). **Composizione di funzioni** Si può dimostrare che la Jacobiana si comporta bene per le composizione di funzioni ossia: E questo vale per funzioni definite per qualunque dimensione.

J_{g \cdot f}(v)= J_g(f(v)) J_f(v)

\overset{ˋ}{E} im p or t an t e in q u es t oc a so a v er e inm e n t eco m e v i e n e f a tt a l a * * c hain r u l e * * n e l c a so m u l t i v a r iabi l e p er c h \overset{e}{ˊ} a v r e m o q u a l cos a d i q u es t o g e n er e :

\frac{ \partial y_{i} }{ \partial x_{j} } = \sum_{k = 1}^{m} \frac{ \partial y_{i} }{ \partial z_{k} } \frac{ \partial z_{k} }{ \partial x_{j} }

Dobbiamo sommare per tutti i $k$ intermedi. ### Studio del massimo e del minimo In più dimensioni non possiamo più applicare lo studio del segno della derivata come nella prima dimensione, in questo momento abbiamo più derivate, e non abbiamo nemmeno il concetto di funzione crescente. Vogliamo affidarci al concetto delle derivate seconde (concavità e convessità) Vedere che $f'(x) = 0 \land f''(x)>0$ oppure minore. Andremo a generalizzare questa idea. ### Condizione di stazionarietà Andiamo a definire una condizione di stazionarietà a più dimensione, che ci sarà molto utile per trovare il minimo locale (o massimo locale).(è anche chiamato fermat, come ti ricordi qui [[Teoremi Base Analisi]]) sia $f:A \to \mathbb{R}, \bar{x} \in A$ è minimo locale, f è differenziabile in xbar, allora si ha che $\nabla f(\bar{x}) = 0$ Quando il gradiente si annulla, quel punto in cui si annulla si chiama **punto critico o stazionario**. - La stazionarietà non permette di distinguere massimi e minimi (valeva anche per R dim 1 #### Def: punto di sella È la generalizzazione di un punto di flesso (in cui 2 derivata seconda si annullava). sia $f$ una funzione ben definita differenziabile tale che il suo gradiente sia 0 in un punto a. Allora si dice che il punto a è di sella se esistono due punti $x_{0}, x_{1}$ per ogni intorno di $a$, tali per cui $f(x_{0}) < f(a) < f(x_{1})$ In pratica mi sta dicendo che comunque io mi avvicini a questo punto, riesco sempre a trovare un punto la cui immagine è minore, e riesco sempre a trovare un punto la cui immagine è maggiore. Questo è la terza possibilità, nel caso questo punto stazionario non sia né massimo né minimo. #### Necessità della differenziabilità Affinché valga la condizione di stazionarietà devono sempre esistere almeno le derivate parziali in OGNI direzione. Questo è utile per le considerazioni dell'inverso, in quanto per $f(x) = \lvert x \rvert$, nel punto 0 non è differenziabile, ma è un punto di minimo. - Dimostrazione Sia f ben definita e a un punto di minimo locale, vogliamo dimostrare che ogni derivata parziale in questo punto sia 0. (ovvero che il gradiente sia 0). Consideriamo $g(t) = f(a + te_1)$, ovvero incrementato solamente nella direzione 1. Poiché f ha minimo in a, ho che per t=0 ho un minimo locale di g (dato che g è scritta in funzione di f). Ho che la derivata di g è la derivata parziale di f (per come è definita), quindi g è differenziabile poiché per ipotesi f è differenziabile. Per fermat, in quanto t=0 è un punto di minimo, ho che la derivata di g in t = 0 è 0, quindi applicando questa idea per ogni direzione ho che l'intero gradiente è 0. ### Derivata seconda Possiamo derivare parzialmente in più direzioni **Derivate seconde pure** se derivo rispetto alla stessa variabile anche la seconda volta **Derivate seconde miste** se derivo rispetto a una variabile differente. ## Matrice Hessiana Questa matrice contiene tutte le derivate seconde possibili per una certa funzione da Rn a R (sarà di dimensione n x n

Hf(x) = \begin{pmatrix} \delta_{11} f(x) & ... & \delta_{1n} f(x)\ . & . & . \ \delta_{n1} f(x) & ... & \delta_{nn} f(x)

\end{pmatrix}

undefined

f(w + tv) = f(w) + \langle\nabla f(w), tv\rangle + \dfrac{1}{2}\langle H(f(w)) tv, tv\rangle + o(|t^2|), \t \to 0_v, v\in Dominio

- Osservazione paraboloide Scriviamolo in maltro modo: $f(w) = f(v) + \langle\nabla f(v), w - v\rangle + \dfrac{1}{2}\langle H(f(v)) w - v, w - v\rangle + o(|(w - v)^2|), w \to v$ Questa è una funzione al secondo ordine in w, è un **paraboloide** in cui possiamo andare a cercare la miglior funzione in questa classe di funzioni quadratiche. - Dimostrazione definiamo $g(t) = f(w + tv)$, la derivata è uguale a $g'(t) = \delta_t f(r(t))$ con $r(t) = w + tv$ che per il teorema della derivata di funzioni composte è $\langle \nabla f(w + tv), v \rangle$ Calcoliamo la derivata seconda di questo, ovvero si va ad ottenere: (praticamente sto applicando la 10.4.4 estensivamente. $$ \sum \delta_t (\delta_k f) (r(t))v_k = \sum \langle(\nabla\delta_k f) (r(t)), r'(t)\rangle v_k \\ = \sum \langle(\nabla\delta_k f) (r(t)), v\rangle v_k = \sum\sum \delta_j \delta_k f(r(t) v_jv_k = \\ \langle Hf(r(t))v,v\rangle $$ In quanto $g: \mathbb{R} \to \mathbb{R}$ possiamo utilizzare [[Hopital, Taylor, Peano|taylor classico]] per affermare che $g(t) = g(0) + g'(0) t + \dfrac{1}{2}g''(0)t^2 + o(t^2)$, che per dimostrazione precedente, sostituendo pezzo per pezzo, si ottiene che $f(w + vt) = f(w) + \langle \nabla f(w), v \rangle t + \dfrac{1}{2}\langle Hf(w)v,v\rangle t^2 + o(t^2)$ il che finisce la dimostrazione ### **Resto secondo Lagrange (univar)** Questo è equivalente al precedente, col resto secondo Peano. Sia $f:\mathbb{R} \to \mathbb{R}$ f derivabile due volte, allora $\forall x, \bar{x} \in \mathbb{R} , \exists c \in [x, \bar{x}]$ tale per cui

f(x) = f(\bar{x}) + f'(\bar{x})(x - \bar{x}) + f''(c) \dfrac{(x - \bar{x}) ^2}{2}

undefined

f(a + h) = f(a) + \langle\nabla f(a), h\rangle + \dfrac{1}{2}\langle H(f(a + \theta h)) h, h\rangle

- Dimostrazione considero la parametrizzazione data dalla funzione $g(t) = f(a + th)$, notiamo che $g(0) = f(a)$ e $g(1) = f(a + h)$ che sono le cose da cui eravamo partiti. se prendiamo $r(t) = a + th$ si ha che $g(t) = f(r(t))$ e allora possiamo utilizzare la derivata di funzioni composte e riscriverla. Poi si procede in modo equivalente alla dimostrazione del teorema di lagrange con resto di peano (però si parte con lagrange con resto lagrange in R). ### Polinomio di Taylor È un taylor senza o-piccolo, però di devi andare a cercare l'appunto giusto. ## Forme quadratiche Queste cose sembrano essere un buon utilizzo della matrice hessiana. Comunque vediamo cosa sono: prendiamo una matrice $A \in \mathbb{R}^{n \times n}$ tale che sia simmetrica, consideriamo una funzione $q_A : \mathbb{R} ^n \to \mathbb{R}$ definita in questo modo : $q_A(h) = \langle Ah, h\rangle = h^TAh$. Scopriremo che c'è una equivalenza (forse isomorfismo) fra un polinomio di grado n e una matrice n per n. Si può dimostrare che è uguale a una forma quadrata questa matrice, questo perché $\sum^n_{k,j=1} a_{kj}h_jh_k = \sum^n_{k=1}a_k h^2_k + 2 \sum_{ 1\leq j < k \leq n} a_{jk} h_j h_k$ ed è qualcosa di molto comodo perché questo non è altro che (ricordando che $a_k$ è un modo semplice per scrivere $a_{kk}$

\langle Ah, h\rangle = (a_1h_1 + ...+ a_nh_n)^2

Ma questo vale nel caso solo in cui $a_ia_k = a_{ik}$, da ricordare!. Comunque c'è questa buonissima corrispondenza e ci piace molto. ![[image/universita/ex-notion/Massimi minimi multi-variabile/Untitled.png]] ### Segno della forma quadratica ![[image/universita/ex-notion/Massimi minimi multi-variabile/Untitled 1.png]] **Positivo (Negativo)** Se per ogni $h \in \mathbb{R}^{n} \neq 0$ si ha che la forma quadratica $q(h) > 0 (<0)$ Esempio se ho solo numeri sulla diagonale, probabilmente è di segno positivo **Semi positivo (negativo)** Uguale a sopra, ma possiamo avere anche l'uguale **Indefinita** Se esistono $h_{1}, h_{2}$ per qui $q(h_{1}) >0$ e che $q(h_{2}) < 0$. **Altro** Ci sono anche altre caratterizzazione della forma quadratica. ad esempio q(h1, h2) = h2^2 non è né indefinita, né positiva questa è **semidefinita** ### Classificazione del segno n-dimensionale Vogliamo una forma quadratica in Rn, con n≥3 ora.(fino ad ora abbiamo solamente considerato il caso in cui forma quadratica è 2). ![[image/universita/ex-notion/Massimi minimi multi-variabile/Untitled 2.png]] **Determinanti** Mi sono costruito molte sottomatrici. ![[image/universita/ex-notion/Massimi minimi multi-variabile/Untitled 3.png]] - Lavagna prof ![[image/universita/ex-notion/Massimi minimi multi-variabile/Untitled 4.png]] **Autovalori** ![[image/universita/ex-notion/Massimi minimi multi-variabile/Untitled 5.png]] ### Criterio di Sylvester Questo criterio, spiegato [qui](https://en.wikipedia.org/wiki/Sylvester%27s_criterion) è un metodo molto conveniente per stabilire se una matrice è definita positiva. In breve, una matrice lo è, se tutte le sotto matrici $\forall n \in \left\{ 1,\dots, N \right\}:n\times n$ che partono dall'angolo in alto a sinistra della matrice generale, hanno determinanti positivi. ### Teorema criterio classificazione 2x2 Consideriamo la matrice

\begin{pmatrix} a & b \ b & c \ \end{pmatrix}

undefined

Matrice Jacobiana#

Matrice Jacobiana