Hello World
First blog post
First blog post
Double descent is a striking phenomenon in modern machine learning that challenges the traditional bias–variance tradeoff. In classical learning theory, increasing model complexity beyond a certain point is expected to increase test error because the model starts to overfit the training data. However, in many contemporary models—from simple linear predictors to deep neural networks—a second descent in test error emerges as the model becomes even more overparameterized. At its core, the double descent curve can be understood in three stages. In the first stage, as the model’s capacity increases, the error decreases because the model is better able to capture the underlying signal in the data. As the model approaches the interpolation threshold—where the number of parameters is roughly equal to the number of data points—the model fits the training data exactly. This exact fitting, however, makes the model extremely sensitive to noise, leading to a spike in test error. Surprisingly, when the model complexity is increased further into the highly overparameterized regime, the training algorithm (often stochastic gradient descent) tends to select from the many possible interpolating solutions one that exhibits desirable properties such as lower norm or smoothness. This implicit bias toward simpler, more generalizable solutions causes the test error to decrease again, producing the second descent. ...
Introduzione al potenziale elettrostatico Abbiamo studiato in dinamica che il potenziale è un concetto strettamente legato al Lavoro, ossia dalla quantità di energia necessaria per spostare un oggetto da un punto all’altro, vogliamo cercare di definire le relazioni che intercorrono nel caso della forza elettromagnetica Rotore nullo => forza conservativa 🟩 $$ \vec{\nabla} \times \vec{F} \implies \vec{F} \text{ è una forza conservativa} $$$$ \oint_{L} \vec{F} \cdot d\vec{l} = \iint_{S} \vec{\nabla} \times \vec{F} \,d\vec{s} $$ E se abbiamo che il rotore è nullo, allora la forza è conservativa perché per definizione è conservativa se non dipende dal percorso, e la cosa che un circuito chiuso è sufficiente per dimostrare il sopra. ...
What are Banach Spaces? A Banach space is a complete normed vector space, meaning that every Cauchy sequence in the space converges to a limit within the space. See Spazi vettoriali for the formal definition. Examples of Banach Spaces In this section, we list some examples of the most common Banach Spaces $\ell^p$ Spaces (Sequence Spaces) Defined as: $$ \ell^p = \left\{ (x_n)_{n\in \mathbb{N}} \mid \sum_{n=1}^{\infty} |x_n|^p < \infty \right\}, \quad 1 \leq p < \infty $$ The norm is given by: $$ \|x\|_p = \left( \sum_{n=1}^{\infty} |x_n|^p \right)^{1/p} $$ When $p = \infty$, we define: $$ \ell^\infty = \left\{ (x_n)_{n\in \mathbb{N}} \mid \sup_n |x_n| < \infty \right\} $$ with the norm $\|x\|_{\infty} = \sup_n |x_n|$. These spaces are Banach under their respective norms. $L^p$ Spaces (Function Spaces) ...
Fatou’s lemma is a fundamental result in measure theory that deals with the relationship between limits and integrals of sequences of non-negative measurable functions. See the wikipedia page for further info. Statement of Fatou’s Lemma Let $(f_n)$ be a sequence of non-negative measurable functions on a measure space $(X,\mu)$. Then: $$\int \liminf_{n \to \infty} f_n \,d\mu \leq \liminf_{n \to \infty} \int f_n \,d\mu$$In words, this means that the integral of the limit inferior of a sequence of functions is less than or equal to the limit inferior of their integrals. ...
Introduction to convolutional NN The convolution operator 🟩- Il prodotto di convoluzione è matematicamente molto contorto, anche se nella pratica è una cosa molto molto semplice. In pratica voglio calcolare il valore di un pixel in funzione di certi suoi vicini, moltiplicati per un filter che in pratica è una matrice di pesi, che definisce un pattern lineare a cui sarei interessato di cercare nell’immagine. Slides ed esempi (molto più chiaril) ...
In this note we will briefly present one problem common in operation research. The practical needs that formulated this problem are quite obvious: choosing the best location to build some important services for communities. The optimal minimax facility location refers to the placement of a facility (such as a warehouse, hospital, or service center) in such a way that the maximum distance or cost between the facility and any of the demand points (such as customers, patients, or users) is minimized. This approach is particularly useful when the goal is to ensure that no demand point is too far from the facility, thus providing a form of equity in service delivery. ...
Introduzione Concetto principale 🟩- È sempre stato introdotto da Dijkstra, 1965 (Cooperating Sequential Processes) utilizzato come strumento di cooperazione semplice Questo è un sistema fortemente ispirato dai semafori che regolano gli incroci stradali. due o più processi possono cooperare attraverso semplici segnali, in modo tale che un processo possa essere bloccato in specifici punti del suo programma finché non riceve un segnale da un altro processo Primitive dei semafori 🟩- Il semaforo solitamente è una variabile intera non negativa. ...
Metodi altri sono trovare una approssimazione facile da calcolare (simile all’approccio del modello surrogato credo). Ma nel nostro caso proviamo a trovare metodi di esplorare lo spazio dei parametri in modo intelligente. Deterministic methods Sono utilizzabili quando ci sono delle proprietà come convessità, limitatezza, continuità. Newton Raphson method Molte implementazioni in R usano questo metodo, è Perfetto quando $h$ è quadratico, e in statistica molti problemi sono quadratici e funziona in modo perfetto Ma in cose non lineari si ha meno performance (perché l’hessiana è molto instabile per l’inversione, si dice che è mal condizionata, e si fa con attenzione.) l’unica cosa da sapere secondo me è ...
In questa parte del nostro percorso nei linguaggi di programmazione proviamo ad espandere NFA e DFA in modo che possano riconoscere linguaggi come $ww^r | w \in \{a, b\}^*$ , con r maggiore o uguale a zero (r per dire che è il contrario di w) (questo linguaggio per il pumping lemma). Grammatiche libere da contesto $$ G = \langle \mathcal{N}, S, \Sigma, \mathcal{R} \rangle $$ Dove $\mathcal{N}$ sono i non terminali, $S$ è il non terminale iniziale, $\Sigma$ sono l’alfabeto dei simboli finali e $\mathcal{R}$ le relazioni possibili. Spesso lo scriviamo solo tramite le relazioni, perché è la forma più compatta. I nodi di una derivazione da grammatica libera da contesto è chiamato costituente del linguaggio. Questo è più importante in linguistica. ...