(Schulman et al. 2017) è uno degli articoli principali che praticamente hanno dato via al campo. Anche questo è buono per Policy gradients:

https://lilianweng.github.io/posts/2018-04-08-policy-gradient/

Introduzione a PPO

References

[1] Schulman et al. “Proximal Policy Optimization Algorithms” 2017