(논문 요약) Evolution Strategies at the Hyperscale (Paper)

- expected fitness 와 gradient


- 알고리즘
- $M=\mu+\sigma (\frac{1}{\sqrt{r}} AB^T)$ 로 구성.
- $A,B\in R^{m\times r}$
- $A,B$ 의 각 element 는 zero-mean, symmetric, absolutely continuous, finite 4th order moments, positive variance 인 분포함수에서 샘플 (e.g. Gaussian)

실험 결과
- PPO 보다 효율적인 학습
