(논문 요약) Evolution Strategies at the Hyperscale (Paper)

  • expected fitness 와 gradient

  • 알고리즘
    • $M=\mu+\sigma (\frac{1}{\sqrt{r}} AB^T)$ 로 구성.
    • $A,B\in R^{m\times r}$
    • $A,B$ 의 각 element 는 zero-mean, symmetric, absolutely continuous, finite 4th order moments, positive variance 인 분포함수에서 샘플 (e.g. Gaussian)

실험 결과

  • PPO 보다 효율적인 학습