(논문 요약) Geometric-Mean Policy Optimization (paper)

핵심 내용

  • 각 output 별 weighted advantage 의 Geometric-Mean 사용

실험 결과

  • GRPO 와 비교하여 성능 개선