(논문 요약) Geometric-Mean Policy Optimization (paper)
각 output 별 weighted advantage 의 Geometric-Mean 사용
GRPO 와 비교하여 성능 개선