(논문 요약) GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization (paper)

핵심 내용

  • GRPO 는 여러 reward 들을 합쳐서 scalar 로 변환후 normalize (e.g. format, correctness)
  • 개별 reward 들을 normalize 한 뒤 (decouple normalization), 이 값들을 batch normalization (question 및 rollout 에 대해서 batch normalize)
  • 다음 2가지를 방지
    • summation 으로 개별 reward 에 대한 정보가 사라지는 것
    • 개별 reward 들을 normalize 한 값이 scale 이 커서 값이 불안정한 것