(논문 요약) Group Sequence Policy Optimization (paper)

핵심 내용

  • Importance ratio 를 Sequence 단위로 설정

실험 결과

  • 학습시 성능이 개선됨