(논문 요약) iGRPO: Self-Feedback–Driven LLM Reasoning (paper)

핵심 내용

  • Iterative Group Relative Policy Optimization
    • draft 여러개 생성후 verifiable reward 가 가장 높은 draft 선택
    • selected draft 를 prompt 에 추가하여 다시 생성
    • GRPO 로 학습

Table of contents