(논문 요약) iGRPO; Self-Feedback–Driven LLM Reasoning

(논문 요약) iGRPO: Self-Feedback–Driven LLM Reasoning (paper)

핵심 내용

Iterative Group Relative Policy Optimization
- draft 여러개 생성후 verifiable reward 가 가장 높은 draft 선택
- selected draft 를 prompt 에 추가하여 다시 생성
- GRPO 로 학습