(논문 요약) rStar2-Agent: Agentic Reasoning Technical Report (Paper)
핵심 내용
- Model: Qwen3-14B
- 학습: RL only (Reasoning SFT 없음)
- GRPO-RoC: correct rollout 중 tool-use errors 나 incorrect formatting trajectory 는 덜 고름.
- Multi-RL stages
- stage 1: 42,000 개 수학문제, 길이 8K 미만
- stage 2: 300 step 이후, 길이 12K 미만
- stage 3: 잘 틀리는 문제 17,300 개에 집중
- 자원: 64개 MI300X GPU
- Reasoning with Tool (Python code) Use
- Python code 예시 (on-the-fly 로 함수 생성)