(논문 요약) Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use (Paper)
핵심 내용
- multi-step trajectory 를 생성 후, 각 step 별로 LLM 으로 레이블

- 각 step 별로 RL 학습

- inference 시, iterative 하게 생성

실험 결과

(논문 요약) Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use (Paper)



