(논문 요약) Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use (Paper)
핵심 내용
- multi-step trajectory 를 생성 후, 각 step 별로 LLM 으로 레이블
- 각 step 별로 RL 학습
- inference 시, iterative 하게 생성
(논문 요약) Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use (Paper)