(논문 요약) Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use (Paper)

핵심 내용

  • multi-step trajectory 를 생성 후, 각 step 별로 LLM 으로 레이블

  • 각 step 별로 RL 학습

  • inference 시, iterative 하게 생성

실험 결과