(논문 요약) LLM-in-Sandbox Elicits General Agentic Intelligence (Paper)
핵심 내용
- execute_bash, str_replace_editor, submit 의 tool 이 정의된 sandbox 환경에서 ReAct framework
- reason, tool call, observation 를 history 에 쌓아가며 최종 답안 생성.
- 최대 $T$ 번 tool call
- 중간에 submit 이 call 된 경우 return
실험 결과
- Mathematics, Physics Chemistry, Biomedicine, Long-Context, Instruction Follow 측정
- 큰 모델 (Claude-Sonnet-4.5-Think, GPT-5, DeepSeek-V3.2-Thinking, MiniMax-M2, Kimi-K2-Thinking, Qwen3-Coder-30B-A3B) 에서 성능 향상
- 작은 모델 (Qwen3-4B-Instruct-2507) 은 성능 하락