(논문 요약) Tongyi DeepResearch: A New Era of Open-Source AI Researchers (blog)

핵심 내용

  • OpenAI 의 Deep Research 와 benchmark 에서 비슷한 성능
  • inference 시 사용하는 tool
    • file
    • python
    • google scholar
    • google search
    • website visit
  • 학습
    • Agentic CPT → Agentic SFT → Agentic RL 순서
    • RL 학습시 negative sample 걸러냄 (token length 로 끊긴 답변)
    • 환경: offline Wikipedia database and a custom tool suite
  • 데이터
    • Contiunal Pretrainng Data: knowledge graphs and tables 을 바탕으로 생성
    • SFT data: ReAct and IterResearch 로 생성 후, rejecteion sampling