(논문 요약) DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research (Paper)

핵심 내용

  • rubric 을 추가하면서 GRPO 로 학습
    • GPT-4.1 로 초기 rubric 생성.
    • GPT-4.1 로, 각 rollout + 현재 rubric 으로 새로운 rubric 생성.
    • 생성된 rubric 중 variance 가 높은 $K$ 개만 유지.