(논문 요약) Dr. Zero: Self-Evolving Search Agents without Training Data (Paper)

핵심 내용

  • Search Agents 를 학습 시, proposer 와 solver 를 evolve 시키면서 모델 개선.
    • search tool 만 사용 가능한 환경.
    • proposer: generate diverse questions (and answers)
      • hop 개수 별로 group 을 나누어 advantage 를 계산하여 학습 (hop-grouped relative policy optimization (HRPO))
    • solver: multi-turn search problems 해결 (GRPO 로 학습)