(논문 요약) SPICE: Self-Play In Corpus Environments Improves Reasoning (Paper)
핵심 내용
- 동일한 모델로 2가지 역할을 수행
- Challenger: corpus grounding 문제를 생성하며, reasoner 의 정답률 variance 가 reward.
- Reasoner: text 를 보지 않고 추론을 통해 문제를 맞추면 reward.
- 두 역할에 대한 Advantage 의 합을 DrGRPO 로 parameter update.
- 학습 데이터
- 20,000 raw documents
- Nemotron-CC-Math (50%): a math-focused corpus used to ground mathematically verifiable tasks.
- NaturalReasoning (from DCLM) (50%): documents spanning diverse STEM, humanities, and social sciences for general reasoning.
- 20,000 raw documents