(논문 요약) DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition (paper)
핵심 내용
- Expert-Iteration data
- 못푼 문제중 맞는 것들을 데이터에 추가하면서 SFT
- CoT data
- DeepSeek-V3 로 sketch 를 한 뒤, LEAN 코드로 subgoals 로 나눔
- 각 subgoal 을 7B prover 모델로 해결
- 모두 해결된 경우, LEAN code 를 sketch 에 치환하여 데이터로 활용
- 학습
- SFT: DeepSeek-V3-Base-671B 를 Expert-Iteration data + CoT data 로 학습
- SFT 이후, GRPO 로 학습
실험 결과
- Model size 와 Sample budget 에 따른 miniF2F-test 비교