(논문 요약) rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking (paper)

핵심 내용

  • python code + comment 인 CoT data 생성.
    • 돌아가는 code 만 node 로 남김.
    • Q-value 계산하여, MCTS 로 sample.
  • Q-value 계산
    • Terminal-guided annotation (1,2 round): terminal node 에서 맞으면 1, 틀리면 -1, intermediate node 는 backprop 으로 update.
    • process preference model (3,4 round): 맞는 trajectory, 틀린 trajectory 쌍으로 preference training (Bradley-Terry).
  • 데이터
    • 747k math word problems with final answer ground-truth labels, primarily from NuminaMath and MetaMath.
    • GPT4 생성 데이터: seed 문제들에 대해서 생성한 뒤, 10번 중 3번 맞추는 문제들 사용
  • SLM finetuning: 가장 Q-value 높은 2개 trajectories 로 학습.
  • PPM initial weight: finetuned 된 SLM 의 prediction head 만 linear + tanh 로 변경.

실험 결과

  • Trajectories: 16 for AIME/AMC and 8 for other benchmarks, using PPM to select the best solution.

  • Iterative training 으로 성능 점진적으로 향상