(논문 요약) K2-Think: A Parameter-Efficient Reasoning System (paper)

핵심 내용

  • 학습
    • Qwen2.5 에서 시작
    • long chain-of-thought SFT
    • RL with verifiable rewards
    • Plan-Before-You-Think prompt restructuring
    • Best-of-N=3 selection
    • speculative decoding
  • 성능
    • Best-of-3 이 성능을 많이 올림.

  • Ablation
    • SFT 하고 RL 하는게 성능 더 좋음.
    • generation length 를 낮추고 학습하면 회복이 안됨.