(논문 요약) Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (paper)

핵심 내용

  • RLVR (Reinforcement Learning with Verifiable Rewards) 는 base model 의 exploration 을 억제하여 sampling efficiency 를 높여줌.

  • 여러 모델에서 비슷한 경향성 관찰됨.

  • 다른 RL methods 에서도 같은 현상이 발견됨.

  • distillation 은 모델의 성능을 향상시키는 듯함.