(논문 요약) Concise Reasoning via Reinforcement Learning (Paper)

핵심 내용

  • 틀리는게 더 김.

  • 학습이 될수록 답변이 길어짐.

  • 학습
    • stage 1: PPO 로 어려운 문제 학습
    • stage 2: 풀수 있는 문제를 섞어줌