(논문 요약) Concise Reasoning via Reinforcement Learning | Jaemin’s Arxiv

(논문 요약) Concise Reasoning via Reinforcement Learning (Paper)

핵심 내용

틀리는게 더 김.

학습이 될수록 답변이 길어짐.

학습
- stage 1: PPO 로 어려운 문제 학습
- stage 2: 풀수 있는 문제를 섞어줌