(블로그 요약) R1-reproduce

(블로그 요약) R1-reproduce

DeepScaleR-1.5B-Preview (notion)

Qwen2.5-7B 에 RL 적용.
자원 관련 내용 없음.
데이터: 8K queries * 8 samples
학습: PPO
reward
- 1: 정답을 올바른 format 으로 출력한 경우
- -0.5: 오답을 낸 경우
- -1: 끝까지 답을 못낸 경우 (e.g. format 오류)
실험
- setting 1: base 모델에서 바로 RL 돌려서 SFT 에 비해 나은 generalization 달성.
- setting 2: SFT 이후 RL 적용하여, setting 1 보다 나은 성능 달성.