(블로그 요약) R1-reproduce
DeepScaleR-1.5B-Preview (notion)
- R1 의 방법론을 Deepseek-R1-Distilled-Qwen-1.5B 에 적용.
- token length 를 점차 늘려가며 학습 (8K -> 16K -> 24K)
- 8K 학습시, A100 8개, 16K 와 24K 학습시 A100 32개 사용.
- 학습 데이터
- AIME (1984-2023)
- AMC (-2023)
- pipeline
- gemini-1.5-pro-002 로 데이터 생성.
- embedding 모델 활용하여 중복 데이터 제거.
- sympy 로 변환 안되는 데이터 제거.
- 총 학습 데이터: 대략 40K (problem, answer) pairs
- reward
- 1: latex, sympy 체크 통과
- 0: 틀린 답, 혹은 format 안맞는 경우 (e.g. token missing)
SimpleRL-Reason (notion)
- Qwen2.5-7B 에 RL 적용.
- 자원 관련 내용 없음.
- 데이터: 8K queries * 8 samples
- 학습: PPO
- reward
- 1: 정답을 올바른 format 으로 출력한 경우
- -0.5: 오답을 낸 경우
- -1: 끝까지 답을 못낸 경우 (e.g. format 오류)
- 실험
- setting 1: base 모델에서 바로 RL 돌려서 SFT 에 비해 나은 generalization 달성.
- setting 2: SFT 이후 RL 적용하여, setting 1 보다 나은 성능 달성.