(논문 요약) Compute Optimal Scaling of Skills: Knowledge vs Reasoning (Paper)
실험 세팅
데이터 구분
Isoflop curves: 같은 계산량 (FLOP) 에서 model size 와 data size 를 변화시키면서 loss 측정 후
- FLOPS $\approx$ 6 $\times$ model size $\times$ data size (fixed updates)
- train set 혹은 hold-out set 의 loss
- 최적값을 2차 함수 근사 후 찾음
Isoflop curves
- model size: 40M ~ 8B
- skill CO: 데이터 셋의 Compute Optima
- APE CO: 전체 데이터에서 구한 (aggregate performance estimators) Compute Optima
- pretrain data mix
- 58.4% documents: factual knowledge
- 19.9%: code
- 21.7%: 나머지
연산량 고정 후, 데이터 비율 ablation
- FLOP = $6\times 10^{18}$
Code 데이터, knowldege 데이터 upsample
- loss 가 낮아지며 최적의 모델 사이즈가 늘어남. - code 의 경우, 그 경향성이 더 강함. - knowldege 의 경우가, 데이터 비율을 높일때 필요한 최적의 모델 사이즈가 더 큰 폭으로 늘어남.
데이터 비율을 높일때 최적의 모델 사이즈
code, knowldege 데이터의 비율 조절하면서 최적의 모델 사이즈 추정
- knowledge 의 경우가, 데이터 비율이 높을때 필요한 최적의 모델 사이즈가 더 큼.
- Eval loss 는 각 데이터 별로 code 혹은 knowledge 경향성을 보임.
개별 데이터 셋으로 봤을때
- knowledge 의 경우가, 데이터 비율이 높을때 필요한 최적의 모델 사이즈 더 큼.
- 같은 연산량에서도, knowledge 의 경우가, 최적의 모델 사이즈 더 큼.