(논문 요약) Simple and Scalable Strategies to Continually Pre-train Large Language Models (Paper)
핵심 내용
- 모델: autoregressive decoder-only transformer (Param 개수: 10B, 405M)
- 데이터: SlimPajama, German CommonCrawl, Pile 총 3가지
- learning rate warmup formula
- learning rate cosine annealing formula
- continual pre-training recipe
실험
- Pile 로 pretrain 이후,
(1) 10B 모델을 SlimPajama 로 추가 학습 할때
(2) 405M 모델을 SlimPajama 로 추가 학습 할때
(3) 405M 모델을 German 으로 추가 학습 할때
Pile 데이터의 일부를 추가하면 (replay) 가성비 좋게 성능 좋아짐 ((1), (2) 의 경우 5%, (3) 의 경우 25%)