(논문 요약) MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases (Paper)
Motivation
- mobile device 는 hardware 제약이 있음
핵심 내용
- 성능을 올리기 위해 하나씩 ablation
- SwiGLU: FFN (FC-ReLU-FC) 를 SwiGLU 로 대체
- Deep and thin: 12 layers 를 30~42 layers 로 늘임 (feature dimension 을 줄임)
- Embedding share: input embedding layer 와 softmax 이전 layer 를 공유
- GQA: Multi-Head Self-Attention 을 Gruoped Query Attention 으로 교체
- Layer share: weight 를 layer 별로 2번 사용 (e.g. $i$번째 $i+1$번째 layer weight share)
- Train on 1T tokens: 모델 최적화 이후, 1T token 추가 학습
실험 결과
- 작은 모델중에서는 우수하나 large model 에 미치지 못함 (HellaSwag 의 경우, GPT4-10shots 는 95.3)