(논문 요약) DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model (paper)
핵심 내용
- 모델
- 236B total, 21B per token (MoE)
- 128k context window
- Multi-head Latent Attention 새로 제안
- 학습
- pretrain: 8.1T tokens
- SFT, RL 수행
architecture
- 데이터: gpt4, claude 등의 모델을 활용하여 alignment 데이터 생성
실험 결과
- benchmark 에서 gpt4v 와 비슷