(논문 요약) DeepSeek-V3 Technical Report (paper)

핵심 내용

  • 모델: DeepSeek-V2 보다 많은 parameter.
    • 671B total, 37B per token (MoE)
    • 128k context window
    • Byte-level BPE with an extended vocabulary of 128K tokens
    • Auxiliary-Loss-Free Load Balancing: expert gating 시, bias term 추가하여 overload 되면 줄이고, underload 되면 값을 늘림.
  • 학습: DeepSeek-V2 보다 많은 학습 데이터로 pretrain.
    • pretrain: 14.8T tokens (higher ratio of mathematical and programming samples + multilingual coverage beyond English and Chinese)
    • SFT, RL 수행
  • Decontamination 분석은 없음.

실험 결과

  • benchmark 에서 gpt4o 능가.