(모델 요약) Kimi-K2 (blog) (paper)

핵심 내용

  • 모델
    • total 1T params, 32B activated params (MoE)
  • 학습
    • pretrain: 15.5T tokens
    • key vector, query vector 를 clip 함
    • RL: verifiable rewards (math, coding) + non-verifiable rewards (writing)
      • non-verifiable rewards: self-judge (periodic weights update)
  • Pretrain data rephrasing: corpus 를 rephrase 하여 데이터를 다양하게 변형

  • agent data
    • 수천개의 tools, 수백개의 domains 를 ‘evolve’ 했다고 함.
    • 다양한 tool set 을 지닌 수백개의 agents 생성.
    • simulated environment 에서 agents 가 상호작용.
    • task rubic 으로 quality training data 를 선별.