(논문 요약) Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent (Paper)
핵심 내용
- Tokenizer: tiktoken tokenizer 에서 100K tokens + 중국어 28K tokens
Max 256K tokens
- Data 생성
- 수학, 논리, QA 등 각 도메인의 instruction 을 생성, 발전 시키는 모델을 학습함
- step 2 evolve 에서는 명확성, 다양성, 난이도를 높임
- 기타
- Mixed expert routing strategy (Shared + Specialized, Recycle routing)
- Expert-specific learning rate strategy
- Key-value cache compression technique
- Scaling laws