(논문 요약) Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent (Paper)

핵심 내용

  • 적은 parameter 로 좋은 성능을 냄.

  • gpt-4o 에의 답변을 학습 데이터로 활용.

  • stage 단위로 beam-search