(논문 요약) Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent (Paper)
핵심 내용
적은 parameter 로 좋은 성능을 냄.
gpt-4o 에의 답변을 학습 데이터로 활용.
stage 단위로 beam-search
(논문 요약) Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent (Paper)
적은 parameter 로 좋은 성능을 냄.
gpt-4o 에의 답변을 학습 데이터로 활용.
stage 단위로 beam-search