(모델 요약) Qwen3-Next

핵심 내용

  • 모델
    • MoE: 80B - A3B
    • gated attention (Attention Sink 과 Massive Activation 을 막는다고함)
    • gated delta net 사용
    • multi-token predidction 으로 throughput 높임