(블로그 요약) Qwen3: Think Deeper, Act Faster (blog)

핵심 내용

  • Gemini 2.5 pro 에 크게 뒤지지 않는 benchmark 성능

  • MoE architecture 를 추가

  • pretrain
    • 36T token 사용 (Qwen2.5 에서는 18T)
    • stage 1: 30T tokens (context length of 4K tokens)
    • stage 2: +5T tokens 추가 (STEM, coding, reasoning)
    • stage 3: context length of 32K
  • post-train
    • frontier 모델 학습 후, distllation 사용

  • 기타
    • Hybrid Thinking Modes (thinking mode, non-thinking mode)
    • Multilingual Support (119 languages and dialects)