(논문 요약) Qwen3 Technical Report (paper)

핵심 내용

  • openai-o1, Gemini 2.5 pro 에 크게 뒤지지 않는 benchmark 성능

  • Architecture
    • grouped query attention
    • SwiGLU
    • Rotary Positional Embedding
    • RMSNorm with pre-normalization
    • QK-Norm
    • KQV bias 없앰.
    • MoE layer 에서 shared experts 없앰.

  • pretrain
    • 119개 언어, 36T token (Qwen2.5 에서는 18T)
      • Qwen2.5-VL 로 이미지 인식후, Qwen2.5 로 refine 한 데이터: 수 T tokens
      • Qwen2.5, Qwen2.5-Math, Qwen2.5-Code 로 생성한 데이터: 수 T tokens
    • General Stage (S1): 30T tokens (context length of 4K tokens)
    • Reasoning Stage (S2): 5T tokens (STEM, coding, reasoning)
    • Long-Context Stage (S3): context length of 32K (16K~32K 75%, 4K~16K 25%)
    • few shot evaluation 진행.
  • post-train
    • frontier 모델 학습 후, 작은 모델 학습시 distllation.
    • frontier 모델 학습
      • 1.Long-CoT-cold-start: verifiable hard data 로 데이터 생성후, SFT.
        • non-verifiable queries (multiple sub-questions, general text gen), Qwen2.5-72B-Instruct 로 쉽게 풀리는 queries 는 제거.
        • QwQ-32B 로 response 생성후, thinking 과 summary 가 consistent 하고, 정답이 맞고, 내용에 중복이 없고, 언어를 섞지 않는 경우에 label 로 사용.
        • QwQ-32B 가 정답을 생성하지 못하는 경우, 사람이 생성.
      • 2.Reasoning RL
        • 3,995 query-verifier pairs 로 학습.
        • 170 RL training steps
      • 3.Thinking Mode Fusion: 모델 활용하여 데이터 생성후, SFT
        • Thinking data: Long-CoT-cold-start 의 query 데이터에 Reasoning RL 학습된 모델의 response 사용.
        • Non-thinking data: 다양한 도메인의 데이터 (구체적 내용 없음)
      • 4.General RL
        • Over 20 distinct tasks (each with scoring criteria)
        • rule-based reward: instruction following, format adherence.
        • model-based reward with reference: Qwen2.5-72B 가 reference 를 기반으로 점수 출력.
        • model-based reward without reference: human preference 데이터로 모델을 학습시킨후, 점수를 출력하였다고 함 (구체적 내용 없음)

  • 기타
    • data property annotation
      • pretrain 데이터의 내용을 domain 별로 분류.
      • Qwen2.5-72B-Instruct 사용하여 Long-CoT-cold-start data 의 query 를 domain 별로 classification.
    • Thinking Mode 에서 성능은 log(context_length) 와 선형관계.