(논문 요약) NousCoder-14B (Paper)

핵심 내용

  • Qwen3-14B 를 RL 로 학습.
  • 학습 데이터: 총 24K problems
    • TACO Verified
    • PrimeIntellect’s SYNTHETIC-1
    • LiveCodeBench (~07/31/2024)
  • reward
    • 1: all test cases 통과
    • -1: 잘못된 결과, 15초 이상 소요, 4GB 이상 메모리 쓰는 코드
    • 전부 다 맞거나 전부 다 틀리는 문제 제외.
  • pipeline RL
    • sequence generation in parallel asynchronosouly
    • update without stopping the sequence generation (끝난 sequence 를 모아서 loss 계산)
    • verifier 는 별도의 container 활용.
  • DAPO, GSPO 및 GSPO-extension (GSPO+) 을 사용했지만 큰 차이 없었다고 함.
  • context window 32k 로 학습후 40k 학습.
  • inference 시의 prob 과 train 시의 prob 의 importance sampling 고려.