(논문 요약) Large Language Monkeys: Scaling Inference Compute with Repeated Sampling (Paper)

핵심 내용

  • output 을 다양하게 생성해서, rule-based verifier 로 검증
    • output 개수에 따른 성능 향상 추이 실험적 관찰
  • 실험 데이터
    • GSM8K: 초등학교 수학 문제
    • MATH: GSM8K 보다 어려운 초등학교 수학 문제
    • MiniF2F-MATH: Lean4 로 쓰여진 수학 문제
    • CodeContests: 코딩 대회 문제
    • SWE-bench Lite: 실제 github issue 모음 (issue 해결을 위해 단일 파일을 찾아서 고쳐야함)
  • measure: top-K 개 뽑았을때 정답이 포함될 확률 (N개 생성)

실험 결과

  • DeepSeek-Coder-V2-Instruct vs. closed models
    • moatless tool: SWE-bench 를 실행시킬수 있는 github repo
    • CodeStory Aide: commercial agent (gpt4o + 3.5 Sonnet)
  • 다양한 모델의 실험 결과

  • 모델을 활용한 verification 은 무용지물
    • Majority vote: most common final answer
    • Reward Model + Best-of-N: ArmoRM-Llama3-8B-v0.1 reward model (SOTA reasoning on the RewardBench) 로 개별 output 에 score 메긴 뒤, 가장 높은 것 고름
    • Reward Model + Majority Vote: ArmoRM-Llama3-8B-v0.1 reward model 로 개별 output 에 score 메긴 뒤, score 에 비례하여 sample
  • 틀리는 케이스 분석: Chain of Thought 단계 하나 하나는 맞는 경우가 많음

  • 일부 문제는 정답을 맞출 확률이 극히 낮음 (1만개 output 에서 몇개만 정답을 생성)