(논문 요약) Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision (paper)

핵심 내용

  • Verifier 가 없는 상황에서 학습 가능한 알고리즘.
  • 기본 알고리즘: GRPO
  • 방법
    • rollouts + 이를 바탕으로 더 나은 결과를 생성해달라는 텍스트를 prompt 로 넣어 synthesized answer 생성.
    • 이 synthesized answer 는 정답일 확률이 높음.
  • Reward 설계
    • verifiable: synthesized answer 과 final answer 가 같으면 1, 다르면 0
    • non-verifiable: synthesized answer 를 바탕으로 rubric 여러 항목을 생성한뒤, judge (GPT-4o) 로 각 rubric 이 맞는지 여부를 확인한뒤 normalized score 계산.

한계

  • 모델이 학습될수록, 다양한 결과를 생성하지 않게 되며 rollouts 와 synthesized answer 가 비슷해짐.
  • 모델 파라미터가 적은 경우, rollouts 에서 synthesized answer 생성해도 정답이 아닌 경우 발생.