(논문 요약) Inference-Time Scaling for Generalist Reward Modeling (paper)

핵심 내용

  • GRM (generalist reward model): (principles, critiques) 생성하고 이후 per-response scores 생성
    • Gemma-2-27B 를 post-train
  • meta RM: GRM’s 의 sampled trajectories 를 filter 하기 위해 별도로 학습된 모델
    • GRM 과 마찬가지로 Gemma-2-27B 를 별도의 trajectories 로 post-train
    • binary cross entropy 사용하여 학습
    • 실험에서는 $k$ 개 trajectories 중, 상위 $k/2$ 개를 남김