(논문 요약) PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS (Paper)

핵심 내용

  • 개념
    • helpful prover: 맞는 Chain of Thought 생성이 목표
    • sneaky prover: 맞는것 처럼 보이는 틀린 Chain of Thought 생성이 목표
    • verifier: helpful prover 와 sneaky prover 를 구분토록 학습
    • verifier 는 이전 round 의 provers 구분하도록 학습
  • prover 들은 PPO 의 reward 로서 다음 중 하나를 사용하여 실험
    • $z_i$ 는 생성된 tokens
    • $V’$ 은 advantage (각자의 값에서 평균 뺀것)

실험 결과

  • (학습 round 가 거듭될수록) Sneaky prover 는 사람이 보기에 맞았다고 생각되는 답변을 생성함
  • (학습 round 가 거듭될수록) Helpful prover 는 사람이 보기에도 쉬운 답변을 생성함