(논문 요약) MUTUAL REASONING MAKES SMALLER LLMS STRONGER PROBLEM-SOLVERS (Paper)

핵심 내용

  • tree 를 생성하는 generator 와, 생성된 내용을 검증하는 discriminator 로 구성
  • tree generation 예시
  • discriminator (SLM2) 로 generated output (SLM1 결과) 과 consistency 계산
    • 앞쪽 token 을 prompt 로 해서 비슷한 내용이 생성되면 높은 점수
    • terminal node 에서 consistency 로 score 계산

실험 결과