(논문 요약) MUTUAL REASONING MAKES SMALLER LLMS STRONGER PROBLEM-SOLVERS (Paper)
핵심 내용
- tree 를 생성하는 generator 와, 생성된 내용을 검증하는 discriminator 로 구성
- tree generation 예시
- discriminator (SLM2) 로 generated output (SLM1 결과) 과 consistency 계산
- 앞쪽 token 을 prompt 로 해서 비슷한 내용이 생성되면 높은 점수
- terminal node 에서 consistency 로 score 계산