(논문 요약) Self-Taught Evaluators (Paper)
핵심 내용
- LLM 으로 original prompt ($x$) 에 대한 답변 ($y^w$) 과 덜 정확한 답변 ($y^l$) 의 preference result 를 iteratively 학습
- LLM, $M_0$: Mixtral 22Bx8 Instruct
- $M_{t>0}$: Llama3-70B-Instruct
$y^l$ 을 생성하기 위한 prompt
- ($x$, $y^w$, $y^l$) 에 대해서 judge output (N=15) 개 생성 후, $y^w$ 와 $y^l$ 을 제대로 구분한 것 들중 하나를 sample
- $x$ 는 WildChat dataset 에서 가져옴