(논문 요약) SimPO: Simple Preference Optimization with a Reference-Free Reward (paper)
핵심 내용
- DPO 의 $\pi_{ref}$ 를 없애 연산을 단순화
- length normalization 으로 generation 과 같은 환경으로 구성
- Other methods
(논문 요약) SimPO: Simple Preference Optimization with a Reference-Free Reward (paper)