(논문 요약) SimPO: Simple Preference Optimization with a Reference-Free Reward (paper)

핵심 내용

  • DPO 의 $\pi_{ref}$ 를 없애 연산을 단순화
  • length normalization 으로 generation 과 같은 환경으로 구성
  • Other methods