(논문 요약) Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs (Paper)
핵심 내용
o1 과 같은 reasoning 특화 모델은 token 을 많이 사용함.
짧은 정답을 생성하여, SFT 혹은 preference optimization.
실험 결과
- 스스로 생성한 데이터를 사용하여, 짧아지면서 성능은 유지 가능.
- temperature=1 에서, 10번 생성
- shortest response 등을 positive example 로 두고, longest response 를 negative 로 둠.