(논문 요약) RouteLLM; Learning to Route LLMs with Preference Data

(논문 요약) RouteLLM: Learning to Route LLMs with Preference Data (Paper)

핵심 내용

비싸고 성능 좋은 모델 (e.g. gpt4) 과 싸고 성능이 덜 좋은 모델 (e.g. Mixtral-8x7B) 을 query 에 따라 routing 하여 성능은 유지하면서 비용을 최소화
모델이 2개인 경우, preference data 사용 가능
- Chatbot arena data (direct comparison)
- GT based preference data (correct preferred)
random 하게 route 하는 것보다, 비싼 모델을 덜쓰면서 비슷한 성능을 낼수 있음
- Matrix Factorization: model score
  - $w_2, W_1, b$: trainable parameters
  - $v_m$: model embedding
  - $v_q$: query embedding
- CausalLLM: Llama 3 8B