(논문 요약) Adaptive LLM Routing under Budget Constraints (Paper)
핵심 내용
- Initial training: query 의 encoding 을 linear projection 하여 각 model 이 잘하는 query 를 더 잘 분리시키도록 학습
- query encoding 의 linear projection: human preference data 로 triplet loss
- 각 모델에 대한 embedding: softmax 로 모델링 하여 binary cross entropy 로 학습
- contextual multi-armed bandit (CMAB)
- context: query
- LLM: arm
- reward: 개별 LLM 에 대한 embedding 과 query embedding (projected) 의 cosine similairy
- LinUCB 알고리즘으로 업데이트 해나감.