(논문 요약) Beyond GPT-5: Making LLMs Cheaper and Better via Performance–Efficiency Optimized Routing (Paper)
핵심 내용
- 각 query 별로 best model 을 선택.
- Query 를 Qwen3-embedding-8B 로 embedding ($d=4096$)
- k-means clustring (k=60)
- clsuter 별 score 계산 (model $i$ 의 cluster $j$ 에 대한 performance 및 efficiency)
- top-p nearest clusters ($p=4$) 로 score 합산