(논문 요약) Beyond GPT-5: Making LLMs Cheaper and Better via Performance–Efficiency Optimized Routing (Paper)

핵심 내용

  • 각 query 별로 best model 을 선택.
    • Query 를 Qwen3-embedding-8B 로 embedding ($d=4096$)
    • k-means clustring (k=60)
    • clsuter 별 score 계산 (model $i$ 의 cluster $j$ 에 대한 performance 및 efficiency)
    • top-p nearest clusters ($p=4$) 로 score 합산

실험 결과