(논문 요약) Archon: An Architecture Search Framework for Inference-Time Techniques (Paper)
핵심 내용
다음과 같은 Inference pipeline 구성
- Bayesian optimization 으로 다음 hyperparamter 들에 대해 최적화 해나감.
- Top-K LLM generators (measured with each benchmark)
- Top-K samples from each generator
- Number of Fusion Layers (위 예시는 Fusion layer 가 2개인 경우)
- Top-K Fusers for Fusion Layers (measured with each benchmark)
- 각 inference pipeline 의 정의