(논문 요약) Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM (Paper)
핵심 내용
- 목표: FeedForward layer 만 다르게 학습한 뒤, 모델 통합.
- 방법: $N$ 개의 expert 모델이 주어질 때, 다음 식에서
- (1) routing function $g_i$ 학습.
- (2) $W_l$ 학습.
- 구현시 softmax 사용하고, TopK expert 만 살림.
- 결과: 능력치 꽉찬 통합 모델.