(모델 요약) Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models(paper)
핵심 내용
Multimodal model 의 나중 layer 에서는 modality 별로 feature 가 나뉘어짐.
후기 layer 에서 modality 별로 feature extraction.
실험 결과
Chameleon 7B: reduce 55.8% of training FLOPs
Transfusion 7B: reduce ~2/3 of training FLOPs