(논문 요약) STEM: Scaling Transformers with Embedding Modules (Paper)
핵심 내용
- SwiGLU FFN 에서 up-projection 을 token-indexed per-layer embedding look-up 으로 변경
- large angular spread embeddings (low cosine similarity between embedings)
- 논문에서는 less interference between embeddings 라고 해석함.
- decoder‑only Transformers (350M, 1B) 로 scratch 부터 pretrain 하여 성능 비교.