(논문 요약) STEM: Scaling Transformers with Embedding Modules (Paper)

핵심 내용

  • SwiGLU FFN 에서 up-projection 을 token-indexed per-layer embedding look-up 으로 변경
  • large angular spread embeddings (low cosine similarity between embedings)
    • 논문에서는 less interference between embeddings 라고 해석함.
  • decoder‑only Transformers (350M, 1B) 로 scratch 부터 pretrain 하여 성능 비교.