(논문 요약) Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention (Paper)

핵심 내용

  • 컨셉:
    • 이전 Key, Value 들을 compressive memory 형태로 유지.
    • 현재의 Query 를 통해서 원하는 부분 추출.
    • 현재의 Multi-Head-Attention 과 interpolation (head 당 interpolation weight 학습).
    • Memory:
    • Memory Retrieval:
      • $Q\in \mathbb{R}^{N\times d_{key}}$
      • $M_{s-1}\in \mathbb{R}^{d_{key}\times d_{value}}$
      • $A_{mem}\in \mathbb{R}^{N\times d_{value}}$ (N: input segment length)
      • $\sigma$: nonlinear activation (논문에서는 ELU+1)
      • $z_{s-1}\in \mathbb{R}^{d_{key}}$: normalization term
    • Memory Update:
      • update linear:
      • update linear delta:

비교

실험