(논문 요약) Latent Collaboration in Multi-Agent Systems (Paper)

핵심 내용

  • last‑layer hidden states 을 projection 한뒤, next-step input-embedding 으로 전달하여 $m$ 개 토큰 생성.
    • text token 보다 적게 latent 를 생성하고, token vocab projection 과 softmax 계산이 없어 시간이 단축됨 (2배~7배).
    • $m$ 개 토큰 생성시 생성된 KV cache 를 다른 agent 에게 전달.
      • linear chain (A -> B -> C)
      • star topology (coder, math, science experts -> summarizer)
    • Qwen3 models (4B, 8B, 14B) 사용.
    • projection 은 output embedding matrix 의 pseudo-inverse matrix 와 input embedding matrix 활용.