(논문 요약) FAST AND ACCURATE CAUSAL PARALLEL DECODING USING JACOBI FORCING (Paper)

핵심 내용

  • jacobi decoding: $n$ 개 토큰을 $k$ 회 생성

  • consistency distillation: train multiple tokens prediction

  • jacobi forcing

    • consistency distillation loss 계산시, 뒤쪽 block 은 noise ratio 가 높아지도록 noise 를 넣음.
    • autoregressive loss 에 추가하여 학습.
    • 기타 techniques 도 제안함.