(논문 요약) CUT YOUR LOSSES IN LARGE-VOCABULARY LANGUAGE MODELS (Paper)

핵심 내용

  • log softmax 식을 분리
    일때,

  • 병렬 처리, back-propagation 시 thresholding 을 통한 속도 개선 및 메모리 개선.

  • 알고리즘

실험 결과