(논문 요약) CUT YOUR LOSSES IN LARGE-VOCABULARY LANGUAGE MODELS (Paper)
핵심 내용
log softmax 식을 분리
일때,

병렬 처리, back-propagation 시 thresholding 을 통한 속도 개선 및 메모리 개선.

알고리즘

실험 결과

(논문 요약) CUT YOUR LOSSES IN LARGE-VOCABULARY LANGUAGE MODELS (Paper)
log softmax 식을 분리
일때,

병렬 처리, back-propagation 시 thresholding 을 통한 속도 개선 및 메모리 개선.

알고리즘

