(논문 요약) CUT YOUR LOSSES IN LARGE-VOCABULARY LANGUAGE MODELS (Paper)
핵심 내용
log softmax 식을 분리
일때,
병렬 처리, back-propagation 시 thresholding 을 통한 속도 개선 및 메모리 개선.
알고리즘
실험 결과
(논문 요약) CUT YOUR LOSSES IN LARGE-VOCABULARY LANGUAGE MODELS (Paper)
log softmax 식을 분리
일때,
병렬 처리, back-propagation 시 thresholding 을 통한 속도 개선 및 메모리 개선.
알고리즘