**(논문 요약) ** (Paper) Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients

핵심 내용

  • GaLore 에서 2가지 관찰
    • 일부 layer 에서는 gradient subspace 가 빠르게 수렴
    • projection matrices 는 low-bit quantization 해도 성능이 유지됨 (INT4 사용)
  • weights 는 INT8 사용하여, LLaMA-7B 를 NVIDIA RTX 4060 Ti 에서 학습시 16 GB memory 만 필요

  • Algorithm
    • $t$ iteration 마다 projection update 하는 것을 $k$ interval 동안 cosine similarity 가 40% 이상 유지되면, $t\rightarrow 2t$ 로 증가
    • weight update

실험 결과

  • 성능이 QLoRA 보다 나음