(논문 요약) DINOv3 (Paper)

핵심 내용

  • 데이터
    • raw 17B images
    • hierarchical k-means 적용하여 filtering (200M, 8M, 800k, 100k, 25k 개의 5-level)
    • 1,689 M (named LVD-1689M)
  • 7B param

  • objectives
    • image-level (DINO loss)
    • patch-level latent reconstruction (iBOT loss)
    • Koleo regularizer: encourage the features within a batch to spread uniformly in the space
    • Gram anchoring: old, new Gram matrix 간 Frobenius norm
      • 학습이 진행될수록 global DINO loss 가 우세해짐.
      • Gram anchoring 도입하여 이어서 학습시, iBOT loss 가 감소함.

결과

  • downstream task 성능이 개선됨.

  • PCA 결과 object boundary 가 타 모델보다 선명함.