(모델 요약) Automatic Data Curation for Self-Supervised Learning; A Clustering-Based Approach | Jaemin’s Arxiv

(모델 요약) Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach (Model)

핵심 내용

$k$-means clustring 을 hierarchically 적용하여 data imbalance 를 줄임
- $k$-means centroids 들이 $p^{d/(d+2)}$ 에 비례하게 분포한다는 증명이 존재
- $k$-means 를 $T$ 번 반복하면, $p^{(d/(d+2))^T}$ 에 비례하게 되고, 점점 uniform 에 가까워짐
algorithm: $k$-means clustering 반복

실험 결과

Iterative $k$-means clustering algorithm 의 효과
imbalance 없애고 self-supervised learning 학습시 성능 향상