(모델 요약) Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach (Model)
핵심 내용
- $k$-means clustring 을 hierarchically 적용하여 data imbalance 를 줄임
- $k$-means centroids 들이 $p^{d/(d+2)}$ 에 비례하게 분포한다는 증명이 존재
- $k$-means 를 $T$ 번 반복하면, $p^{(d/(d+2))^T}$ 에 비례하게 되고, 점점 uniform 에 가까워짐
- algorithm: $k$-means clustering 반복
실험 결과
- Iterative $k$-means clustering algorithm 의 효과
- imbalance 없애고 self-supervised learning 학습시 성능 향상