(논문 요약) Disentangling the Factors of Convergence between Brains and Computer Vision Models (Paper)
핵심 내용
- 뇌의 시각적 정보와 Dino-v3 모델의 유사성 측정
- 다음을 최적화 (scikit-learn 의 RidgeCV 사용)
Encoding score:
Spatial score: 각 brain region 의 활동을 가장 잘 예측하는 layer $k$ 과 해당 region 의 hierarchical position $d$ 의 상관관계
Temporal score: layer $k$ 와 각 layer 가 brain activity 가 가장 잘 예측된 시간 $t$ 의 상관관계
실험 결과
- Encoding score:
- primarily peak in the visual pathway (R=.45 ± .039 - SEM across subjects)
- lateral-occipitotemporal (MT: R=.34±.026)
- ventromedial visual cortex (VMV2: R=.28 ± .025)
Spatial score: R=0.38
- Temporal score: R=0.96