(논문 요약) LOTUS: Diffusion-based Visual Foundation Model for High-quality Dense Prediction (blog)
핵심 내용
- train: 고정된 encoder 로 image, depth label 차원 줄여놓고, label 에 noise 더해서 denoising U-Net 학습.
- inference: depth label 을 noise 로 시작해서 denoising.
- 저자 blog 에 내용이 간략히 잘 정리되어있음.