-
(논문리뷰) DHARIWAL, Prafulla; NICHOL, Alexander. Diffusion models beat gans on image synthesis. (part 1)논문리뷰 2024. 6. 25. 21:42728x90
생성형 이미지 관련하여 Diffusion model의 성능은 충분히 많은 논문에서도 검증되었다.
본 논문에서는 샘플당 25회의 forward pass만으로도 BigGAN-deep의 성능을 내었다.
그리고 평가 방법으로 FID를 사용했다.
ImageNet 128x128에서 FID 2.97, ImageNet 256x256에서 FID 4.59, ImageNet 512x512에서 FID 7.72를 달성했으며, 샘플당 단 25회의 전진 패스로도 BigGAN-deep과 맞먹는 성능을 보이면서도 분포의 더 나은 커버리지를 유지했습니다. 마지막으로, 분류기 지도가 업샘플링 확산 모델과 잘 결합되어 ImageNet 256x256에서 FID 3.94, ImageNet 512x512에서 FID 3.85로 더욱 향상됨을 발견했습니다.(FID)[29], IS, Precision[38]와 같은 샘플 품질 지표 sample quality matrics 들에서 GANs 가 최신 이미지 생성 에 주로 활용되었지만 다른 지표들에서는 diversity, 에서 그렇지 못했다. 그리고 GANs는 종종 학습시키기 어렵다는 단점을 가지고 있다. (하이퍼파라미터와 정규화 문제) [7,8,47].
Diffusion models 의 경우, 높은 퀄리티의 이미지를 생성 가능하며 [63, 66, 31, 49] 분포 커버리지, 고정된 훈련 목표, 그리고 쉬운 확장성을 제공합니다.
이 모델들은 신호에서 점진적으로 노이즈를 제거하여 샘플을 생성하며, 그 훈련 목표는 재가중치된 변분 하한으로 표현될 수 있습니다[31]. 이 모델 클래스는 이미 CIFAR-10 [37]에서 최고 성능을 보유하고 있지만, LSUN과 ImageNet과 같은 어려운 생성 데이터셋에서는 여전히 GAN보다 뒤처집니다. 우리는 이 격차가 적어도 두 가지 이유로 존재한다고 가정합니다. 첫째, 최근 GAN 문헌에서 사용된 모델 아키텍처가 많이 탐구되고 정제되었다는 점, 둘째, GAN이 다양성을 희생하여 높은 품질의 샘플을 생성하지만 전체 분포를 다루지는 못한다는 점입니다. 우리는 먼저 모델 아키텍처를 개선하고, 다양성을 희생하여 충실도를 높이는 방식을 고안함으로써 이러한 이점을 확산 모델에 가져오고자 합니다.
LSUN 데이터셋 :
The Large-scale Scene Understanding (LSUN) challenge aims to provide a different benchmark for large-scale scene classification and understanding. The LSUN classification dataset contains 10 scene categories, such as dining room, bedroom, chicken, outdoor church, and so on. For training data, each category contains a huge number of images, ranging from around 120,000 to 3,000,000. The validation data includes 300 images, and the test data has 1000 images for each category.
▶ MNIST: 0부터 9까지의 28 x 28 손글씨 사진을 모은 데이터셋 (학습용: 60,000개 / 테스트용: 10,000) ▶ CIFAR-10: 10개의 클래스로 구분된 32 x 32 사물 사진을 모은 데이터셋 (학습용: 50,000개 / 테스트용: 10,000개)
출처:
https://ndb796.tistory.com/471
[안경잡이개발자:티스토리]
반면에 이미지넷(ImageNet)은 대표적인 대규모(large-scale) 데이터셋이다. 전체 데이터셋에 포함된 이미지만 해도 1,000만 개가 넘는다. 유명한 Amazon Mechanical Turk 서비스를 이용하여 일일이 사람이 분류한 데이터셋이다. 이 데이터셋은 ILSVRC (ImageNet Large Scale Visual Recognition Challenge)로 잘 알려진 국제 대회에서 사용되는 데이터셋으로도 유명하다. 논문에서 가장 자주 등장하는 데이터셋은 ILSVRC 2012 데이터셋이다. 최신 논문도 대개 ILSVRC 2012를 이용해 학습/평가를 진행한다. 사실 일반적으로 딥러닝에 사용되는 데이터셋은 평가(training) / 검증(validation) / 테스트(test) 데이터셋으로 나누어지는데, ILSVRC 2012는 실제 대회에서 사용되었던 데이터셋이며 테스트 데이터셋은 공개하지 않고 있다. 그래서 대개 논문을 쓰기 위한 목적으로는 평가(training) 데이터셋과 검증(validation) 데이터셋을 사용한다. 이 데이터셋은 1,000개의 클래스로 구성되며 총 백만 개가 넘는 데이터를 포함한다. 약 120만 개는 학습(training)에 쓰고, 5만개는 검증(validation)에 쓴다. 학습 데이터셋 용량은 약 138GB, 검증 데이터셋 용량은 약 6GB이다. 특히 분류(classification) 문제에 관심이 있는 딥러닝 연구자라면 대개 이미지넷 데이터셋을 다운로드하는 편이다. 학습 데이터를 확인해 보면 각 클래스당 약 1,000개가량의 사진으로 구성되어 있다.
출처:
https://ndb796.tistory.com/471
[안경잡이개발자:티스토리]s. In Section 2, we give a brief background of diffusion models based on Ho et al. [31] and the improvements from Nichol and Dhariwal [49] and Song et al. [64],
we describe our evaluation setup.
In Section 3, we introduce simple architecture improvements that give a substantial boost to FID. In Section 4, we describe a method for using gradients from a classifier to guide a diffusion model during sampling. Finally, in Section 5 we show that models with our improved architecture achieve state-of-the-art on unconditional image synthesis tasks, and with classifier guidance achieve state-of-the-art on conditional image synthesis.
참고 :
DHARIWAL, Prafulla; NICHOL, Alexander. Diffusion models beat gans on image synthesis. Advances in neural information processing systems, 2021, 34: 8780-8794.
반응형'논문리뷰' 카테고리의 다른 글