- 기사는 저자가 오픈 소스 모델인 Stability AI의 Stable Diffusion XL 1.0 (SDXL)의 성능을 향상시키기 위한 노력에 대해 논의합니다. 이 모델은 1024x1024 해상도의 이미지를 생성합니다.
- SDXL은 두 가지 모델로 구성되어 있습니다: 기본 모델과 속도에 영향을 주지 않으면서 세부 사항을 크게 향상시키는 선택적 리파이너 모델입니다.
- 저자는 Hugging Face의 diffusers Python 라이브러리를 사용하여 SDXL과 함께 작업하였으며, 기본 모델과 리파이너 모델을 모두 로드하고 사용하는 방법에 대한 예를 제공하였습니다.
- 저자는 중급 L4 GPU가 있는 클라우드 가상 머신을 사용하여 이미지를 생성하였으며, 각 1024x1024 이미지가 약 22초 만에 생성된다고 언급하였습니다.
- 저자는 diffusers의 두 가지 새로운 기능인 프롬프트 가중치 및 Dreambooth LoRA 훈련 및 추론에 대해 실험하였습니다.
- 프롬프트 가중치는 결과적인 위치 텍스트 임베딩에서 용어의 수학적 가중치를 더 허용함으로써 최종 생성물을 개선합니다.
- Dreambooth LoRA 지원은 소량의 소스 이미지와 트리거 키워드에 대한 Stable Diffusion의 미세 조정을 가능하게 하며, 이를 통해 키워드가 주어진 다른 상황에서 해당 이미지의 "개념"을 사용할 수 있게 합니다.
- 저자는 Ugly Sonic이라는 Stable Diffusion의 원본 데이터 세트에 없는 개념에 대해 LoRA를 훈련시킴으로써 SDXL의 잠재력을 테스트하였습니다. 결과는 훨씬 더 좋고 일관성이 있었습니다.
- 저자는 또한 "잘못됨"을 프롬프트로 설정한 심하게 왜곡된 쓰레기 이미지에 대해 LoRA를 훈련시켰습니다. 이는 LoRA가 "잘못됨"을 "부정적인 프롬프트"로 사용하고 이러한 이미지를 피하여 덜 왜곡된 이미지를 생성할 수 있기를 바라는 것이었습니다.
- 저자는 LoRA가 SDXL을 더 똑똑하게 만들고 프롬프트의 정신에 더 충실하게 만들어 생성된 이미지의 품질과 명확성을 향상시킨다는 것을 발견하였습니다.
- 저자는 나쁜 이미지에 대해 SDXL을 훈련시키는 것이 ChatGPT를 강력하게 만드는 기술과 유사한 인간의 피드백에서 강화 학습(RLHF)의 한 형태라는 결론을 내렸습니다.
- 저자는 "부정적인 LoRAs"의 잠재력을 계속 탐구할 계획이며, 이들을 다른 LoRAs와 병합하여 성능을 향상시키는 것을 포함합니다.