2P by neo 2023-08-23 | favorite | 댓글 1개
  • 기사는 저자가 오픈 소스 모델인 Stability AI의 Stable Diffusion XL 1.0 (SDXL)의 성능을 향상시키기 위한 노력에 대해 논의합니다. 이 모델은 1024x1024 해상도의 이미지를 생성합니다.
  • SDXL은 두 가지 모델로 구성되어 있습니다: 기본 모델과 속도에 영향을 주지 않으면서 세부 사항을 크게 향상시키는 선택적 리파이너 모델입니다.
  • 저자는 Hugging Face의 diffusers Python 라이브러리를 사용하여 SDXL과 함께 작업하였으며, 기본 모델과 리파이너 모델을 모두 로드하고 사용하는 방법에 대한 예를 제공하였습니다.
  • 저자는 중급 L4 GPU가 있는 클라우드 가상 머신을 사용하여 이미지를 생성하였으며, 각 1024x1024 이미지가 약 22초 만에 생성된다고 언급하였습니다.
  • 저자는 diffusers의 두 가지 새로운 기능인 프롬프트 가중치 및 Dreambooth LoRA 훈련 및 추론에 대해 실험하였습니다.
  • 프롬프트 가중치는 결과적인 위치 텍스트 임베딩에서 용어의 수학적 가중치를 더 허용함으로써 최종 생성물을 개선합니다.
  • Dreambooth LoRA 지원은 소량의 소스 이미지와 트리거 키워드에 대한 Stable Diffusion의 미세 조정을 가능하게 하며, 이를 통해 키워드가 주어진 다른 상황에서 해당 이미지의 "개념"을 사용할 수 있게 합니다.
  • 저자는 Ugly Sonic이라는 Stable Diffusion의 원본 데이터 세트에 없는 개념에 대해 LoRA를 훈련시킴으로써 SDXL의 잠재력을 테스트하였습니다. 결과는 훨씬 더 좋고 일관성이 있었습니다.
  • 저자는 또한 "잘못됨"을 프롬프트로 설정한 심하게 왜곡된 쓰레기 이미지에 대해 LoRA를 훈련시켰습니다. 이는 LoRA가 "잘못됨"을 "부정적인 프롬프트"로 사용하고 이러한 이미지를 피하여 덜 왜곡된 이미지를 생성할 수 있기를 바라는 것이었습니다.
  • 저자는 LoRA가 SDXL을 더 똑똑하게 만들고 프롬프트의 정신에 더 충실하게 만들어 생성된 이미지의 품질과 명확성을 향상시킨다는 것을 발견하였습니다.
  • 저자는 나쁜 이미지에 대해 SDXL을 훈련시키는 것이 ChatGPT를 강력하게 만드는 기술과 유사한 인간의 피드백에서 강화 학습(RLHF)의 한 형태라는 결론을 내렸습니다.
  • 저자는 "부정적인 LoRAs"의 잠재력을 계속 탐구할 계획이며, 이들을 다른 LoRAs와 병합하여 성능을 향상시키는 것을 포함합니다.
Hacker News 의견
  • 개인화된 RLHF (Reinforcement Learning from Human Feedback) 개념이 관심을 받고 있으며, 이는 AI 출력을 개인의 선호도로 이끌 수 있는 잠재력을 가지고 있다.
  • AI 시스템이 생성하는 모든 이미지에 "좋아요/싫어요" 피드백 옵션을 구현하는 것이 제안되었으며, "잘못된" 이미지를 무시하는 선택적 텍스트 라벨도 함께 제안되었다.
  • 피드백을 위한 가능한 가장 빠른 반복 루프에 대한 의문이 제기되었으며, 모델이 개인적으로 선호하는 이미지를 출력할 확률을 높이기 위해 초당 약 10k의 선호도를 수집하는 아이디어가 제시되었다.
  • 예술 창작을 위한 Stable Diffusion (SD) 사용이 인정받고 있으며, SD 1.5/2.0과 SDXL 사이의 차이는 중요하다고 강조되었다.
  • 데이터 과학자들이 자신들의 PC에서 수행한 모든 키 입력을 기록하였으며, 이는 이제 AI 시스템에 유용한 데이터로 간주된다.
  • SDXL Base Model을 사용하여 다양한 스타일의 프롬프트를 혼합하여 이미지를 생성하고, 이를 이용해 LoRA (Learning from Observations and Rewards)를 훈련시킨 후, 이 LoRA + 훈련 세트를 생성하는 데 사용된 프롬프트로 다시 생성하는 아이디어가 공유되었다.
  • 위 과정의 결과는 강화된 효과 - 더 많은 오류, 더 이상한, 고해상도로 설명된다.
  • 생성 이미지 AI의 출시는 더 높은 vram과 계산 요구 사항, 그리고 특수화된 SD1.5 모델에 비해 낮은 품질의 출력으로 인해 주목받지 못했다고 여겨진다.
  • Stable Diffusion XL을 위해 구축된 LORAs는 일반적인 부정적 프롬프트와만 잘 작동한다고 보고되었다.
  • 한 번에 여러 LoRAs를 활성화할 수 있는 능력에 대해 논란이 있다.
  • RLHF를 사용하여 GPT3를 더 사용하기 쉽게 만드는 것이 인정받고 있으며, 미래의 모델들이 부정적인 훈련 데이터로서 나쁜 결과를 포함할 것이라는 희망이 있다.
  • LoRAs를 병합하는 가능성이 언급되었으며, 개인 주제를 포함하는 하나의 LoRA, 결과를 개선하는 또 다른 LoRA, 그리고 특정 스타일을 위한 세 번째 LoRA를 사용하는 데 관심이 있다.