Hacker News 의견
  • 개인화된 RLHF (Reinforcement Learning from Human Feedback) 개념이 관심을 받고 있으며, 이는 AI 출력을 개인의 선호도로 이끌 수 있는 잠재력을 가지고 있다.
  • AI 시스템이 생성하는 모든 이미지에 "좋아요/싫어요" 피드백 옵션을 구현하는 것이 제안되었으며, "잘못된" 이미지를 무시하는 선택적 텍스트 라벨도 함께 제안되었다.
  • 피드백을 위한 가능한 가장 빠른 반복 루프에 대한 의문이 제기되었으며, 모델이 개인적으로 선호하는 이미지를 출력할 확률을 높이기 위해 초당 약 10k의 선호도를 수집하는 아이디어가 제시되었다.
  • 예술 창작을 위한 Stable Diffusion (SD) 사용이 인정받고 있으며, SD 1.5/2.0과 SDXL 사이의 차이는 중요하다고 강조되었다.
  • 데이터 과학자들이 자신들의 PC에서 수행한 모든 키 입력을 기록하였으며, 이는 이제 AI 시스템에 유용한 데이터로 간주된다.
  • SDXL Base Model을 사용하여 다양한 스타일의 프롬프트를 혼합하여 이미지를 생성하고, 이를 이용해 LoRA (Learning from Observations and Rewards)를 훈련시킨 후, 이 LoRA + 훈련 세트를 생성하는 데 사용된 프롬프트로 다시 생성하는 아이디어가 공유되었다.
  • 위 과정의 결과는 강화된 효과 - 더 많은 오류, 더 이상한, 고해상도로 설명된다.
  • 생성 이미지 AI의 출시는 더 높은 vram과 계산 요구 사항, 그리고 특수화된 SD1.5 모델에 비해 낮은 품질의 출력으로 인해 주목받지 못했다고 여겨진다.
  • Stable Diffusion XL을 위해 구축된 LORAs는 일반적인 부정적 프롬프트와만 잘 작동한다고 보고되었다.
  • 한 번에 여러 LoRAs를 활성화할 수 있는 능력에 대해 논란이 있다.
  • RLHF를 사용하여 GPT3를 더 사용하기 쉽게 만드는 것이 인정받고 있으며, 미래의 모델들이 부정적인 훈련 데이터로서 나쁜 결과를 포함할 것이라는 희망이 있다.
  • LoRAs를 병합하는 가능성이 언급되었으며, 개인 주제를 포함하는 하나의 LoRA, 결과를 개선하는 또 다른 LoRA, 그리고 특정 스타일을 위한 세 번째 LoRA를 사용하는 데 관심이 있다.