개인화된 RLHF (Reinforcement Learning from Human Feedback) 개념이 관심을 받고 있으며, 이는 AI 출력을 개인의 선호도로 이끌 수 있는 잠재력을 가지고 있다.
AI 시스템이 생성하는 모든 이미지에 "좋아요/싫어요" 피드백 옵션을 구현하는 것이 제안되었으며, "잘못된" 이미지를 무시하는 선택적 텍스트 라벨도 함께 제안되었다.
피드백을 위한 가능한 가장 빠른 반복 루프에 대한 의문이 제기되었으며, 모델이 개인적으로 선호하는 이미지를 출력할 확률을 높이기 위해 초당 약 10k의 선호도를 수집하는 아이디어가 제시되었다.
예술 창작을 위한 Stable Diffusion (SD) 사용이 인정받고 있으며, SD 1.5/2.0과 SDXL 사이의 차이는 중요하다고 강조되었다.
데이터 과학자들이 자신들의 PC에서 수행한 모든 키 입력을 기록하였으며, 이는 이제 AI 시스템에 유용한 데이터로 간주된다.
SDXL Base Model을 사용하여 다양한 스타일의 프롬프트를 혼합하여 이미지를 생성하고, 이를 이용해 LoRA (Learning from Observations and Rewards)를 훈련시킨 후, 이 LoRA + 훈련 세트를 생성하는 데 사용된 프롬프트로 다시 생성하는 아이디어가 공유되었다.
위 과정의 결과는 강화된 효과 - 더 많은 오류, 더 이상한, 고해상도로 설명된다.
생성 이미지 AI의 출시는 더 높은 vram과 계산 요구 사항, 그리고 특수화된 SD1.5 모델에 비해 낮은 품질의 출력으로 인해 주목받지 못했다고 여겨진다.
Stable Diffusion XL을 위해 구축된 LORAs는 일반적인 부정적 프롬프트와만 잘 작동한다고 보고되었다.
한 번에 여러 LoRAs를 활성화할 수 있는 능력에 대해 논란이 있다.
RLHF를 사용하여 GPT3를 더 사용하기 쉽게 만드는 것이 인정받고 있으며, 미래의 모델들이 부정적인 훈련 데이터로서 나쁜 결과를 포함할 것이라는 희망이 있다.
LoRAs를 병합하는 가능성이 언급되었으며, 개인 주제를 포함하는 하나의 LoRA, 결과를 개선하는 또 다른 LoRA, 그리고 특정 스타일을 위한 세 번째 LoRA를 사용하는 데 관심이 있다.
Hacker News 의견