Stable Diffusion 3 발표
(stability.ai)- Stable Diffusion 3는 가장 뛰어난 텍스트-이미지 모델로, 다중 주제 프롬프트, 이미지 품질, 철자 능력에서 크게 향상된 성능을 제공
- 아직 널리 사용할 수 없지만, 얼리 프리뷰를 위한 대기자 명단 등록 시작
- 이 미리보기 단계는 이전 모델과 마찬가지로 성능과 안전성을 개선하기 위한 통찰을 얻는 데 중요함
모델 범위 및 기술
- Stable Diffusion 3 모델 스위트는 800M에서 8B 파라미터 범위를 가짐
- 이 접근법은 핵심 가치에 부합하고 누구나 접근할수 있도록 하는 목표를 가지며, 사용자의 창의적인 요구에 가장 잘 부합하는 확장성과 품질의 다양한 옵션을 제공
- SD3는 Diffusion Transformer 아키텍처와 Flow Matching을 결합함
- 상세한 기술 보고서는 곧 발표될 예정
안전한 책임감 있는 AI 실천
- 안전하고 책임감 있는 AI 실천을 중요하게 생각함.
- Stable Diffusion 3의 오용을 방지하기 위해 합리적인 조치를 취하고 있으며, 이는 모델 훈련 초기부터 테스트, 평가, 배포 과정 전반에 걸쳐 지속
- 초기 미리보기를 준비하며 다수의 안전장치를 도입함
- 연구자, 전문가, 커뮤니티와 지속적으로 협력함으로써 모델의 공개에 접근함에 따라 더욱 혁신할 것으로 기대
약속과 창의성 활성화
- 생성 AI가 개방적이고, 안전하며, 보편적으로 접근 가능하도록 하는 약속은 확고함
- Stable Diffusion 3를 통해 개인, 개발자, 기업이 창의력을 발휘할 수 있는 적응 가능한 솔루션을 제공할 것
- Stable Diffusion 3 출시 전에 다른 이미지 모델을 상업적으로 사용하고 싶다면 Stability AI 멤버십 페이지를 방문하거나 개발자 플랫폼을 통해 API에 접근할 수 있음
Hacker News 의견
-
새로운 유형의 확산 변환기를 사용하며, 흐름 일치 및 기타 개선 사항을 결합함.
- 변환기 개선을 활용하여 더 크게 확장 가능하고 다중 모달 입력을 받을 수 있음.
- 품질과 안전성을 높이기 위해 공개 예정이며, 전체 도구 생태계와 함께 출시될 예정임.
- 최신 하드웨어를 활용하는 새로운 기반이며, 모든 크기로 제공됨.
- 비디오, 3D 등을 가능하게 함.
- 더 많은 GPU가 필요함.
- 기술적인 세부 사항은 곧 공개될 예정임.
- 충분한 GPU와 좋은 데이터가 있다면 Sora와 유사한 비디오 생성 가능함.
- 800만에서 80억 파라미터에 이르는 다양한 크기로 제공되어, 모든 종류의 GPU에서 사용할 수 있음.
-
안전성에 대한 집착은 최근의 제미니 사건을 고려할 때 마케팅 기회를 놓친 것으로 보임.
- 안전성이 과도해져 대부분의 이미지가 흐릿하게 나오며, 이전 버전에서 작동하던 프롬프트가 SDXL에서는 흐릿하게 나옴.
- 다음 버전이 이와 같다면 Stability API 사용을 중단할 것임.
- 과도한 흐림 없이 Stable Diffusion과 유사한 가치와 품질을 제공하는 다른 텍스트-이미지 서비스가 있는지 궁금함.
-
현재의 검열 상황을 고려할 때 이번에 "안전"이 무엇을 의미하는지 볼 것이 흥미로움.
- DallE를 사용하여 게임 자산용 무기 이미지를 생성하려 할 때 상당한 어려움을 겪음.
-
발표문의 절반은 "우리는 정말로 책임감 있고 안전하다"는 내용임.
-
데모 이미지는 모두 '아트워크'임.
- 모델이 사진, 기술 도면, 기타 그래픽 미디어도 잘 생성할 수 있는지 궁금함.
-
텍스트/철자 부분은 큰 진전임.
-
"안전" 부분을 재작성하지만, AI 도구 대신 'Big Knife'라는 상상의 칼로 대체함.
- "우리는 안전하고 책임감 있는 칼 사용을 믿습니다. 이는 나쁜 행위자에 의한 Big Knife의 오용을 방지하기 위해 합리적인 조치를 취했다는 것을 의미합니다."