Stable Diffusion 3 발표

xguru · 2024-02-23T09:16:02+09:00

Stable Diffusion 3는 가장 뛰어난 텍스트-이미지 모델로, 다중 주제 프롬프트, 이미지 품질, 철자 능력에서 크게 향상된 성능을 제공 아직 널리 사용할 수 없지만, 얼리 프리뷰를 위한 대기자 명단 등록 시작 이 미리보기 단계는 이전 모델과 마찬가지로 성능과 안전성을 개선하기 위한 통찰을 얻는 데 중요함 모델 범위 및 기술 Stable Diffusion 3 모델 스위트는 800M에서 8B 파라미터 범위를 가짐 이 접근법은 핵심 가치에 부합하고 누구나 접근할수 있도록 하는 목표를 가지며, 사용자의 창의적인 요구에 가장 잘 부합하는 확장성과 품질의 다양한 옵션을 제공 SD3는 Diffusion Transformer 아키텍처와 Flow Matching을 결합함 상세한 기술 보고서는 곧 발표될 예정 안전한 책임감 있는 AI 실천 안전하고 책임감 있는 AI 실천을 중요하게 생각함. Stable Diffusion 3의 오용을 방지하기 위해 합리적인 조치를 취하고 있으며, 이는 모델 훈련 초기부터 테스트, 평가, 배포 과정 전반에 걸쳐 지속 초기 미리보기를 준비하며 다수의 안전장치를 도입함 연구자, 전문가, 커뮤니티와 지속적으로 협력함으로써 모델의 공개에 접근함에 따라 더욱 혁신할 것으로 기대 약속과 창의성 활성화 생성 AI가 개방적이고, 안전하며, 보편적으로 접근 가능하도록 하는 약속은 확고함 Stable Diffusion 3를 통해 개인, 개발자, 기업이 창의력을 발휘할 수 있는 적응 가능한 솔루션을 제공할 것 Stable Diffusion 3 출시 전에 다른 이미지 모델을 상업적으로 사용하고 싶다면 Stability AI 멤버십 페이지를 방문하거나 개발자 플랫폼을 통해 API에 접근할 수 있음

(stability.ai)

9P by xguru 2024-02-23 | ★ favorite | 댓글 1개

Stable Diffusion 3는 가장 뛰어난 텍스트-이미지 모델로, 다중 주제 프롬프트, 이미지 품질, 철자 능력에서 크게 향상된 성능을 제공
아직 널리 사용할 수 없지만, 얼리 프리뷰를 위한 대기자 명단 등록 시작
이 미리보기 단계는 이전 모델과 마찬가지로 성능과 안전성을 개선하기 위한 통찰을 얻는 데 중요함

모델 범위 및 기술

Stable Diffusion 3 모델 스위트는 800M에서 8B 파라미터 범위를 가짐
이 접근법은 핵심 가치에 부합하고 누구나 접근할수 있도록 하는 목표를 가지며, 사용자의 창의적인 요구에 가장 잘 부합하는 확장성과 품질의 다양한 옵션을 제공
SD3는 Diffusion Transformer 아키텍처와 Flow Matching을 결합함
상세한 기술 보고서는 곧 발표될 예정

안전한 책임감 있는 AI 실천

안전하고 책임감 있는 AI 실천을 중요하게 생각함.
Stable Diffusion 3의 오용을 방지하기 위해 합리적인 조치를 취하고 있으며, 이는 모델 훈련 초기부터 테스트, 평가, 배포 과정 전반에 걸쳐 지속
초기 미리보기를 준비하며 다수의 안전장치를 도입함
연구자, 전문가, 커뮤니티와 지속적으로 협력함으로써 모델의 공개에 접근함에 따라 더욱 혁신할 것으로 기대

약속과 창의성 활성화

생성 AI가 개방적이고, 안전하며, 보편적으로 접근 가능하도록 하는 약속은 확고함
Stable Diffusion 3를 통해 개인, 개발자, 기업이 창의력을 발휘할 수 있는 적응 가능한 솔루션을 제공할 것
Stable Diffusion 3 출시 전에 다른 이미지 모델을 상업적으로 사용하고 싶다면 Stability AI 멤버십 페이지를 방문하거나 개발자 플랫폼을 통해 API에 접근할 수 있음

xguru 2024-02-23 [-]

Hacker News 의견

새로운 유형의 확산 변환기를 사용하며, 흐름 일치 및 기타 개선 사항을 결합함.
- 변환기 개선을 활용하여 더 크게 확장 가능하고 다중 모달 입력을 받을 수 있음.
- 품질과 안전성을 높이기 위해 공개 예정이며, 전체 도구 생태계와 함께 출시될 예정임.
- 최신 하드웨어를 활용하는 새로운 기반이며, 모든 크기로 제공됨.
- 비디오, 3D 등을 가능하게 함.
- 더 많은 GPU가 필요함.
- 기술적인 세부 사항은 곧 공개될 예정임.
- 충분한 GPU와 좋은 데이터가 있다면 Sora와 유사한 비디오 생성 가능함.
- 800만에서 80억 파라미터에 이르는 다양한 크기로 제공되어, 모든 종류의 GPU에서 사용할 수 있음.
안전성에 대한 집착은 최근의 제미니 사건을 고려할 때 마케팅 기회를 놓친 것으로 보임.
- 안전성이 과도해져 대부분의 이미지가 흐릿하게 나오며, 이전 버전에서 작동하던 프롬프트가 SDXL에서는 흐릿하게 나옴.
- 다음 버전이 이와 같다면 Stability API 사용을 중단할 것임.
- 과도한 흐림 없이 Stable Diffusion과 유사한 가치와 품질을 제공하는 다른 텍스트-이미지 서비스가 있는지 궁금함.
현재의 검열 상황을 고려할 때 이번에 "안전"이 무엇을 의미하는지 볼 것이 흥미로움.
- DallE를 사용하여 게임 자산용 무기 이미지를 생성하려 할 때 상당한 어려움을 겪음.
발표문의 절반은 "우리는 정말로 책임감 있고 안전하다"는 내용임.
데모 이미지는 모두 '아트워크'임.
- 모델이 사진, 기술 도면, 기타 그래픽 미디어도 잘 생성할 수 있는지 궁금함.
텍스트/철자 부분은 큰 진전임.
"안전" 부분을 재작성하지만, AI 도구 대신 'Big Knife'라는 상상의 칼로 대체함.
- "우리는 안전하고 책임감 있는 칼 사용을 믿습니다. 이는 나쁜 행위자에 의한 Big Knife의 오용을 방지하기 위해 합리적인 조치를 취했다는 것을 의미합니다."

답변달기