9P by xguru 2달전 | favorite | 댓글 1개
  • Stable Diffusion 3는 가장 뛰어난 텍스트-이미지 모델로, 다중 주제 프롬프트, 이미지 품질, 철자 능력에서 크게 향상된 성능을 제공
  • 아직 널리 사용할 수 없지만, 얼리 프리뷰를 위한 대기자 명단 등록 시작
  • 이 미리보기 단계는 이전 모델과 마찬가지로 성능과 안전성을 개선하기 위한 통찰을 얻는 데 중요함

모델 범위 및 기술

  • Stable Diffusion 3 모델 스위트는 800M에서 8B 파라미터 범위를 가짐
  • 이 접근법은 핵심 가치에 부합하고 누구나 접근할수 있도록 하는 목표를 가지며, 사용자의 창의적인 요구에 가장 잘 부합하는 확장성과 품질의 다양한 옵션을 제공
  • SD3는 Diffusion Transformer 아키텍처와 Flow Matching을 결합함
  • 상세한 기술 보고서는 곧 발표될 예정

안전한 책임감 있는 AI 실천

  • 안전하고 책임감 있는 AI 실천을 중요하게 생각함.
  • Stable Diffusion 3의 오용을 방지하기 위해 합리적인 조치를 취하고 있으며, 이는 모델 훈련 초기부터 테스트, 평가, 배포 과정 전반에 걸쳐 지속
  • 초기 미리보기를 준비하며 다수의 안전장치를 도입함
  • 연구자, 전문가, 커뮤니티와 지속적으로 협력함으로써 모델의 공개에 접근함에 따라 더욱 혁신할 것으로 기대

약속과 창의성 활성화

  • 생성 AI가 개방적이고, 안전하며, 보편적으로 접근 가능하도록 하는 약속은 확고함
  • Stable Diffusion 3를 통해 개인, 개발자, 기업이 창의력을 발휘할 수 있는 적응 가능한 솔루션을 제공할 것
  • Stable Diffusion 3 출시 전에 다른 이미지 모델을 상업적으로 사용하고 싶다면 Stability AI 멤버십 페이지를 방문하거나 개발자 플랫폼을 통해 API에 접근할 수 있음

Hacker News 의견

  • 새로운 유형의 확산 변환기를 사용하며, 흐름 일치 및 기타 개선 사항을 결합함.

    • 변환기 개선을 활용하여 더 크게 확장 가능하고 다중 모달 입력을 받을 수 있음.
    • 품질과 안전성을 높이기 위해 공개 예정이며, 전체 도구 생태계와 함께 출시될 예정임.
    • 최신 하드웨어를 활용하는 새로운 기반이며, 모든 크기로 제공됨.
    • 비디오, 3D 등을 가능하게 함.
    • 더 많은 GPU가 필요함.
    • 기술적인 세부 사항은 곧 공개될 예정임.
    • 충분한 GPU와 좋은 데이터가 있다면 Sora와 유사한 비디오 생성 가능함.
    • 800만에서 80억 파라미터에 이르는 다양한 크기로 제공되어, 모든 종류의 GPU에서 사용할 수 있음.
  • 안전성에 대한 집착은 최근의 제미니 사건을 고려할 때 마케팅 기회를 놓친 것으로 보임.

    • 안전성이 과도해져 대부분의 이미지가 흐릿하게 나오며, 이전 버전에서 작동하던 프롬프트가 SDXL에서는 흐릿하게 나옴.
    • 다음 버전이 이와 같다면 Stability API 사용을 중단할 것임.
    • 과도한 흐림 없이 Stable Diffusion과 유사한 가치와 품질을 제공하는 다른 텍스트-이미지 서비스가 있는지 궁금함.
  • 현재의 검열 상황을 고려할 때 이번에 "안전"이 무엇을 의미하는지 볼 것이 흥미로움.

    • DallE를 사용하여 게임 자산용 무기 이미지를 생성하려 할 때 상당한 어려움을 겪음.
  • 발표문의 절반은 "우리는 정말로 책임감 있고 안전하다"는 내용임.

  • 데모 이미지는 모두 '아트워크'임.

    • 모델이 사진, 기술 도면, 기타 그래픽 미디어도 잘 생성할 수 있는지 궁금함.
  • 텍스트/철자 부분은 큰 진전임.

  • "안전" 부분을 재작성하지만, AI 도구 대신 'Big Knife'라는 상상의 칼로 대체함.

    • "우리는 안전하고 책임감 있는 칼 사용을 믿습니다. 이는 나쁜 행위자에 의한 Big Knife의 오용을 방지하기 위해 합리적인 조치를 취했다는 것을 의미합니다."