Flux - 12B 파라미터 오픈소스 Text-To-Image 모델

(blog.fal.ai)

8P by GN⁺ 12달전 | ★ favorite | 댓글 1개

Black Forest Labs에서 개발한 가장 큰 SOTA 오픈 소스 텍스트-이미지 모델
- Stable Diffusion을 개발한 오리지널 팀
12B 파라미터로 창의성과 성능의 경계를 확장하여, Midjourney와 유사한 이미지 생성 기능을 제공

3가지 모델로 제공

FLUX.1 [dev]: 비상업적 라이선스로 오픈 소스화된 기본 모델. 커뮤니티가 이를 기반으로 구축할 수 있음
FLUX.1 [schnell]: 기본 모델의 증류 버전으로 최대 10배 빠르게 작동함. Apache 2 라이선스.
FLUX.1 [pro]: API를 통해서만 이용 가능한 비공개 버전

주요 특징

향상된 이미지 품질: 고해상도의 놀라운 비주얼 생성 가능
고급 인간 해부학 및 포토리얼리즘: 매우 현실적이고 해부학적으로 정확한 이미지 생성 가능
개선된 프롬프트 준수: 입력에 기반한 더 정확하고 관련성 높은 이미지 생성 가능
뛰어난 속도: 높은 수요 애플리케이션에 이상적인 Flux Schnell의 속도와 효율성

fal의 통합

fal의 최첨단 추론 엔진을 통합하여 Flux 모델을 eager torch보다 최대 2배 빠르게 실행 가능
빠른 처리 시간과 뛰어난 품질 및 디테일 유지

GN⁺의 정리

Flux는 Black Forest Labs에서 개발한 최신 텍스트-이미지 모델로, 창의성과 성능의 새로운 기준을 제시함
다양한 변형 모델을 통해 다양한 사용 사례에 맞춤형 솔루션을 제공함
향상된 이미지 품질과 현실적인 표현력으로 높은 수요 애플리케이션에 적합함
fal의 추론 엔진을 통해 더욱 빠르고 효율적인 모델 실행이 가능함
유사한 기능을 가진 다른 프로젝트로는 DALL-E와 Midjourney가 있음

▲

GN⁺ 12달전 [-]

Hacker News 의견

burkay from fal.ai: 모델은 fal이 만든 것이 아니며, Black Forest Labs가 제작한 것임
- fal.ai는 모델을 최적화된 추론 엔진에서 실행하여 매우 빠르게 동작하게 함
- 모델을 playground에서 시도해볼 수 있음
- [schnell] 모델은 Apache 라이선스로 Hugging Face에서 오픈 소스로 제공됨
- 텍스트 렌더링이 매우 빠르고 뛰어나며, 텍스트와 위치를 더 잘 처리할 수 있는 텍스트 인코더가 있음
- 텍스트 렌더링이 좋아지면 훈련 데이터의 텍스트 워터마크가 더 명확하게 나타남
- 모델을 시도해볼 수 있는 링크 제공
  - FLUX.1 [schnell]: Apache 2.0, 오픈 웨이트, 스텝 증류
  - FLUX.1 [dev]: 비상업적, 오픈 웨이트, 가이드 증류 (로그인 필요)
  - FLUX.1 [pro]: 폐쇄 소스, SOTA, 원시 데이터 (API를 통해서만 사용 가능)
다른 사용자: 대부분의 비교가 새로운 모델을 제대로 테스트하지 않음
- 현재 시장에서 가장 좋은 프롬프트 준수는 DALL-E 3이지만, 복잡한 개념에서는 여전히 부족하고 검열이 많음
- Flux와 DALL-E 3을 비교한 결과, Flux가 인상적이고 성능이 뛰어남
- 비교 결과를 블로그에 게시함
다른 사용자: ideogram의 프롬프트를 사용하여 테스트했으며, Flux가 매우 좋은 이미지를 생성함
- ideogram을 사용해봤지만 필터가 마음에 들지 않음
- 로컬에서 실행할 수 있다면 이미지 품질과 프롬프트 준수 면에서 매우 근접함
- 텍스트가 복잡할 때는 명확하게 작성하지 못함
- 예시로 ideogram 이미지의 프롬프트를 제공함
- 안정적인 확산 모델을 오래전에 사용하지 않게 되었으며, 기술이 너무 복잡해져서 재미가 없어짐
- 필터 없이 로컬에서 실행할 수 있는 ideogram과 같은 시스템을 원함
- 이 모델이 매우 좋음
다른 사용자: 새로운 모델을 볼 때마다 엔지니어링 다이어그램을 만들 수 있는지 확인함
- 이 모델은 아직 엔지니어링 다이어그램을 잘 처리하지 못함
- AI 회사가 엔지니어링 다이어그램 문제를 해결해주길 바람
- 현재 훈련 데이터셋에 포함되지 않았을 가능성이 큼
- 합성 데이터셋/벤치마크를 만들고 싶음
다른 사용자: 가입 절차가 번거로움
- Github 계정 생성이 현재 오류가 발생하여 두 번의 시도와 두 개의 브라우저가 필요했음
다른 사용자: 벤처 자금 지원을 받는 스타트업들이 비즈니스 모델 없이 무료로 모델을 계속 출시함
- 오픈 소스를 지지하지만 장기적으로 지속 가능하지 않을까 걱정됨
다른 사용자: 인상적인 품질임
다른 사용자: 공간 관계를 잘 처리하지 못함
- "거꾸로 된 집" -> 일반적인 집
- "개 위에 앉아 있는 말" -> 말과 개가 나란히 있음
- "뒤집힌 Lockheed Martin F-22 Raptor" -> 잘못된 결과

답변달기