8P by neo 2달전 | favorite | 댓글 1개
  • Black Forest Labs에서 개발한 가장 큰 SOTA 오픈 소스 텍스트-이미지 모델
    • Stable Diffusion을 개발한 오리지널 팀
  • 12B 파라미터로 창의성과 성능의 경계를 확장하여, Midjourney와 유사한 이미지 생성 기능을 제공

3가지 모델로 제공

  • FLUX.1 [dev]: 비상업적 라이선스로 오픈 소스화된 기본 모델. 커뮤니티가 이를 기반으로 구축할 수 있음
  • FLUX.1 [schnell]: 기본 모델의 증류 버전으로 최대 10배 빠르게 작동함. Apache 2 라이선스.
  • FLUX.1 [pro]: API를 통해서만 이용 가능한 비공개 버전

주요 특징

  • 향상된 이미지 품질: 고해상도의 놀라운 비주얼 생성 가능
  • 고급 인간 해부학 및 포토리얼리즘: 매우 현실적이고 해부학적으로 정확한 이미지 생성 가능
  • 개선된 프롬프트 준수: 입력에 기반한 더 정확하고 관련성 높은 이미지 생성 가능
  • 뛰어난 속도: 높은 수요 애플리케이션에 이상적인 Flux Schnell의 속도와 효율성

fal의 통합

  • fal의 최첨단 추론 엔진을 통합하여 Flux 모델을 eager torch보다 최대 2배 빠르게 실행 가능
  • 빠른 처리 시간과 뛰어난 품질 및 디테일 유지

GN⁺의 정리

  • Flux는 Black Forest Labs에서 개발한 최신 텍스트-이미지 모델로, 창의성과 성능의 새로운 기준을 제시함
  • 다양한 변형 모델을 통해 다양한 사용 사례에 맞춤형 솔루션을 제공함
  • 향상된 이미지 품질과 현실적인 표현력으로 높은 수요 애플리케이션에 적합함
  • fal의 추론 엔진을 통해 더욱 빠르고 효율적인 모델 실행이 가능함
  • 유사한 기능을 가진 다른 프로젝트로는 DALL-E와 Midjourney가 있음
Hacker News 의견
  • burkay from fal.ai: 모델은 fal이 만든 것이 아니며, Black Forest Labs가 제작한 것임

    • fal.ai는 모델을 최적화된 추론 엔진에서 실행하여 매우 빠르게 동작하게 함
    • 모델을 playground에서 시도해볼 수 있음
    • [schnell] 모델은 Apache 라이선스로 Hugging Face에서 오픈 소스로 제공됨
    • 텍스트 렌더링이 매우 빠르고 뛰어나며, 텍스트와 위치를 더 잘 처리할 수 있는 텍스트 인코더가 있음
    • 텍스트 렌더링이 좋아지면 훈련 데이터의 텍스트 워터마크가 더 명확하게 나타남
    • 모델을 시도해볼 수 있는 링크 제공
      • FLUX.1 [schnell]: Apache 2.0, 오픈 웨이트, 스텝 증류
      • FLUX.1 [dev]: 비상업적, 오픈 웨이트, 가이드 증류 (로그인 필요)
      • FLUX.1 [pro]: 폐쇄 소스, SOTA, 원시 데이터 (API를 통해서만 사용 가능)
  • 다른 사용자: 대부분의 비교가 새로운 모델을 제대로 테스트하지 않음

    • 현재 시장에서 가장 좋은 프롬프트 준수는 DALL-E 3이지만, 복잡한 개념에서는 여전히 부족하고 검열이 많음
    • Flux와 DALL-E 3을 비교한 결과, Flux가 인상적이고 성능이 뛰어남
    • 비교 결과를 블로그에 게시함
  • 다른 사용자: ideogram의 프롬프트를 사용하여 테스트했으며, Flux가 매우 좋은 이미지를 생성함

    • ideogram을 사용해봤지만 필터가 마음에 들지 않음
    • 로컬에서 실행할 수 있다면 이미지 품질과 프롬프트 준수 면에서 매우 근접함
    • 텍스트가 복잡할 때는 명확하게 작성하지 못함
    • 예시로 ideogram 이미지의 프롬프트를 제공함
    • 안정적인 확산 모델을 오래전에 사용하지 않게 되었으며, 기술이 너무 복잡해져서 재미가 없어짐
    • 필터 없이 로컬에서 실행할 수 있는 ideogram과 같은 시스템을 원함
    • 이 모델이 매우 좋음
  • 다른 사용자: 새로운 모델을 볼 때마다 엔지니어링 다이어그램을 만들 수 있는지 확인함

    • 이 모델은 아직 엔지니어링 다이어그램을 잘 처리하지 못함
    • AI 회사가 엔지니어링 다이어그램 문제를 해결해주길 바람
    • 현재 훈련 데이터셋에 포함되지 않았을 가능성이 큼
    • 합성 데이터셋/벤치마크를 만들고 싶음
  • 다른 사용자: 가입 절차가 번거로움

    • Github 계정 생성이 현재 오류가 발생하여 두 번의 시도와 두 개의 브라우저가 필요했음
  • 다른 사용자: 벤처 자금 지원을 받는 스타트업들이 비즈니스 모델 없이 무료로 모델을 계속 출시함

    • 오픈 소스를 지지하지만 장기적으로 지속 가능하지 않을까 걱정됨
  • 다른 사용자: 인상적인 품질임

  • 다른 사용자: 공간 관계를 잘 처리하지 못함

    • "거꾸로 된 집" -> 일반적인 집
    • "개 위에 앉아 있는 말" -> 말과 개가 나란히 있음
    • "뒤집힌 Lockheed Martin F-22 Raptor" -> 잘못된 결과