# Flux - 12B 파라미터 오픈소스 Text-To-Image 모델

> Clean Markdown view of GeekNews topic #16129. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16129](https://news.hada.io/topic?id=16129)
- GeekNews Markdown: [https://news.hada.io/topic/16129.md](https://news.hada.io/topic/16129.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-08-02T09:55:20+09:00
- Updated: 2024-08-02T09:55:20+09:00
- Original source: [blog.fal.ai](https://blog.fal.ai/flux-the-largest-open-sourced-text2img-model-now-available-on-fal/)
- Points: 8
- Comments: 1

## Summary

Stable Diffusion을 개발한 오리지널 팀이 있는 Black Forest Labs에서 개발한 Flux는 12B 파라미터를 가진 오픈소스 텍스트-이미지 모델로, 창의성과 성능의 경계를 확장하여 Midjourney 수준의 고해상도와 현실적인 이미지를 생성할 수 있습니다. 다양한 변형 모델을 통해 사용자 맞춤형 솔루션을 제공하며, 특히 빠른 처리 속도와 높은 품질을 유지하는 fal 추론 엔진을 통합하여 효율성을 극대화했습니다.

## Topic Body

- Black Forest Labs에서 개발한 가장 큰 SOTA 오픈 소스 텍스트-이미지 모델  
  - Stable Diffusion을 개발한 오리지널 팀  
- 12B 파라미터로 창의성과 성능의 경계를 확장하여, Midjourney와 유사한 이미지 생성 기능을 제공  
  
#### 3가지 모델로 제공   
- **FLUX.1 [dev]**: 비상업적 라이선스로 오픈 소스화된 기본 모델. 커뮤니티가 이를 기반으로 구축할 수 있음  
- **FLUX.1 [schnell]**: 기본 모델의 증류 버전으로 최대 10배 빠르게 작동함. Apache 2 라이선스.  
- **FLUX.1 [pro]**: API를 통해서만 이용 가능한 비공개 버전  
  
#### 주요 특징  
- **향상된 이미지 품질**: 고해상도의 놀라운 비주얼 생성 가능  
- **고급 인간 해부학 및 포토리얼리즘**: 매우 현실적이고 해부학적으로 정확한 이미지 생성 가능  
- **개선된 프롬프트 준수**: 입력에 기반한 더 정확하고 관련성 높은 이미지 생성 가능  
- **뛰어난 속도**: 높은 수요 애플리케이션에 이상적인 Flux Schnell의 속도와 효율성  
  
#### fal의 통합  
- fal의 최첨단 추론 엔진을 통합하여 Flux 모델을 eager torch보다 최대 2배 빠르게 실행 가능  
- 빠른 처리 시간과 뛰어난 품질 및 디테일 유지  
  
#### GN⁺의 정리  
- Flux는 Black Forest Labs에서 개발한 최신 텍스트-이미지 모델로, 창의성과 성능의 새로운 기준을 제시함  
- 다양한 변형 모델을 통해 다양한 사용 사례에 맞춤형 솔루션을 제공함  
- 향상된 이미지 품질과 현실적인 표현력으로 높은 수요 애플리케이션에 적합함  
- fal의 추론 엔진을 통해 더욱 빠르고 효율적인 모델 실행이 가능함  
- 유사한 기능을 가진 다른 프로젝트로는 DALL-E와 Midjourney가 있음

## Comments


### Comment 27742

- Author: neo
- Created: 2024-08-02T09:55:20+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41130620) 
- **burkay from fal.ai**: 모델은 fal이 만든 것이 아니며, Black Forest Labs가 제작한 것임
  - fal.ai는 모델을 최적화된 추론 엔진에서 실행하여 매우 빠르게 동작하게 함
  - 모델을 playground에서 시도해볼 수 있음
  - [schnell] 모델은 Apache 라이선스로 Hugging Face에서 오픈 소스로 제공됨
  - 텍스트 렌더링이 매우 빠르고 뛰어나며, 텍스트와 위치를 더 잘 처리할 수 있는 텍스트 인코더가 있음
  - 텍스트 렌더링이 좋아지면 훈련 데이터의 텍스트 워터마크가 더 명확하게 나타남
  - 모델을 시도해볼 수 있는 링크 제공
    - FLUX.1 [schnell]: Apache 2.0, 오픈 웨이트, 스텝 증류
    - FLUX.1 [dev]: 비상업적, 오픈 웨이트, 가이드 증류 (로그인 필요)
    - FLUX.1 [pro]: 폐쇄 소스, SOTA, 원시 데이터 (API를 통해서만 사용 가능)

- **다른 사용자**: 대부분의 비교가 새로운 모델을 제대로 테스트하지 않음
  - 현재 시장에서 가장 좋은 프롬프트 준수는 DALL-E 3이지만, 복잡한 개념에서는 여전히 부족하고 검열이 많음
  - Flux와 DALL-E 3을 비교한 결과, Flux가 인상적이고 성능이 뛰어남
  - 비교 결과를 블로그에 게시함

- **다른 사용자**: ideogram의 프롬프트를 사용하여 테스트했으며, Flux가 매우 좋은 이미지를 생성함
  - ideogram을 사용해봤지만 필터가 마음에 들지 않음
  - 로컬에서 실행할 수 있다면 이미지 품질과 프롬프트 준수 면에서 매우 근접함
  - 텍스트가 복잡할 때는 명확하게 작성하지 못함
  - 예시로 ideogram 이미지의 프롬프트를 제공함
  - 안정적인 확산 모델을 오래전에 사용하지 않게 되었으며, 기술이 너무 복잡해져서 재미가 없어짐
  - 필터 없이 로컬에서 실행할 수 있는 ideogram과 같은 시스템을 원함
  - 이 모델이 매우 좋음

- **다른 사용자**: 새로운 모델을 볼 때마다 엔지니어링 다이어그램을 만들 수 있는지 확인함
  - 이 모델은 아직 엔지니어링 다이어그램을 잘 처리하지 못함
  - AI 회사가 엔지니어링 다이어그램 문제를 해결해주길 바람
  - 현재 훈련 데이터셋에 포함되지 않았을 가능성이 큼
  - 합성 데이터셋/벤치마크를 만들고 싶음

- **다른 사용자**: 가입 절차가 번거로움
  - Github 계정 생성이 현재 오류가 발생하여 두 번의 시도와 두 개의 브라우저가 필요했음

- **다른 사용자**: 벤처 자금 지원을 받는 스타트업들이 비즈니스 모델 없이 무료로 모델을 계속 출시함
  - 오픈 소스를 지지하지만 장기적으로 지속 가능하지 않을까 걱정됨

- **다른 사용자**: 인상적인 품질임

- **다른 사용자**: 공간 관계를 잘 처리하지 못함
  - "거꾸로 된 집" -> 일반적인 집
  - "개 위에 앉아 있는 말" -> 말과 개가 나란히 있음
  - "뒤집힌 Lockheed Martin F-22 Raptor" -> 잘못된 결과