- FLUX.1 Kontext [dev] 는 이전까지 독점적이던 생성형 이미지 편집 모델의 오픈웨이트 버전으로 무료 공개됨
- 12B 파라미터로 소비자급 하드웨어에서 동작 가능하며, 무료 연구 및 비상업적 용도로 배포됨
- 세밀한 지역/전역 편집, 캐릭터 일관성 유지, 반복적 수정 등 상용 수준의 고품질 이미지 편집 성능을 제공하며, ComfyUI·Hugging Face Diffusers·TensorRT 등 인기 프레임워크와 즉시 연동 가능
- 성능 평가에서 기존 공개 및 폐쇄형 모델(예: Google's Gemini-Flash Image)보다 뛰어난 결과를 보임
- NVIDIA Blackwell 아키텍처 최적화 TensorRT 변종(BF16, FP8, FP4)도 제공, 최신 하드웨어에서 대폭 향상된 속도와 효율 실현
- 상용 라이선스와 셀프서브 포털을 통해 비즈니스에서도 쉽게 통합 및 활용 가능함
소개 및 중요성
- FLUX.1 Kontext [dev]는 Black Forest Labs가 공개한 최신 생성형 이미지 편집 모델임
- 지금까지 우수한 이미지 생성/편집 모델은 대부분 독점적으로 제공되어 왔으나, 이제 오픈웨이트로 전환되어 누구나 연구 및 비상업적 용도로 사용 가능해짐
- 이 모델은 12B 파라미터로 구성되어 뛰어난 성능을 보이면서도, 일반 소비자 하드웨어에서 동작할 수 있는 효율성을 가짐
공개 및 접근성
- FLUX.1 Kontext [dev]는 FLUX.1 비상업적 라이선스 하에 공개되어, 리서치와 비상업적 목적의 사용자에게 무료로 제공됨
- 모델 웨이트는 HuggingFace에서 쉽게 내려받을 수 있고, ComfyUI, HuggingFace Diffusers, TensorRT 등 주요 AI 프레임워크와 호환됨
- FAL, Replicate, Runware, DataCrunch, TogetherAI 등 파트너들이 클라우드 및 로컬 환경에서 즉시 활용 가능한 API 엔드포인트와 코드를 제공함
이미지 편집 분야의 새로운 표준
- FLUX.1 Kontext [dev]는 이미지 편집 작업에 특화되어 있음
- 반복적 편집 및 다양한 장면·환경에서 캐릭터 보존 우수성
- 정밀한 로컬 및 전체 편집 지원
- Black Forest Labs는 프로프라이어터리 모델에 필적하는 오픈 툴 제공을 목표로 함
- 대규모 벤치마크(콘텍스트벤치 등)에서 바이티댄스 Bagel, HiDream-E1-Full 등 기존 공개 모델 및 Google Gemini-Flash Image 등 상용 모델 대비 우위 성능 입증
- Artificial Analysis 등 외부 기관의 독립적 평가도 일치된 결과를 확인
하드웨어 최적화와 다양한 선택지
- NVIDIA와 협력하여 최신 Blackwell 아키텍처에 맞춰 최적화된 TensorRT 웨이트(에너지 및 속도 최적화 BF16, FP8, FP4 버전) 제공
- 개발자는 필요에 따라 속도·효율·품질 밸런스를 쉽게 선택 가능
상용 활용을 위한 라이선스 및 포털
- Black Forest Labs는 투명한 조건의 셀프서브 라이선스 포털을 개설, 모든 오픈웨이트 모델에 대한 상용/비상업적 접근을 간소화함
- 기업은 포털에서 간편하게 라이선스 구입 후, FLUX.1 계열 모델을 비즈니스 서비스에도 빠르게 통합 가능함
라이선스 업데이트 사항
- 비상업적 목적 정의를 명확화하여 허용 범위 및 제한을 구체적으로 제시함
- 콘텐츠 필터 조항을 추가해, 불법/권리침해 내용 생성을 방지하고 이에 대한 면책 조항을 보완함
- 콘텐츠 출처 및 생성 이력 관리는 관련 법령을 준수하도록 규정됨
- 허용되지 않는 사용 사례에 대한 명확한 예시와 제한 사항을 추가함
참고자료 및 지원
Hacker News 의견
-
BFL에서 가중치를 공개한 점이 정말 멋진 부분이고, 오픈소스의 재정적 지속 가능성이 어려운 현실에서 학계에는 무료로 제공하고 스타트업에는 합리적인 라이선스 비용을 받는 방식이 BFL과 타사에서 계속해서 오픈 가중치 모델을 내놓을 수 있게 해주는 방식이라고 생각함
- 만약 BFL이 사용하는 모든 이미지와 비디오 기반 콘텐츠에 대해 사전에 명시적으로 사용 허가 비용을 지급해야 한다면, 그런 방식으로는 재정적으로 지속 불가능하다고 생각함
-
오픈 가중치를 공개하면, 이런 편집 모델에 새로운 기능(작업)을 추가할 수 있는 점이 흥미로운 특징임
- 적은 샘플(30개 정도)로도 일반화가 잘 되는 모습이고, 이를 블로그에서 공유했음
- 이번 Kontext는 모두가 기다리던 버전이고, 훨씬 더 실용적인 느낌임
- 트레이닝이 가능한 새로운 세대의 이미지 생성 모델 중 첫 사례로, Gemini, GPT, MJ 등 기존 대형 모델에서는 불가능했던 부분임
- 적은 샘플(30개 정도)로도 일반화가 잘 되는 모습이고, 이를 블로그에서 공유했음
-
distill된 Dev 모델이 더 큰 Pro/Max 모델들과 비교해도 충분히 성능을 유지해주길 바라는 중임
- 최근 Stable Diffusion 같은 구식 인페인팅 기법을 이 모델이 여러 부분에서 완전히 대체할 수 있길 기대함
- Kontext를 이용한 이미지 편집의 전후 실험을 여기에서 확인할 수 있음
-
지난주 샌프란시스코에서 열린 해커톤에서 직접 이 시스템을 써봤고, 꽤 인상적인 느낌을 받았음
- 그 해커톤에서 사람들이 어떤 프로젝트를 만들었는지 궁금함
-
라이선스의 의도가 접근하는 사람 자체를 제한하는 일종의 사전 필터링 역할을 하는 느낌임
- 형식적으로는 열려 있더라도 실제로는 적용 범위가 좁아지고, 이런 설정이 누가 도전할 수 있는지를 정형화하는 효과가 있음
- 남용을 방지하는 장점이 있지만 유용한 사용처도 잘릴 수 있고, 결과적으로 새로운 실험의 기준까지 미묘하게 변화시키는 경향임
-
새롭게 적용된 비상업적 사용 라이선스가 꽤 까다로운 규정이고, 라이선스 전문을 참고하면 됨
- 이 라이선스를 제대로 해석하면, 파생물이 아니라 단순 결과물 생성을 목적으로 하더라도 상업적 환경에서는 사용할 수 없음
- 라이선스가 정확히 무엇에 적용되는 것인지 의문인데, 아마도 쉽게 재구현할 수 있는 파이썬 코드 정도를 제외하면 저작권이 없을 거라고 생각함
- 모델 가중치는 기업들이 바라는 만큼 저작권이 부여될 수 있는 창작물이 아니고, 저작권의 법적 정의 내에도 해당되지 않는다는 입장임
- 데이터베이스나 소프트웨어와는 달리 모델 가중치는 저작권 요건을 충족하지 못하며, 창작성이 얼마나 들어갔는지도 상관없고 저작권 보호 대상이 아님을 강조함
-
Kontext 같은 모델을 실시간으로 캔버스 상에서 AI와 협업하면서 그림을 완성해가는 방식으로 활용하고 싶음
- LLM 분야의 시계열 예측 혁신과 Google Quick Draw 데이터셋 같은 걸 접목해서 브러시로 대화하며 그림을 완성하는 ‘실시간 페인팅 파트너’ 같은 경험이 나오길 정말 바람
- Fal.ai의 Kontext 모델을 써보면 전후 변환 슬라이더와 편집 이미지로 지속적으로 수정할 수 있는 기능이 인상적임
- BFL에서 dev 모델까지 공개된 만큼, 기존에 Stable Diffusion용 플러그인이 이미 있는 Krita용 Kontext 플러그인도 꼭 나왔으면 함
- Krita 플러그인 참고 링크
- LLM 분야의 시계열 예측 혁신과 Google Quick Draw 데이터셋 같은 걸 접목해서 브러시로 대화하며 그림을 완성하는 ‘실시간 페인팅 파트너’ 같은 경험이 나오길 정말 바람
-
이 시스템이 어느 정도 VRAM에서 동작하는지 궁금함
- 현재 기준으로는 약 18~20GB VRAM이 필요하지만, 내일이나 가까운 미래에는 1시간 정도의 여유 시간만 있다면 4GB VRAM에서도 동작할 수 있음
-
라이선스가 제약적이라는 점이 아쉬움