- Black Forest Labs의 FLUX.1 Kontext는 텍스트와 이미지를 동시에 입력해 맥락을 이해하고, 기존 이미지의 특징과 스타일을 유지하며 즉시 수정·생성이 가능한 최신 생성형 AI 모델
- 기존 텍스트-이미지 생성 알고리듬 대비, 문자·객체 일관성과 로컬 편집, 스타일 참조, 고속 응답 등에서 우수한 성능을 보임
- 사용자는 텍스트만 입력하거나, 이미지와 텍스트를 조합해 특정 영역만 변경, 스타일만 적용, 다단계 편집 등 다양한 상호작용적 이미지 작업이 가능함
- FLUX.1 Kontext [pro] 는 여러 번의 편집에도 이미지 일관성을 유지하며, 업계 최고 속도로 작동함
- 오픈 소스 모델 [dev] 버전은 경량화된 12B 디퓨전 트랜스포머로, 연구 및 커스터마이징 목적의 프라이빗 베타로 공개됨
FLUX.1 Kontext 소개
- FLUX.1 Kontext는 텍스트만으로 이미지를 생성하는 기존 모델의 한계를 넘어서, 텍스트와 이미지를 함께 입력해 맥락 기반의 이미지 생성과 편집이 가능한 생성형 플로우 매칭 모델임
- 텍스트 프롬프트와 이미지를 동시에 활용하여, 이미지의 특정 요소를 제거/추가/변경하고, 스타일이나 특징을 유지한 채 새로운 장면을 생성할 수 있음
주요 기능
- 캐릭터 일관성: 동일 인물, 객체, 스타일이 다양한 장면과 환경에서도 일관되게 유지됨
- 로컬 편집: 이미지의 특정 부분만 텍스트 명령으로 수정할 수 있음(예: 얼굴의 특정 요소만 제거, 글자만 변경 등)
- 스타일 참조: 참조 이미지의 독특한 스타일을 새로운 장면에 적용 가능
- 인터랙티브 속도: 기존 모델 대비 최대 8배 빠른 추론 속도로 실시간 편집 및 생성 지원
텍스트-이미지 및 이미지-이미지 편집의 통합
- FLUX.1 Kontext는 한 번의 편집뿐 아니라, 여러 단계에 걸친 반복적 지시에도 이미지 품질과 특징을 유지함
- 프롬프트와 이전 이미지 결과를 연속적으로 활용해, 한 단계씩 원하는 결과에 도달할 수 있음
FLUX.1 Kontext 모델 라인업
-
FLUX.1 Kontext [pro]
- 빠른 반복 편집 및 생성에 특화된 플래그십 모델
- 텍스트와 참조 이미지를 동시에 입력받아, 타겟 영역 편집과 복잡한 장면 변환을 빠르고 일관성 있게 수행함
-
FLUX.1 Kontext [max]
- 실험적 최고 사양 모델로, 프롬프트 이해력과 타이포그래피, 고속 일관성 편집 능력이 향상됨
-
FLUX.1 Kontext [dev]
- 연구 및 커스터마이징 목적의 경량화(12B) 모델, 프라이빗 베타로 공개됨
- 공개 시 FAL, Replicate, Runware, DataCrunch, TogetherAI, HuggingFace 등 주요 AI 인프라 파트너를 통해 제공 예정
지원 및 접근
- FLUX.1 Kontext 시리즈는 KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI 등 다양한 서비스와 FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg 등의 인프라에서 사용할 수 있음
- 실시간 체험 및 데모를 위한 FLUX Playground(https://playground.bfl.ai/)를 통해, 별도의 통합 없이 손쉽게 모델 성능을 검증하고 결과를 확인할 수 있음
성능 평가
- 자체 벤치마크 KontextBench에서 6가지 이미지 생성·편집 과제별로 SOTA 모델들과 비교 평가
- 텍스트 편집, 캐릭터 보존 분야에서 업계 최고 수준의 점수를 기록함
- 추론 속도 역시 기존 최고 성능 모델 대비 압도적으로 낮은 레이턴시 달성
- 미적 완성도, 프롬프트 이해력, 타이포그래피, 사실성 등 다양한 기준에서도 경쟁력 입증
한계점 및 향후 과제
- 다단계(6번 이상) 반복 편집 시 시각적 노이즈(artifact) 가 발생해 이미지 품질이 저하될 수 있음
- 간혹 특정 프롬프트의 세부 지시를 정확히 따르지 못하는 사례가 있음
- 세계지식 및 문맥 이해력에 한계가 있어 맥락적으로 부정확한 이미지를 생성할 수 있음
- 모델 경량화 및 distillation 과정에서 이미지 품질이 떨어질 수 있음
- 누구나 FLUX Playground 에서 모델을 실시간으로 시험하고, API 도입 전 기능을 검증할 수 있음
- 전체 기술 리포트 보기(PDF)
Hacker News 의견
-
직접 사용해봤는데 재밌는 '컨텍스트 슬립' 현상 경험함 관련 이미지 생성 프롬프트로 우주선이 외딴 행성에 착륙한 이미지를 만들었고, "우주선을 더 컬러풀하게 그리고 이미지에서 더 크게 보여달라"는 편집을 요청함 그랬더니 우주선이 컨테이너 선박으로 바뀌어버림 채팅 기록이 남아 있었으니 내가 우주선을 원한다는 걸 파악했어야 했는데, 중요한 맥락을 놓쳐 결과가 엉뚱하게 나옴
-
Replicate의 FLUX Kontext Pro 엔드포인트로 직접 테스트 중임 FLUX Kontext의 다양한 이미지 편집 활용법을 보여주는 Replicate 앱도 존재 FLUX Kontext Apps 이미지 품질은 단순 이미지-투-이미지 생성의 경우 GPT-4o 이미지 생성 수준과 비슷함 생성 속도도 약 4초로 빠른 편임 프롬프트 엔지니어링은 예시들 외에는 다소 까다로운 감 있음, 점점 나아질 거라 생각함 스타일 변경이나 세부적 요청도 적용되긴 하지만, 더 구체적인 지시를 줄수록 오히려 상세 요구를 무시하는 경향 있음
- 오리지널 속성을 얼마나 잘 보존하는지 보면, FLUX 모델이 4o보다 더 정확한 느낌 기존 3D 동물 캐릭터에서 라이팅만 바꾸고 싶다고 요청하면, 4o는 캐릭터 얼굴을 망가뜨리고 몸이나 세부를 건드리는 데 비해 FLUX는 자세나 라이팅을 크게 바꿔도 가시적 형상을 거의 완벽히 동일하게 유지함
- 이미지-투-이미지 실험에서 GPT-4o보다 더 인상적임 4o는 색을 세피아 톤으로 강하게 집착하는데, 반복 편집시 특히 4o의 결과물이라는 티가 큼 반면 FLUX.1 Kontext Max버전은 훨씬 넓고 다채로운 컬러 표현을 하며, 4o가 놓칠 소소한 디테일까지 잡아냄 프롬프트만으로 이미지를 새로 생성하는 건 아직 실험 못 해봄 하지만 프롬프트로 기존 이미지 편집하는 데는 FLUX가 월등히 뛰어난 느낌임
- Replicate가 항상 최신 모델을 즉시 제공하는 게 정말 마음에 듦 빠르게 발전하는 AI 시대에, 새로운 연구 버전 모델들이 즉시 API로 배포되고 실전에서도 스케일 있게 쓸 수 있다는 점이 멋짐 Replicate 같은 배포사가 이러한 모델 공개의 임팩트를 몇 배로 증폭시키는 역할을 하는 듯함
- 4초 정도 걸린다는 건 어느 GPU랑 VRAM 기준인지 궁금함 혹시 Huggingface의 UI 말하는 건가?
-
일부 샘플은 너무 좋은 결과만 골라 보여주는 듯 “Kontext Apps”의 프로페셔널 헤드샷 앱 써본 사람 있나? Kontext Apps 링크 여러 장의 내 사진을 넣어봤는데 매번 완전히 다른 사람이 되어버림 최종 헤드샷 결과는 확실히 프로페셔널해 보임
- flux playground에서 피곤한 헬스장 셀카로 헤드샷 프롬프트 써봤는데, 동일한 표정과 땀, 피부톤 등 내 모습 대부분 유지함 마치 배경만 바꾼 듯했고 "소셜 미디어용 좋은 헤드샷으로 바꿔줘, 미소, 좋은 자세와 옷, 땀이 없는 깨끗한 피부 등"이라고 확장 요청하니 옷 바뀌고 어색한 미소만 추가됨 이런 류의 이미지들에서 실제로 나오는 결과와 비슷함
- 입력 및 출력 이미지의 비율이 같은지 궁금함 비율이 강제로 변하면 이상 현상이 생기는 것 같음
- 얼굴 등 아이덴티티 보존은 어느 누구도 완벽히 해결 못한 과제임 손도 그렇고, 과학적 난제임
-
FLUX Kontext 모델을 내 GenAI 이미지 비교 사이트에 추가할지 고민 중임 Max 버전이 프롬프트 충실도 면에서 점수가 2배 가까이 높지만, 그래도 OpenAI의 gpt-image-1보다 한참 떨어짐 (화질은 논외하고) gpt-image-1이 리더보드 1위임 Flux 1.D는 로컬 GenAI 역량의 베이스라인용으로 유지 중임 비교사이트 Hunyuan의 Image 2.0 모델도 최근에 추가했는데, 실시간 모델 답게 점수는 낮게 나옴 참고로 Black Forest Labs의 이 모델은 텍스트-투-이미지용이라기보다 기존 이미지 반복 편집•수정에 더 중점을 둔 듯함
- “Flux 1.1 Pro Ultra”도 사이트에 추가해주길 바람 이 시리즈 중 가장 성능 높고, Flux Dev보다 프롬프트 충실도가 훨씬 좋다는 평임 최고의 오픈소스 모델 중 하나로 공정하게 비교 가능해질 듯 사이트 자체도 재미있고 프롬프트도 흥미로움
- 내 제안: 이런 장면 프롬프트는 예전 그 어떤 모델에서도 제대로 구현하지 못했음, 최근엔 많이 개선되었을 것 같은데…
충분한 데이터가 있는데도 결과가 왜 이리 엉망인지 신기함 꽤 아이코닉한 장면임A knight with a sword in hand stands with his back to us, facing down an army. He holds his shield above his head to protect himself from the rain of arrows shot by archers visible in the rear.
- 사이트 추가 요청함, 잘 보고 있음
-
입력 이미지가 한 장으로만 제한되는지 궁금함 여러 장을 입력해서 "A이미지 속 아이템을 B이미지 안에 배치"처럼 "A 캐릭터를 B 풍경에 넣어줘" 같은 복합 프롬프트 해보고 싶음
- 실험적인 “multi” 모드에서 여러 이미지 입력 가능함
- Fal에서 멀티 이미지 인터페이스 사용해볼 수 있고, Replicate에도 아마 있을 듯 (확인해보진 않음) 이 모델 엄청난 성능임 gpt-image-1보단 못하지만 진짜 근접함 이미지나 비디오에는 이제 독점적 장벽이 사라질 거라 봄 Google이나 OpenAI가 창의성 시장을 독점할 거란 걱정 있었으나, 누구든 직접 만들 수 있게 됨
-
기술 논문을 궁금해하는 사람을 위해 공식 리포트 공유함
- 구현은 타 오픈모델들과 비슷하게 간단하게 보임 (HiDream-E1, ICEdit, DreamO 등) 진짜 차별점은 데이터 큐레이션이며, 이 부분은 논문에 간략히만 설명되어 있음
- 대부분 논문 자체엔 관심 없고 오픈웨이트 모델 다운받아 직접 돌리는 게 목적임 대부분 가져가서 활용하지, 기여는 거의 없음
-
이걸 로컬에서 직접 수정·학습하려면 어느 정도의 전문성이 필요할까? RTX 4090, Windows에 Flux 1 dev로 직접 LoRa 튜닝해보려고 이틀이나 파봤는데, 제대로 못하고 있음 어느 정도로 파야 하는지, 혹시 진입장벽 낮은지도 궁금함 초보자도 가능한지, 아니면 숙련자만 진입 가능한지
- 오픈소스 모델은 아직 공개되지 않았으며, Flux 1 Dev에서 LoRA 학습보다 쉬울 리 없음
- SimpleTuner 스크립트 사용 추천함 파이썬 라이브러리 몰라도 직접 LoRa 튜닝할 수 있었음
- 보통 comfyui에서 구성된 버전 쉽게 찾을 수 있음 유튜버 경우엔 patreon 후원 리워드 등으로 배포하기도 함
- RTX 4090 + Windows에서 안되는 건 윈도우 OS가 문제인 듯 진짜 성능은 리눅스에서 진가를 보임
-
remove from face 예시를 잘 이해하지 못하겠음 다른 얼굴 사진 없으면 결국 전형적인 이미지를 쓰는 거 아닌가?
- 실제 무언가를 복구하는 게 아니라, 다 생성된 이미지일 뿐임 진짜 얼굴이 없음
- 예제를 자세히 보면 특정 오브젝트가 얼굴을 부분적으로 가릴 때, 모델이 추론하여 복원할 가능성이 있음
- 기반 모델이 어느 단계에 있냐에 따라 다름; 일부 아이덴티티 모델은 부분 지오메트리만으로도 얼굴을 상당히 정교하게 인터폴레이션 가능함
- 첫 번째 예시의 슬라이드쇼 자체에 버그가 있는 것 같음 눈송이가 얼굴 대부분을 가리고 있음
- 실사진을 쓰면 모델이 얼굴을 바꿔버릴 때가 많아서, 아예 얼굴이 안 보이는 사진을 예시로 쓰는 듯함
-
체스 이미지를 생성할 수 있는지 질문함 체스 AI 예측 링크
-
오픈 개발자 버전이 언제쯤 나올지 추측하는 댓글, 일주일 내일지, 한두달 더 걸릴지 궁금함