1P by GN⁺ 22시간전 | ★ favorite | 댓글 1개
  • FLUX.2는 실제 창의적 워크플로우를 위한 고품질 이미지 생성 모델로, 다중 참조 이미지 간 캐릭터·스타일 일관성을 유지하며 텍스트 처리와 브랜드 가이드라인 준수 기능을 지원
  • 최대 4메가픽셀 해상도에서 세밀한 이미지 편집이 가능하고, 조명·레이아웃·로고 등 시각 요소를 안정적으로 제어
  • 오픈코어 전략을 통해 개방형 가중치 모델과 프로덕션급 API를 함께 제공하며, FLUX.1에서 구축된 오픈 생태계를 FLUX.2 단계로 끌어올림
  • 멀티 레퍼런스 지원, 정교한 타이포그래피 렌더링, 향상된 프롬프트 처리, 현실 기반 지식 반영 등 주요 기능이 새롭게 추가
  • 모델군은 pro, flex, dev, klein, VAE로 구성되며, 오픈웨이트와 상용 API 양쪽을 모두 제공
  • Black Forest Labs는 개방형 연구와 상용 인프라를 결합해, 시각 지능의 개방적 발전을 목표로 함

FLUX.2 개요

  • FLUX.2는 단순한 데모용이 아닌 실제 제작 환경을 위한 이미지 생성 모델
    • 여러 참조 이미지를 기반으로 캐릭터·스타일 일관성을 유지
    • 구조화된 프롬프트를 따르고, 복잡한 텍스트를 읽고 쓸 수 있음
    • 브랜드 가이드라인, 조명, 레이아웃, 로고를 안정적으로 처리
  • 최대 4MP 해상도에서 세부 묘사와 일관성을 유지한 이미지 편집 지원

Black Forest Labs의 오픈 코어 철학

  • 시각 지능은 연구자·창작자·개발자 모두가 함께 발전시켜야 한다는 원칙을 제시
  • 오픈웨이트 모델상용급 API 엔드포인트를 병행 제공
    • 오픈 모델은 실험과 비용 절감을 촉진하고, 투명성을 높임
  • 2024년 설립 이후, FLUX.1 [dev]와 FLUX.1 Kontext [pro]를 통해 오픈 혁신 기반 구축
    • FLUX.1 [dev]는 전 세계에서 가장 인기 있는 오픈 이미지 모델로 언급됨
    • FLUX.1 Kontext [pro]는 Adobe, Meta 등 주요 팀에서 사용

FLUX.1에서 FLUX.2로

  • FLUX.1이 창의적 도구로서의 잠재력을 보여줬다면, FLUX.2는 생산 워크플로우 혁신에 초점
  • 정밀도·효율성·제어력·현실감을 강화해, 이미지 생성의 경제성을 크게 개선
  • 결과적으로 창의 인프라의 핵심 구성 요소로 자리잡을 전망

주요 기능 (What’s New)

  • 멀티 레퍼런스 지원: 최대 10개의 이미지를 동시에 참조해 캐릭터·제품·스타일 일관성 유지
  • 세밀한 디테일과 사실감: 제품 촬영, 시각화, 사진 수준의 결과에 적합
  • 텍스트 렌더링 개선: 복잡한 타이포그래피, 인포그래픽, UI 목업 등에서 가독성 향상
  • 프롬프트 처리 강화: 다중 구조 프롬프트와 조합 제약을 정확히 반영
  • 현실 기반 지식 확장: 조명·공간 논리에 기반한 일관된 장면 구성
  • 고해상도 편집: 최대 4MP 해상도에서 유연한 입력·출력 비율 지원

FLUX.2 제품군

  • FLUX.2 [pro]
    • 폐쇄형 최고 모델과 경쟁하는 이미지 품질, 프롬프트 준수력, 시각적 충실도를 갖춤
    • 빠른 생성 속도와 낮은 비용이 특징이며, BFL Playground·API·파트너 플랫폼에서 제공됨
  • FLUX.2 [flex]
    • 스텝 수·가이던스 스케일 등 파라미터를 직접 조정해 품질·속도·텍스트 렌더링을 최적화할 수 있는 모델
    • 정밀한 타이포그래피 표현에 특히 강함
  • FLUX.2 [dev]
    • 32B 오픈웨이트 모델로, 텍스트→이미지와 다중 입력 이미지 편집을 단일 체크포인트에서 지원하는 현존 가장 강력한 공개 모델
    • Hugging Face에서 가중치 제공, NVIDIA·ComfyUI와 협업한 FP8 최적화 구현 포함
    • FAL·Replicate·Runware·Verda·TogetherAI·Cloudflare·DeepInfra 등에서 API로 사용 가능
  • FLUX.2 [klein] (예정)
    • Apache 2.0 오픈소스 모델로, FLUX.2 기반에서 사이즈 증류해 경량·고성능 형태로 제공 예정
  • FLUX.2 – VAE
    • 학습 용이성·품질·압축률을 균형 있게 최적화한 새로운 VAE로, FLUX.2 백본의 핵심 구성 요소
    • Hugging Face에서 Apache 2.0 라이선스로 제공됨

성능 및 가치

  • FLUX.2 모델군은 최신 이미지 생성 품질경쟁력 있는 가격으로 제공
  • 오픈웨이트 모델 중 FLUX.2 [dev]는 텍스트-이미지 생성, 단일·다중 참조 편집에서 모든 오픈 대안 대비 우수한 성능을 기록
  • 모든 모델은 책임 있는 개발 원칙에 따라 출시 전후로 관리

기술 구조 (How It Works)

  • 잠재 흐름 매칭(latent flow matching) 아키텍처 기반으로, 이미지 생성과 편집을 하나의 구조에 통합
  • Mistral-3 24B 비전-언어 모델Rectified Flow Transformer를 결합
    • VLM은 현실 지식과 문맥 이해를 제공
    • 트랜스포머는 공간 관계, 재질 특성, 구성 논리를 처리
  • 최대 10개의 참조 이미지를 결합해 새로운 결과 생성 가능
  • 모델의 잠재 공간을 새로 학습시켜 학습성·품질·압축률 삼중 과제(trilemma) 개선

추가 자료

미래 방향 (Into the New)

  • FLUX.2는 지각·생성·기억·추론을 통합하는 멀티모달 모델로 나아가는 단계
  • 시각 지능 인프라의 기반 기술로, 세상을 인식하고 이해하는 방식을 변화시키는 목표
  • 현재 Freiburg과 샌프란시스코에서 인재 채용 중
Hacker News 의견
  • 최근 새 모델이 너무 자주 나와서 GenAI 비교 사이트를 업데이트하는 게 거의 시지프스 같은 느낌임
    그래도 새로 나온 Flux 2 Pro Editing 모델의 결과를 올렸음
    결과 페이지에서 확인할 수 있음
    이 모델은 BFL의 Kontext보다 약간 높은 점수를 받아 전체 12개 중 중간 정도인 6점을 기록했음
    곧 더 세밀한 평가를 위한 수치형 지표를 추가할 예정임
    Flux 2 Pro, Nano Banana Pro, Kontext만 비교하고 싶다면 이 링크를 보면 됨
    참고로 BFL은 더 정교한 편집을 위한 JSON 구조를 지원하는 듯해서, 이를 활용하면 정확도가 더 높아질지도 궁금함

    • 점수 체계가 단순 통과/실패보다는 0~10 범위의 스케일로 바뀌면 좋겠음
      Flux와 Gemini Pro 3가 같은 점수를 받는 건 벤치마크의 품질을 떨어뜨림
    • 비교는 유용하지만 스타일 다양성이 부족함
      OpenAI 모델은 고유한 터치가 너무 강해서 스타일 매칭이 약하고, Flux는 스타일에 따라 성능이 달라짐
      Flux는 여러 스타일을 평균내는 훈련을 피하려 했지만, 시각적으로 매력적인 이미지를 만드는 목표와 충돌함
      결국 스타일 일관성 문제는 당분간 계속될 것 같음
    • 지금은 Google이 확실히 앞서 있음
      Seedream도 인상적이라 다음 버전에서는 Google과 경쟁할 수준이 될 듯함
      이미지 생성은 거의 해결된 문제처럼 느껴짐
    • 사이트에 오타 있음: s/sttae/state/g 수정 필요
    • BFL이 Google과 ByteDance(SeeDream) 같은 거대 기업과 계속 경쟁할 에너지가 남아 있을지 의문임
      새 모델이 중간 수준에 그치고, 오픈소스도 중국 모델들만큼 개방적이지 않음
      Flux의 이미지 품질은 여전히 플라스틱 피부, 인공적인 질감으로 보임
      기술적으로는 통과하더라도 실제 워크플로우에서는 Flux를 선택하지 않을 것 같음
      미적 감각이 부족한 데이터팀 문제일 수도 있음
      Google과 중국 생태계 사이에 낀 BFL은 어려운 위치에 있음
      RunwayML, PikaLabs, LumaLabs 같은 다른 미디어 모델 기업들도 비슷한 어려움을 겪는 중임
      BFL이 최근 큰 투자를 받았지만, 여전히 하이퍼스케일러와의 경쟁은 버거워 보임
  • 새 모델이 오픈 가중치 버전으로도 공개된 건 반가움
    그런데 예전에 공개 예고했던 SOTA 비디오 모델은 어떻게 된 건지 궁금함
    YouTube 영상에서도 언급됐는데, 관련 페이지(bfl.ai/up-next)가 삭제됨

    • 스타트업으로서 비디오 대신 이미지 모델에 집중하기로 피벗했음
      이미지 모델이 활용 사례가 더 많고, 데이터셋도 훨씬 풍부함
    • 들은 소문으로는 비디오 모델 훈련이 대규모 실패로 끝나 프로젝트가 취소됐다고 함
    • 이미지 모델은 여전히 핵심 기술 축
      이미지가 비디오의 기반이 되며, 제어 가능한 요소가 훨씬 많음
      이미지 모델은 빠른 피드백과 생산성을 제공하고, 스타일·포즈·일관성 제어 등 아직 갈 길이 멂
      Midjourney는 미학적으로 압도적이지만 제어력이 부족함
      Flux는 플라스틱 같고, Imagen은 만화풍, OpenAI는 구식 느낌임
      결국 미학·제어·재현성 모두에서 경쟁해야 함
      비디오는 이 작업의 방해 요소임
  • Flux 2 Pro를 직접 테스트했음 (Replicate 링크)
    Nano Banana와 비교하면 큰 차별점이 없고, Flux 1.1 Pro 대비 점진적 개선 수준임

    • 프롬프트 일관성은 좋아졌지만, 이미지 품질은 더 인공적으로 보임
    • Flux 2 프롬프트 가이드JSON 프롬프트HEX 색상 지정을 기본으로 권장함
    • 프롬프트 업샘플링을 활성화하면 추론력이 향상되지만, 비활성화 시엔 엉뚱한 결과가 나옴
    • Flux 2 API는 IP 관련 민감도가 높아, 업샘플링을 켜야만 통과되는 경우가 있음 (예시)
    • 비용과 속도는 Nano Banana와 비슷하지만, 이미지 입력 기능을 쓰면 Flux 2 Pro 쪽이 더 비쌈
    • Flux 1.1과 2의 결과는 객관적 우열이 없음
    • Flux를 로컬에서 실행할 수 있는 가능성만으로도 장점이 있음
      Google이 가격을 올리거나 API를 바꾸면 대안이 없지만, BFL은 로컬 실행 옵션이 있음
    • Flux 2 Pro의 고해상도(4K) 출력이 오히려 문제를 일으킬 때가 있음
      ESRGAN 업스케일처럼 불필요한 디테일이 추가됨 (테스트 링크)
    • Flux 2 Dev 버전은 IP 검열이 없음
  • FLUX.1 Pro Kontext는 여전히 예술적 표현과 지시문 이해력이 뛰어남
    Nano Banana 비교 블로그에서도 확인 가능

  • FLUX.2 [dev] 를 RTX GPU에서 fp8 최적화 버전으로 로컬 실행할 수 있음
    오픈 가중치를 유지하는 점은 좋지만, 모델 크기가 12B에서 32B로 커져 로컬 사용이 부담스러움
    distill 버전을 기대 중임

    • Hugging Face 페이지를 보면
      텍스트 인코더가 48GB, 생성 모델이 64GB로 총 100GB 이상임
      로컬 사용자에게는 진입 장벽이 큼
  • 이번 버전의 텍스트 인코더는 Mistral-Small-3.2-24B-Instruct-2506으로, 이전의 CLIP/T5 조합보다 낫지만 크기가 큼
    Apache 2.0으로 distill된 모델을 기다렸다가 출시했으면 Nano Banana와 더 잘 차별화됐을 것 같음
    가격 구조도 특이함 — 입력은 MP당 $0.015, 출력은 첫 MP $0.03 이후 MP당 $0.015

    • Qwen-Image-Edit-2511이 다음 주 Apache 2.0으로 출시될 예정이라, BFL이 서둘러 공개한 듯함
    • CLIP은 사실상 무의미한 선택이었음. 가중치를 0으로 만들어도 결과가 거의 동일했음
    • CLIP+T5 조합은 당시 많은 이미지 생성 모델이 사용했음. 이상한 선택은 아니었음
    • GTM 전략을 챙기려다 유럽 시장이 손해를 본 듯함
  • Nano Banana Pro에 경쟁자가 생긴 건 반가움
    가격 경쟁을 유지하는 데 도움이 됨

    • 홍콩처럼 미국 모델 사용이 제한된 지역에서는 이런 대안이 특히 중요함
      Google, OpenAI, Claude 모두 구독이 불가함
    • 유럽 기업이 활약하는 것도 보기 좋음
  • 참고로 FLUX.2-DEV 오픈소스 버전은 상업적 사용 불가
    라이선스 전문

  • “family guy cyberpunk 2077” 프롬프트로 Nano Banana Pro와 Flux 2 Pro를 비교했는데,
    Google 모델은 게임 장면에 더 잘 맞았고, Flux는 너무 현실적인 느낌이었음

    • Flux는 사진 중심 데이터셋에 맞춰져 있어서 예술적 스타일에는 약함
      Flux 2 Pro도 비슷한 경향을 보였음
      하지만 LoRA 생태계와 튜닝 시간을 들이면 Flux 1 Dev가 여전히 창의적 스타일링에는 강함
  • 18GB 4bit quant 버전이 diffusers로 제공되어 저 VRAM 환경에서도 실행 가능함