5P by GN⁺ 1일전 | ★ favorite | 댓글 2개
  • FLUX.2 [klein] 은 이미지 생성과 편집을 통합한 초고속 시각 생성 모델군으로, 1초 미만의 추론 속도와 소비자용 GPU 호환성을 제공
  • 텍스트-이미지, 이미지 편집, 다중 참조 생성 기능을 단일 아키텍처에서 지원하며, 품질은 대형 모델 수준 유지
  • 9B 모델은 FLUX NCL 라이선스, 4B 모델은 Apache 2.0 라이선스로 공개되어 개발자 접근성과 커스터마이징 용이
  • FP8·NVFP4 양자화 버전은 NVIDIA와 협력해 제작되어 VRAM 사용량을 최대 55% 절감하고 속도를 최대 2.7배 향상
  • 실시간 생성과 상호작용을 목표로 한 ‘인터랙티브 비주얼 인텔리전스’ 비전을 향한 단계로, 실시간 디자인·콘텐츠 제작 도구에 활용 가능

FLUX.2 [klein] 개요

  • FLUX.2 [klein]은 Black Forest Labs가 공개한 가장 빠른 이미지 생성 모델군으로, 생성과 편집을 하나의 구조로 통합
    • 엔드투엔드 추론 속도는 1초 미만, 고품질 이미지를 실시간으로 생성
    • 13GB VRAM만으로 구동 가능해 RTX 3090/4070급 GPU에서도 실행 가능
  • 모델명 ‘klein’은 독일어로 ‘작은’을 뜻하며, 소형 구조와 낮은 지연시간을 의미
    • 그러나 성능은 대형 모델에 필적하며, 텍스트-이미지 생성·편집·다중 참조 생성을 모두 지원

주요 특징

  • 0.5초 미만 추론으로 이미지 생성 또는 편집 가능
  • 사진 수준의 사실감과 높은 다양성 제공
  • 통합형 모델 구조로 텍스트-이미지, 이미지-이미지, 다중 참조 작업을 단일 모델에서 수행
  • 소비자용 GPU 호환성 확보: 4B 모델은 약 13GB VRAM에서 작동
  • 개발자 친화성 강화: 4B 모델은 Apache 2.0, 9B 모델은 FLUX NCL로 공개
  • API 및 오픈 가중치 제공으로 로컬 실행 및 프로덕션 배포 모두 가능

모델 구성

FLUX.2 [klein] 9B

  • 주력 모델로, 품질과 지연시간의 균형을 정의
    • 텍스트-이미지, 단일 참조 편집, 다중 참조 생성에서 5배 큰 모델과 동등 이상 성능
    • 0.5초 미만의 추론 속도
    • 9B 플로우 모델8B Qwen3 텍스트 임베더 기반
    • 4단계 추론(step-distilled) 구조로 효율성 극대화
  • 라이선스: FLUX NCL

FLUX.2 [klein] 4B

  • Apache 2.0 라이선스로 완전 공개된 모델
    • RTX 3090/4070 등 소비자 GPU에서 실행 가능
    • 텍스트-이미지(T2I) , 이미지-이미지(I2I) , 다중 참조 생성 지원
    • 소형이지만 크기 대비 높은 품질 제공
    • 로컬 개발 및 엣지 배포에 적합

FLUX.2 [klein] Base 9B / 4B

  • 비증류(full-capacity) 버전으로, 학습 신호를 완전히 보존
    • 파인튜닝, LoRA 학습, 연구용 파이프라인에 적합
    • 증류 모델보다 출력 다양성이 높음
  • 라이선스: 4B Base는 Apache 2.0, 9B Base는 FLUX NCL

양자화 버전

  • NVIDIA와 협력해 FP8NVFP4 버전 공개
    • FP8: 최대 1.6배 빠르고 VRAM 40% 절감
    • NVFP4: 최대 2.7배 빠르고 VRAM 55% 절감
    • RTX 5080/5090 기준 1024×1024 T2I 벤치마크 수행
  • 동일한 라이선스 체계 유지: 4B는 Apache 2.0, 9B는 FLUX NCL

성능 분석

  • FLUX.2 [klein]은 Qwen 대비 낮은 지연시간과 VRAM 사용량으로 동등 이상의 품질 달성
  • Z-Image보다 우수한 성능을 보이며, 텍스트-이미지와 다중 참조 편집을 단일 모델에서 지원
  • Base 버전은 속도는 다소 낮지만 커스터마이징과 연구 적합성이 높음
  • 속도 측정은 GB200 (bf16) 환경에서 수행

인터랙티브 비주얼 인텔리전스 비전

  • FLUX.2 [klein]은 단순한 속도 향상을 넘어 실시간 상호작용형 시각 지능으로의 진전
  • AI가 보고, 창조하고, 반복할 수 있는 시스템을 지향
  • 이를 통해 실시간 디자인 도구, 시각적 추론, 인터랙티브 콘텐츠 제작 등 새로운 응용 분야 가능

리소스 및 접근 경로


아 맥에서는 안되겠군요. No GPU or XPU found라네요 ㅎㅎ,,

Hacker News 의견들
  • 아직 내 GenAI Showdown 사이트에 Klein을 추가하지 못했음
    하지만 Z-Image Turbo와 비슷하다면 성능이 매우 뛰어날 것 같음
    참고로 Z-Image Turbo는 15점 만점 중 4점을 받았는데, 훨씬 큰 모델인 Flux.2 (32b)가 단 1점만 더 높았다는 점을 고려하면 꽤 인상적임
    로컬 모델 비교 결과는 여기서 확인 가능함

    • 모바일에서 정보 버블을 누르면 바로 사라지는 문제가 있음. 수정 요청함
    • 테스트 방식에 문제가 있다고 생각함. 큰 모델들은 훨씬 더 정교한 학습 능력과 CGI 렌더링 이해력을 가지고 있음
      구조화된 데이터 기반 테스트는 잘못된 자신감을 줄 수 있음. 이제 단순한 text-to-image는 좋은 벤치마크가 아님
  • 모델들이 점점 작아지면서도 품질과 효율이 높아지는 게 놀라움
    Z-Image Turbo는 정말 대단하고, 이번 모델도 빨리 써보고 싶음
    관련된 예전 스레드는 여기서 볼 수 있음

    • 작은 모델들도 임계점을 맞이하는 순간이 있는 듯함
      100GB짜리 모델은 다운로드와 실행이 어렵지만, 4GB 모델은 대부분의 개발자가 바로 시도해볼 수 있음
    • 품질은 좋아지고 있지만, 작은 모델은 여전히 대형 모델(Qwen Image, Flux 2 Full)에 비해 지식량이 부족함
      특히 인물, 아티스트, 특정 사물 표현에서 차이가 큼
    • 주어진 출력 품질에 필요한 최소 파라미터 수가 존재하는지 궁금함
      GPT 3.5 이후 Deepseek이 훨씬 적은 비용으로 훈련했고, 이제는 노트북에서도 3.5를 능가하는 모델이 돌아감. 어디까지 줄어들 수 있을지 의문임
  • 이 모델은 pogo stick 이미지를 만들지 못함
    ‘호랑이가 pogo stick 위에서 점프하는’ 이미지를 시도했지만, pogo stick 자체도 생성 불가였음

    • 빈 와인잔 이미지를 주고 와인으로 채우라고 해도 실패함
      이런 물리적 조작은 아직 모델이 못하므로, 관련 직업은 당분간 안전할 듯함
    • 로컬 모델에게는 어려운 테스트임. gpt-image나 NB는 문제없었지만, Qwen-Image만 근접한 결과를 냈음
      여러 모델 샘플은 여기서 볼 수 있음
      작은 모델은 ‘pogo stick’ 같은 구체적 물체를 표현하려면 추가 프롬프트가 필요함
    • 참고 이미지를 줘도 여전히 실패함.
      모델이 충분히 추론 능력이 있다면 외부 참조 이미지를 통해 지식을 보완할 수 있을 텐데, 아직은 부족함
    • 좋은 벤치마크 프롬프트임. Z-Image Turbo도 pogo stick을 잘 못 그림
      호랑이 예시, 이건 pogo stick이 아님, Nano Banana Pro 예시
  • FLUX.2 [klein] 4B는 Klein 패밀리 중 가장 빠른 버전으로, 실시간 미리보기지연시간이 중요한 프로덕션 환경을 위해 설계되었다고 함
    어떤 상황이 그런 환경인지 궁금함

    • 로컬 모델 사용 시에는 이미지 하나 생성하는 데 10분씩 기다리고 싶지 않음
      특히 이미지 편집 작업에서는 속도가 중요함
    • 아마도 빠른 이미지 편집용으로 적합할 것 같음
  • 처음엔 밤에 화면을 주황빛으로 바꿔주는 F.lux 앱 얘기인 줄 알았음
    요즘은 모든 OS에 기본 기능으로 포함되어서 더 이상 필요 없음

  • GenAI 모델을 압축 구현체로 본다면, 텍스트는 잘 압축되지만 이미지와 영상은 그렇지 않음
    그런데도 최신 text-to-image, text-to-video 모델은 Llama-3 같은 LLM보다 훨씬 작음
    이는 우리가 시각 세계의 좁은 인간 중심 영역만 학습했기 때문일 수 있음. 아직 탐험되지 않은 시각적 조합 공간이 많음

    • 텍스트는 무손실 압축이 가능하지만, 이미지·영상은 노이즈가 많아 단순 비교는 불공정함
      인간이 구분 못할 정도의 손실 압축이라면 오히려 이미지 쪽이 더 효율적일 수도 있음
    • 실제로 이미지·영상은 텍스트보다 훨씬 더 잘 압축됨
      텍스트는 4:1~6:1 수준이지만, 이미지는 10:1 이상에서도 시각적으로 무손실이며, 영상은 시간적 일관성 덕분에 더 효율적임
    • LLM에는 아직 효율성 향상 여지가 많다고 봄
      동시에 LLM이 암묵적으로 담고 있는 메타 지식의 양도 과소평가하면 안 됨
  • 혹시 Flux 2 Klein을 써본 사람이 있는지 궁금함
    나는 이제 새 모델을 쫓지 않고, Nano Banana Pro 하나로 앱 전체를 구축 중임
    결과가 충분히 만족스러움
    picxstudio.com

  • Flux 1을 정말 재미있게 썼고, 지금은 Z-Image Turbo로 놀고 있음
    Invoke에 Flux2 Klein이 추가되면 써볼 예정임

    • 동의함. Invoke에서 ZIT을 사용하는 경험이 훌륭했음
  • GPT 버전과 비교했을 때 상호작용 능력이 어떤지 궁금함

  • 작은 버전이면서도 오픈소스로 공개된 점이 마음에 듦
    거대한 예산 없이도 실행할 수 있어 기회가 많아짐
    속도 향상도 꽤 인상적임