FLUX.2 [klein]: 상호작용형 시각 지능을 향하여

(bfl.ai)

5P by GN⁺ 2달전 | ★ favorite | 댓글 2개

FLUX.2 [klein] 은 이미지 생성과 편집을 통합한 초고속 시각 생성 모델군으로, 1초 미만의 추론 속도와 소비자용 GPU 호환성을 제공
텍스트-이미지, 이미지 편집, 다중 참조 생성 기능을 단일 아키텍처에서 지원하며, 품질은 대형 모델 수준 유지
9B 모델은 FLUX NCL 라이선스, 4B 모델은 Apache 2.0 라이선스로 공개되어 개발자 접근성과 커스터마이징 용이
FP8·NVFP4 양자화 버전은 NVIDIA와 협력해 제작되어 VRAM 사용량을 최대 55% 절감하고 속도를 최대 2.7배 향상
실시간 생성과 상호작용을 목표로 한 ‘인터랙티브 비주얼 인텔리전스’ 비전을 향한 단계로, 실시간 디자인·콘텐츠 제작 도구에 활용 가능

FLUX.2 [klein] 개요

FLUX.2 [klein]은 Black Forest Labs가 공개한 가장 빠른 이미지 생성 모델군으로, 생성과 편집을 하나의 구조로 통합
- 엔드투엔드 추론 속도는 1초 미만, 고품질 이미지를 실시간으로 생성
- 13GB VRAM만으로 구동 가능해 RTX 3090/4070급 GPU에서도 실행 가능
모델명 ‘klein’은 독일어로 ‘작은’을 뜻하며, 소형 구조와 낮은 지연시간을 의미
- 그러나 성능은 대형 모델에 필적하며, 텍스트-이미지 생성·편집·다중 참조 생성을 모두 지원

주요 특징

0.5초 미만 추론으로 이미지 생성 또는 편집 가능
사진 수준의 사실감과 높은 다양성 제공
통합형 모델 구조로 텍스트-이미지, 이미지-이미지, 다중 참조 작업을 단일 모델에서 수행
소비자용 GPU 호환성 확보: 4B 모델은 약 13GB VRAM에서 작동
개발자 친화성 강화: 4B 모델은 Apache 2.0, 9B 모델은 FLUX NCL로 공개
API 및 오픈 가중치 제공으로 로컬 실행 및 프로덕션 배포 모두 가능

모델 구성

FLUX.2 [klein] 9B

주력 모델로, 품질과 지연시간의 균형을 정의
- 텍스트-이미지, 단일 참조 편집, 다중 참조 생성에서 5배 큰 모델과 동등 이상 성능
- 0.5초 미만의 추론 속도
- 9B 플로우 모델과 8B Qwen3 텍스트 임베더 기반
- 4단계 추론(step-distilled) 구조로 효율성 극대화
라이선스: FLUX NCL

FLUX.2 [klein] 4B

Apache 2.0 라이선스로 완전 공개된 모델
- RTX 3090/4070 등 소비자 GPU에서 실행 가능
- 텍스트-이미지(T2I) , 이미지-이미지(I2I) , 다중 참조 생성 지원
- 소형이지만 크기 대비 높은 품질 제공
- 로컬 개발 및 엣지 배포에 적합

FLUX.2 [klein] Base 9B / 4B

비증류(full-capacity) 버전으로, 학습 신호를 완전히 보존
- 파인튜닝, LoRA 학습, 연구용 파이프라인에 적합
- 증류 모델보다 출력 다양성이 높음
라이선스: 4B Base는 Apache 2.0, 9B Base는 FLUX NCL

양자화 버전

NVIDIA와 협력해 FP8 및 NVFP4 버전 공개
- FP8: 최대 1.6배 빠르고 VRAM 40% 절감
- NVFP4: 최대 2.7배 빠르고 VRAM 55% 절감
- RTX 5080/5090 기준 1024×1024 T2I 벤치마크 수행
동일한 라이선스 체계 유지: 4B는 Apache 2.0, 9B는 FLUX NCL

성능 분석

FLUX.2 [klein]은 Qwen 대비 낮은 지연시간과 VRAM 사용량으로 동등 이상의 품질 달성
Z-Image보다 우수한 성능을 보이며, 텍스트-이미지와 다중 참조 편집을 단일 모델에서 지원
Base 버전은 속도는 다소 낮지만 커스터마이징과 연구 적합성이 높음
속도 측정은 GB200 (bf16) 환경에서 수행

인터랙티브 비주얼 인텔리전스 비전

FLUX.2 [klein]은 단순한 속도 향상을 넘어 실시간 상호작용형 시각 지능으로의 진전
AI가 보고, 창조하고, 반복할 수 있는 시스템을 지향
이를 통해 실시간 디자인 도구, 시각적 추론, 인터랙티브 콘텐츠 제작 등 새로운 응용 분야 가능

리소스 및 접근 경로

체험: Demo, Playground
Hugging Face Space: klein 9B, klein 4B
개발 자료: 문서, GitHub, 모델 가중치
추가 정보: 공식 모델 페이지

▲

yangeok 2달전 [-]

아 맥에서는 안되겠군요. No GPU or XPU found라네요 ㅎㅎ,,

답변달기

▲

GN⁺ 2달전 [-]

Hacker News 의견들

아직 내 GenAI Showdown 사이트에 Klein을 추가하지 못했음
하지만 Z-Image Turbo와 비슷하다면 성능이 매우 뛰어날 것 같음
참고로 Z-Image Turbo는 15점 만점 중 4점을 받았는데, 훨씬 큰 모델인 Flux.2 (32b)가 단 1점만 더 높았다는 점을 고려하면 꽤 인상적임
로컬 모델 비교 결과는 여기서 확인 가능함
- 모바일에서 정보 버블을 누르면 바로 사라지는 문제가 있음. 수정 요청함
- 테스트 방식에 문제가 있다고 생각함. 큰 모델들은 훨씬 더 정교한 학습 능력과 CGI 렌더링 이해력을 가지고 있음
  구조화된 데이터 기반 테스트는 잘못된 자신감을 줄 수 있음. 이제 단순한 text-to-image는 좋은 벤치마크가 아님
모델들이 점점 작아지면서도 품질과 효율이 높아지는 게 놀라움
Z-Image Turbo는 정말 대단하고, 이번 모델도 빨리 써보고 싶음
관련된 예전 스레드는 여기서 볼 수 있음
- 작은 모델들도 임계점을 맞이하는 순간이 있는 듯함
  100GB짜리 모델은 다운로드와 실행이 어렵지만, 4GB 모델은 대부분의 개발자가 바로 시도해볼 수 있음
- 품질은 좋아지고 있지만, 작은 모델은 여전히 대형 모델(Qwen Image, Flux 2 Full)에 비해 지식량이 부족함
  특히 인물, 아티스트, 특정 사물 표현에서 차이가 큼
- 주어진 출력 품질에 필요한 최소 파라미터 수가 존재하는지 궁금함
  GPT 3.5 이후 Deepseek이 훨씬 적은 비용으로 훈련했고, 이제는 노트북에서도 3.5를 능가하는 모델이 돌아감. 어디까지 줄어들 수 있을지 의문임
이 모델은 pogo stick 이미지를 만들지 못함
‘호랑이가 pogo stick 위에서 점프하는’ 이미지를 시도했지만, pogo stick 자체도 생성 불가였음
- 빈 와인잔 이미지를 주고 와인으로 채우라고 해도 실패함
  이런 물리적 조작은 아직 모델이 못하므로, 관련 직업은 당분간 안전할 듯함
- 로컬 모델에게는 어려운 테스트임. gpt-image나 NB는 문제없었지만, Qwen-Image만 근접한 결과를 냈음
  여러 모델 샘플은 여기서 볼 수 있음
  작은 모델은 ‘pogo stick’ 같은 구체적 물체를 표현하려면 추가 프롬프트가 필요함
- 참고 이미지를 줘도 여전히 실패함.
  모델이 충분히 추론 능력이 있다면 외부 참조 이미지를 통해 지식을 보완할 수 있을 텐데, 아직은 부족함
- 좋은 벤치마크 프롬프트임. Z-Image Turbo도 pogo stick을 잘 못 그림
  호랑이 예시, 이건 pogo stick이 아님, Nano Banana Pro 예시
FLUX.2 [klein] 4B는 Klein 패밀리 중 가장 빠른 버전으로, 실시간 미리보기나 지연시간이 중요한 프로덕션 환경을 위해 설계되었다고 함
어떤 상황이 그런 환경인지 궁금함
- 로컬 모델 사용 시에는 이미지 하나 생성하는 데 10분씩 기다리고 싶지 않음
  특히 이미지 편집 작업에서는 속도가 중요함
- 아마도 빠른 이미지 편집용으로 적합할 것 같음
처음엔 밤에 화면을 주황빛으로 바꿔주는 F.lux 앱 얘기인 줄 알았음
요즘은 모든 OS에 기본 기능으로 포함되어서 더 이상 필요 없음
GenAI 모델을 압축 구현체로 본다면, 텍스트는 잘 압축되지만 이미지와 영상은 그렇지 않음
그런데도 최신 text-to-image, text-to-video 모델은 Llama-3 같은 LLM보다 훨씬 작음
이는 우리가 시각 세계의 좁은 인간 중심 영역만 학습했기 때문일 수 있음. 아직 탐험되지 않은 시각적 조합 공간이 많음
- 텍스트는 무손실 압축이 가능하지만, 이미지·영상은 노이즈가 많아 단순 비교는 불공정함
  인간이 구분 못할 정도의 손실 압축이라면 오히려 이미지 쪽이 더 효율적일 수도 있음
- 실제로 이미지·영상은 텍스트보다 훨씬 더 잘 압축됨
  텍스트는 4:1~6:1 수준이지만, 이미지는 10:1 이상에서도 시각적으로 무손실이며, 영상은 시간적 일관성 덕분에 더 효율적임
- LLM에는 아직 효율성 향상 여지가 많다고 봄
  동시에 LLM이 암묵적으로 담고 있는 메타 지식의 양도 과소평가하면 안 됨
혹시 Flux 2 Klein을 써본 사람이 있는지 궁금함
나는 이제 새 모델을 쫓지 않고, Nano Banana Pro 하나로 앱 전체를 구축 중임
결과가 충분히 만족스러움
picxstudio.com
Flux 1을 정말 재미있게 썼고, 지금은 Z-Image Turbo로 놀고 있음
Invoke에 Flux2 Klein이 추가되면 써볼 예정임
- 동의함. Invoke에서 ZIT을 사용하는 경험이 훌륭했음
GPT 버전과 비교했을 때 상호작용 능력이 어떤지 궁금함
작은 버전이면서도 오픈소스로 공개된 점이 마음에 듦
거대한 예산 없이도 실행할 수 있어 기회가 많아짐
속도 향상도 꽤 인상적임

답변달기