FLUX.2 [klein]: 상호작용형 시각 지능을 향하여
(bfl.ai)- FLUX.2 [klein] 은 이미지 생성과 편집을 통합한 초고속 시각 생성 모델군으로, 1초 미만의 추론 속도와 소비자용 GPU 호환성을 제공
- 텍스트-이미지, 이미지 편집, 다중 참조 생성 기능을 단일 아키텍처에서 지원하며, 품질은 대형 모델 수준 유지
- 9B 모델은 FLUX NCL 라이선스, 4B 모델은 Apache 2.0 라이선스로 공개되어 개발자 접근성과 커스터마이징 용이
- FP8·NVFP4 양자화 버전은 NVIDIA와 협력해 제작되어 VRAM 사용량을 최대 55% 절감하고 속도를 최대 2.7배 향상
- 실시간 생성과 상호작용을 목표로 한 ‘인터랙티브 비주얼 인텔리전스’ 비전을 향한 단계로, 실시간 디자인·콘텐츠 제작 도구에 활용 가능
FLUX.2 [klein] 개요
- FLUX.2 [klein]은 Black Forest Labs가 공개한 가장 빠른 이미지 생성 모델군으로, 생성과 편집을 하나의 구조로 통합
- 엔드투엔드 추론 속도는 1초 미만, 고품질 이미지를 실시간으로 생성
- 13GB VRAM만으로 구동 가능해 RTX 3090/4070급 GPU에서도 실행 가능
- 모델명 ‘klein’은 독일어로 ‘작은’을 뜻하며, 소형 구조와 낮은 지연시간을 의미
- 그러나 성능은 대형 모델에 필적하며, 텍스트-이미지 생성·편집·다중 참조 생성을 모두 지원
주요 특징
- 0.5초 미만 추론으로 이미지 생성 또는 편집 가능
- 사진 수준의 사실감과 높은 다양성 제공
- 통합형 모델 구조로 텍스트-이미지, 이미지-이미지, 다중 참조 작업을 단일 모델에서 수행
- 소비자용 GPU 호환성 확보: 4B 모델은 약 13GB VRAM에서 작동
- 개발자 친화성 강화: 4B 모델은 Apache 2.0, 9B 모델은 FLUX NCL로 공개
- API 및 오픈 가중치 제공으로 로컬 실행 및 프로덕션 배포 모두 가능
모델 구성
FLUX.2 [klein] 9B
-
주력 모델로, 품질과 지연시간의 균형을 정의
- 텍스트-이미지, 단일 참조 편집, 다중 참조 생성에서 5배 큰 모델과 동등 이상 성능
- 0.5초 미만의 추론 속도
- 9B 플로우 모델과 8B Qwen3 텍스트 임베더 기반
- 4단계 추론(step-distilled) 구조로 효율성 극대화
- 라이선스: FLUX NCL
FLUX.2 [klein] 4B
-
Apache 2.0 라이선스로 완전 공개된 모델
- RTX 3090/4070 등 소비자 GPU에서 실행 가능
- 텍스트-이미지(T2I) , 이미지-이미지(I2I) , 다중 참조 생성 지원
- 소형이지만 크기 대비 높은 품질 제공
- 로컬 개발 및 엣지 배포에 적합
FLUX.2 [klein] Base 9B / 4B
-
비증류(full-capacity) 버전으로, 학습 신호를 완전히 보존
- 파인튜닝, LoRA 학습, 연구용 파이프라인에 적합
- 증류 모델보다 출력 다양성이 높음
- 라이선스: 4B Base는 Apache 2.0, 9B Base는 FLUX NCL
양자화 버전
- NVIDIA와 협력해 FP8 및 NVFP4 버전 공개
- FP8: 최대 1.6배 빠르고 VRAM 40% 절감
- NVFP4: 최대 2.7배 빠르고 VRAM 55% 절감
- RTX 5080/5090 기준 1024×1024 T2I 벤치마크 수행
- 동일한 라이선스 체계 유지: 4B는 Apache 2.0, 9B는 FLUX NCL
성능 분석
- FLUX.2 [klein]은 Qwen 대비 낮은 지연시간과 VRAM 사용량으로 동등 이상의 품질 달성
- Z-Image보다 우수한 성능을 보이며, 텍스트-이미지와 다중 참조 편집을 단일 모델에서 지원
- Base 버전은 속도는 다소 낮지만 커스터마이징과 연구 적합성이 높음
- 속도 측정은 GB200 (bf16) 환경에서 수행
인터랙티브 비주얼 인텔리전스 비전
- FLUX.2 [klein]은 단순한 속도 향상을 넘어 실시간 상호작용형 시각 지능으로의 진전
- AI가 보고, 창조하고, 반복할 수 있는 시스템을 지향
- 이를 통해 실시간 디자인 도구, 시각적 추론, 인터랙티브 콘텐츠 제작 등 새로운 응용 분야 가능
리소스 및 접근 경로
- 체험: Demo, Playground
- Hugging Face Space: klein 9B, klein 4B
- 개발 자료: 문서, GitHub, 모델 가중치
- 추가 정보: 공식 모델 페이지
Hacker News 의견들
-
아직 내 GenAI Showdown 사이트에 Klein을 추가하지 못했음
하지만 Z-Image Turbo와 비슷하다면 성능이 매우 뛰어날 것 같음
참고로 Z-Image Turbo는 15점 만점 중 4점을 받았는데, 훨씬 큰 모델인 Flux.2 (32b)가 단 1점만 더 높았다는 점을 고려하면 꽤 인상적임
로컬 모델 비교 결과는 여기서 확인 가능함- 모바일에서 정보 버블을 누르면 바로 사라지는 문제가 있음. 수정 요청함
- 테스트 방식에 문제가 있다고 생각함. 큰 모델들은 훨씬 더 정교한 학습 능력과 CGI 렌더링 이해력을 가지고 있음
구조화된 데이터 기반 테스트는 잘못된 자신감을 줄 수 있음. 이제 단순한 text-to-image는 좋은 벤치마크가 아님
-
모델들이 점점 작아지면서도 품질과 효율이 높아지는 게 놀라움
Z-Image Turbo는 정말 대단하고, 이번 모델도 빨리 써보고 싶음
관련된 예전 스레드는 여기서 볼 수 있음- 작은 모델들도 임계점을 맞이하는 순간이 있는 듯함
100GB짜리 모델은 다운로드와 실행이 어렵지만, 4GB 모델은 대부분의 개발자가 바로 시도해볼 수 있음 - 품질은 좋아지고 있지만, 작은 모델은 여전히 대형 모델(Qwen Image, Flux 2 Full)에 비해 지식량이 부족함
특히 인물, 아티스트, 특정 사물 표현에서 차이가 큼 - 주어진 출력 품질에 필요한 최소 파라미터 수가 존재하는지 궁금함
GPT 3.5 이후 Deepseek이 훨씬 적은 비용으로 훈련했고, 이제는 노트북에서도 3.5를 능가하는 모델이 돌아감. 어디까지 줄어들 수 있을지 의문임
- 작은 모델들도 임계점을 맞이하는 순간이 있는 듯함
-
이 모델은 pogo stick 이미지를 만들지 못함
‘호랑이가 pogo stick 위에서 점프하는’ 이미지를 시도했지만, pogo stick 자체도 생성 불가였음- 빈 와인잔 이미지를 주고 와인으로 채우라고 해도 실패함
이런 물리적 조작은 아직 모델이 못하므로, 관련 직업은 당분간 안전할 듯함 - 로컬 모델에게는 어려운 테스트임. gpt-image나 NB는 문제없었지만, Qwen-Image만 근접한 결과를 냈음
여러 모델 샘플은 여기서 볼 수 있음
작은 모델은 ‘pogo stick’ 같은 구체적 물체를 표현하려면 추가 프롬프트가 필요함 - 참고 이미지를 줘도 여전히 실패함.
모델이 충분히 추론 능력이 있다면 외부 참조 이미지를 통해 지식을 보완할 수 있을 텐데, 아직은 부족함 - 좋은 벤치마크 프롬프트임. Z-Image Turbo도 pogo stick을 잘 못 그림
호랑이 예시, 이건 pogo stick이 아님, Nano Banana Pro 예시
- 빈 와인잔 이미지를 주고 와인으로 채우라고 해도 실패함
-
FLUX.2 [klein] 4B는 Klein 패밀리 중 가장 빠른 버전으로, 실시간 미리보기나 지연시간이 중요한 프로덕션 환경을 위해 설계되었다고 함
어떤 상황이 그런 환경인지 궁금함- 로컬 모델 사용 시에는 이미지 하나 생성하는 데 10분씩 기다리고 싶지 않음
특히 이미지 편집 작업에서는 속도가 중요함 - 아마도 빠른 이미지 편집용으로 적합할 것 같음
- 로컬 모델 사용 시에는 이미지 하나 생성하는 데 10분씩 기다리고 싶지 않음
-
처음엔 밤에 화면을 주황빛으로 바꿔주는 F.lux 앱 얘기인 줄 알았음
요즘은 모든 OS에 기본 기능으로 포함되어서 더 이상 필요 없음 -
GenAI 모델을 압축 구현체로 본다면, 텍스트는 잘 압축되지만 이미지와 영상은 그렇지 않음
그런데도 최신 text-to-image, text-to-video 모델은 Llama-3 같은 LLM보다 훨씬 작음
이는 우리가 시각 세계의 좁은 인간 중심 영역만 학습했기 때문일 수 있음. 아직 탐험되지 않은 시각적 조합 공간이 많음- 텍스트는 무손실 압축이 가능하지만, 이미지·영상은 노이즈가 많아 단순 비교는 불공정함
인간이 구분 못할 정도의 손실 압축이라면 오히려 이미지 쪽이 더 효율적일 수도 있음 - 실제로 이미지·영상은 텍스트보다 훨씬 더 잘 압축됨
텍스트는 4:1~6:1 수준이지만, 이미지는 10:1 이상에서도 시각적으로 무손실이며, 영상은 시간적 일관성 덕분에 더 효율적임 - LLM에는 아직 효율성 향상 여지가 많다고 봄
동시에 LLM이 암묵적으로 담고 있는 메타 지식의 양도 과소평가하면 안 됨
- 텍스트는 무손실 압축이 가능하지만, 이미지·영상은 노이즈가 많아 단순 비교는 불공정함
-
혹시 Flux 2 Klein을 써본 사람이 있는지 궁금함
나는 이제 새 모델을 쫓지 않고, Nano Banana Pro 하나로 앱 전체를 구축 중임
결과가 충분히 만족스러움
picxstudio.com -
Flux 1을 정말 재미있게 썼고, 지금은 Z-Image Turbo로 놀고 있음
Invoke에 Flux2 Klein이 추가되면 써볼 예정임- 동의함. Invoke에서 ZIT을 사용하는 경험이 훌륭했음
-
GPT 버전과 비교했을 때 상호작용 능력이 어떤지 궁금함
-
작은 버전이면서도 오픈소스로 공개된 점이 마음에 듦
거대한 예산 없이도 실행할 수 있어 기회가 많아짐
속도 향상도 꽤 인상적임