FLUX.2 [klein]: 상호작용형 시각 지능을 향

▲

GN⁺ 3달전 | parent | ★ favorite | on: FLUX.2 [klein]: 상호작용형 시각 지능을 향하여(bfl.ai)

Hacker News 의견들

아직 내 GenAI Showdown 사이트에 Klein을 추가하지 못했음
하지만 Z-Image Turbo와 비슷하다면 성능이 매우 뛰어날 것 같음
참고로 Z-Image Turbo는 15점 만점 중 4점을 받았는데, 훨씬 큰 모델인 Flux.2 (32b)가 단 1점만 더 높았다는 점을 고려하면 꽤 인상적임
로컬 모델 비교 결과는 여기서 확인 가능함
- 모바일에서 정보 버블을 누르면 바로 사라지는 문제가 있음. 수정 요청함
- 테스트 방식에 문제가 있다고 생각함. 큰 모델들은 훨씬 더 정교한 학습 능력과 CGI 렌더링 이해력을 가지고 있음
  구조화된 데이터 기반 테스트는 잘못된 자신감을 줄 수 있음. 이제 단순한 text-to-image는 좋은 벤치마크가 아님
모델들이 점점 작아지면서도 품질과 효율이 높아지는 게 놀라움
Z-Image Turbo는 정말 대단하고, 이번 모델도 빨리 써보고 싶음
관련된 예전 스레드는 여기서 볼 수 있음
- 작은 모델들도 임계점을 맞이하는 순간이 있는 듯함
  100GB짜리 모델은 다운로드와 실행이 어렵지만, 4GB 모델은 대부분의 개발자가 바로 시도해볼 수 있음
- 품질은 좋아지고 있지만, 작은 모델은 여전히 대형 모델(Qwen Image, Flux 2 Full)에 비해 지식량이 부족함
  특히 인물, 아티스트, 특정 사물 표현에서 차이가 큼
- 주어진 출력 품질에 필요한 최소 파라미터 수가 존재하는지 궁금함
  GPT 3.5 이후 Deepseek이 훨씬 적은 비용으로 훈련했고, 이제는 노트북에서도 3.5를 능가하는 모델이 돌아감. 어디까지 줄어들 수 있을지 의문임
이 모델은 pogo stick 이미지를 만들지 못함
‘호랑이가 pogo stick 위에서 점프하는’ 이미지를 시도했지만, pogo stick 자체도 생성 불가였음
- 빈 와인잔 이미지를 주고 와인으로 채우라고 해도 실패함
  이런 물리적 조작은 아직 모델이 못하므로, 관련 직업은 당분간 안전할 듯함
- 로컬 모델에게는 어려운 테스트임. gpt-image나 NB는 문제없었지만, Qwen-Image만 근접한 결과를 냈음
  여러 모델 샘플은 여기서 볼 수 있음
  작은 모델은 ‘pogo stick’ 같은 구체적 물체를 표현하려면 추가 프롬프트가 필요함
- 참고 이미지를 줘도 여전히 실패함.
  모델이 충분히 추론 능력이 있다면 외부 참조 이미지를 통해 지식을 보완할 수 있을 텐데, 아직은 부족함
- 좋은 벤치마크 프롬프트임. Z-Image Turbo도 pogo stick을 잘 못 그림
  호랑이 예시, 이건 pogo stick이 아님, Nano Banana Pro 예시
FLUX.2 [klein] 4B는 Klein 패밀리 중 가장 빠른 버전으로, 실시간 미리보기나 지연시간이 중요한 프로덕션 환경을 위해 설계되었다고 함
어떤 상황이 그런 환경인지 궁금함
- 로컬 모델 사용 시에는 이미지 하나 생성하는 데 10분씩 기다리고 싶지 않음
  특히 이미지 편집 작업에서는 속도가 중요함
- 아마도 빠른 이미지 편집용으로 적합할 것 같음
처음엔 밤에 화면을 주황빛으로 바꿔주는 F.lux 앱 얘기인 줄 알았음
요즘은 모든 OS에 기본 기능으로 포함되어서 더 이상 필요 없음
GenAI 모델을 압축 구현체로 본다면, 텍스트는 잘 압축되지만 이미지와 영상은 그렇지 않음
그런데도 최신 text-to-image, text-to-video 모델은 Llama-3 같은 LLM보다 훨씬 작음
이는 우리가 시각 세계의 좁은 인간 중심 영역만 학습했기 때문일 수 있음. 아직 탐험되지 않은 시각적 조합 공간이 많음
- 텍스트는 무손실 압축이 가능하지만, 이미지·영상은 노이즈가 많아 단순 비교는 불공정함
  인간이 구분 못할 정도의 손실 압축이라면 오히려 이미지 쪽이 더 효율적일 수도 있음
- 실제로 이미지·영상은 텍스트보다 훨씬 더 잘 압축됨
  텍스트는 4:1~6:1 수준이지만, 이미지는 10:1 이상에서도 시각적으로 무손실이며, 영상은 시간적 일관성 덕분에 더 효율적임
- LLM에는 아직 효율성 향상 여지가 많다고 봄
  동시에 LLM이 암묵적으로 담고 있는 메타 지식의 양도 과소평가하면 안 됨
혹시 Flux 2 Klein을 써본 사람이 있는지 궁금함
나는 이제 새 모델을 쫓지 않고, Nano Banana Pro 하나로 앱 전체를 구축 중임
결과가 충분히 만족스러움
picxstudio.com
Flux 1을 정말 재미있게 썼고, 지금은 Z-Image Turbo로 놀고 있음
Invoke에 Flux2 Klein이 추가되면 써볼 예정임
- 동의함. Invoke에서 ZIT을 사용하는 경험이 훌륭했음
GPT 버전과 비교했을 때 상호작용 능력이 어떤지 궁금함
작은 버전이면서도 오픈소스로 공개된 점이 마음에 듦
거대한 예산 없이도 실행할 수 있어 기회가 많아짐
속도 향상도 꽤 인상적임