아직 내 GenAI Showdown 사이트에 Klein을 추가하지 못했음
하지만 Z-Image Turbo와 비슷하다면 성능이 매우 뛰어날 것 같음
참고로 Z-Image Turbo는 15점 만점 중 4점을 받았는데, 훨씬 큰 모델인 Flux.2 (32b)가 단 1점만 더 높았다는 점을 고려하면 꽤 인상적임
로컬 모델 비교 결과는 여기서 확인 가능함
모바일에서 정보 버블을 누르면 바로 사라지는 문제가 있음. 수정 요청함
테스트 방식에 문제가 있다고 생각함. 큰 모델들은 훨씬 더 정교한 학습 능력과 CGI 렌더링 이해력을 가지고 있음
구조화된 데이터 기반 테스트는 잘못된 자신감을 줄 수 있음. 이제 단순한 text-to-image는 좋은 벤치마크가 아님
모델들이 점점 작아지면서도 품질과 효율이 높아지는 게 놀라움
Z-Image Turbo는 정말 대단하고, 이번 모델도 빨리 써보고 싶음
관련된 예전 스레드는 여기서 볼 수 있음
작은 모델들도 임계점을 맞이하는 순간이 있는 듯함
100GB짜리 모델은 다운로드와 실행이 어렵지만, 4GB 모델은 대부분의 개발자가 바로 시도해볼 수 있음
품질은 좋아지고 있지만, 작은 모델은 여전히 대형 모델(Qwen Image, Flux 2 Full)에 비해 지식량이 부족함
특히 인물, 아티스트, 특정 사물 표현에서 차이가 큼
주어진 출력 품질에 필요한 최소 파라미터 수가 존재하는지 궁금함
GPT 3.5 이후 Deepseek이 훨씬 적은 비용으로 훈련했고, 이제는 노트북에서도 3.5를 능가하는 모델이 돌아감. 어디까지 줄어들 수 있을지 의문임
이 모델은 pogo stick 이미지를 만들지 못함
‘호랑이가 pogo stick 위에서 점프하는’ 이미지를 시도했지만, pogo stick 자체도 생성 불가였음
빈 와인잔 이미지를 주고 와인으로 채우라고 해도 실패함
이런 물리적 조작은 아직 모델이 못하므로, 관련 직업은 당분간 안전할 듯함
로컬 모델에게는 어려운 테스트임. gpt-image나 NB는 문제없었지만, Qwen-Image만 근접한 결과를 냈음
여러 모델 샘플은 여기서 볼 수 있음
작은 모델은 ‘pogo stick’ 같은 구체적 물체를 표현하려면 추가 프롬프트가 필요함
참고 이미지를 줘도 여전히 실패함.
모델이 충분히 추론 능력이 있다면 외부 참조 이미지를 통해 지식을 보완할 수 있을 텐데, 아직은 부족함
FLUX.2 [klein] 4B는 Klein 패밀리 중 가장 빠른 버전으로, 실시간 미리보기나 지연시간이 중요한 프로덕션 환경을 위해 설계되었다고 함
어떤 상황이 그런 환경인지 궁금함
로컬 모델 사용 시에는 이미지 하나 생성하는 데 10분씩 기다리고 싶지 않음
특히 이미지 편집 작업에서는 속도가 중요함
아마도 빠른 이미지 편집용으로 적합할 것 같음
처음엔 밤에 화면을 주황빛으로 바꿔주는 F.lux 앱 얘기인 줄 알았음
요즘은 모든 OS에 기본 기능으로 포함되어서 더 이상 필요 없음
GenAI 모델을 압축 구현체로 본다면, 텍스트는 잘 압축되지만 이미지와 영상은 그렇지 않음
그런데도 최신 text-to-image, text-to-video 모델은 Llama-3 같은 LLM보다 훨씬 작음
이는 우리가 시각 세계의 좁은 인간 중심 영역만 학습했기 때문일 수 있음. 아직 탐험되지 않은 시각적 조합 공간이 많음
텍스트는 무손실 압축이 가능하지만, 이미지·영상은 노이즈가 많아 단순 비교는 불공정함
인간이 구분 못할 정도의 손실 압축이라면 오히려 이미지 쪽이 더 효율적일 수도 있음
실제로 이미지·영상은 텍스트보다 훨씬 더 잘 압축됨
텍스트는 4:1~6:1 수준이지만, 이미지는 10:1 이상에서도 시각적으로 무손실이며, 영상은 시간적 일관성 덕분에 더 효율적임
LLM에는 아직 효율성 향상 여지가 많다고 봄
동시에 LLM이 암묵적으로 담고 있는 메타 지식의 양도 과소평가하면 안 됨
혹시 Flux 2 Klein을 써본 사람이 있는지 궁금함
나는 이제 새 모델을 쫓지 않고, Nano Banana Pro 하나로 앱 전체를 구축 중임
결과가 충분히 만족스러움 picxstudio.com
Flux 1을 정말 재미있게 썼고, 지금은 Z-Image Turbo로 놀고 있음
Invoke에 Flux2 Klein이 추가되면 써볼 예정임
동의함. Invoke에서 ZIT을 사용하는 경험이 훌륭했음
GPT 버전과 비교했을 때 상호작용 능력이 어떤지 궁금함
작은 버전이면서도 오픈소스로 공개된 점이 마음에 듦
거대한 예산 없이도 실행할 수 있어 기회가 많아짐
속도 향상도 꽤 인상적임
Hacker News 의견들
아직 내 GenAI Showdown 사이트에 Klein을 추가하지 못했음
하지만 Z-Image Turbo와 비슷하다면 성능이 매우 뛰어날 것 같음
참고로 Z-Image Turbo는 15점 만점 중 4점을 받았는데, 훨씬 큰 모델인 Flux.2 (32b)가 단 1점만 더 높았다는 점을 고려하면 꽤 인상적임
로컬 모델 비교 결과는 여기서 확인 가능함
구조화된 데이터 기반 테스트는 잘못된 자신감을 줄 수 있음. 이제 단순한 text-to-image는 좋은 벤치마크가 아님
모델들이 점점 작아지면서도 품질과 효율이 높아지는 게 놀라움
Z-Image Turbo는 정말 대단하고, 이번 모델도 빨리 써보고 싶음
관련된 예전 스레드는 여기서 볼 수 있음
100GB짜리 모델은 다운로드와 실행이 어렵지만, 4GB 모델은 대부분의 개발자가 바로 시도해볼 수 있음
특히 인물, 아티스트, 특정 사물 표현에서 차이가 큼
GPT 3.5 이후 Deepseek이 훨씬 적은 비용으로 훈련했고, 이제는 노트북에서도 3.5를 능가하는 모델이 돌아감. 어디까지 줄어들 수 있을지 의문임
이 모델은 pogo stick 이미지를 만들지 못함
‘호랑이가 pogo stick 위에서 점프하는’ 이미지를 시도했지만, pogo stick 자체도 생성 불가였음
이런 물리적 조작은 아직 모델이 못하므로, 관련 직업은 당분간 안전할 듯함
여러 모델 샘플은 여기서 볼 수 있음
작은 모델은 ‘pogo stick’ 같은 구체적 물체를 표현하려면 추가 프롬프트가 필요함
모델이 충분히 추론 능력이 있다면 외부 참조 이미지를 통해 지식을 보완할 수 있을 텐데, 아직은 부족함
호랑이 예시, 이건 pogo stick이 아님, Nano Banana Pro 예시
FLUX.2 [klein] 4B는 Klein 패밀리 중 가장 빠른 버전으로, 실시간 미리보기나 지연시간이 중요한 프로덕션 환경을 위해 설계되었다고 함
어떤 상황이 그런 환경인지 궁금함
특히 이미지 편집 작업에서는 속도가 중요함
처음엔 밤에 화면을 주황빛으로 바꿔주는 F.lux 앱 얘기인 줄 알았음
요즘은 모든 OS에 기본 기능으로 포함되어서 더 이상 필요 없음
GenAI 모델을 압축 구현체로 본다면, 텍스트는 잘 압축되지만 이미지와 영상은 그렇지 않음
그런데도 최신 text-to-image, text-to-video 모델은 Llama-3 같은 LLM보다 훨씬 작음
이는 우리가 시각 세계의 좁은 인간 중심 영역만 학습했기 때문일 수 있음. 아직 탐험되지 않은 시각적 조합 공간이 많음
인간이 구분 못할 정도의 손실 압축이라면 오히려 이미지 쪽이 더 효율적일 수도 있음
텍스트는 4:1~6:1 수준이지만, 이미지는 10:1 이상에서도 시각적으로 무손실이며, 영상은 시간적 일관성 덕분에 더 효율적임
동시에 LLM이 암묵적으로 담고 있는 메타 지식의 양도 과소평가하면 안 됨
혹시 Flux 2 Klein을 써본 사람이 있는지 궁금함
나는 이제 새 모델을 쫓지 않고, Nano Banana Pro 하나로 앱 전체를 구축 중임
결과가 충분히 만족스러움
picxstudio.com
Flux 1을 정말 재미있게 썼고, 지금은 Z-Image Turbo로 놀고 있음
Invoke에 Flux2 Klein이 추가되면 써볼 예정임
GPT 버전과 비교했을 때 상호작용 능력이 어떤지 궁금함
작은 버전이면서도 오픈소스로 공개된 점이 마음에 듦
거대한 예산 없이도 실행할 수 있어 기회가 많아짐
속도 향상도 꽤 인상적임