안녕하세요, 모두들 반가움. 나는 Krea의 공동 설립자이자 CTO임. 우리 모델의 가중치를 공개해서 HN 커뮤니티와 공유하고 싶다는 바람이 오래 전부터 있었음. 오늘 하루 동안 최대한 온라인에 머물면서 궁금한 점이 있으면 답변 드리겠음
혹시 Flux 'Kontext' 버전, 즉 편집 모델 지원 계획이 있는지 궁금함. 프롬프트 기반 이미지 편집의 활용 가능성이 엄청 커 보임. 비록 오픈웨이트 버전의 품질은 아직 못 봤지만, 데모가 매우 인상적이었음. 참고로 이 모델도 12B 크기임
이런 공개를 하는 목적이 무엇인지 궁금함. 사업적으로 어떤 목표가 있는 것인지, 아니면 정말 순수하게 기여 차원인지 알고 싶음
영어 외 언어도 지원하는 모델이 필요함
P(.|photo) vs P(.|minimal) 예시에 대해 실질적으로 이 충돌을 어떻게 결정하는지 궁금함. 내 생각엔 사진 실사주의가 기본값이 되어야 한다고 봄. 예를 들어, 사용자가 "책을 읽는 고양이"라고 쓰면, AI 스타일이나 그림체가 아닌 실제 고양이가 책을 읽는 모습이 나오는 게 맞는 것 같음. 별다른 맥락이 없으면 '고양이'는 실사 고양이로 인식하는 게 당연하다고 느껴짐. 만약 사용자가 일러스트 등 다른 스타일을 원하면 프롬프트에 명확히 적어야 하는 게 맞지 않을까 싶은데, 혹시 내가 놓치는 뉘앙스가 있는지 궁금함
좋은 공개임. 12b Txt2Img Krea 모델로 간단히 테스트해 봤음. 가장 뛰어난 점은 빠른 속도(그리고 아마도 리얼리즘)임. 다만 unsurprisingly, <i>prompt adherence</i> 면에서는 일반 Flux.1D 모델보다 더 높은 점수는 못 받았음. 결과는 https://genai-showdown.specr.net에서 볼 수 있음. 한편 Wan 2.2+ 버전이 앞으로 T2I 분야에서 큰 역할을 할 가능성이 보이는데, 이미지 다양성 부족을 메우려면 LoRA가 엄청나게 필요할 수 있음
테스트한 결과를 볼 수 있는 URL을 알려줄 수 있는지 궁금함. 그리고 참고로, 이 모델은 <i>aesthetics</i>에 더 초점을 맞췄지 프롬프트 정확성만을 고집한 건 아님. 샘플이 별로인 건 변명이 아니고, 연구 목표 중 하나였음을 강조하고 싶음. 'flux look'이라 불리는 특유의 스타일을 없애고 싶으면 반드시 고려해야 할 트레이드오프임. 그리고 Wan 2.2로 베이스 이미지를 만들고 Krea로 리파인하는 사람들도 있더라, 꽤 흥미로운 방법임
안녕하세요! 나는 Krea-1 FLUX.1의 책임 연구원임. Krea는 Krea-1에서 distill한 12B Rectified Flow Model이고, FLUX 아키텍처와 호환되도록 설계함. 기술적 질문 있으면 답변 가능함
나는 전통적인 미디어 프로덕션 출신임. 미디어를 여러 레이어로 나눠 조합하는 방식이 비용관리, 품질관리에 핵심임. 그런데 현재 AI 이미지, 비디오, 오디오 생성 방식은 이런 게 지원되지 않음. ForgeUI가 잠깐 지원했지만 중단됨. 실제 대규모 미디어 제작 요구사항을 이해하지 못해서라 생각함. 실제 영화 VFX, 애니메이션 광고, 수백만 달러 규모 제작 경험자가 팀에 있는지 궁금함. 만약 성공하고 싶다면, 꼭 전통 미디어 제작 방식을 지원해야 함. 기존 AI 툴들은 프로덕션 툴이나 기대와 전혀 연동이 안 되기 때문에 현장에 채택되지 못하고 있음
모델 퀄리티가 정말 훌륭함. 특히 "flux-dev-raw가 guidance distilled model이므로 맞춤 손실함수를 만들어 classifier-free guided 분포에 직접 파인튜닝했다"는 부분이 인상적이었음. 여기에 대해 자세한 설명과 파인튜닝 팁이 있다면 듣고 싶음. 오픈소스 AI 아트 커뮤니티에서도 original distilled flux-dev 파인튜닝이 매우 어려워서 궁금함
이런 노력에 정말 감사함. "FLUX 아키텍처와 호환되도록 설계했다"는게 무슨 의미인지, 그리고 왜 중요한지 설명해줄 수 있는지 궁금함
23.8GB 크기의 safetensor 파일이 12B 파라미터 모델 기준으로 이해가 잘 안 됨. 1B 파라미터는 1GB VRAM이 필요하다고 생각했는데, 이 모델이 24GB VRAM을 쓰는 건지 12GB를 쓰는 건지 궁금함. 내 생각이 틀린 것인지 알고 싶음
bfloat16으로 계산하면 1B x 16bit = 2GB라서, 12B면 거의 24GB가 맞음. float32를 bfloat16으로 내리면 성능 손실 거의 없으니 bfloat16으로 업로드한 것임
파라미터별로 float 크기가 다름. 여러 모델들은 FP8(8bit/파라미터)로 배포되지만, 이 모델은 FP16(16bit)임. 종종 FP16으로 학습 후 FP8이나 FP4로 양자화해 배포하는 게 많음
8bit로 양자화한 모델은 1B=1GB로 볼 수 있지만, 16bit, 32bit는 그 2~4배를 필요로 함
간단한 프롬프트로 신기한 결과를 얻었음: "Octopus DJ spinning the turntables at a rave." DJ 에게서 나타나는 사람 손이 인상적임. 아무리 프롬프트를 줘도 이 손을 제거하지 못했음. 논문에서 언급한 것처럼 확실히 opinionated함
"Octopus DJ with no fingers"라고 프롬프트를 넣으니 손은 사라졌지만, 동시에 문어의 모든 사람 특성도 없어져서 순수 문어만 턴테이블을 돌리는 모습만 남았음
FLUX.1 Krea에는 별도 RTX 가속 버전을 만들지 않았음. 하지만 모델은 기존 FLUX.1 dev 코드베이스와 완전히 호환됨. 별도의 ONNX export는 없는 듯함. SVDQuant로 4~8bit 양자화 버전도 체크포인트를 좀 더 일반 하드웨어 친화적으로 만들어 줄 좋은 후속 과제임
Hacker News 의견