Hacker News 의견
  • 안녕하세요, 모두들 반가움. 나는 Krea의 공동 설립자이자 CTO임. 우리 모델의 가중치를 공개해서 HN 커뮤니티와 공유하고 싶다는 바람이 오래 전부터 있었음. 오늘 하루 동안 최대한 온라인에 머물면서 궁금한 점이 있으면 답변 드리겠음
    • 혹시 Flux 'Kontext' 버전, 즉 편집 모델 지원 계획이 있는지 궁금함. 프롬프트 기반 이미지 편집의 활용 가능성이 엄청 커 보임. 비록 오픈웨이트 버전의 품질은 아직 못 봤지만, 데모가 매우 인상적이었음. 참고로 이 모델도 12B 크기임
    • 이런 공개를 하는 목적이 무엇인지 궁금함. 사업적으로 어떤 목표가 있는 것인지, 아니면 정말 순수하게 기여 차원인지 알고 싶음
    • 영어 외 언어도 지원하는 모델이 필요함
    • P(.|photo) vs P(.|minimal) 예시에 대해 실질적으로 이 충돌을 어떻게 결정하는지 궁금함. 내 생각엔 사진 실사주의가 기본값이 되어야 한다고 봄. 예를 들어, 사용자가 "책을 읽는 고양이"라고 쓰면, AI 스타일이나 그림체가 아닌 실제 고양이가 책을 읽는 모습이 나오는 게 맞는 것 같음. 별다른 맥락이 없으면 '고양이'는 실사 고양이로 인식하는 게 당연하다고 느껴짐. 만약 사용자가 일러스트 등 다른 스타일을 원하면 프롬프트에 명확히 적어야 하는 게 맞지 않을까 싶은데, 혹시 내가 놓치는 뉘앙스가 있는지 궁금함
  • 좋은 공개임. 12b Txt2Img Krea 모델로 간단히 테스트해 봤음. 가장 뛰어난 점은 빠른 속도(그리고 아마도 리얼리즘)임. 다만 unsurprisingly, <i>prompt adherence</i> 면에서는 일반 Flux.1D 모델보다 더 높은 점수는 못 받았음. 결과는 https://genai-showdown.specr.net에서 볼 수 있음. 한편 Wan 2.2+ 버전이 앞으로 T2I 분야에서 큰 역할을 할 가능성이 보이는데, 이미지 다양성 부족을 메우려면 LoRA가 엄청나게 필요할 수 있음
    • 테스트한 결과를 볼 수 있는 URL을 알려줄 수 있는지 궁금함. 그리고 참고로, 이 모델은 <i>aesthetics</i>에 더 초점을 맞췄지 프롬프트 정확성만을 고집한 건 아님. 샘플이 별로인 건 변명이 아니고, 연구 목표 중 하나였음을 강조하고 싶음. 'flux look'이라 불리는 특유의 스타일을 없애고 싶으면 반드시 고려해야 할 트레이드오프임. 그리고 Wan 2.2로 베이스 이미지를 만들고 Krea로 리파인하는 사람들도 있더라, 꽤 흥미로운 방법임
  • 안녕하세요! 나는 Krea-1 FLUX.1의 책임 연구원임. Krea는 Krea-1에서 distill한 12B Rectified Flow Model이고, FLUX 아키텍처와 호환되도록 설계함. 기술적 질문 있으면 답변 가능함
    • 나는 전통적인 미디어 프로덕션 출신임. 미디어를 여러 레이어로 나눠 조합하는 방식이 비용관리, 품질관리에 핵심임. 그런데 현재 AI 이미지, 비디오, 오디오 생성 방식은 이런 게 지원되지 않음. ForgeUI가 잠깐 지원했지만 중단됨. 실제 대규모 미디어 제작 요구사항을 이해하지 못해서라 생각함. 실제 영화 VFX, 애니메이션 광고, 수백만 달러 규모 제작 경험자가 팀에 있는지 궁금함. 만약 성공하고 싶다면, 꼭 전통 미디어 제작 방식을 지원해야 함. 기존 AI 툴들은 프로덕션 툴이나 기대와 전혀 연동이 안 되기 때문에 현장에 채택되지 못하고 있음
    • 모델 퀄리티가 정말 훌륭함. 특히 "flux-dev-raw가 guidance distilled model이므로 맞춤 손실함수를 만들어 classifier-free guided 분포에 직접 파인튜닝했다"는 부분이 인상적이었음. 여기에 대해 자세한 설명과 파인튜닝 팁이 있다면 듣고 싶음. 오픈소스 AI 아트 커뮤니티에서도 original distilled flux-dev 파인튜닝이 매우 어려워서 궁금함
    • 이런 노력에 정말 감사함. "FLUX 아키텍처와 호환되도록 설계했다"는게 무슨 의미인지, 그리고 왜 중요한지 설명해줄 수 있는지 궁금함
  • 23.8GB 크기의 safetensor 파일이 12B 파라미터 모델 기준으로 이해가 잘 안 됨. 1B 파라미터는 1GB VRAM이 필요하다고 생각했는데, 이 모델이 24GB VRAM을 쓰는 건지 12GB를 쓰는 건지 궁금함. 내 생각이 틀린 것인지 알고 싶음
    • bfloat16으로 계산하면 1B x 16bit = 2GB라서, 12B면 거의 24GB가 맞음. float32를 bfloat16으로 내리면 성능 손실 거의 없으니 bfloat16으로 업로드한 것임
    • 파라미터별로 float 크기가 다름. 여러 모델들은 FP8(8bit/파라미터)로 배포되지만, 이 모델은 FP16(16bit)임. 종종 FP16으로 학습 후 FP8이나 FP4로 양자화해 배포하는 게 많음
    • 8bit로 양자화한 모델은 1B=1GB로 볼 수 있지만, 16bit, 32bit는 그 2~4배를 필요로 함
  • 간단한 프롬프트로 신기한 결과를 얻었음: "Octopus DJ spinning the turntables at a rave." DJ 에게서 나타나는 사람 손이 인상적임. 아무리 프롬프트를 줘도 이 손을 제거하지 못했음. 논문에서 언급한 것처럼 확실히 opinionated함
    • "Octopus DJ with no fingers"라고 프롬프트를 넣으니 손은 사라졌지만, 동시에 문어의 모든 사람 특성도 없어져서 순수 문어만 턴테이블을 돌리는 모습만 남았음
  • 내가 늘 원하는 이미지는 Galton board임. 상단에 조금 떨어진 두 개의 구멍에서 공이 떨어지고, 하나는 파란 공, 하나는 빨간 공. 아래에서는 두 색이 합쳐진 분포로 칼럼이 이중 정규 분포임을 보여줌. 참고 이미지: https://imgur.com/a/DiAOTzJ (탑에 두 개 스파우트). 실제 시도 결과: https://imgur.com/undefined, https://imgur.com/a/uecXDzI
    • 직접 현실에서 만들어 본 적이 있는지 궁금함. double Galton board의 영상을 찾지 못했음
  • hey hn! 나는 Krea의 공동 설립자임. FLUX Krea를 어떻게 트레이닝했는지 정리한 블로그 포스트가 있으니, 더 자세히 알고 싶다면 참고 바람: https://www.krea.ai/blog/flux-krea-open-source-release
    • 주제에서 벗어난 질문이지만 진짜로 웹사이트에서 스크롤 바를 숨긴 것인지 궁금함. 왜 그렇게 했는지 이해가 안 됨.
      .scrollbar-hide {
        -ms-overflow-style: none;
        scrollbar-width: none;
      }
      
  • NVIDIA 최적화 버전을 제공하는지 궁금함. RTX 가속된 FLUX.1 Kontext처럼: https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim-tensorrt/
    • FLUX.1 Krea에는 별도 RTX 가속 버전을 만들지 않았음. 하지만 모델은 기존 FLUX.1 dev 코드베이스와 완전히 호환됨. 별도의 ONNX export는 없는 듯함. SVDQuant로 4~8bit 양자화 버전도 체크포인트를 좀 더 일반 하드웨어 친화적으로 만들어 줄 좋은 후속 과제임
  • 참고 링크 정리:
  • 회사들이 자신들이 원하는 결과물을 얻었을 때 상업적 이용 권한을 명확히 라이선스 할 수 있도록 잘 문서화된 경로 제공을 추천함(곧 알게 되겠지만!)