3P by GN⁺ 19시간전 | ★ favorite | 댓글 1개
  • Krea 1의 첫 이미지 모델이 FLUX.1 Krea라는 오픈 가중치 버전으로 공개됨
  • 기존의 이미지 생성 모델과 달리, 명확한 미적 취향포토리얼리즘에 집중해 "AI 같지 않은" 이미지를 목표로 설계됨
  • 기존 벤치마크와 평가 지표들이 실제 사용자가 원하는 미적 감각과 어긋난다는 문제를 분석하고, 이를 해결하기 위해 직접 큐레이션한 데이터의견 중심의 미학적 편향을 적용함
  • 사전학습(pre-training)후학습(post-training) 과정을 구분하여, 다양성을 보장하는 단계와 명확한 스타일로 수렴시키는 단계를 체계적으로 운용함
  • 향후에는 개인화·취향 맞춤 연구와, 더 넓은 비주얼 도메인 확장 및 창작자 지원 기능을 강화할 계획임

FLUX.1 Krea 오픈 소스 출시

  • Krea 1은 Black Forest Labs와 공동으로 훈련한 첫 이미지 생성 모델로, 미적 컨트롤과 이미지 품질에서 우수함을 목표로 함
  • FLUX.1 Krea [dev] 는 오픈 가중치로 공개되며, 기존 FLUX.1-dev 생태계와 완벽히 호환됨
  • 이 모델은 포토리얼리즘과 미학적 요소를 극대화하며, 특정 미적 취향을 반영해 설계된 opinionated aesthetics 지향임

"AI Look" 현상과 한계

  • 기존 AI 생성 이미지는 종종 과도하게 흐릿한 배경, 왁스 같은 피부, 밋밋한 구도 등 이른바 "** AI look**" 현상을 보임
  • 벤치마크 최적화와 기술적 지표에 치우치면서, 진짜 같은 질감, 스타일 다양성, 창의적 결과물이 희생되는 문제를 지적함
  • 실제 사용자 취향을 반영하지 못하는 기존 평가 모델의 한계
    • 사전 훈련 단계에서 사용되는 Fréchet Inception Distance (FID) , CLIP Score는 모델의 전반적 성능을 측정하는 데 유용함
    • 학계 및 산업계에서는 DPG, GenEval, T2I-Compbench, GenAI-Bench 등 다양한 벤치마크가 쓰이지만, 주로 프롬프트 부합성과 공간 관계, 속성 결합 등만 평가함
    • 미적 평가 모델로 LAION-Aesthetics, Pickscore, ImageReward, HPSv2 등이 있으나, 대부분 CLIP 기반으로 해상도 및 파라미터 수가 제한됨
    • 예를 들어 LAION-Aesthetics여성, 흐릿한 배경, 밝은 색감 이미지에 치우친 편향을 가짐; 이런 기준으로 데이터 필터링 시 모델에 암묵적 선입견이 심어질 수 있음
  • 미학 평가지표와 필터는 나쁜 이미지를 걸러내는 데는 유용하나, 훈련 데이터 선별에 지나치게 의존할 경우 모델 자체에 편향이 각인될 위험이 있음
  • 최신 비전 언어 모델 기반의 평가지표가 등장하고 있으나, 미적 취향은 여전히 주관적이므로 단일 수치로 환원하기 어려움

사전학습(Pre-training)과 후학습(Post-training) 구조

  • 사전학습(Pre-training)

    • 사전학습에서는 스타일, 사물, 인물, 장소 등 시각적 세계에 대한 지식을 폭넓게 습득하여 다양성(mode coverage) 을 극대화함
    • "좋지 않은" 데이터도 포함해, 모델이 바람직하지 않은 특성(예: 이상한 손가락, 흐릿함 등)도 학습하게 만듦
    • 사전학습이 모델의 최고 품질 한계스타일 다양성을 결정
  • 후학습(Post-training)

    • 후학습에서는 모델 분포를 선호하는 스타일로 집중(mode collapsing) 시켜, "AI look" 대신 명확한 미적 방향성으로 수렴
    • Supervised Finetuning(SFT)RLHF(선호도 기반 강화학습) 의 2단계로 진행
      • SFT: 직접 큐레이션한 고품질 데이터셋 및 Krea-1의 합성 이미지 활용
      • RLHF: 내부 선호도 데이터를 기반으로 여러 번 최적화해 미학과 스타일을 세밀하게 다듬음
    • 데이터 양보다 데이터 품질이 결정적이라는 점을 확인(1M 이하 소량 고품질 데이터로도 충분)
    • 의견 중심(opinionated approach) 의 미학 선호도 레이블을 적용, 기존 공개 선호도 데이터만 활용할 경우 단조롭고 AI look으로 회귀하는 문제 방지

모델 파이프라인 및 실험적 인사이트

  • flux-dev-raw라는 12B 파라미터의 guidance-distilled 베이스 모델을 사용, 기존의 과도하게 finetune된 오픈모델과 차별화
  • RLHF 단계에서는 TPO(preference optimization) 기법을 적용해 미감과 스타일화 특성을 강화함
  • 고품질의 내부 선호 데이터(엄격 필터링)를 여러 번 활용해 모델 출력을 정교하게 보정함
  • 주요 발견점

    • 1. 데이터의 양보다 질이 더 중요함. 1M 미만의 데이터로도 의미 있는 사후훈련 가능. 양적 다양성은 편향 완화와 안정성에 유효하지만, 가장 중요한 것은 큐레이션된 고품질 데이터
    • 2. 명확한 취향 중심의 데이터 수집이 필요함. 대중적 공개 데이터셋은 의도치 않은 편향과 "AI look" 회귀, 단순구도/색상 편향 등 문제를 유발함
      • 텍스트 구현, 해부학, 구조 등 객관적 목표에는 데이터 다양성이 도움이 되지만, 미감 등 주관적 목표에는 혼합보다는 특화된 데이터가 더 효율적임
      • 다수의 미감 분포를 섞으면 누구도 만족하지 못하는 결과가 나오며, 많은 사용자가 LoRA 등 후처리 방법에 의존하게 되는 현상도 언급됨

미래 연구 방향 및 마무리

  • Krea 1은 미학적 기준과 품질을 중시하는 창작자를 위한 첫걸음이며, 오픈 소스 커뮤니티의 확장을 기대함
  • 향후 핵심 역량 강화, 더 다양한 시각 도메인 지원, 개인화·컨트롤러빌리티 연구를 통해 사용자의 미적 취향에 맞는 모델 제공을 목표로 함
  • GitHub( https://github.com/krea-ai/flux-krea ) 참고
Hacker News 의견
  • 안녕하세요, 모두들 반가움. 나는 Krea의 공동 설립자이자 CTO임. 우리 모델의 가중치를 공개해서 HN 커뮤니티와 공유하고 싶다는 바람이 오래 전부터 있었음. 오늘 하루 동안 최대한 온라인에 머물면서 궁금한 점이 있으면 답변 드리겠음
    • 혹시 Flux 'Kontext' 버전, 즉 편집 모델 지원 계획이 있는지 궁금함. 프롬프트 기반 이미지 편집의 활용 가능성이 엄청 커 보임. 비록 오픈웨이트 버전의 품질은 아직 못 봤지만, 데모가 매우 인상적이었음. 참고로 이 모델도 12B 크기임
    • 이런 공개를 하는 목적이 무엇인지 궁금함. 사업적으로 어떤 목표가 있는 것인지, 아니면 정말 순수하게 기여 차원인지 알고 싶음
    • 영어 외 언어도 지원하는 모델이 필요함
    • P(.|photo) vs P(.|minimal) 예시에 대해 실질적으로 이 충돌을 어떻게 결정하는지 궁금함. 내 생각엔 사진 실사주의가 기본값이 되어야 한다고 봄. 예를 들어, 사용자가 "책을 읽는 고양이"라고 쓰면, AI 스타일이나 그림체가 아닌 실제 고양이가 책을 읽는 모습이 나오는 게 맞는 것 같음. 별다른 맥락이 없으면 '고양이'는 실사 고양이로 인식하는 게 당연하다고 느껴짐. 만약 사용자가 일러스트 등 다른 스타일을 원하면 프롬프트에 명확히 적어야 하는 게 맞지 않을까 싶은데, 혹시 내가 놓치는 뉘앙스가 있는지 궁금함
  • 좋은 공개임. 12b Txt2Img Krea 모델로 간단히 테스트해 봤음. 가장 뛰어난 점은 빠른 속도(그리고 아마도 리얼리즘)임. 다만 unsurprisingly, <i>prompt adherence</i> 면에서는 일반 Flux.1D 모델보다 더 높은 점수는 못 받았음. 결과는 https://genai-showdown.specr.net에서 볼 수 있음. 한편 Wan 2.2+ 버전이 앞으로 T2I 분야에서 큰 역할을 할 가능성이 보이는데, 이미지 다양성 부족을 메우려면 LoRA가 엄청나게 필요할 수 있음
    • 테스트한 결과를 볼 수 있는 URL을 알려줄 수 있는지 궁금함. 그리고 참고로, 이 모델은 <i>aesthetics</i>에 더 초점을 맞췄지 프롬프트 정확성만을 고집한 건 아님. 샘플이 별로인 건 변명이 아니고, 연구 목표 중 하나였음을 강조하고 싶음. 'flux look'이라 불리는 특유의 스타일을 없애고 싶으면 반드시 고려해야 할 트레이드오프임. 그리고 Wan 2.2로 베이스 이미지를 만들고 Krea로 리파인하는 사람들도 있더라, 꽤 흥미로운 방법임
  • 안녕하세요! 나는 Krea-1 FLUX.1의 책임 연구원임. Krea는 Krea-1에서 distill한 12B Rectified Flow Model이고, FLUX 아키텍처와 호환되도록 설계함. 기술적 질문 있으면 답변 가능함
    • 나는 전통적인 미디어 프로덕션 출신임. 미디어를 여러 레이어로 나눠 조합하는 방식이 비용관리, 품질관리에 핵심임. 그런데 현재 AI 이미지, 비디오, 오디오 생성 방식은 이런 게 지원되지 않음. ForgeUI가 잠깐 지원했지만 중단됨. 실제 대규모 미디어 제작 요구사항을 이해하지 못해서라 생각함. 실제 영화 VFX, 애니메이션 광고, 수백만 달러 규모 제작 경험자가 팀에 있는지 궁금함. 만약 성공하고 싶다면, 꼭 전통 미디어 제작 방식을 지원해야 함. 기존 AI 툴들은 프로덕션 툴이나 기대와 전혀 연동이 안 되기 때문에 현장에 채택되지 못하고 있음
    • 모델 퀄리티가 정말 훌륭함. 특히 "flux-dev-raw가 guidance distilled model이므로 맞춤 손실함수를 만들어 classifier-free guided 분포에 직접 파인튜닝했다"는 부분이 인상적이었음. 여기에 대해 자세한 설명과 파인튜닝 팁이 있다면 듣고 싶음. 오픈소스 AI 아트 커뮤니티에서도 original distilled flux-dev 파인튜닝이 매우 어려워서 궁금함
    • 이런 노력에 정말 감사함. "FLUX 아키텍처와 호환되도록 설계했다"는게 무슨 의미인지, 그리고 왜 중요한지 설명해줄 수 있는지 궁금함
  • 23.8GB 크기의 safetensor 파일이 12B 파라미터 모델 기준으로 이해가 잘 안 됨. 1B 파라미터는 1GB VRAM이 필요하다고 생각했는데, 이 모델이 24GB VRAM을 쓰는 건지 12GB를 쓰는 건지 궁금함. 내 생각이 틀린 것인지 알고 싶음
    • bfloat16으로 계산하면 1B x 16bit = 2GB라서, 12B면 거의 24GB가 맞음. float32를 bfloat16으로 내리면 성능 손실 거의 없으니 bfloat16으로 업로드한 것임
    • 파라미터별로 float 크기가 다름. 여러 모델들은 FP8(8bit/파라미터)로 배포되지만, 이 모델은 FP16(16bit)임. 종종 FP16으로 학습 후 FP8이나 FP4로 양자화해 배포하는 게 많음
    • 8bit로 양자화한 모델은 1B=1GB로 볼 수 있지만, 16bit, 32bit는 그 2~4배를 필요로 함
  • 간단한 프롬프트로 신기한 결과를 얻었음: "Octopus DJ spinning the turntables at a rave." DJ 에게서 나타나는 사람 손이 인상적임. 아무리 프롬프트를 줘도 이 손을 제거하지 못했음. 논문에서 언급한 것처럼 확실히 opinionated함
    • "Octopus DJ with no fingers"라고 프롬프트를 넣으니 손은 사라졌지만, 동시에 문어의 모든 사람 특성도 없어져서 순수 문어만 턴테이블을 돌리는 모습만 남았음
  • 내가 늘 원하는 이미지는 Galton board임. 상단에 조금 떨어진 두 개의 구멍에서 공이 떨어지고, 하나는 파란 공, 하나는 빨간 공. 아래에서는 두 색이 합쳐진 분포로 칼럼이 이중 정규 분포임을 보여줌. 참고 이미지: https://imgur.com/a/DiAOTzJ (탑에 두 개 스파우트). 실제 시도 결과: https://imgur.com/undefined, https://imgur.com/a/uecXDzI
    • 직접 현실에서 만들어 본 적이 있는지 궁금함. double Galton board의 영상을 찾지 못했음
  • hey hn! 나는 Krea의 공동 설립자임. FLUX Krea를 어떻게 트레이닝했는지 정리한 블로그 포스트가 있으니, 더 자세히 알고 싶다면 참고 바람: https://www.krea.ai/blog/flux-krea-open-source-release
    • 주제에서 벗어난 질문이지만 진짜로 웹사이트에서 스크롤 바를 숨긴 것인지 궁금함. 왜 그렇게 했는지 이해가 안 됨.
      .scrollbar-hide {
        -ms-overflow-style: none;
        scrollbar-width: none;
      }
      
  • NVIDIA 최적화 버전을 제공하는지 궁금함. RTX 가속된 FLUX.1 Kontext처럼: https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim-tensorrt/
    • FLUX.1 Krea에는 별도 RTX 가속 버전을 만들지 않았음. 하지만 모델은 기존 FLUX.1 dev 코드베이스와 완전히 호환됨. 별도의 ONNX export는 없는 듯함. SVDQuant로 4~8bit 양자화 버전도 체크포인트를 좀 더 일반 하드웨어 친화적으로 만들어 줄 좋은 후속 과제임
  • 참고 링크 정리:
  • 회사들이 자신들이 원하는 결과물을 얻었을 때 상업적 이용 권한을 명확히 라이선스 할 수 있도록 잘 문서화된 경로 제공을 추천함(곧 알게 되겠지만!)