# FLUX.1 Krea의 가중치 공개

> Clean Markdown view of GeekNews topic #22292. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=22292](https://news.hada.io/topic?id=22292)
- GeekNews Markdown: [https://news.hada.io/topic/22292.md](https://news.hada.io/topic/22292.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-08-02T09:56:27+09:00
- Updated: 2025-08-02T09:56:27+09:00
- Original source: [krea.ai](https://www.krea.ai/blog/flux-krea-open-source-release)
- Points: 4
- Comments: 1

## Topic Body

- **Krea 1**의 첫 이미지 모델이 **FLUX.1 Krea**라는 오픈 가중치 버전으로 공개됨  
- 기존의 이미지 생성 모델과 달리, **명확한 미적 취향**과 **포토리얼리즘**에 집중해 "AI 같지 않은" 이미지를 목표로 설계됨  
- **기존 벤치마크**와 평가 지표들이 실제 사용자가 원하는 미적 감각과 어긋난다는 문제를 분석하고, 이를 해결하기 위해 **직접 큐레이션한 데이터**와 **의견 중심의 미학적 편향**을 적용함  
- **사전학습(pre-training)** 과 **후학습(post-training)** 과정을 구분하여, 다양성을 보장하는 단계와 명확한 스타일로 수렴시키는 단계를 체계적으로 운용함  
- 향후에는 **개인화·취향 맞춤** 연구와, 더 넓은 비주얼 도메인 확장 및 창작자 지원 기능을 강화할 계획임  
  
---  
### FLUX.1 Krea 오픈 소스 출시  
  
- **Krea 1**은 Black Forest Labs와 공동으로 훈련한 첫 이미지 생성 모델로, 미적 컨트롤과 이미지 품질에서 우수함을 목표로 함  
- **FLUX.1 Krea [dev]** 는 오픈 가중치로 공개되며, 기존 FLUX.1-dev 생태계와 완벽히 호환됨  
- 이 모델은 포토리얼리즘과 미학적 요소를 극대화하며, 특정 미적 취향을 반영해 설계된 **opinionated aesthetics** 지향임  
  
### "AI Look" 현상과 한계  
  
- 기존 AI 생성 이미지는 종종 **과도하게 흐릿한 배경, 왁스 같은 피부, 밋밋한 구도** 등 이른바 "** AI look**" 현상을 보임  
- 벤치마크 최적화와 기술적 지표에 치우치면서, **진짜 같은 질감, 스타일 다양성, 창의적 결과물**이 희생되는 문제를 지적함  
- 실제 사용자 취향을 반영하지 못하는 기존 평가 모델의 한계  
  - 사전 훈련 단계에서 사용되는 **Fréchet Inception Distance (FID)** , **CLIP Score**는 모델의 전반적 성능을 측정하는 데 유용함  
  - 학계 및 산업계에서는 **DPG, GenEval, T2I-Compbench, GenAI-Bench** 등 다양한 벤치마크가 쓰이지만, 주로 프롬프트 부합성과 공간 관계, 속성 결합 등만 평가함  
  - 미적 평가 모델로 **LAION-Aesthetics, Pickscore, ImageReward, HPSv2** 등이 있으나, 대부분 CLIP 기반으로 해상도 및 파라미터 수가 제한됨  
  - 예를 들어 **LAION-Aesthetics**는 **여성, 흐릿한 배경, 밝은 색감** 이미지에 치우친 편향을 가짐; 이런 기준으로 데이터 필터링 시 모델에 암묵적 선입견이 심어질 수 있음  
- 미학 평가지표와 필터는 나쁜 이미지를 걸러내는 데는 유용하나, 훈련 데이터 선별에 지나치게 의존할 경우 모델 자체에 편향이 각인될 위험이 있음  
- 최신 비전 언어 모델 기반의 평가지표가 등장하고 있으나, **미적 취향**은 여전히 주관적이므로 단일 수치로 환원하기 어려움  
  
### 사전학습(Pre-training)과 후학습(Post-training) 구조  
- ## 사전학습(Pre-training)  
  - 사전학습에서는 **스타일, 사물, 인물, 장소** 등 시각적 세계에 대한 지식을 폭넓게 습득하여 **다양성(mode coverage)** 을 극대화함  
  - "좋지 않은" 데이터도 포함해, 모델이 바람직하지 않은 특성(예: 이상한 손가락, 흐릿함 등)도 학습하게 만듦  
  - 사전학습이 모델의 **최고 품질 한계**와 **스타일 다양성**을 결정  
- ## 후학습(Post-training)  
  - 후학습에서는 **모델 분포를 선호하는 스타일로 집중(mode collapsing)** 시켜, "AI look" 대신 명확한 미적 방향성으로 수렴  
  - **Supervised Finetuning(SFT)** 과 **RLHF(선호도 기반 강화학습)** 의 2단계로 진행  
    - SFT: 직접 큐레이션한 고품질 데이터셋 및 Krea-1의 합성 이미지 활용  
    - RLHF: 내부 선호도 데이터를 기반으로 여러 번 최적화해 미학과 스타일을 세밀하게 다듬음  
  - 데이터 양보다 **데이터 품질**이 결정적이라는 점을 확인(1M 이하 소량 고품질 데이터로도 충분)  
  - **의견 중심(opinionated approach)** 의 미학 선호도 레이블을 적용, 기존 공개 선호도 데이터만 활용할 경우 단조롭고 AI look으로 회귀하는 문제 방지  
  
  
### 모델 파이프라인 및 실험적 인사이트  
  
- **flux-dev-raw**라는 12B 파라미터의 guidance-distilled 베이스 모델을 사용, 기존의 과도하게 finetune된 오픈모델과 차별화  
- RLHF 단계에서는 **TPO(preference optimization)** 기법을 적용해 미감과 스타일화 특성을 강화함  
- 고품질의 내부 선호 데이터(엄격 필터링)를 여러 번 활용해 모델 출력을 정교하게 보정함  
- ## 주요 발견점  
  - 1\. **데이터의 양보다 질**이 더 중요함. 1M 미만의 데이터로도 의미 있는 사후훈련 가능. 양적 다양성은 편향 완화와 안정성에 유효하지만, 가장 중요한 것은 **큐레이션된 고품질 데이터**임  
  - 2\. **명확한 취향 중심의 데이터 수집**이 필요함. 대중적 공개 데이터셋은 의도치 않은 편향과 "AI look" 회귀, 단순구도/색상 편향 등 문제를 유발함  
    - 텍스트 구현, 해부학, 구조 등 객관적 목표에는 데이터 다양성이 도움이 되지만, 미감 등 주관적 목표에는 혼합보다는 **특화된 데이터**가 더 효율적임  
    - 다수의 미감 분포를 섞으면 누구도 만족하지 못하는 결과가 나오며, 많은 사용자가 LoRA 등 후처리 방법에 의존하게 되는 현상도 언급됨  
  
### 미래 연구 방향 및 마무리   
  
- Krea 1은 **미학적 기준과 품질을 중시하는 창작자**를 위한 첫걸음이며, 오픈 소스 커뮤니티의 확장을 기대함  
- 향후 **핵심 역량 강화, 더 다양한 시각 도메인 지원, 개인화·컨트롤러빌리티 연구**를 통해 사용자의 미적 취향에 맞는 모델 제공을 목표로 함  
- GitHub( https://github.com/krea-ai/flux-krea ) 참고

## Comments


### Comment 42027

- Author: neo
- Created: 2025-08-02T09:56:28+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44745555) 
* 안녕하세요, 모두들 반가움. 나는 Krea의 공동 설립자이자 CTO임. 우리 모델의 가중치를 공개해서 HN 커뮤니티와 공유하고 싶다는 바람이 오래 전부터 있었음. 오늘 하루 동안 최대한 온라인에 머물면서 궁금한 점이 있으면 답변 드리겠음
  * 혹시 Flux 'Kontext' 버전, 즉 편집 모델 지원 계획이 있는지 궁금함. 프롬프트 기반 이미지 편집의 활용 가능성이 엄청 커 보임. 비록 오픈웨이트 버전의 품질은 아직 못 봤지만, 데모가 매우 인상적이었음. 참고로 이 모델도 12B 크기임
  * 이런 공개를 하는 목적이 무엇인지 궁금함. 사업적으로 어떤 목표가 있는 것인지, 아니면 정말 순수하게 기여 차원인지 알고 싶음
  * 영어 외 언어도 지원하는 모델이 필요함
  * P(.|photo) vs P(.|minimal) 예시에 대해 실질적으로 이 충돌을 어떻게 결정하는지 궁금함. 내 생각엔 사진 실사주의가 기본값이 되어야 한다고 봄. 예를 들어, 사용자가 "책을 읽는 고양이"라고 쓰면, AI 스타일이나 그림체가 아닌 실제 고양이가 책을 읽는 모습이 나오는 게 맞는 것 같음. 별다른 맥락이 없으면 '고양이'는 실사 고양이로 인식하는 게 당연하다고 느껴짐. 만약 사용자가 일러스트 등 다른 스타일을 원하면 프롬프트에 명확히 적어야 하는 게 맞지 않을까 싶은데, 혹시 내가 놓치는 뉘앙스가 있는지 궁금함
* 좋은 공개임. 12b Txt2Img Krea 모델로 간단히 테스트해 봤음. 가장 뛰어난 점은 빠른 속도(그리고 아마도 리얼리즘)임. 다만 unsurprisingly, &lt;i&gt;prompt adherence&lt;/i&gt; 면에서는 일반 Flux.1D 모델보다 더 높은 점수는 못 받았음. 결과는 [https://genai-showdown.specr.net](https://genai-showdown.specr.net)에서 볼 수 있음. 한편 Wan 2.2+ 버전이 앞으로 T2I 분야에서 큰 역할을 할 가능성이 보이는데, 이미지 다양성 부족을 메우려면 LoRA가 엄청나게 필요할 수 있음
  * 테스트한 결과를 볼 수 있는 URL을 알려줄 수 있는지 궁금함. 그리고 참고로, 이 모델은 &lt;i&gt;aesthetics&lt;/i&gt;에 더 초점을 맞췄지 프롬프트 정확성만을 고집한 건 아님. 샘플이 별로인 건 변명이 아니고, 연구 목표 중 하나였음을 강조하고 싶음. 'flux look'이라 불리는 특유의 스타일을 없애고 싶으면 반드시 고려해야 할 트레이드오프임. 그리고 Wan 2.2로 베이스 이미지를 만들고 Krea로 리파인하는 사람들도 있더라, 꽤 흥미로운 방법임
* 안녕하세요! 나는 Krea-1 FLUX.1의 책임 연구원임. Krea는 Krea-1에서 distill한 12B Rectified Flow Model이고, FLUX 아키텍처와 호환되도록 설계함. 기술적 질문 있으면 답변 가능함
  * 나는 전통적인 미디어 프로덕션 출신임. 미디어를 여러 레이어로 나눠 조합하는 방식이 비용관리, 품질관리에 핵심임. 그런데 현재 AI 이미지, 비디오, 오디오 생성 방식은 이런 게 지원되지 않음. ForgeUI가 잠깐 지원했지만 중단됨. 실제 대규모 미디어 제작 요구사항을 이해하지 못해서라 생각함. 실제 영화 VFX, 애니메이션 광고, 수백만 달러 규모 제작 경험자가 팀에 있는지 궁금함. 만약 성공하고 싶다면, 꼭 전통 미디어 제작 방식을 지원해야 함. 기존 AI 툴들은 프로덕션 툴이나 기대와 전혀 연동이 안 되기 때문에 현장에 채택되지 못하고 있음
  * 모델 퀄리티가 정말 훌륭함. 특히 "flux-dev-raw가 guidance distilled model이므로 맞춤 손실함수를 만들어 classifier-free guided 분포에 직접 파인튜닝했다"는 부분이 인상적이었음. 여기에 대해 자세한 설명과 파인튜닝 팁이 있다면 듣고 싶음. 오픈소스 AI 아트 커뮤니티에서도 original distilled flux-dev 파인튜닝이 매우 어려워서 궁금함
  * 이런 노력에 정말 감사함. "FLUX 아키텍처와 호환되도록 설계했다"는게 무슨 의미인지, 그리고 왜 중요한지 설명해줄 수 있는지 궁금함
* 23.8GB 크기의 safetensor 파일이 12B 파라미터 모델 기준으로 이해가 잘 안 됨. 1B 파라미터는 1GB VRAM이 필요하다고 생각했는데, 이 모델이 24GB VRAM을 쓰는 건지 12GB를 쓰는 건지 궁금함. 내 생각이 틀린 것인지 알고 싶음
  * bfloat16으로 계산하면 1B x 16bit = 2GB라서, 12B면 거의 24GB가 맞음. float32를 bfloat16으로 내리면 성능 손실 거의 없으니 bfloat16으로 업로드한 것임
  * 파라미터별로 float 크기가 다름. 여러 모델들은 FP8(8bit/파라미터)로 배포되지만, 이 모델은 FP16(16bit)임. 종종 FP16으로 학습 후 FP8이나 FP4로 양자화해 배포하는 게 많음
  * 8bit로 양자화한 모델은 1B=1GB로 볼 수 있지만, 16bit, 32bit는 그 2~4배를 필요로 함
* 간단한 프롬프트로 신기한 결과를 얻었음: "Octopus DJ spinning the turntables at a rave." DJ 에게서 나타나는 사람 손이 인상적임. 아무리 프롬프트를 줘도 이 손을 제거하지 못했음. 논문에서 언급한 것처럼 확실히 opinionated함
  * "Octopus DJ with no fingers"라고 프롬프트를 넣으니 손은 사라졌지만, 동시에 문어의 모든 사람 특성도 없어져서 순수 문어만 턴테이블을 돌리는 모습만 남았음
* 내가 늘 원하는 이미지는 Galton board임. 상단에 조금 떨어진 두 개의 구멍에서 공이 떨어지고, 하나는 파란 공, 하나는 빨간 공. 아래에서는 두 색이 합쳐진 분포로 칼럼이 이중 정규 분포임을 보여줌. 참고 이미지: [https://imgur.com/a/DiAOTzJ](https://imgur.com/a/DiAOTzJ) (탑에 두 개 스파우트). 실제 시도 결과: [https://imgur.com/undefined](https://imgur.com/undefined), [https://imgur.com/a/uecXDzI](https://imgur.com/a/uecXDzI)
  * 직접 현실에서 만들어 본 적이 있는지 궁금함. double Galton board의 영상을 찾지 못했음
* hey hn! 나는 Krea의 공동 설립자임. FLUX Krea를 어떻게 트레이닝했는지 정리한 블로그 포스트가 있으니, 더 자세히 알고 싶다면 참고 바람: [https://www.krea.ai/blog/flux-krea-open-source-release](https://www.krea.ai/blog/flux-krea-open-source-release)
  * 주제에서 벗어난 질문이지만 진짜로 웹사이트에서 스크롤 바를 숨긴 것인지 궁금함. 왜 그렇게 했는지 이해가 안 됨. 
    ``` 
    .scrollbar-hide {
      -ms-overflow-style: none;
      scrollbar-width: none;
    }
    ```
* NVIDIA 최적화 버전을 제공하는지 궁금함. RTX 가속된 FLUX.1 Kontext처럼: [https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim-tensorrt/](https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim...)
  * FLUX.1 Krea에는 별도 RTX 가속 버전을 만들지 않았음. 하지만 모델은 기존 FLUX.1 dev 코드베이스와 완전히 호환됨. 별도의 ONNX export는 없는 듯함. SVDQuant로 4~8bit 양자화 버전도 체크포인트를 좀 더 일반 하드웨어 친화적으로 만들어 줄 좋은 후속 과제임
* 참고 링크 정리:
  - GitHub 저장소: [https://github.com/krea-ai/flux-krea](https://github.com/krea-ai/flux-krea)
  - 모델 기술 보고서: [https://www.krea.ai/blog/flux-krea-open-source-release](https://www.krea.ai/blog/flux-krea-open-source-release)
  - Huggingface 모델 카드: [https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev](https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev)
* 회사들이 자신들이 원하는 결과물을 얻었을 때 상업적 이용 권한을 명확히 라이선스 할 수 있도록 잘 문서화된 경로 제공을 추천함(곧 알게 되겠지만!)
  * 라이선스 세부 내용은 여기서 확인 가능: [https://huggingface.co/black-forest-labs/FLUX.1-dev/blob/main/LICENSE.md](https://huggingface.co/black-forest-labs/FLUX.1-dev/blob/mai...). 요약하면 기존 BFL Flux-dev 라이선스와 동일함