5P by GN⁺ | ★ favorite | 댓글 1개
  • 10B 규모 산업용 파운데이션 모델이 주도하던 고품질 이미지 인페인팅을, 파라미터를 2% 미만으로 압축하면서도 동등하거나 그 이상의 품질로 구현한 경량 전문가 모델
  • 0.22B(226M) 파라미터로 동작하며, 11.9B 규모의 FLUX.1-Fill-Dev 대비 15배 이상 빠른 추론 속도 달성
  • diffusion 백본을 재구성하는 Local-λ Mix Interaction(LλMI) 블록으로 공간 맥락과 전역 의미 정보를 고정 크기 선형 행렬로 압축
  • latent space 내에서만 작동하는 적응형 다중 입자도 distillation 전략으로 대용량 teacher 모델의 표현력을 경량 모델에 전이
  • 무작정 규모를 키우는 대신, 작업을 명확히 정의했을 때 더 똑똑하고 가볍고 빠른 모델이 가능함을 보여주는 task-specific specialist 접근

배경 및 문제 정의

  • 10B 규모 산업용 파운데이션 모델이 이미지 인페인팅의 한계를 끌어올렸으나, 막대한 연산 비용으로 실제 배포가 크게 제약됨
  • 작업 특화 전문가 모델 구축이 유망한 대안이지만, 극단적 구조 압축은 심각한 표현 병목(representation bottleneck) 을 유발함
  • 이를 극복하기 위해 고효율 경량 인페인팅 프레임워크 Moebius 제안

Method — 전체 파이프라인

  • Latent Diffusion Model(LDM) 프레임워크에 Latent Categories Guidance(LCG) 를 결합한 구조 채택
  • denoising U-Net을 제안한 LλMI 블록으로 체계적으로 재구성해 극단적 아키텍처 효율 확보
  • 학습 단계에서 적응형 다중 입자도 distillation 전략을 적용, 경량 specialist를 고용량 teacher와 정렬해 극단적 구조 압축에 따른 용량 손실 완화

핵심 성과 (Highlights)

  • 극단적 파라미터 효율 (< 2%)

    • 0.22B(226M) 파라미터 로만 동작하며, 이는 대형 모델 FLUX.1-Fill-Dev(11.9B) 의 2% 미만 규모
    • 무거운 연산이 필수라는 통념을 깨고, 컨슈머급 및 엣지 디바이스에서도 고품질 인페인팅 가능
  • 15배 추론 속도 향상 (26ms/step)

    • 단일 GPU에서 step당 26.01ms 라는 매우 낮은 추론 지연 달성
    • 최적화된 샘플링 단계와 결합해 10B급 모델 대비 전체 런타임 15배 이상 가속
  • 10B급 인페인팅 품질

    • 크기 축소가 표현력 저하를 의미하지 않음을 입증
    • 아키텍처와 distillation의 시너지 최적화를 통해 복잡한 텍스처, 얼굴 자연스러움 등 일부 시나리오에서는 10B급 SOTA 모델(FLUX.1-Fill-Dev, SD3.5 Large-Inpainting)을 능가
    • 자연 장면(Places2)과 인물 장면(CelebA-HQ, FFHQ)을 아우르는 6개 벤치마크에서 검증
  • 시너지 기반 핵심 혁신

    • 아키텍처 설계(LλMI Block): self-attention과 cross-attention을 재구성해 공간 맥락과 전역 의미 정보를 고정 크기 선형 행렬로 압축, 이차(quadratic) 연산 부담 회피
    • 적응형 다중 입자도 distillation: teacher 모델 PixelHacker 의 표현력을 latent space 내에서만 전이해 비싼 pixel-space 디코딩 회피
      • 미시적 중간 특징부터 거시적 diffusion 궤적까지 다중 입자도 감독을 정렬하며, gradient norm 기반 적응형 손실 가중 메커니즘으로 학습을 동적으로 균형
    • 최적 시너지 균형: 압축 구조와 distillation 사이의 상호 제약 및 상한을 체계적으로 탐색
      • 아키텍처-distillation 시너지 경계를 매핑해, 0.22B Moebius(student)가 표현 포화 없이 PixelHacker(teacher)의 의미 추론 능력을 최대로 흡수하도록 보장
  • 비대한 범용 모델보다 작업 특화 전문가

    • "작업이 명확히 정의되면 모델이 더 똑똑하고, 가볍고, 빠를 수 있는가"라는 근본 질문에 답하는 접근
    • 실제 이미지 인페인팅과 AI 객체 제거를 파라미터 비대화에서 해방하는 고도 최적화 specialist 역할

평가 및 비교

  • 자연 장면(Places2)과 인물 장면(CelebA-HQ, FFHQ) 양쪽에서 광범위한 실험 수행
  • 생성 품질 면에서 10B급 산업용 범용 모델 FLUX.1-Fill-Dev와 대등하거나 능가하는 결과 확인
  • 파라미터 2% 미만(0.22B vs 11.9B) 규모로 15배 이상의 추론 시간 가속을 달성해, 고충실도 인페인팅의 새로운 효율 기준 제시

댓글과 토론

Hacker News 의견들
  • ONNX로 동작하게 만들었고(Claude Opus 4.8 덕분), 이제 모델이 전부 브라우저 안에서 실행되는 인터랙티브 데모가 있음. 다운로드는 약 1.3GB: https://simonw.github.io/moebius-web/
    코드는 여기: https://github.com/simonw/moebius-web
    Claude Code 기록: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
    블로그에 더 자세히 정리함: https://simonwillison.net/2026/Jun/22/porting-moebius/

    • 나도 정확히 같은 걸 해보려 했고(gpt 5.5 + code 사용), ONNX에서 모델 실행까지는 성공하지 못했음
    • 잘했음. unet 가중치가 fp32던데, 혹시 fp16처럼 더 낮은 정밀도도 시도해 봤는지 궁금함
  • 조금 써봤는데, 0.2B 모델치고는 매우 인상적이지만 10B 모델들과 맞먹는다고 설득되기는 어려움
    자연 이미지에서는 꽤 괜찮게 동작했지만, 인페인팅된 영역이 주변보다 눈에 띄게 매끈했고 새로운 객체에는 매우 약했음. 출력도 512x512로 제한되어 실용성이 줄어듦

    • 제공된 예시들이 실제 성능을 대표한다고 보는지, 아니면 체리픽된 것 같다고 보는지 궁금함
  • 몇 년 전에 클라이언트용 인페인팅 프로젝트를 했음. 콘서트 프로모터용 배너 광고를 인페인팅해서 다양한 지면 크기의 광고를 쉽게 만들려는 작업이었고, 유명 가수 몇 명의 크리스마스 테마 광고를 맡았음
    가장 이상했던 건 인페인팅 도구가 이미지에 이상한 사람들을 추가하던 때였음. 가수가 반짝이 장식과 빨간색으로 꾸며져 있었는데, 모델이 실크해트를 쓴 심술궂은 노인을 추가했음. “소름 끼치는 노인 추가” 버튼을 누른 기억은 없음
    당시 백엔드는 Stable Diffusion이었고 Amazon을 포함한 여러 모델 호스팅 서비스를 거쳤는데, 입력 이미지 요구사항이 제각각이라 매우 복잡했음. 어떤 곳은 200x60 배너 같은 비율을 맞출 수 없어 실패했고, 어떤 곳은 입력 전에 리사이즈해야 해서 처음부터 낮은 해상도의 이미지를 넣게 됐음. 쓰레기를 넣으면 쓰레기가 나옴
    결국 사전 제작 작업이 많이 필요했고, 클라이언트는 내 시도물을 실제로 쓰지 않았음

    • 가수가 반짝이와 빨간색으로 꾸며져 있었는데 모델이 실크해트를 쓴 심술궂은 노인을 추가했다면, Dickens의 A Christmas Carol을 떠올리게 함
      영국에는 크리스마스 행사 때 사람들이 너무 들뜨지 않도록 배경에 Scrooge 같은 인물을 세워둬야 한다는 조례가 있는 게 분명함
    • 그 시절 커뮤니티 제작 모델들, 병합 모델이나 파인튜닝 모델들은 전부 과훈련되어 있었고 초상화와 정면 샷에 최적화돼 있었음. 뭐든 사람으로 만들려고 했음
      얼굴 인페인팅도 여러 도구를 둘러야 겨우 할 만한 작업인데, 그 외의 것을 인페인팅하는 건 거의 불가능했음. 이런 모델들은 객체를 장면 안에 자연스럽게 맞춰 넣는 데도 특히 약했음. 허술한 목걸이나 벨트 정도는 어찌어찌 가능하지만, 새 객체를 장면에 넣는 순간 끝없이 다양한 방식으로 실패함
      해상도도 512x512에서 훨씬 잘 동작하고, 더 크게 벗어나면 문제가 늘어남
      배너 광고를 인페인팅하려 했다면 심하게 왜곡됐을 가능성이 큼. 그 모델들은 글꼴을 다루지 못하고 픽셀 단위로 정확한 전사에도 약함. 당시 현실적으로 가능한 방법은 배너 광고를 수동으로 넣고 경계 부분만 AI로 고치는 것이었을 듯함. 물론 어느 정도 미술 감각은 필요함
      이미지 두 장만 넣고 모델이 알아서 하길 기대했다면, 시도는 대담했지만 불가능한 작업이었음
    • 그건 SD 같은 작은 모델이 매우 특정한 해상도로 학습됐기 때문임. 더 고급 모델들은 더 높은 품질이나 더 다양한 해상도 집합으로 학습됨
      고품질 모델로 낮은 해상도 이미지를 만들면 실제로는 훨씬 큰 이미지에서 일부를 잘라 출력하는 것처럼 느껴짐. 여러 시간 실험해 본 체감상 그렇고, 큰 모델에서 어떤 물체를 가운데 두려고 해도 가운데에 잘 안 보임. 내 GPU가 감당할 수 있는 것도 한계가 있음
  • 이걸 쓰는 데모 스페이스가 몇 개 있음. 이게 가장 좋아 보였고 직접 마스크를 칠할 수 있지만, 내가 시도한 모든 이미지에서는 실패했음: https://huggingface.co/spaces/multimodalart/Moebius

    • 이것저것 만져보다가 동작하게 만들었지만 품질은 좀 별로였음. 노출된 설정을 계속 실험 중이고, 여기서 볼 수 있음: https://huggingface.co/spaces/jonatei/MoebiusDemo
      지금 적극적으로 건드리는 중이라 잠깐씩 깨질 수 있음 :)
      무료 CPU에서 돌고 있어서 이미지 한 장에 80초 정도 걸림
  • 브라우저 안에서 전부 실행되며 모든 파인튜닝 모델을 실험해볼 수 있는 작은 앱을 만들었음: https://inpaintlab.com/

  • 인페인팅이 뭔지 모르겠음. 댓글에서는 다들 이 용어를 아는 것 같은데, 링크된 페이지에서는 설명을 못 봤음

    • 시각화 이미지를 클릭하면 실제 동작을 볼 수 있음. 보라색 영역은 사용자가 시스템에 인페인팅하라고 표시한 부분이고, 이미지를 클릭하면 결과가 보임
      기본적으로 모델이 보라색이 아닌 영역의 맥락을 보고 보라색 영역에 무엇이 가장 어울릴지 판단해 이미지의 일부를 다시 그림. 객체 제거에 자주 쓰이지만, 예시에서 보이듯 다른 작업도 가능함
  • 별로 좋지 않음. 인페인팅된 영역이 늘 그렇듯 자연 사진의 세밀하고 고주파적인 질감에 비해 너무 매끈함
    썸네일에서 뭔가를 지우는 데 겨우 쓸 만한 정도임

    • 이것도 그렇고 예시들도 체리픽임. 자연 사진에서 고압선을 지운 예시는 특히 안 좋음. 지운 자리에 띠가 그대로 보임
      몇 년 전 Photoshop의 기본 복원 도구도 비슷한 수준으로 처리할 수 있음
  • 만화 번역용으로 이런 모델이 있었으면 좋겠음. 지금 애니메이션과 만화 쪽의 가벼운 인페인팅 모델은 LaMa가 사실상 기본인 것 같은데, 이미 몇 년 된 모델이라 개선 여지가 있어 보임

    • 아들을 위해 애니메이션 프로그램(궁금하면 Leapfrog Letter Factory)을 아웃페인팅한 뒤 업스케일하려고 작업 중인데, 로컬에서 하기가 꽤 어려웠음
      이 모델을 다시 학습하거나 파인튜닝할 수 있을지 궁금함. “전문가”를 만든다고 하던데, 그 전문가가 다양한 캐릭터 번역에 대해 더 잘 이해할 수도 있지 않을까 싶음
  • 이런 게 쓸모 있는 AI임. 가능해지는 사용 사례가 정말 많음

    • 맞음, 그래서 답답함. 로컬에서 돌아가고 특정 목적에 맞춰져 있으며 한 가지 일을 안정적으로 잘하는 모델이 진짜 차이를 만들 수 있는 사용 사례가 많음
      하지만 놀라운 먼지 제거, 완벽한 장면 분할 같은 걸 위해 누가 10억 달러를 투자하지는 않을 것임
      대신 클라우드에 업로드한 뒤, 거대한 멀티모달 프런티어 모델에게 내가 원하는 일만 해달라고 정중히 부탁해야 하는 구조가 됨
    • 지난 7일 동안 휴대폰으로 찍은 사진을 몇 번이나 편집했는지 궁금함
  • 이해가 안 됨. 어디서 시험해볼 수 있는 건지, 아니면 그냥 광고인지 모르겠음