14P by GN⁺ 4일전 | ★ favorite | 댓글 1개
  • Moondream 3는 9B MoE 구조와 2B 활성 파라미터를 적용해 최첨단 비주얼 추론 성능과 빠르고 효율적인 추론 속도를 동시에 달성
  • 이 모델은 실세계 비전 작업에 특화된 아키텍처, 쉬운 학습 가능성, 높은 속도, 낮은 비용을 중점으로 설계됨
  • 광범위한 객체 감지, 포인팅, 구조적 출력, OCR 등 다양한 현실 응용 분야에서 강력한 성능을 보여줌
  • 32k 토큰 컨텍스트 길이를 지원하여 복잡한 질의 및 답변 처리 능력을 크게 강화함
  • 초기 벤치마크에서는 기존 대형 모델과 견주어 응답 속도 및 효율성에서 우위를 보임

소개 및 주요 목표

  • Moondream 3은 9B Mixture-of-Experts(MoE) 구조와 2B 활성 파라미터 기반의 새로운 비전 언어 모델임
  • 기존 모델 대비 최첨단 시각 추론 능력과 매우 빠르고 비용 효율적인 추론 성능을 동시에 지향함
  • 실세계 문제 해결을 위해 다음 4가지 핵심 분야에 집중함
    • 비주얼 추론: 작은 모델 규모에도 불구하고 실질적 능력 희생 없이 실세계 과업에 뛰어난 역량 제공 목적
    • 학습 용이성: 의료 영상 판독, 군중 내 이상행동 감지 등 전문화된 비전 과업을 위한 손쉬운 파인튜닝 중시
    • 속도: 실시간 처리가 요구되는 비전 AI 응용(생산물 분류, 드론 기반 감시 등)에서 높은 속도 지원
    • 저렴한 비용: 대량 이미지 처리 환경을 고려해 대규모 적용 시에도 운영비용 최소화 추구
  • 9B MoE 모델이면서 2B 활성 파라미터만 작동하게 하여, 빠르고 저렴한 실시간 추론 가능성 확보
  • Reinforcement Learning을 활용해 학습 효율성을 강화, 복잡한 환경에서도 높은 적응력 발휘
  • 기존 2k에서 32k로 컨텍스트 길이 크게 확장, 복잡한 맥락처리 능력 이슈 개선

Moondream 3 실제 사례

  • 객체 감지 (Object Detection)

    • Moondream 3은 단순 라벨 분류를 넘어 복잡한 질의 이해와 상황에 맞는 객체탐지가 가능함
    • Frontier 모델과 비교했을 때, 객체 감지 및 포인팅과 같은 본질적 기능에서 차별화 성능 제공
      • 예시1: "보라색 양말을 신은 주자" 감지
      • 예시2: "수량 입력" UI 요소 탐지
  • 포인팅(지시기능)

    • Moondream 3은 이미지 내 특정 물체를 정밀하게 지시(포인팅) 하는 기능을 기본 내장함
      • 예시3: "병" 객체 포인팅
      • 예시4: "파스타에 가장 적합한 조리도구" 선택
  • 구조적 출력(Structured Output)

    • 32k 컨텍스트 길이로 복잡한 구조의 출력 생성 역량 향상 및 최소 프롬프트로 JSON 등 데이터화 결과 반환
      • 예시5: 썰매견 정보에 대해 dog_id, fur_color, harness_color 항목의 JSON 배열 생성
  • OCR (광학문자인식)

    • 기존 대비 OCR 성능 대폭 향상, 현실 세계의 다양한 응용에 활용 가능
    • 아주 작은 글씨에는 일부 한계 있지만, 표 등 구조적 정보 추출에 높은 정확도 보임
      • 예시6: 화학 반응 테이블의 마크다운 표 변환

벤치마크

  • Moondream 3은 다양한벤치마크에서 선두권 VLM과 견줄 만한 성능을 보여줌
  • 단, Moondream 3은 응답 속도 측면에서 대형 모델 대비 실질적인 이점을 지속적으로 입증 중
  • 추후 더 완전한 벤치마크 결과와 추론시간 비교도 공개 예정

Moondream 3 기술노트

  • 64명의 전문가(Experts) 중 매 토큰마다 8명이 활성화되는 세분화된 희소 Mixture-of-Experts 모델
  • Moondream 2(2B Dense)로부터 drop upcycling 초기화 기법 적용
  • 실제 학습에서 32k 토큰의 전체 컨텍스트 길이 지원
  • 긴 컨텍스트 샘플을 사전학습에 혼합하여 추가적인 컨텍스트 확장 단계 없이 효과적으로 적용
  • 학습 중 온도 스케일링 및 구조적 어텐션 조정으로 긴 문맥 이해력 강화
  • 논리적 추론 및 비논리적 설명 두 모드 지원, 특히 이미지 기반 추론(grounding) 특화
  • 강화학습(RL) 기반 훈련을 통해 시각추론 예시 의존성과 적응력을 점진적으로 향상
  • 로드 밸런싱, 라우터 직교 손실 등으로 토큰별 전문화 유도 후, 포스트트레이닝 단계에서 안정성 보완
  • LSE 억제, 온도튜닝 등 어텐션 구성요소 개선으로 정확도·명료성 증대

결론 및 향후 계획

  • 이번 프리뷰는 미최적화 추론 코드에 의해 속도가 느릴 수 있으며, 현재 모델 추가 훈련 진행 중임
  • 향후 정식 버전에는 성능, 벤치마크, 추론 속도 등이 대폭 개선될 전망
  • 양자화, distilled 스몰 버전 등 다양한 파생 모델 제작 계획 포함
  • Moondream Playground와 HuggingFace에서 사용가능하며, 피드백 및 질의는 Discord에서 소통 가능

참고: Frontier 모델에서는 본질적 객체 감지를 지원하지 않아, 비교를 위한 템플릿 프롬프트 사용함

Hacker News 의견
  • Moondream 2를 정말 유용하게 쓰고 있음, 주로 새로운 클래스에 대한 객체 탐지 데이터셋을 자동 라벨링하고, 비슷한 정확도의 훨씬 더 작은 CNN으로 distill 하는 용도임
    2025-01-09 버전 태그 이후로는 발표된 성능 향상을 별로 못 느꼈음, 이후 릴리즈들은 recall은 좋아졌지만 precision이 크게 떨어진 모습이 아쉬움
    이런 문제를 더 잘 해결하려면 Moondream 같은 Vision-Language 모델이 class confidence까지 리포트해주면 좋겠음
    전용 객체 탐지 API가 있는 점도 아주 맘에 듦, 타 모델이나 래퍼에서는 본 적이 없음
    Moondream 3의 추론 최적화 결과가 기대됨, 팀에게 축하를 전함
    창업자 Vik은 X에서 팔로우할 만한 가치가 있음
    • precision/recall 문제 예시가 있으면 언제든 vik@m87.ai로 메일 달라는 답변임
  • 나도 데이터셋 자동 라벨링에 썼는데 진짜 잘됨
  • Moondream 모델 성능 정말 인상적임
    하지만 빅3 연구소 결과를 보니 Claude와 OpenAI가 너무 못하는 걸 보고 놀람
    Gemini가 Moondream보다 못하긴 하지만, 그래도 유일하게 쓸만하다고 할 만한 수준임
    그동안 성능 차이가 이렇게 크게 날 줄은 몰랐음
    • 재미있게도 Gemini만 D20 주사위 숫자를 제대로 읽음
      ChatGPT는 계속 틀리고 Claude는 주사위 윗면이 가려져서 못 읽는다고만 함(사실 가려진 거 아님)
    • Moondream이 이 정도로 잘하는데 아직 빅테크에 인수되지 않은 게 신기함
      Anthropic, OpenAI 등에서 이런 기술을 플랫폼에 꼭 들이고 싶을 것 같음
      만든 사람들은 부자가 되어야 하고, 대형 조직의 리치와 결합하면 LLM의 비주얼 활용도가 훨씬 쓸모있어질 것임
    • Gemini는 OCR에 가까운 작업에는 정말 뛰어나지만, 그 외 이미지 관련 작업에서는 대부분 성능이 확 떨어지는 경향이 있음
  • 결과물이 정말 멋짐
    나도 bounding box 자동화에 Gemini를 선호했는데 9B 모델이 그걸 이긴다면 엄청 기대됨
    Moondream 2는 Apache 2 라이선스였는데 3 프리뷰는 BSL이던데, 영구적으로 라이선스가 바뀐 것인지 궁금함
  • paper.design에서 moondream2를 써서 사용자 업로드 이미지를 자동 레이블 붙이는 데 활용 중임(레이어 트리용)
    정말 빠르고 정확함, 3도 기대 중임
  • Moondream cloud 가격 정보를 찾으려고 5분 동안 찾고 다녔는데 아예 존재하지 않는 것 같음(적어도 가입 전까지는 없음)
    5,000번 무료 요청이 있지만, 실제 서비스를 연결하기 전에 가격이 타당한지 확인이 최우선으로 필요한 상황임
    • 곧 cloud 출시 예정임
      추론 비용을 더 낮추기 위해 최적화 중이고, 최고의 가격을 제공할 수 있게 준비 중임
      출시 소식을 빨리 알고 싶으면 X의 @moondreamai를 팔로우해도 좋음
  • MoE 아키텍처 선택이 특히 흥미롭다 생각함
    2B 파라미터만 활성화 하면서도 8B 모델 수준의 퍼포먼스를 유지하는 점은 엣지 디바이스 배포에 큰 변화를 줄 수 있음
    프로덕션에서 지연 시간이 중요한 비전 모델 배포 경험이 많은데, 이처럼 sparse activation을 하면 대형 비전-랭귀지 모델의 추론 비용으로 인한 도입 한계를 상당히 줄일 수 있을 것 같음
    챠트 이해 기능도 문서 자동화 워크플로우를 위한 기대 포인트임
    혹시 다른 이미지 품질이나 조명 조건에서 모델의 일관성을 테스트해본 사람이 있는지 궁금함
    이런 조건에서 소형 모델이 플래그십 모델보다 더 많이 힘들어하는 경우가 많음
  • 인상적인 모델임
    혹시 컴퓨터/브라우저 컨트롤 용도로 써본 사람이 있는지 궁금하고, 그래프와 챠트는 얼마나 잘 다루는지도 궁금함
    • ‘point’ 스킬은 수많은 UI 데이터로 학습되었고, 더 큰 driver 모델과 조합해 UI 자동화에 쓰는 사용자도 많음
      최종 릴리즈 전 agent 환경에서 엔드-투-엔드 동작하도록 추가 학습을 시도 중임
      이 때문에 context 길이도 늘렸음
      차트 이해는 다양한 유형이 있지만 꽤 괜찮음
      블로그에 ChartQA 벤치마크를 공개했고, GPT5*와 비슷하고 Gemini 2.5 Flash보다 약간 더 좋음
      • 단, GPT5는 훨씬 더 많은 종류의 챠트/그래프에 잘 동작할 거고, 반면 Moondream은 가격/지연 시간 때문에 GPT5가 쓰기 어려운 비전 AI에 적합함
    • 나는 데이터셋 라벨링용으로 쓰는 중이고, 결과가 어떻게 나올지 기대됨
  • 2B 활성 파라미터 개념이 토큰 당 추론에 해당되는 것인지, context 길이가 달라지면 어떻게 스케일되는 개념인지 궁금함
    구체적으로 MoE가 추론 시 활성화에 주는 영향과 지연 시간 측면의 실질적 의미가 무엇인지 추가 설명을 듣고 싶음
  • 이 모델을 로컬에서 적정 수준으로 돌릴 수 있는 가장 저렴한 하드웨어가 뭔지 추천해줄 분 있나요
    • 아직 양자화 버전이 없어서, 가중치만 약 20GB 메모리가 필요함
      KV 캐시 포함하면 32GB RAM CPU 조합이 제일 저렴하면서도 그럭저럭 빠를 듯함
      활성 파라미터 수가 적어서 CPU에서도 성능 괜찮음
  • Qwen3-VL 모델과 Moondream 성능 비교 결과가 궁금함