Moondream 3 프리뷰: 최첨단 수준의 추론을 혁

▲

GN⁺ 7달전 | parent | ★ favorite | on: Moondream 3 프리뷰: 최첨단 수준의 추론을 혁신적인 속도로 구현(moondream.ai)

Hacker News 의견

Moondream 2를 정말 유용하게 쓰고 있음, 주로 새로운 클래스에 대한 객체 탐지 데이터셋을 자동 라벨링하고, 비슷한 정확도의 훨씬 더 작은 CNN으로 distill 하는 용도임
2025-01-09 버전 태그 이후로는 발표된 성능 향상을 별로 못 느꼈음, 이후 릴리즈들은 recall은 좋아졌지만 precision이 크게 떨어진 모습이 아쉬움
이런 문제를 더 잘 해결하려면 Moondream 같은 Vision-Language 모델이 class confidence까지 리포트해주면 좋겠음
전용 객체 탐지 API가 있는 점도 아주 맘에 듦, 타 모델이나 래퍼에서는 본 적이 없음
Moondream 3의 추론 최적화 결과가 기대됨, 팀에게 축하를 전함
창업자 Vik은 X에서 팔로우할 만한 가치가 있음
- precision/recall 문제 예시가 있으면 언제든 vik@m87.ai로 메일 달라는 답변임
나도 데이터셋 자동 라벨링에 썼는데 진짜 잘됨
Moondream 모델 성능 정말 인상적임
하지만 빅3 연구소 결과를 보니 Claude와 OpenAI가 너무 못하는 걸 보고 놀람
Gemini가 Moondream보다 못하긴 하지만, 그래도 유일하게 쓸만하다고 할 만한 수준임
그동안 성능 차이가 이렇게 크게 날 줄은 몰랐음
- 재미있게도 Gemini만 D20 주사위 숫자를 제대로 읽음
  ChatGPT는 계속 틀리고 Claude는 주사위 윗면이 가려져서 못 읽는다고만 함(사실 가려진 거 아님)
- Moondream이 이 정도로 잘하는데 아직 빅테크에 인수되지 않은 게 신기함
  Anthropic, OpenAI 등에서 이런 기술을 플랫폼에 꼭 들이고 싶을 것 같음
  만든 사람들은 부자가 되어야 하고, 대형 조직의 리치와 결합하면 LLM의 비주얼 활용도가 훨씬 쓸모있어질 것임
- Gemini는 OCR에 가까운 작업에는 정말 뛰어나지만, 그 외 이미지 관련 작업에서는 대부분 성능이 확 떨어지는 경향이 있음
결과물이 정말 멋짐
나도 bounding box 자동화에 Gemini를 선호했는데 9B 모델이 그걸 이긴다면 엄청 기대됨
Moondream 2는 Apache 2 라이선스였는데 3 프리뷰는 BSL이던데, 영구적으로 라이선스가 바뀐 것인지 궁금함
- Moondream3 라이선스를 보면 2년 후 Apache 2로 바뀔 예정임
paper.design에서 moondream2를 써서 사용자 업로드 이미지를 자동 레이블 붙이는 데 활용 중임(레이어 트리용)
정말 빠르고 정확함, 3도 기대 중임
Moondream cloud 가격 정보를 찾으려고 5분 동안 찾고 다녔는데 아예 존재하지 않는 것 같음(적어도 가입 전까지는 없음)
5,000번 무료 요청이 있지만, 실제 서비스를 연결하기 전에 가격이 타당한지 확인이 최우선으로 필요한 상황임
- 곧 cloud 출시 예정임
  추론 비용을 더 낮추기 위해 최적화 중이고, 최고의 가격을 제공할 수 있게 준비 중임
  출시 소식을 빨리 알고 싶으면 X의 @moondreamai를 팔로우해도 좋음
MoE 아키텍처 선택이 특히 흥미롭다 생각함
2B 파라미터만 활성화 하면서도 8B 모델 수준의 퍼포먼스를 유지하는 점은 엣지 디바이스 배포에 큰 변화를 줄 수 있음
프로덕션에서 지연 시간이 중요한 비전 모델 배포 경험이 많은데, 이처럼 sparse activation을 하면 대형 비전-랭귀지 모델의 추론 비용으로 인한 도입 한계를 상당히 줄일 수 있을 것 같음
챠트 이해 기능도 문서 자동화 워크플로우를 위한 기대 포인트임
혹시 다른 이미지 품질이나 조명 조건에서 모델의 일관성을 테스트해본 사람이 있는지 궁금함
이런 조건에서 소형 모델이 플래그십 모델보다 더 많이 힘들어하는 경우가 많음
인상적인 모델임
혹시 컴퓨터/브라우저 컨트롤 용도로 써본 사람이 있는지 궁금하고, 그래프와 챠트는 얼마나 잘 다루는지도 궁금함
- ‘point’ 스킬은 수많은 UI 데이터로 학습되었고, 더 큰 driver 모델과 조합해 UI 자동화에 쓰는 사용자도 많음
  최종 릴리즈 전 agent 환경에서 엔드-투-엔드 동작하도록 추가 학습을 시도 중임
  이 때문에 context 길이도 늘렸음
  차트 이해는 다양한 유형이 있지만 꽤 괜찮음
  블로그에 ChartQA 벤치마크를 공개했고, GPT5*와 비슷하고 Gemini 2.5 Flash보다 약간 더 좋음
  - 단, GPT5는 훨씬 더 많은 종류의 챠트/그래프에 잘 동작할 거고, 반면 Moondream은 가격/지연 시간 때문에 GPT5가 쓰기 어려운 비전 AI에 적합함
- 나는 데이터셋 라벨링용으로 쓰는 중이고, 결과가 어떻게 나올지 기대됨
2B 활성 파라미터 개념이 토큰 당 추론에 해당되는 것인지, context 길이가 달라지면 어떻게 스케일되는 개념인지 궁금함
구체적으로 MoE가 추론 시 활성화에 주는 영향과 지연 시간 측면의 실질적 의미가 무엇인지 추가 설명을 듣고 싶음
이 모델을 로컬에서 적정 수준으로 돌릴 수 있는 가장 저렴한 하드웨어가 뭔지 추천해줄 분 있나요
- 아직 양자화 버전이 없어서, 가중치만 약 20GB 메모리가 필요함
  KV 캐시 포함하면 32GB RAM CPU 조합이 제일 저렴하면서도 그럭저럭 빠를 듯함
  활성 파라미터 수가 적어서 CPU에서도 성능 괜찮음
Qwen3-VL 모델과 Moondream 성능 비교 결과가 궁금함