Hacker News 의견
  • Moondream 2를 정말 유용하게 쓰고 있음, 주로 새로운 클래스에 대한 객체 탐지 데이터셋을 자동 라벨링하고, 비슷한 정확도의 훨씬 더 작은 CNN으로 distill 하는 용도임
    2025-01-09 버전 태그 이후로는 발표된 성능 향상을 별로 못 느꼈음, 이후 릴리즈들은 recall은 좋아졌지만 precision이 크게 떨어진 모습이 아쉬움
    이런 문제를 더 잘 해결하려면 Moondream 같은 Vision-Language 모델이 class confidence까지 리포트해주면 좋겠음
    전용 객체 탐지 API가 있는 점도 아주 맘에 듦, 타 모델이나 래퍼에서는 본 적이 없음
    Moondream 3의 추론 최적화 결과가 기대됨, 팀에게 축하를 전함
    창업자 Vik은 X에서 팔로우할 만한 가치가 있음
    • precision/recall 문제 예시가 있으면 언제든 vik@m87.ai로 메일 달라는 답변임
  • 나도 데이터셋 자동 라벨링에 썼는데 진짜 잘됨
  • Moondream 모델 성능 정말 인상적임
    하지만 빅3 연구소 결과를 보니 Claude와 OpenAI가 너무 못하는 걸 보고 놀람
    Gemini가 Moondream보다 못하긴 하지만, 그래도 유일하게 쓸만하다고 할 만한 수준임
    그동안 성능 차이가 이렇게 크게 날 줄은 몰랐음
    • 재미있게도 Gemini만 D20 주사위 숫자를 제대로 읽음
      ChatGPT는 계속 틀리고 Claude는 주사위 윗면이 가려져서 못 읽는다고만 함(사실 가려진 거 아님)
    • Moondream이 이 정도로 잘하는데 아직 빅테크에 인수되지 않은 게 신기함
      Anthropic, OpenAI 등에서 이런 기술을 플랫폼에 꼭 들이고 싶을 것 같음
      만든 사람들은 부자가 되어야 하고, 대형 조직의 리치와 결합하면 LLM의 비주얼 활용도가 훨씬 쓸모있어질 것임
    • Gemini는 OCR에 가까운 작업에는 정말 뛰어나지만, 그 외 이미지 관련 작업에서는 대부분 성능이 확 떨어지는 경향이 있음
  • 결과물이 정말 멋짐
    나도 bounding box 자동화에 Gemini를 선호했는데 9B 모델이 그걸 이긴다면 엄청 기대됨
    Moondream 2는 Apache 2 라이선스였는데 3 프리뷰는 BSL이던데, 영구적으로 라이선스가 바뀐 것인지 궁금함
  • paper.design에서 moondream2를 써서 사용자 업로드 이미지를 자동 레이블 붙이는 데 활용 중임(레이어 트리용)
    정말 빠르고 정확함, 3도 기대 중임
  • Moondream cloud 가격 정보를 찾으려고 5분 동안 찾고 다녔는데 아예 존재하지 않는 것 같음(적어도 가입 전까지는 없음)
    5,000번 무료 요청이 있지만, 실제 서비스를 연결하기 전에 가격이 타당한지 확인이 최우선으로 필요한 상황임
    • 곧 cloud 출시 예정임
      추론 비용을 더 낮추기 위해 최적화 중이고, 최고의 가격을 제공할 수 있게 준비 중임
      출시 소식을 빨리 알고 싶으면 X의 @moondreamai를 팔로우해도 좋음
  • MoE 아키텍처 선택이 특히 흥미롭다 생각함
    2B 파라미터만 활성화 하면서도 8B 모델 수준의 퍼포먼스를 유지하는 점은 엣지 디바이스 배포에 큰 변화를 줄 수 있음
    프로덕션에서 지연 시간이 중요한 비전 모델 배포 경험이 많은데, 이처럼 sparse activation을 하면 대형 비전-랭귀지 모델의 추론 비용으로 인한 도입 한계를 상당히 줄일 수 있을 것 같음
    챠트 이해 기능도 문서 자동화 워크플로우를 위한 기대 포인트임
    혹시 다른 이미지 품질이나 조명 조건에서 모델의 일관성을 테스트해본 사람이 있는지 궁금함
    이런 조건에서 소형 모델이 플래그십 모델보다 더 많이 힘들어하는 경우가 많음
  • 인상적인 모델임
    혹시 컴퓨터/브라우저 컨트롤 용도로 써본 사람이 있는지 궁금하고, 그래프와 챠트는 얼마나 잘 다루는지도 궁금함
    • ‘point’ 스킬은 수많은 UI 데이터로 학습되었고, 더 큰 driver 모델과 조합해 UI 자동화에 쓰는 사용자도 많음
      최종 릴리즈 전 agent 환경에서 엔드-투-엔드 동작하도록 추가 학습을 시도 중임
      이 때문에 context 길이도 늘렸음
      차트 이해는 다양한 유형이 있지만 꽤 괜찮음
      블로그에 ChartQA 벤치마크를 공개했고, GPT5*와 비슷하고 Gemini 2.5 Flash보다 약간 더 좋음
      • 단, GPT5는 훨씬 더 많은 종류의 챠트/그래프에 잘 동작할 거고, 반면 Moondream은 가격/지연 시간 때문에 GPT5가 쓰기 어려운 비전 AI에 적합함
    • 나는 데이터셋 라벨링용으로 쓰는 중이고, 결과가 어떻게 나올지 기대됨
  • 2B 활성 파라미터 개념이 토큰 당 추론에 해당되는 것인지, context 길이가 달라지면 어떻게 스케일되는 개념인지 궁금함
    구체적으로 MoE가 추론 시 활성화에 주는 영향과 지연 시간 측면의 실질적 의미가 무엇인지 추가 설명을 듣고 싶음
  • 이 모델을 로컬에서 적정 수준으로 돌릴 수 있는 가장 저렴한 하드웨어가 뭔지 추천해줄 분 있나요
    • 아직 양자화 버전이 없어서, 가중치만 약 20GB 메모리가 필요함
      KV 캐시 포함하면 32GB RAM CPU 조합이 제일 저렴하면서도 그럭저럭 빠를 듯함
      활성 파라미터 수가 적어서 CPU에서도 성능 괜찮음
  • Qwen3-VL 모델과 Moondream 성능 비교 결과가 궁금함