Moondream 2를 정말 유용하게 쓰고 있음, 주로 새로운 클래스에 대한 객체 탐지 데이터셋을 자동 라벨링하고, 비슷한 정확도의 훨씬 더 작은 CNN으로 distill 하는 용도임
2025-01-09 버전 태그 이후로는 발표된 성능 향상을 별로 못 느꼈음, 이후 릴리즈들은 recall은 좋아졌지만 precision이 크게 떨어진 모습이 아쉬움
이런 문제를 더 잘 해결하려면 Moondream 같은 Vision-Language 모델이 class confidence까지 리포트해주면 좋겠음
전용 객체 탐지 API가 있는 점도 아주 맘에 듦, 타 모델이나 래퍼에서는 본 적이 없음
Moondream 3의 추론 최적화 결과가 기대됨, 팀에게 축하를 전함
창업자 Vik은 X에서 팔로우할 만한 가치가 있음
precision/recall 문제 예시가 있으면 언제든 vik@m87.ai로 메일 달라는 답변임
나도 데이터셋 자동 라벨링에 썼는데 진짜 잘됨
Moondream 모델 성능 정말 인상적임
하지만 빅3 연구소 결과를 보니 Claude와 OpenAI가 너무 못하는 걸 보고 놀람
Gemini가 Moondream보다 못하긴 하지만, 그래도 유일하게 쓸만하다고 할 만한 수준임
그동안 성능 차이가 이렇게 크게 날 줄은 몰랐음
재미있게도 Gemini만 D20 주사위 숫자를 제대로 읽음
ChatGPT는 계속 틀리고 Claude는 주사위 윗면이 가려져서 못 읽는다고만 함(사실 가려진 거 아님)
Moondream이 이 정도로 잘하는데 아직 빅테크에 인수되지 않은 게 신기함
Anthropic, OpenAI 등에서 이런 기술을 플랫폼에 꼭 들이고 싶을 것 같음
만든 사람들은 부자가 되어야 하고, 대형 조직의 리치와 결합하면 LLM의 비주얼 활용도가 훨씬 쓸모있어질 것임
Gemini는 OCR에 가까운 작업에는 정말 뛰어나지만, 그 외 이미지 관련 작업에서는 대부분 성능이 확 떨어지는 경향이 있음
결과물이 정말 멋짐
나도 bounding box 자동화에 Gemini를 선호했는데 9B 모델이 그걸 이긴다면 엄청 기대됨
Moondream 2는 Apache 2 라이선스였는데 3 프리뷰는 BSL이던데, 영구적으로 라이선스가 바뀐 것인지 궁금함
paper.design에서 moondream2를 써서 사용자 업로드 이미지를 자동 레이블 붙이는 데 활용 중임(레이어 트리용)
정말 빠르고 정확함, 3도 기대 중임
Moondream cloud 가격 정보를 찾으려고 5분 동안 찾고 다녔는데 아예 존재하지 않는 것 같음(적어도 가입 전까지는 없음)
5,000번 무료 요청이 있지만, 실제 서비스를 연결하기 전에 가격이 타당한지 확인이 최우선으로 필요한 상황임
곧 cloud 출시 예정임
추론 비용을 더 낮추기 위해 최적화 중이고, 최고의 가격을 제공할 수 있게 준비 중임
출시 소식을 빨리 알고 싶으면 X의 @moondreamai를 팔로우해도 좋음
MoE 아키텍처 선택이 특히 흥미롭다 생각함
2B 파라미터만 활성화 하면서도 8B 모델 수준의 퍼포먼스를 유지하는 점은 엣지 디바이스 배포에 큰 변화를 줄 수 있음
프로덕션에서 지연 시간이 중요한 비전 모델 배포 경험이 많은데, 이처럼 sparse activation을 하면 대형 비전-랭귀지 모델의 추론 비용으로 인한 도입 한계를 상당히 줄일 수 있을 것 같음
챠트 이해 기능도 문서 자동화 워크플로우를 위한 기대 포인트임
혹시 다른 이미지 품질이나 조명 조건에서 모델의 일관성을 테스트해본 사람이 있는지 궁금함
이런 조건에서 소형 모델이 플래그십 모델보다 더 많이 힘들어하는 경우가 많음
인상적인 모델임
혹시 컴퓨터/브라우저 컨트롤 용도로 써본 사람이 있는지 궁금하고, 그래프와 챠트는 얼마나 잘 다루는지도 궁금함
‘point’ 스킬은 수많은 UI 데이터로 학습되었고, 더 큰 driver 모델과 조합해 UI 자동화에 쓰는 사용자도 많음
최종 릴리즈 전 agent 환경에서 엔드-투-엔드 동작하도록 추가 학습을 시도 중임
이 때문에 context 길이도 늘렸음
차트 이해는 다양한 유형이 있지만 꽤 괜찮음
블로그에 ChartQA 벤치마크를 공개했고, GPT5*와 비슷하고 Gemini 2.5 Flash보다 약간 더 좋음
단, GPT5는 훨씬 더 많은 종류의 챠트/그래프에 잘 동작할 거고, 반면 Moondream은 가격/지연 시간 때문에 GPT5가 쓰기 어려운 비전 AI에 적합함
나는 데이터셋 라벨링용으로 쓰는 중이고, 결과가 어떻게 나올지 기대됨
2B 활성 파라미터 개념이 토큰 당 추론에 해당되는 것인지, context 길이가 달라지면 어떻게 스케일되는 개념인지 궁금함
구체적으로 MoE가 추론 시 활성화에 주는 영향과 지연 시간 측면의 실질적 의미가 무엇인지 추가 설명을 듣고 싶음
이 모델을 로컬에서 적정 수준으로 돌릴 수 있는 가장 저렴한 하드웨어가 뭔지 추천해줄 분 있나요
아직 양자화 버전이 없어서, 가중치만 약 20GB 메모리가 필요함
KV 캐시 포함하면 32GB RAM CPU 조합이 제일 저렴하면서도 그럭저럭 빠를 듯함
활성 파라미터 수가 적어서 CPU에서도 성능 괜찮음
Hacker News 의견
2025-01-09 버전 태그 이후로는 발표된 성능 향상을 별로 못 느꼈음, 이후 릴리즈들은 recall은 좋아졌지만 precision이 크게 떨어진 모습이 아쉬움
이런 문제를 더 잘 해결하려면 Moondream 같은 Vision-Language 모델이 class confidence까지 리포트해주면 좋겠음
전용 객체 탐지 API가 있는 점도 아주 맘에 듦, 타 모델이나 래퍼에서는 본 적이 없음
Moondream 3의 추론 최적화 결과가 기대됨, 팀에게 축하를 전함
창업자 Vik은 X에서 팔로우할 만한 가치가 있음
하지만 빅3 연구소 결과를 보니 Claude와 OpenAI가 너무 못하는 걸 보고 놀람
Gemini가 Moondream보다 못하긴 하지만, 그래도 유일하게 쓸만하다고 할 만한 수준임
그동안 성능 차이가 이렇게 크게 날 줄은 몰랐음
ChatGPT는 계속 틀리고 Claude는 주사위 윗면이 가려져서 못 읽는다고만 함(사실 가려진 거 아님)
Anthropic, OpenAI 등에서 이런 기술을 플랫폼에 꼭 들이고 싶을 것 같음
만든 사람들은 부자가 되어야 하고, 대형 조직의 리치와 결합하면 LLM의 비주얼 활용도가 훨씬 쓸모있어질 것임
나도 bounding box 자동화에 Gemini를 선호했는데 9B 모델이 그걸 이긴다면 엄청 기대됨
Moondream 2는 Apache 2 라이선스였는데 3 프리뷰는 BSL이던데, 영구적으로 라이선스가 바뀐 것인지 궁금함
정말 빠르고 정확함, 3도 기대 중임
5,000번 무료 요청이 있지만, 실제 서비스를 연결하기 전에 가격이 타당한지 확인이 최우선으로 필요한 상황임
추론 비용을 더 낮추기 위해 최적화 중이고, 최고의 가격을 제공할 수 있게 준비 중임
출시 소식을 빨리 알고 싶으면 X의 @moondreamai를 팔로우해도 좋음
2B 파라미터만 활성화 하면서도 8B 모델 수준의 퍼포먼스를 유지하는 점은 엣지 디바이스 배포에 큰 변화를 줄 수 있음
프로덕션에서 지연 시간이 중요한 비전 모델 배포 경험이 많은데, 이처럼 sparse activation을 하면 대형 비전-랭귀지 모델의 추론 비용으로 인한 도입 한계를 상당히 줄일 수 있을 것 같음
챠트 이해 기능도 문서 자동화 워크플로우를 위한 기대 포인트임
혹시 다른 이미지 품질이나 조명 조건에서 모델의 일관성을 테스트해본 사람이 있는지 궁금함
이런 조건에서 소형 모델이 플래그십 모델보다 더 많이 힘들어하는 경우가 많음
혹시 컴퓨터/브라우저 컨트롤 용도로 써본 사람이 있는지 궁금하고, 그래프와 챠트는 얼마나 잘 다루는지도 궁금함
최종 릴리즈 전 agent 환경에서 엔드-투-엔드 동작하도록 추가 학습을 시도 중임
이 때문에 context 길이도 늘렸음
차트 이해는 다양한 유형이 있지만 꽤 괜찮음
블로그에 ChartQA 벤치마크를 공개했고, GPT5*와 비슷하고 Gemini 2.5 Flash보다 약간 더 좋음
구체적으로 MoE가 추론 시 활성화에 주는 영향과 지연 시간 측면의 실질적 의미가 무엇인지 추가 설명을 듣고 싶음
KV 캐시 포함하면 32GB RAM CPU 조합이 제일 저렴하면서도 그럭저럭 빠를 듯함
활성 파라미터 수가 적어서 CPU에서도 성능 괜찮음