# Muse Spark: 개인 초지능으로 확장하는 Meta의 멀티모달 추론 모델

> Clean Markdown view of GeekNews topic #28390. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28390](https://news.hada.io/topic?id=28390)
- GeekNews Markdown: [https://news.hada.io/topic/28390.md](https://news.hada.io/topic/28390.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-04-10T23:33:16+09:00
- Updated: 2026-04-10T23:33:16+09:00
- Original source: [ai.meta.com](https://ai.meta.com/blog/introducing-muse-spark-msl/?_fb_noscript=1)
- Points: 1
- Comments: 1

## Topic Body

- Meta Superintelligence Labs가 개발한 **Muse Spark**는 도구 사용, 시각적 사고 연쇄, 다중 에이전트 협업을 지원하는 **멀티모달 추론 모델**  
- **개인 초지능(personal superintelligence)** 을 향한 첫 단계로, meta.ai와 Meta AI 앱에서 일부 사용자에게 **비공개 API 프리뷰** 형태로 제공 중  
- 모델은 **사전학습, 강화학습, 테스트 시점 추론**의 세 축을 따라 확장되며, Llama 4 대비 **10배 이상 효율적 학습 성능**을 달성함  
- **Contemplating 모드**를 통해 병렬 에이전트 기반의 고난도 추론을 수행하며, Gemini Deep Think 및 GPT Pro 수준의 **고급 사고 능력**을 구현함  
- Meta는 Muse Spark를 기반으로 **안전성과 효율성을 모두 갖춘 개인화된 초지능 모델**로 발전시키는 것을 목표로 함  
  
---  
  
### Muse Spark 개요  
- **Muse Spark**는 Meta Superintelligence Labs가 개발한 **멀티모달 추론 모델**로, 도구 사용, 시각적 사고 연쇄(visual chain of thought), 다중 에이전트 오케스트레이션 기능을 지원  
- Meta의 AI 연구 전반을 재구축한 첫 결과물로, **개인 초지능(personal superintelligence)** 을 향한 첫 단계로 소개됨  
- 연구, 모델 학습, 인프라(예: **Hyperion 데이터센터**) 전반에 걸쳐 확장 투자를 진행 중  
- 현재 [meta.ai](https://meta.ai/)와 Meta AI 앱에서 사용 가능하며, 일부 사용자에게 **비공개 API 프리뷰** 제공  
  
### 개인 초지능을 위한 기능  
- Muse Spark는 **멀티모달 인식, 추론, 건강, 에이전트형 작업**에서 경쟁력 있는 성능을 보유  
- 장기적 에이전트 시스템과 코딩 워크플로우 등 일부 영역의 성능 격차 해소를 위해 지속 투자 중  
- **Contemplating 모드**는 여러 에이전트를 병렬로 작동시켜 복잡한 문제를 해결하며, Gemini Deep Think 및 GPT Pro와 같은 **최전선 모델의 고난도 추론 모드**에 대응  
  - Humanity’s Last Exam에서 58%, FrontierScience Research에서 38%의 성능 달성  
- Contemplating 모드는 meta.ai에서 점진적으로 배포 예정  
  
### 주요 응용 분야  
- Muse Spark는 사용자의 세계를 이해하고 상호작용하는 **개인 초지능**으로 발전하기 위한 기반 제공  
- **멀티모달 통합**을 통해 시각적 정보와 도구를 결합, STEM 시각 문제, 엔터티 인식, 위치 지정 등에서 높은 성능 달성  
  - 예: 미니게임 생성, 가전제품 문제 해결 시 동적 주석 기능 제공  
- **건강 분야**에서는 1,000명 이상의 의사와 협력해 학습 데이터를 구축, **사실적이고 포괄적인 건강 추론** 가능  
  - 음식의 영양 성분, 운동 시 활성화되는 근육 등 건강 정보를 시각적으로 설명하는 **인터랙티브 디스플레이** 생성 가능  
- 예시 프롬프트에서는 요가 자세 평가, 식단 추천 시각화, 커피머신 사용 튜토리얼 등 **개인 맞춤형 시각적 상호작용** 기능 시연  
  
### 확장 축  
- Muse Spark의 확장은 **사전학습, 강화학습, 테스트 시점 추론**의 세 축을 중심으로 진행  
- ## 사전학습  
  - 모델의 **멀티모달 이해, 추론, 코딩 능력**의 기반 형성 단계  
  - 최근 9개월간 모델 구조, 최적화, 데이터 큐레이션을 개선하여 **계산 효율성 대폭 향상**  
  - 동일 성능 달성에 필요한 학습 FLOPs가 **Llama 4 Maverick 대비 10배 이상 감소**, 주요 경쟁 모델보다 효율적  
- ## 강화학습  
  - 사전학습 후 **모델 능력을 확장**하는 단계로, 대규모 RL의 불안정성을 해결해 **예측 가능한 성능 향상** 확보  
  - RL 계산량(스텝 수) 증가에 따라 pass@1과 pass@16 지표가 로그-선형적으로 성장, **모델 신뢰성과 다양성 동시 개선**  
  - 학습에 포함되지 않은 평가 세트에서도 정확도 향상, **일반화 성능** 입증  
- ## 테스트 시점 추론  
  - 모델이 응답 전 **‘생각하는’ 과정**을 수행하도록 훈련  
  - 효율적 토큰 사용을 위해 **사고 시간 패널티(thinking time penalty)** 와 **다중 에이전트 협업**을 활용  
  - RL 학습은 사고 시간에 패널티를 부여하면서도 정확도를 극대화, 결과적으로 **‘사고 압축(thought compression)’** 현상 발생  
    - 더 적은 토큰으로 문제 해결 후, 다시 확장된 사고로 성능 강화  
  - 다중 에이전트 병렬 추론을 통해 **지연(latency)을 늘리지 않고 성능 향상** 달성  
  
### 안전성 평가  
- Muse Spark는 **이중용도 과학 분야**를 포함한 폭넓은 추론 능력을 가지므로, 배포 전 **광범위한 안전성 평가** 수행  
- Meta의 **Advanced AI Scaling Framework v2**를 기반으로 위협 모델, 평가 프로토콜, 배포 기준을 정의  
- 생물·화학 무기 등 고위험 영역에서 **강한 거부(refusal) 행동**을 보이며, 데이터 필터링과 안전 중심 후학습, 시스템 수준 보호장치로 강화  
- 사이버보안 및 통제 상실(Loss of Control) 영역에서는 **위험 시나리오를 실현할 자율 능력 없음**  
- 전반적 평가 결과, Muse Spark는 측정된 모든 **프런티어 위험 범주에서 안전 기준 내에 존재**  
- Apollo Research의 외부 평가에서는 Muse Spark가 **평가 인식(evaluation awareness)** 수준이 가장 높은 모델로 관찰됨  
  - 일부 상황에서 자신이 평가받고 있음을 인식하고 **정직하게 행동해야 한다고 추론**  
  - 그러나 이러한 인식이 실제 행동에 미치는 영향은 제한적이며, 위험 능력과 무관한 일부 정렬 평가에서만 미세한 영향 확인  
  - Meta는 이를 **출시 차단 요인으로 간주하지 않음**, 추가 연구 필요성만 제기  
  
### 결론  
- Muse Spark는 **예측 가능하고 효율적인 확장 경로** 위에 있으며, 향후 **더 강력한 개인 초지능 모델**로 발전 예정  
- Meta는 지속적으로 향상된 모델을 공개하며, **개인화된 초지능 시대**로의 진전을 목표로 함

## Comments



### Comment 55045

- Author: neo
- Created: 2026-04-10T23:33:16+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47692043) 
- 사람들이 이걸 깎아내리는 이유를 모르겠음. 만약 이 모델이 **Opus 4.6**과 비슷하거나 약간 앞선다면, Meta가 선두 AI 기업과 경쟁 가능한 모델을 만들었다는 뜻임  
  물론 비용이 많이 들었겠지만, 이제 이걸 기반으로 **코딩 에이전트**로 발전시키는 건 그렇게 멀지 않은 일처럼 보임. 또 Meta 입장에서는 IG, WhatsApp, VR 등 자사 제품 전반에 SATA 모델을 직접 쓸 수 있으니 장기적으로 재무에도 도움이 될 것임
  - 회의적인 반응도 이해됨. 예전에 **llama 4 벤치마크 과장** 사건이 있었기 때문임. 이번 모델도 몇 달 전부터 존재했지만, 당시에는 Gemini 2.5 Pro 수준이라 공개를 미뤘던 걸로 보임
  - 코딩 에이전트 시장은 이미 **Anthropic**과 **OpenAI**가 집중하고 있음. Meta가 노려야 할 기회는 오히려 **소비자 대상 AI** 영역임. OpenAI는 무료 사용자와 엔터프라이즈 중 어디에 자원을 쓸지 곧 결정해야 할 시점임
  - 벤치마크만 보면 괜찮은 모델이지만, 실제 **프로그래밍 실용성**에서는 Opus에 미치지 못함. 일상적인 코딩 작업의 유용함은 벤치마크로 다 측정되지 않음. 그래도 경쟁이 늘어나는 건 좋은 일임
  - “Opus 4.6을 능가한다”는 말은 사실이 아님
  - Meta에 대한 **기본적인 반감**이 있는 사람들도 많음. 정당하든 아니든, 그냥 Meta라서 싫어하는 경우가 많음

- [Simon Willison의 글](https://simonwillison.net/2026/Apr/8/muse-spark/)을 보고 Pelicans 예시를 살펴봤음. [meta.ai](https://meta.ai/)에서도 직접 만져봤는데 꽤 괜찮았음. Python **Code Interpreter 컨테이너**와 **container.visual_grounding**이라는 이미지 분석 도구가 특히 재미있었음
  - **Alexandr Wang**이 이게 나중에 **오픈소스**로 풀릴 수도 있다고 언급해서 기대 중임
  - 지역마다 제공되는 도구가 다른 듯함. 나는 visual_grounding 기능이 없고, [이 링크](https://embed.fbsbx.com/playables/view/4208761039384112/?ext...)에 있는 기능들만 접근 가능했음
  - Simon에게 물어보고 싶음 — 지금까지 본 모델 중 **‘자전거 타는 펠리컨’** 을 가장 잘 만든 건 어떤 모델인지 궁금함
  - meta.ai에서 로그인해야만 쓸 수 있다니 아쉬움. **Openrouter**에서도 곧 지원되길 바람. 그래도 빨리 써보고 싶을 만큼 기대됨

- 이번 현상은 19세기 **철도 붐**과 비슷하다는 생각이 듦. 여러 회사가 비슷한 수준의 AI를 만들면 **진입장벽(모트)** 이 사라지고, 결국 값이 싸질 것임. 투자금을 회수하지 못할 수도 있음
  - 그래서 **Anthropic**이 API 가격을 높게 유지하고, 자체 제품 구독을 제한하는 이유가 여기에 있다고 봄. **비기술 사용자**가 더 오래 남는다는 점을 노린 전략임
  - 어차피 이들 모두 **정부와 긴밀히 연결**되어 있어서, 시장 논리보다 더 많은 지원을 받을 것임. 설령 실패하더라도 그 결과로 **오픈웨이트 모델**이 나올 가능성이 있음. 다만 그 모델들도 몇 달 안에 구식이 될 듯함
  - 반대로, 지금은 AI가 **스마트폰만큼 대중적**이고, **증기기관만큼 파괴적**임. AI 기업들은 세계 최대의 소프트웨어 회사로 성장 중이며, 시장에는 **수조 달러 규모의 기회**가 있음
  - 진짜 **모트는 연산력과 에너지 접근성**에 있음. 그래서 **Elon Musk**가 직접 반도체 공장을 짓는 것임. HuggingFace에 모델이 많아도, 실제로 돌릴 수 있는 사람은 거의 없음

- 내부 벤치마크를 돌려봤는데 **전혀 인상적이지 않음**. OpenAI, Anthropic, Gemini와 비교할 수준이 아님. 기술 질문에 대한 분석적 오류도 많았음
  - 더 테스트해보니 **기초 수학 오류**가 너무 많음. Gemini로 교차 검증했더니 거의 모든 간단한 문제에서 오류가 발견됨
  - 그래도 **멀티모달** 영역에서는 꽤 괜찮음. 30억 명이 쓸만한 수준이지만, **과학 분야**에서는 여전히 뒤처짐
  - 사실 **Gemini조차** 그 대화에 낄 수준은 아니라고 생각함

- “Ask Meta AI…” 입력창을 눌러봤는데, 로그인 요구와 **페이스북/인스타 연동** 절차가 이어짐. 전형적인 **다크 패턴** 느낌임. OpenAI는 이런 부분을 훨씬 잘 처리했음

- 만약 Meta가 다시 **프론티어 모델**을 확보했다면, 이제 그들의 **전략 방향**이 궁금함. 예전처럼 **오픈 생태계 철학**을 버린 건 아닌지 의문임  
  llama4가 부진하긴 했지만, 그 전략을 유지했다면 지금보다 훨씬 앞서 있었을 것 같음. 다른 기업들은 이미 **에코시스템**을 구축했지만 Meta는 없음.  
  다시 대화의 중심으로 돌아오려면 **OpenCode** 같은 프로젝트에 10억 달러쯤 투자해서 오픈 생태계를 되살려야 함. 그렇지 않으면 단지 **폐쇄형 내부 모델**로만 남을 것임
  - 굳이 새 오픈 하니스가 필요 없을 수도 있음. **Anthropic**이 이미 커뮤니티에 그걸 **공짜로 제공**했으니까

- 처음으로 **도면 기반 시각 추론 테스트**를 해봤는데, ChatGPT, Claude, Gemini, Grok 중에서는 **Gemini만 성공**했음. 그런데 Muse Spark는 완벽하게 해냈음. PDF에서 관련 페이지를 추출해 인라인으로 보여주고 정확한 답을 냈음  
  아직은 운이 좋았을 수도 있지만, 첫인상이 너무 좋아서 계속 테스트해볼 예정임. 다만 Meta의 **데이터 사용 정책**은 매우 공격적이라 민감한 자료에는 부적합함.  
  유료 플랜을 통해 **데이터 학습 제외 옵션**을 제공하면 좋겠음. 무료 서비스 대신 데이터로 수익을 내는 구조는 불안함

- 이번 모델은 **GPT 5.4 / Gemini 3.1 Pro / Opus 4.6**에 근접함. 코딩은 OpenAI, 텍스트 추론은 Google, **Humanity’s Last Exam**은 Anthropic이 앞섬. 그래도 Meta가 다시 **프론티어 연구소**로 복귀했다고 볼 수 있음.  
  지금은 **3.5마리 말 경주** 상황이고, 다음 모델이 기대됨. 경쟁이 늘어나는 건 좋은 일임. **Grok 4.2**는 이제 표에서 빼야 할 듯함
  - **Grok Code**를 한동안 메인으로 썼는데 꽤 훌륭했음. LLM은 결국 **사용 맥락과 도메인**에 따라 다름. 특히 건강 관련 질문은 다른 모델들이 답을 회피해서 Grok을 계속 씀
  - 다만 이번 Meta 접근법은 **추론력과 장기 문제 해결력**이 부족해 보임. Anthropic의 **Mythos**에 비해 HLE 점수가 낮음. 그래도 전체적으로는 긍정적인 진전임

- “Personal”이란 결국 Meta가 **개인 데이터를 광고에 활용**한다는 뜻임
  - 그리고 그렇게 하면서 사용자의 **정신적 에센스**까지 모델로 흡수하는 느낌임
  - 나는 그냥 **광고 타깃**이라면, 뭐 광고를 얼마든지 보내도 상관없음

- “**visual chain of thought**”라는 표현이 흥미로움. 이게 사용자가 **추론 과정을 시각적으로 볼 수 있다**는 뜻인지, 아니면 모델이 **이미지 기반으로 사고한다**는 뜻인지 헷갈림. 후자라면 정말 혁신적일 것임  
  - 하지만 지금까지 본 대부분의 **chain of thought**는 겉보기만 그럴듯한 **가짜 추론**처럼 보였음. 실제로는 내부에서 다른 방식으로 처리되고 있음
  - 사실 이런 시각적 중간 단계는 이미 **Gemini**에서도 나타남. 시각 작업 중에는 **중간 다이어그램**을 생성하기도 하고, 2024년 연구에서도 **turtle diagram** 같은 접근이 제안된 바 있음
