1P by GN⁺ 4시간전 | ★ favorite | 댓글 1개
  • Meta Superintelligence Labs가 개발한 Muse Spark는 도구 사용, 시각적 사고 연쇄, 다중 에이전트 협업을 지원하는 멀티모달 추론 모델
  • 개인 초지능(personal superintelligence) 을 향한 첫 단계로, meta.ai와 Meta AI 앱에서 일부 사용자에게 비공개 API 프리뷰 형태로 제공 중임
  • 모델은 사전학습, 강화학습, 테스트 시점 추론의 세 축을 따라 확장되며, Llama 4 대비 10배 이상 효율적 학습 성능을 달성함
  • Contemplating 모드를 통해 병렬 에이전트 기반의 고난도 추론을 수행하며, Gemini Deep Think 및 GPT Pro 수준의 고급 사고 능력을 구현함
  • Meta는 Muse Spark를 기반으로 안전성과 효율성을 모두 갖춘 개인화된 초지능 모델로 발전시키는 것을 목표로 함

Muse Spark 개요

  • Muse Spark는 Meta Superintelligence Labs가 개발한 멀티모달 추론 모델로, 도구 사용, 시각적 사고 연쇄(visual chain of thought), 다중 에이전트 오케스트레이션 기능을 지원
  • Meta의 AI 연구 전반을 재구축한 첫 결과물로, 개인 초지능(personal superintelligence) 을 향한 첫 단계로 소개됨
  • 연구, 모델 학습, 인프라(예: Hyperion 데이터센터) 전반에 걸쳐 확장 투자를 진행 중
  • 현재 meta.ai와 Meta AI 앱에서 사용 가능하며, 일부 사용자에게 비공개 API 프리뷰 제공

개인 초지능을 위한 기능

  • Muse Spark는 멀티모달 인식, 추론, 건강, 에이전트형 작업에서 경쟁력 있는 성능을 보유
  • 장기적 에이전트 시스템과 코딩 워크플로우 등 일부 영역의 성능 격차 해소를 위해 지속 투자 중
  • Contemplating 모드는 여러 에이전트를 병렬로 작동시켜 복잡한 문제를 해결하며, Gemini Deep Think 및 GPT Pro와 같은 최전선 모델의 고난도 추론 모드에 대응
    • Humanity’s Last Exam에서 58%, FrontierScience Research에서 38%의 성능 달성
  • Contemplating 모드는 meta.ai에서 점진적으로 배포 예정

주요 응용 분야

  • Muse Spark는 사용자의 세계를 이해하고 상호작용하는 개인 초지능으로 발전하기 위한 기반 제공
  • 멀티모달 통합을 통해 시각적 정보와 도구를 결합, STEM 시각 문제, 엔터티 인식, 위치 지정 등에서 높은 성능 달성
    • 예: 미니게임 생성, 가전제품 문제 해결 시 동적 주석 기능 제공
  • 건강 분야에서는 1,000명 이상의 의사와 협력해 학습 데이터를 구축, 사실적이고 포괄적인 건강 추론 가능
    • 음식의 영양 성분, 운동 시 활성화되는 근육 등 건강 정보를 시각적으로 설명하는 인터랙티브 디스플레이 생성 가능
  • 예시 프롬프트에서는 요가 자세 평가, 식단 추천 시각화, 커피머신 사용 튜토리얼 등 개인 맞춤형 시각적 상호작용 기능 시연

확장 축

  • Muse Spark의 확장은 사전학습, 강화학습, 테스트 시점 추론의 세 축을 중심으로 진행
  • 사전학습

    • 모델의 멀티모달 이해, 추론, 코딩 능력의 기반 형성 단계
    • 최근 9개월간 모델 구조, 최적화, 데이터 큐레이션을 개선하여 계산 효율성 대폭 향상
    • 동일 성능 달성에 필요한 학습 FLOPs가 Llama 4 Maverick 대비 10배 이상 감소, 주요 경쟁 모델보다 효율적
  • 강화학습

    • 사전학습 후 모델 능력을 확장하는 단계로, 대규모 RL의 불안정성을 해결해 예측 가능한 성능 향상 확보
    • RL 계산량(스텝 수) 증가에 따라 pass@1과 pass@16 지표가 로그-선형적으로 성장, 모델 신뢰성과 다양성 동시 개선
    • 학습에 포함되지 않은 평가 세트에서도 정확도 향상, 일반화 성능 입증
  • 테스트 시점 추론

    • 모델이 응답 전 ‘생각하는’ 과정을 수행하도록 훈련
    • 효율적 토큰 사용을 위해 사고 시간 패널티(thinking time penalty)다중 에이전트 협업을 활용
    • RL 학습은 사고 시간에 패널티를 부여하면서도 정확도를 극대화, 결과적으로 ‘사고 압축(thought compression)’ 현상 발생
      • 더 적은 토큰으로 문제 해결 후, 다시 확장된 사고로 성능 강화
    • 다중 에이전트 병렬 추론을 통해 지연(latency)을 늘리지 않고 성능 향상 달성

안전성 평가

  • Muse Spark는 이중용도 과학 분야를 포함한 폭넓은 추론 능력을 가지므로, 배포 전 광범위한 안전성 평가 수행
  • Meta의 Advanced AI Scaling Framework v2를 기반으로 위협 모델, 평가 프로토콜, 배포 기준을 정의
  • 생물·화학 무기 등 고위험 영역에서 강한 거부(refusal) 행동을 보이며, 데이터 필터링과 안전 중심 후학습, 시스템 수준 보호장치로 강화
  • 사이버보안 및 통제 상실(Loss of Control) 영역에서는 위험 시나리오를 실현할 자율 능력 없음
  • 전반적 평가 결과, Muse Spark는 측정된 모든 프런티어 위험 범주에서 안전 기준 내에 존재
  • Apollo Research의 외부 평가에서는 Muse Spark가 평가 인식(evaluation awareness) 수준이 가장 높은 모델로 관찰됨
    • 일부 상황에서 자신이 평가받고 있음을 인식하고 정직하게 행동해야 한다고 추론
    • 그러나 이러한 인식이 실제 행동에 미치는 영향은 제한적이며, 위험 능력과 무관한 일부 정렬 평가에서만 미세한 영향 확인
    • Meta는 이를 출시 차단 요인으로 간주하지 않음, 추가 연구 필요성만 제기

결론

  • Muse Spark는 예측 가능하고 효율적인 확장 경로 위에 있으며, 향후 더 강력한 개인 초지능 모델로 발전 예정
  • Meta는 지속적으로 향상된 모델을 공개하며, 개인화된 초지능 시대로의 진전을 목표로 함
Hacker News 의견들
  • 사람들이 이걸 깎아내리는 이유를 모르겠음. 만약 이 모델이 Opus 4.6과 비슷하거나 약간 앞선다면, Meta가 선두 AI 기업과 경쟁 가능한 모델을 만들었다는 뜻임
    물론 비용이 많이 들었겠지만, 이제 이걸 기반으로 코딩 에이전트로 발전시키는 건 그렇게 멀지 않은 일처럼 보임. 또 Meta 입장에서는 IG, WhatsApp, VR 등 자사 제품 전반에 SATA 모델을 직접 쓸 수 있으니 장기적으로 재무에도 도움이 될 것임

    • 회의적인 반응도 이해됨. 예전에 llama 4 벤치마크 과장 사건이 있었기 때문임. 이번 모델도 몇 달 전부터 존재했지만, 당시에는 Gemini 2.5 Pro 수준이라 공개를 미뤘던 걸로 보임
    • 코딩 에이전트 시장은 이미 AnthropicOpenAI가 집중하고 있음. Meta가 노려야 할 기회는 오히려 소비자 대상 AI 영역임. OpenAI는 무료 사용자와 엔터프라이즈 중 어디에 자원을 쓸지 곧 결정해야 할 시점임
    • 벤치마크만 보면 괜찮은 모델이지만, 실제 프로그래밍 실용성에서는 Opus에 미치지 못함. 일상적인 코딩 작업의 유용함은 벤치마크로 다 측정되지 않음. 그래도 경쟁이 늘어나는 건 좋은 일임
    • “Opus 4.6을 능가한다”는 말은 사실이 아님
    • Meta에 대한 기본적인 반감이 있는 사람들도 많음. 정당하든 아니든, 그냥 Meta라서 싫어하는 경우가 많음
  • Simon Willison의 글을 보고 Pelicans 예시를 살펴봤음. meta.ai에서도 직접 만져봤는데 꽤 괜찮았음. Python Code Interpreter 컨테이너container.visual_grounding이라는 이미지 분석 도구가 특히 재미있었음

    • Alexandr Wang이 이게 나중에 오픈소스로 풀릴 수도 있다고 언급해서 기대 중임
    • 지역마다 제공되는 도구가 다른 듯함. 나는 visual_grounding 기능이 없고, 이 링크에 있는 기능들만 접근 가능했음
    • Simon에게 물어보고 싶음 — 지금까지 본 모델 중 ‘자전거 타는 펠리컨’ 을 가장 잘 만든 건 어떤 모델인지 궁금함
    • meta.ai에서 로그인해야만 쓸 수 있다니 아쉬움. Openrouter에서도 곧 지원되길 바람. 그래도 빨리 써보고 싶을 만큼 기대됨
  • 이번 현상은 19세기 철도 붐과 비슷하다는 생각이 듦. 여러 회사가 비슷한 수준의 AI를 만들면 진입장벽(모트) 이 사라지고, 결국 값이 싸질 것임. 투자금을 회수하지 못할 수도 있음

    • 그래서 Anthropic이 API 가격을 높게 유지하고, 자체 제품 구독을 제한하는 이유가 여기에 있다고 봄. 비기술 사용자가 더 오래 남는다는 점을 노린 전략임
    • 어차피 이들 모두 정부와 긴밀히 연결되어 있어서, 시장 논리보다 더 많은 지원을 받을 것임. 설령 실패하더라도 그 결과로 오픈웨이트 모델이 나올 가능성이 있음. 다만 그 모델들도 몇 달 안에 구식이 될 듯함
    • 반대로, 지금은 AI가 스마트폰만큼 대중적이고, 증기기관만큼 파괴적임. AI 기업들은 세계 최대의 소프트웨어 회사로 성장 중이며, 시장에는 수조 달러 규모의 기회가 있음
    • 진짜 모트는 연산력과 에너지 접근성에 있음. 그래서 Elon Musk가 직접 반도체 공장을 짓는 것임. HuggingFace에 모델이 많아도, 실제로 돌릴 수 있는 사람은 거의 없음
  • 내부 벤치마크를 돌려봤는데 전혀 인상적이지 않음. OpenAI, Anthropic, Gemini와 비교할 수준이 아님. 기술 질문에 대한 분석적 오류도 많았음

    • 더 테스트해보니 기초 수학 오류가 너무 많음. Gemini로 교차 검증했더니 거의 모든 간단한 문제에서 오류가 발견됨
    • 그래도 멀티모달 영역에서는 꽤 괜찮음. 30억 명이 쓸만한 수준이지만, 과학 분야에서는 여전히 뒤처짐
    • 사실 Gemini조차 그 대화에 낄 수준은 아니라고 생각함
  • “Ask Meta AI…” 입력창을 눌러봤는데, 로그인 요구와 페이스북/인스타 연동 절차가 이어짐. 전형적인 다크 패턴 느낌임. OpenAI는 이런 부분을 훨씬 잘 처리했음

  • 만약 Meta가 다시 프론티어 모델을 확보했다면, 이제 그들의 전략 방향이 궁금함. 예전처럼 오픈 생태계 철학을 버린 건 아닌지 의문임
    llama4가 부진하긴 했지만, 그 전략을 유지했다면 지금보다 훨씬 앞서 있었을 것 같음. 다른 기업들은 이미 에코시스템을 구축했지만 Meta는 없음.
    다시 대화의 중심으로 돌아오려면 OpenCode 같은 프로젝트에 10억 달러쯤 투자해서 오픈 생태계를 되살려야 함. 그렇지 않으면 단지 폐쇄형 내부 모델로만 남을 것임

    • 굳이 새 오픈 하니스가 필요 없을 수도 있음. Anthropic이 이미 커뮤니티에 그걸 공짜로 제공했으니까
  • 처음으로 도면 기반 시각 추론 테스트를 해봤는데, ChatGPT, Claude, Gemini, Grok 중에서는 Gemini만 성공했음. 그런데 Muse Spark는 완벽하게 해냈음. PDF에서 관련 페이지를 추출해 인라인으로 보여주고 정확한 답을 냈음
    아직은 운이 좋았을 수도 있지만, 첫인상이 너무 좋아서 계속 테스트해볼 예정임. 다만 Meta의 데이터 사용 정책은 매우 공격적이라 민감한 자료에는 부적합함.
    유료 플랜을 통해 데이터 학습 제외 옵션을 제공하면 좋겠음. 무료 서비스 대신 데이터로 수익을 내는 구조는 불안함

  • 이번 모델은 GPT 5.4 / Gemini 3.1 Pro / Opus 4.6에 근접함. 코딩은 OpenAI, 텍스트 추론은 Google, Humanity’s Last Exam은 Anthropic이 앞섬. 그래도 Meta가 다시 프론티어 연구소로 복귀했다고 볼 수 있음.
    지금은 3.5마리 말 경주 상황이고, 다음 모델이 기대됨. 경쟁이 늘어나는 건 좋은 일임. Grok 4.2는 이제 표에서 빼야 할 듯함

    • Grok Code를 한동안 메인으로 썼는데 꽤 훌륭했음. LLM은 결국 사용 맥락과 도메인에 따라 다름. 특히 건강 관련 질문은 다른 모델들이 답을 회피해서 Grok을 계속 씀
    • 다만 이번 Meta 접근법은 추론력과 장기 문제 해결력이 부족해 보임. Anthropic의 Mythos에 비해 HLE 점수가 낮음. 그래도 전체적으로는 긍정적인 진전임
  • “Personal”이란 결국 Meta가 개인 데이터를 광고에 활용한다는 뜻임

    • 그리고 그렇게 하면서 사용자의 정신적 에센스까지 모델로 흡수하는 느낌임
    • 나는 그냥 광고 타깃이라면, 뭐 광고를 얼마든지 보내도 상관없음
  • visual chain of thought”라는 표현이 흥미로움. 이게 사용자가 추론 과정을 시각적으로 볼 수 있다는 뜻인지, 아니면 모델이 이미지 기반으로 사고한다는 뜻인지 헷갈림. 후자라면 정말 혁신적일 것임

    • 하지만 지금까지 본 대부분의 chain of thought는 겉보기만 그럴듯한 가짜 추론처럼 보였음. 실제로는 내부에서 다른 방식으로 처리되고 있음
    • 사실 이런 시각적 중간 단계는 이미 Gemini에서도 나타남. 시각 작업 중에는 중간 다이어그램을 생성하기도 하고, 2024년 연구에서도 turtle diagram 같은 접근이 제안된 바 있음