Mercury 2: 확산 기반 초고속 추론 LLM

(inceptionlabs.ai)

7P by GN⁺ 3달전 | ★ favorite | 댓글 1개

확산 모델(diffusion) 기반 병렬 생성 방식을 사용해 기존 순차 디코딩 LLM의 속도 한계를 극복한 언어 모델
한 번에 여러 토큰을 생성·수정하는 병렬 정제(parallel refinement) 구조로, 5배 이상 빠른 응답 속도를 달성
1,009토큰/초 처리 속도, 128K 컨텍스트, JSON 출력, 도구 사용 기능 등으로 실시간 애플리케이션에 최적화
코딩 보조, 에이전트 루프, 음성 인터페이스, 검색·RAG 파이프라인 등 지연(latency)에 민감한 환경에서 효율성 입증
OpenAI API와 완전 호환, 기존 인프라 수정 없이 바로 통합 가능

Mercury 2 개요

Mercury 2는 세계에서 가장 빠른 추론 언어 모델
- 목표는 프로덕션 AI 환경에서 즉각적인 반응성을 제공하는 것
기존 LLM의 병목은 자동회귀적 순차 디코딩(one token at a time) 구조임
- 이로 인해 반복 루프형 AI 워크플로우에서 지연이 누적되는 문제 존재

확산 기반 실시간 추론 구조

Mercury 2는 순차 디코딩 대신 병렬 정제(parallel refinement) 방식을 채택
- 여러 토큰을 동시에 생성하고, 소수 단계 내에서 수렴
- “타자기”가 아닌 “편집자”처럼 전체 초안을 반복 수정하는 형태
결과적으로 5배 이상 빠른 생성 속도와 새로운 속도 곡선을 구현
확산 기반 추론은 지연(latency)과 비용을 최소화하면서 고품질 추론을 가능하게 함

성능 및 사양

속도: NVIDIA Blackwell GPU에서 1,009 토큰/초
가격: 입력 100만 토큰당 $0.25, 출력 100만 토큰당 $0.75
품질: 주요 속도 최적화 모델과 경쟁 가능한 수준
기능: 조정 가능한 추론(tunable reasoning), 128K 컨텍스트, 도구 사용, JSON 스키마 정렬 출력
지연 최적화: p95 지연, 고동시성 환경에서의 일관된 응답성, 안정적 처리량 유지
NVIDIA 관계자는 Mercury 2가 NVIDIA AI 인프라와 결합해 1,000토큰/초를 초과 달성했다고 언급

프로덕션 활용 사례

1. 코딩 및 편집

자동완성, 리팩터링, 코드 에이전트 등 개발자 루프 내에서 즉각적 응답 제공
Zed 공동창업자 Max Brunsfeld는 “생각의 일부처럼 빠른 제안 속도”를 강조

2. 에이전트 루프

다단계 추론 호출이 필요한 에이전트 워크플로우에서 호출 지연 감소
Viant는 Mercury 2를 활용해 실시간 캠페인 최적화 및 자율 광고 시스템 강화
Wispr Flow는 실시간 대화 및 전사 정제에서 Mercury 2의 속도를 평가 중
Skyvern은 “GPT-5.2보다 최소 두 배 빠르다”고 언급

3. 실시간 음성 및 상호작용

음성 인터페이스는 가장 엄격한 지연 한계를 가짐
Happyverse AI는 Mercury 2로 자연스러운 실시간 대화형 아바타 구현
OpenCall은 낮은 지연과 높은 품질로 더 반응성 높은 음성 에이전트 구축 가능성을 언급

4. 검색 및 RAG 파이프라인

다중 검색·재순위·요약 과정의 누적 지연을 줄여 실시간 추론 가능
SearchBlox는 Mercury 2와의 협업으로 실시간 검색 AI를 구현,
고객지원·리스크·전자상거래 등 다양한 분야에서 초단위 인텔리전스 제공

배포 및 통합

Mercury 2는 즉시 사용 가능, OpenAI API와 완전 호환
기존 시스템에 코드 수정 없이 통합 가능
엔터프라이즈 평가 시 워크로드 적합성, 성능 검증, 평가 설계 지원 제공
공식 문구: “Mercury 2 is live. Welcome to diffusion.”

▲

GN⁺ 3달전 [-]

Hacker News 의견들

초당 지능(metric) 을 측정하는 개념이 흥미로움
예를 들어 토큰당 지능, 그리고 초당 토큰 수를 함께 고려하는 방식임
개인적으로 Sonnet 4.6이 Opus 4.6보다 5배 빠르다면 Sonnet을 주로 쓸 것 같음
이전 세대에서는 Sonnet 계열이 충분히 좋지 않았지만, 이제는 속도가 주는 반복(iteration) 이점이 커서 상황이 달라짐
예전엔 OpenAI Deep Research를 썼지만, o3-thinking + 웹 검색이 훨씬 빠르면서도 충분히 똑똑했음
- “속도 자체가 품질의 한 축”이라고 생각함
  Cereberas나 Groq 같은 하드웨어로 API를 개발하면 반복 속도와 비용이 완전히 다른 수준임
  최근 작성한 연구 노트에서도, 계획은 AR 모델, 생성은 diffusion 모델로 나누면 성능이 크게 향상됨을 보여줌
- 이 지표에 하드웨어 단위당 효율을 추가하면 더 현실적일 것 같음
  예를 들어 5톤의 석탄으로 충분한데 30톤을 써서 0.0000000001% 개선하는 건 진짜 발전이 아님
- 빠른 에이전트 반복을 목표로 하는 모델군이 새로 등장 중임
  Composer나 Flash 버전 모델들이 그 예시이고, Mercury 2도 이 범주에서 강력한 모델로 포지셔닝함
- 곧 실제 벤치마크를 해볼 수 있을 듯함
  빠른 모델은 반복이 빠르고, 큰 모델은 첫 시도에서 더 정확함
  현재는 Opus 4.6을 좋아하지만 Sonnet과의 효율 차이를 데이터로 보고 싶음
- “Intelligence per second” 개념이 정말 마음에 듦
  Gemini 3 Flash를 좋아했던 이유가 바로 이것임 — 충분히 똑똑하면서 믿을 수 없을 만큼 빠름
간단한 테스트를 해봤는데, “Maradona의 업적”을 물었더니 Mercury 2가 “Dieadona”라고 오타를 냈음
로컬 3B 모델도 완벽히 답할 질문인데, Mercury 2는 느리고 오류가 많음
Mercury 2는 병렬 정제(parallel refinement) 방식으로 응답을 생성함
여러 토큰을 동시에 생성해 몇 단계 내에 수렴하는 구조로, 타자기식이 아니라 편집기처럼 전체 초안을 다듬는 형태임
DDPM과 SGM이 SDE로 통합되는 연구가 진행 중인데, transformer의 각 레이어를 diffusion 단계로 볼 수 있을지 궁금함
transformer의 L개 레이어가 diffusion의 L단계 정제와 대응된다면, 두 모델 간 상호 적합(fitting) 이 가능할지도 모름
Inception의 공동창업자이자 Chief Scientist로서 Mercury 2나 diffusion LM에 대한 기술 질문을 환영함
- diffusion 모델에서 KV 캐시는 어떻게 작동하는지 궁금함
  latency나 비용 절감이 가능한지, autoregressive 캐싱과 유사한 곡선을 가지는지, 혹은 아예 적용되지 않는지 알고 싶음
- diffusion 모델이 텍스트 블록 단위로 reasoning을 수행하는 것처럼 보이는데, 블록 간 정보 의존성이 있을 때는 어떻게 처리하는지 궁금함
  동적 블록 길이를 적용할 수 있는지도 흥미로움
- 발표에서 언급된 Voice AI의 실제 동작이 궁금함
  대부분의 음성 시스템은 전체 응답 지연보다는 TTFT(time-to-first-token) 이 중요함
  Mercury 2의 TTFT 수치가 다른 reasoning 모델 대비 얼마나 개선되는지 알고 싶음
- 약한 transformer 모델처럼 루프에 빠지는 현상을 겪었음
  사례 링크 참고
  이런 현상의 원인이 궁금함
- 더 빠른 속도를 위해 drifting 모델로 발전할 계획이 있는지도 궁금함
초당 수천 토큰을 생성하는 모델이 등장한 게 가장 흥미로움
이렇게 되면 multi-shot prompting이나 nudging을 해도 사용자가 체감하지 못해, 환각이나 비결정적 응답 문제를 줄일 수 있음
- 우리도 같은 생각임
  Mercury 2는 에이전트 작업의 빠른 반복을 가능하게 함
  한 번의 시도는 덜 정확할 수 있지만, 짧은 실행 시간 덕분에 훨씬 빠르게 개선 가능함
- 일반 모델도 batch inference를 하면 꽤 빠름
  예를 들어 GPT-OSS 20B는 단일 3090에서 bs=64로 약 2k tok/s에 도달함
diffusion 모델에는 아직 확신이 없음
Google 등도 시도했지만 대부분의 경우 Pareto frontier에서 뒤처졌음
가격/성능 비교 링크 참고
- Pareto 관점에는 반론이 있음
  동일 품질 기준에서 Mercury는 유사한 AR 모델보다 5배 이상 빠름
  절대적 지능은 아직 Opus나 Gemini Pro보다 낮지만, 추론 속도 면에서 큰 이점이 있음
- 텍스트 diffusion은 아직 발전 여지가 많음
  autoregressive transformer보다 훨씬 미개척된 영역이라 기술적 헤드룸이 큼
- 이 모델은 빠른 편집(edit) 용도로 완벽할 듯함
  Morph의 Fast Apply처럼 “Mercury Edit” 버전이 있다면 꼭 써보고 싶음
diffusion 기반 접근은 매우 흥미로움
전통적인 transformer는 순차적으로 토큰을 생성하지만, diffusion은 전체 출력을 반복적으로 정제(refine) 할 수 있음
만약 지연(latency) 문제를 해결했다면, 복잡한 reasoning 작업에 새로운 가능성을 열 수 있음
로컬 하드웨어에서 실행 가능한 오픈웨이트 diffusion LLM이 있는지 궁금함
소비자용 GPU 환경에서의 성능 차이를 직접 보고 싶음
Mercury 2가 Car Wash Test에서 실패했음
범용 reasoning 모델보다는 특정 용도(예: 코딩 에이전트) 에 집중하고, 해당 분야의 SOTA 모델(Qwen3-Coder-Next 등)과 비교하는 게 더 나을 듯함
- 개인적으로는 빠르지만 오류가 많은 모델보다 느리지만 정확한 모델을 선호함
  긴 세션을 돌리더라도 정확도가 더 중요함
만약 이 모델이 Talaas 칩에 탑재된다면 초당 50,000개 이상의 토큰을 생성할 수도 있을까 궁금함
- 메모리 지연이 없는 ASIC 스타일 회로로 내장된다면, 어떤 모델이든 엄청난 속도 향상이 가능할 것 같음

답변달기

Mercury 2: 확산 기반 초고속 추론 LLM

Mercury 2 개요

확산 기반 실시간 추론 구조

성능 및 사양

프로덕션 활용 사례

1. 코딩 및 편집

2. 에이전트 루프

3. 실시간 음성 및 상호작용

4. 검색 및 RAG 파이프라인

배포 및 통합

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들