Mercury 2: 확산 기반 초고속 추론 LLM
(inceptionlabs.ai)- 확산 모델(diffusion) 기반 병렬 생성 방식을 사용해 기존 순차 디코딩 LLM의 속도 한계를 극복한 언어 모델
- 한 번에 여러 토큰을 생성·수정하는 병렬 정제(parallel refinement) 구조로, 5배 이상 빠른 응답 속도를 달성
- 1,009토큰/초 처리 속도, 128K 컨텍스트, JSON 출력, 도구 사용 기능 등으로 실시간 애플리케이션에 최적화
- 코딩 보조, 에이전트 루프, 음성 인터페이스, 검색·RAG 파이프라인 등 지연(latency)에 민감한 환경에서 효율성 입증
- OpenAI API와 완전 호환, 기존 인프라 수정 없이 바로 통합 가능
Mercury 2 개요
- Mercury 2는 세계에서 가장 빠른 추론 언어 모델
- 목표는 프로덕션 AI 환경에서 즉각적인 반응성을 제공하는 것
- 기존 LLM의 병목은 자동회귀적 순차 디코딩(one token at a time) 구조임
- 이로 인해 반복 루프형 AI 워크플로우에서 지연이 누적되는 문제 존재
확산 기반 실시간 추론 구조
- Mercury 2는 순차 디코딩 대신 병렬 정제(parallel refinement) 방식을 채택
- 여러 토큰을 동시에 생성하고, 소수 단계 내에서 수렴
- “타자기”가 아닌 “편집자”처럼 전체 초안을 반복 수정하는 형태
- 결과적으로 5배 이상 빠른 생성 속도와 새로운 속도 곡선을 구현
- 확산 기반 추론은 지연(latency)과 비용을 최소화하면서 고품질 추론을 가능하게 함
성능 및 사양
- 속도: NVIDIA Blackwell GPU에서 1,009 토큰/초
- 가격: 입력 100만 토큰당 $0.25, 출력 100만 토큰당 $0.75
- 품질: 주요 속도 최적화 모델과 경쟁 가능한 수준
- 기능: 조정 가능한 추론(tunable reasoning), 128K 컨텍스트, 도구 사용, JSON 스키마 정렬 출력
- 지연 최적화: p95 지연, 고동시성 환경에서의 일관된 응답성, 안정적 처리량 유지
- NVIDIA 관계자는 Mercury 2가 NVIDIA AI 인프라와 결합해 1,000토큰/초를 초과 달성했다고 언급
프로덕션 활용 사례
1. 코딩 및 편집
- 자동완성, 리팩터링, 코드 에이전트 등 개발자 루프 내에서 즉각적 응답 제공
- Zed 공동창업자 Max Brunsfeld는 “생각의 일부처럼 빠른 제안 속도”를 강조
2. 에이전트 루프
- 다단계 추론 호출이 필요한 에이전트 워크플로우에서 호출 지연 감소
- Viant는 Mercury 2를 활용해 실시간 캠페인 최적화 및 자율 광고 시스템 강화
- Wispr Flow는 실시간 대화 및 전사 정제에서 Mercury 2의 속도를 평가 중
- Skyvern은 “GPT-5.2보다 최소 두 배 빠르다”고 언급
3. 실시간 음성 및 상호작용
- 음성 인터페이스는 가장 엄격한 지연 한계를 가짐
- Happyverse AI는 Mercury 2로 자연스러운 실시간 대화형 아바타 구현
- OpenCall은 낮은 지연과 높은 품질로 더 반응성 높은 음성 에이전트 구축 가능성을 언급
4. 검색 및 RAG 파이프라인
- 다중 검색·재순위·요약 과정의 누적 지연을 줄여 실시간 추론 가능
- SearchBlox는 Mercury 2와의 협업으로 실시간 검색 AI를 구현,
고객지원·리스크·전자상거래 등 다양한 분야에서 초단위 인텔리전스 제공
배포 및 통합
- Mercury 2는 즉시 사용 가능, OpenAI API와 완전 호환
- 기존 시스템에 코드 수정 없이 통합 가능
- 엔터프라이즈 평가 시 워크로드 적합성, 성능 검증, 평가 설계 지원 제공
- 공식 문구: “Mercury 2 is live. Welcome to diffusion.”
Hacker News 의견들
-
초당 지능(metric) 을 측정하는 개념이 흥미로움
예를 들어 토큰당 지능, 그리고 초당 토큰 수를 함께 고려하는 방식임
개인적으로 Sonnet 4.6이 Opus 4.6보다 5배 빠르다면 Sonnet을 주로 쓸 것 같음
이전 세대에서는 Sonnet 계열이 충분히 좋지 않았지만, 이제는 속도가 주는 반복(iteration) 이점이 커서 상황이 달라짐
예전엔 OpenAI Deep Research를 썼지만, o3-thinking + 웹 검색이 훨씬 빠르면서도 충분히 똑똑했음- “속도 자체가 품질의 한 축”이라고 생각함
Cereberas나 Groq 같은 하드웨어로 API를 개발하면 반복 속도와 비용이 완전히 다른 수준임
최근 작성한 연구 노트에서도, 계획은 AR 모델, 생성은 diffusion 모델로 나누면 성능이 크게 향상됨을 보여줌 - 이 지표에 하드웨어 단위당 효율을 추가하면 더 현실적일 것 같음
예를 들어 5톤의 석탄으로 충분한데 30톤을 써서 0.0000000001% 개선하는 건 진짜 발전이 아님 - 빠른 에이전트 반복을 목표로 하는 모델군이 새로 등장 중임
Composer나 Flash 버전 모델들이 그 예시이고, Mercury 2도 이 범주에서 강력한 모델로 포지셔닝함 - 곧 실제 벤치마크를 해볼 수 있을 듯함
빠른 모델은 반복이 빠르고, 큰 모델은 첫 시도에서 더 정확함
현재는 Opus 4.6을 좋아하지만 Sonnet과의 효율 차이를 데이터로 보고 싶음 - “Intelligence per second” 개념이 정말 마음에 듦
Gemini 3 Flash를 좋아했던 이유가 바로 이것임 — 충분히 똑똑하면서 믿을 수 없을 만큼 빠름
- “속도 자체가 품질의 한 축”이라고 생각함
-
간단한 테스트를 해봤는데, “Maradona의 업적”을 물었더니 Mercury 2가 “Dieadona”라고 오타를 냈음
로컬 3B 모델도 완벽히 답할 질문인데, Mercury 2는 느리고 오류가 많음 -
Mercury 2는 병렬 정제(parallel refinement) 방식으로 응답을 생성함
여러 토큰을 동시에 생성해 몇 단계 내에 수렴하는 구조로, 타자기식이 아니라 편집기처럼 전체 초안을 다듬는 형태임
DDPM과 SGM이 SDE로 통합되는 연구가 진행 중인데, transformer의 각 레이어를 diffusion 단계로 볼 수 있을지 궁금함
transformer의 L개 레이어가 diffusion의 L단계 정제와 대응된다면, 두 모델 간 상호 적합(fitting) 이 가능할지도 모름 -
Inception의 공동창업자이자 Chief Scientist로서 Mercury 2나 diffusion LM에 대한 기술 질문을 환영함
- diffusion 모델에서 KV 캐시는 어떻게 작동하는지 궁금함
latency나 비용 절감이 가능한지, autoregressive 캐싱과 유사한 곡선을 가지는지, 혹은 아예 적용되지 않는지 알고 싶음 - diffusion 모델이 텍스트 블록 단위로 reasoning을 수행하는 것처럼 보이는데, 블록 간 정보 의존성이 있을 때는 어떻게 처리하는지 궁금함
동적 블록 길이를 적용할 수 있는지도 흥미로움 - 발표에서 언급된 Voice AI의 실제 동작이 궁금함
대부분의 음성 시스템은 전체 응답 지연보다는 TTFT(time-to-first-token) 이 중요함
Mercury 2의 TTFT 수치가 다른 reasoning 모델 대비 얼마나 개선되는지 알고 싶음 - 약한 transformer 모델처럼 루프에 빠지는 현상을 겪었음
사례 링크 참고
이런 현상의 원인이 궁금함 - 더 빠른 속도를 위해 drifting 모델로 발전할 계획이 있는지도 궁금함
- diffusion 모델에서 KV 캐시는 어떻게 작동하는지 궁금함
-
초당 수천 토큰을 생성하는 모델이 등장한 게 가장 흥미로움
이렇게 되면 multi-shot prompting이나 nudging을 해도 사용자가 체감하지 못해, 환각이나 비결정적 응답 문제를 줄일 수 있음- 우리도 같은 생각임
Mercury 2는 에이전트 작업의 빠른 반복을 가능하게 함
한 번의 시도는 덜 정확할 수 있지만, 짧은 실행 시간 덕분에 훨씬 빠르게 개선 가능함 - 일반 모델도 batch inference를 하면 꽤 빠름
예를 들어 GPT-OSS 20B는 단일 3090에서 bs=64로 약 2k tok/s에 도달함
- 우리도 같은 생각임
-
diffusion 모델에는 아직 확신이 없음
Google 등도 시도했지만 대부분의 경우 Pareto frontier에서 뒤처졌음
가격/성능 비교 링크 참고- Pareto 관점에는 반론이 있음
동일 품질 기준에서 Mercury는 유사한 AR 모델보다 5배 이상 빠름
절대적 지능은 아직 Opus나 Gemini Pro보다 낮지만, 추론 속도 면에서 큰 이점이 있음 - 텍스트 diffusion은 아직 발전 여지가 많음
autoregressive transformer보다 훨씬 미개척된 영역이라 기술적 헤드룸이 큼 - 이 모델은 빠른 편집(edit) 용도로 완벽할 듯함
Morph의 Fast Apply처럼 “Mercury Edit” 버전이 있다면 꼭 써보고 싶음
- Pareto 관점에는 반론이 있음
-
diffusion 기반 접근은 매우 흥미로움
전통적인 transformer는 순차적으로 토큰을 생성하지만, diffusion은 전체 출력을 반복적으로 정제(refine) 할 수 있음
만약 지연(latency) 문제를 해결했다면, 복잡한 reasoning 작업에 새로운 가능성을 열 수 있음 -
로컬 하드웨어에서 실행 가능한 오픈웨이트 diffusion LLM이 있는지 궁금함
소비자용 GPU 환경에서의 성능 차이를 직접 보고 싶음 -
Mercury 2가 Car Wash Test에서 실패했음
범용 reasoning 모델보다는 특정 용도(예: 코딩 에이전트) 에 집중하고, 해당 분야의 SOTA 모델(Qwen3-Coder-Next 등)과 비교하는 게 더 나을 듯함- 개인적으로는 빠르지만 오류가 많은 모델보다 느리지만 정확한 모델을 선호함
긴 세션을 돌리더라도 정확도가 더 중요함
- 개인적으로는 빠르지만 오류가 많은 모델보다 느리지만 정확한 모델을 선호함
-
만약 이 모델이 Talaas 칩에 탑재된다면 초당 50,000개 이상의 토큰을 생성할 수도 있을까 궁금함
- 메모리 지연이 없는 ASIC 스타일 회로로 내장된다면, 어떤 모델이든 엄청난 속도 향상이 가능할 것 같음