# Mercury 2: 확산 기반 초고속 추론 LLM

> Clean Markdown view of GeekNews topic #27005. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27005](https://news.hada.io/topic?id=27005)
- GeekNews Markdown: [https://news.hada.io/topic/27005.md](https://news.hada.io/topic/27005.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-26T06:33:08+09:00
- Updated: 2026-02-26T06:33:08+09:00
- Original source: [inceptionlabs.ai](https://www.inceptionlabs.ai/blog/introducing-mercury-2)
- Points: 7
- Comments: 1

## Topic Body

- **확산 모델(diffusion)** 기반 병렬 생성 방식을 사용해 기존 **순차 디코딩 LLM의 속도 한계를 극복**한 언어 모델  
- 한 번에 여러 토큰을 생성·수정하는 **병렬 정제(parallel refinement)** 구조로, **5배 이상 빠른 응답 속도**를 달성  
- **1,009토큰/초** 처리 속도, **128K 컨텍스트**, **JSON 출력**, **도구 사용 기능** 등으로 실시간 애플리케이션에 최적화  
- **코딩 보조, 에이전트 루프, 음성 인터페이스, 검색·RAG 파이프라인** 등 지연(latency)에 민감한 환경에서 효율성 입증  
- OpenAI API와 **완전 호환**, 기존 인프라 수정 없이 바로 통합 가능  
  
---  
  
### Mercury 2 개요  
- Mercury 2는 **세계에서 가장 빠른 추론 언어 모델**  
  - 목표는 **프로덕션 AI 환경에서 즉각적인 반응성**을 제공하는 것  
- 기존 LLM의 병목은 **자동회귀적 순차 디코딩(one token at a time)** 구조임  
  - 이로 인해 반복 루프형 AI 워크플로우에서 지연이 누적되는 문제 존재  
  
### 확산 기반 실시간 추론 구조  
- Mercury 2는 **순차 디코딩 대신 병렬 정제(parallel refinement)** 방식을 채택  
  - 여러 토큰을 동시에 생성하고, 소수 단계 내에서 수렴  
  - “타자기”가 아닌 “편집자”처럼 전체 초안을 반복 수정하는 형태  
- 결과적으로 **5배 이상 빠른 생성 속도**와 **새로운 속도 곡선**을 구현  
- 확산 기반 추론은 **지연(latency)과 비용을 최소화하면서 고품질 추론**을 가능하게 함  
  
### 성능 및 사양  
- **속도:** NVIDIA Blackwell GPU에서 **1,009 토큰/초**  
- **가격:** 입력 100만 토큰당 $0.25, 출력 100만 토큰당 $0.75  
- **품질:** 주요 속도 최적화 모델과 경쟁 가능한 수준  
- **기능:** 조정 가능한 추론(tunable reasoning), **128K 컨텍스트**, **도구 사용**, **JSON 스키마 정렬 출력**  
- **지연 최적화:** p95 지연, 고동시성 환경에서의 일관된 응답성, 안정적 처리량 유지  
- NVIDIA 관계자는 Mercury 2가 **NVIDIA AI 인프라와 결합해 1,000토큰/초를 초과 달성**했다고 언급  
  
### 프로덕션 활용 사례  
  
#### 1. 코딩 및 편집  
- **자동완성, 리팩터링, 코드 에이전트** 등 개발자 루프 내에서 즉각적 응답 제공  
- Zed 공동창업자 Max Brunsfeld는 “**생각의 일부처럼 빠른 제안 속도**”를 강조  
  
#### 2. 에이전트 루프  
- 다단계 추론 호출이 필요한 **에이전트 워크플로우**에서 호출 지연 감소  
- Viant는 Mercury 2를 활용해 **실시간 캠페인 최적화 및 자율 광고 시스템 강화**  
- Wispr Flow는 **실시간 대화 및 전사 정제**에서 Mercury 2의 속도를 평가 중  
- Skyvern은 “**GPT-5.2보다 최소 두 배 빠르다**”고 언급  
  
#### 3. 실시간 음성 및 상호작용  
- **음성 인터페이스**는 가장 엄격한 지연 한계를 가짐  
- Happyverse AI는 Mercury 2로 **자연스러운 실시간 대화형 아바타** 구현  
- OpenCall은 **낮은 지연과 높은 품질**로 더 반응성 높은 음성 에이전트 구축 가능성을 언급  
  
#### 4. 검색 및 RAG 파이프라인  
- **다중 검색·재순위·요약 과정의 누적 지연**을 줄여 실시간 추론 가능  
- SearchBlox는 Mercury 2와의 협업으로 **실시간 검색 AI**를 구현,  
  고객지원·리스크·전자상거래 등 다양한 분야에서 **초단위 인텔리전스 제공**  
  
### 배포 및 통합  
- Mercury 2는 **즉시 사용 가능**, **OpenAI API와 완전 호환**  
- 기존 시스템에 **코드 수정 없이 통합 가능**  
- 엔터프라이즈 평가 시 **워크로드 적합성, 성능 검증, 평가 설계 지원** 제공  
- 공식 문구: “**Mercury 2 is live. Welcome to diffusion.**”

## Comments



### Comment 51908

- Author: neo
- Created: 2026-02-26T06:33:08+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47144464) 
- 초당 **지능(metric)** 을 측정하는 개념이 흥미로움  
  예를 들어 토큰당 지능, 그리고 초당 토큰 수를 함께 고려하는 방식임  
  개인적으로 Sonnet 4.6이 Opus 4.6보다 5배 빠르다면 Sonnet을 주로 쓸 것 같음  
  이전 세대에서는 Sonnet 계열이 충분히 좋지 않았지만, 이제는 속도가 주는 **반복(iteration)** 이점이 커서 상황이 달라짐  
  예전엔 OpenAI Deep Research를 썼지만, o3-thinking + 웹 검색이 훨씬 빠르면서도 충분히 똑똑했음  
  - “**속도 자체가 품질의 한 축**”이라고 생각함  
    Cereberas나 Groq 같은 하드웨어로 API를 개발하면 반복 속도와 비용이 완전히 다른 수준임  
    최근 작성한 [연구 노트](https://estsauver.com/think-first-diffuse-fast.pdf)에서도, **계획은 AR 모델**, 생성은 **diffusion 모델**로 나누면 성능이 크게 향상됨을 보여줌  
  - 이 지표에 **하드웨어 단위당 효율**을 추가하면 더 현실적일 것 같음  
    예를 들어 5톤의 석탄으로 충분한데 30톤을 써서 0.0000000001% 개선하는 건 진짜 발전이 아님  
  - 빠른 **에이전트 반복**을 목표로 하는 모델군이 새로 등장 중임  
    Composer나 Flash 버전 모델들이 그 예시이고, Mercury 2도 이 범주에서 강력한 모델로 포지셔닝함  
  - 곧 실제 **벤치마크**를 해볼 수 있을 듯함  
    빠른 모델은 반복이 빠르고, 큰 모델은 첫 시도에서 더 정확함  
    현재는 Opus 4.6을 좋아하지만 Sonnet과의 효율 차이를 데이터로 보고 싶음  
  - “Intelligence per second” 개념이 정말 마음에 듦  
    Gemini 3 Flash를 좋아했던 이유가 바로 이것임 — 충분히 똑똑하면서 **믿을 수 없을 만큼 빠름**

- 간단한 테스트를 해봤는데, “Maradona의 업적”을 물었더니 Mercury 2가 “Dieadona”라고 오타를 냈음  
  로컬 3B 모델도 완벽히 답할 질문인데, Mercury 2는 **느리고 오류가 많음**

- Mercury 2는 **병렬 정제(parallel refinement)** 방식으로 응답을 생성함  
  여러 토큰을 동시에 생성해 몇 단계 내에 수렴하는 구조로, 타자기식이 아니라 **편집기처럼 전체 초안을 다듬는 형태**임  
  DDPM과 SGM이 SDE로 통합되는 연구가 진행 중인데, transformer의 각 레이어를 diffusion 단계로 볼 수 있을지 궁금함  
  transformer의 L개 레이어가 diffusion의 L단계 정제와 대응된다면, 두 모델 간 **상호 적합(fitting)** 이 가능할지도 모름  

- Inception의 공동창업자이자 Chief Scientist로서 Mercury 2나 diffusion LM에 대한 기술 질문을 환영함  
  - diffusion 모델에서 **KV 캐시**는 어떻게 작동하는지 궁금함  
    latency나 비용 절감이 가능한지, autoregressive 캐싱과 유사한 곡선을 가지는지, 혹은 아예 적용되지 않는지 알고 싶음  
  - diffusion 모델이 텍스트 블록 단위로 reasoning을 수행하는 것처럼 보이는데, 블록 간 정보 의존성이 있을 때는 어떻게 처리하는지 궁금함  
    **동적 블록 길이**를 적용할 수 있는지도 흥미로움  
  - 발표에서 언급된 **Voice AI**의 실제 동작이 궁금함  
    대부분의 음성 시스템은 전체 응답 지연보다는 **TTFT(time-to-first-token)** 이 중요함  
    Mercury 2의 TTFT 수치가 다른 reasoning 모델 대비 얼마나 개선되는지 알고 싶음  
  - 약한 transformer 모델처럼 **루프에 빠지는 현상**을 겪었음  
    [사례 링크](https://gist.github.com/nlothian/cf9725e6ebc99219f480e0b72b397a13) 참고  
    이런 현상의 원인이 궁금함  
  - 더 빠른 속도를 위해 **drifting 모델**로 발전할 계획이 있는지도 궁금함  

- 초당 수천 토큰을 생성하는 모델이 등장한 게 가장 흥미로움  
  이렇게 되면 **multi-shot prompting**이나 nudging을 해도 사용자가 체감하지 못해, 환각이나 비결정적 응답 문제를 줄일 수 있음  
  - 우리도 같은 생각임  
    Mercury 2는 **에이전트 작업의 빠른 반복**을 가능하게 함  
    한 번의 시도는 덜 정확할 수 있지만, 짧은 실행 시간 덕분에 훨씬 빠르게 개선 가능함  
  - 일반 모델도 **batch inference**를 하면 꽤 빠름  
    예를 들어 GPT-OSS 20B는 단일 3090에서 bs=64로 약 2k tok/s에 도달함  

- diffusion 모델에는 아직 확신이 없음  
  Google 등도 시도했지만 대부분의 경우 **Pareto frontier**에서 뒤처졌음  
  [가격/성능 비교 링크](https://artificialanalysis.ai/models/mercury-2) 참고  
  - Pareto 관점에는 반론이 있음  
    동일 품질 기준에서 Mercury는 유사한 AR 모델보다 **5배 이상 빠름**  
    절대적 지능은 아직 Opus나 Gemini Pro보다 낮지만, **추론 속도** 면에서 큰 이점이 있음  
  - 텍스트 diffusion은 아직 발전 여지가 많음  
    autoregressive transformer보다 훨씬 미개척된 영역이라 **기술적 헤드룸**이 큼  
  - 이 모델은 **빠른 편집(edit)** 용도로 완벽할 듯함  
    Morph의 [Fast Apply](https://www.morphllm.com/products/fastapply)처럼 “Mercury Edit” 버전이 있다면 꼭 써보고 싶음  

- diffusion 기반 접근은 매우 흥미로움  
  전통적인 transformer는 순차적으로 토큰을 생성하지만, diffusion은 전체 출력을 반복적으로 **정제(refine)** 할 수 있음  
  만약 **지연(latency)** 문제를 해결했다면, 복잡한 reasoning 작업에 새로운 가능성을 열 수 있음  

- 로컬 하드웨어에서 실행 가능한 **오픈웨이트 diffusion LLM**이 있는지 궁금함  
  소비자용 GPU 환경에서의 성능 차이를 직접 보고 싶음  

- Mercury 2가 **Car Wash Test**에서 실패했음  
  범용 reasoning 모델보다는 **특정 용도(예: 코딩 에이전트)** 에 집중하고, 해당 분야의 SOTA 모델(Qwen3-Coder-Next 등)과 비교하는 게 더 나을 듯함  
  - 개인적으로는 빠르지만 오류가 많은 모델보다 **느리지만 정확한 모델**을 선호함  
    긴 세션을 돌리더라도 정확도가 더 중요함  

- 만약 이 모델이 **Talaas 칩**에 탑재된다면 초당 50,000개 이상의 토큰을 생성할 수도 있을까 궁금함  
  - 메모리 지연이 없는 **ASIC 스타일 회로**로 내장된다면, 어떤 모델이든 엄청난 속도 향상이 가능할 것 같음
