3P by GN⁺ 20시간전 | ★ favorite | 댓글 1개
  • 확산 모델(diffusion) 기반 병렬 생성 방식을 사용해 기존 순차 디코딩 LLM의 속도 한계를 극복한 언어 모델
  • 한 번에 여러 토큰을 생성·수정하는 병렬 정제(parallel refinement) 구조로, 5배 이상 빠른 응답 속도를 달성
  • 1,009토큰/초 처리 속도, 128K 컨텍스트, JSON 출력, 도구 사용 기능 등으로 실시간 애플리케이션에 최적화
  • 코딩 보조, 에이전트 루프, 음성 인터페이스, 검색·RAG 파이프라인 등 지연(latency)에 민감한 환경에서 효율성 입증
  • OpenAI API와 완전 호환, 기존 인프라 수정 없이 바로 통합 가능

Mercury 2 개요

  • Mercury 2는 세계에서 가장 빠른 추론 언어 모델
    • 목표는 프로덕션 AI 환경에서 즉각적인 반응성을 제공하는 것
  • 기존 LLM의 병목은 자동회귀적 순차 디코딩(one token at a time) 구조임
    • 이로 인해 반복 루프형 AI 워크플로우에서 지연이 누적되는 문제 존재

확산 기반 실시간 추론 구조

  • Mercury 2는 순차 디코딩 대신 병렬 정제(parallel refinement) 방식을 채택
    • 여러 토큰을 동시에 생성하고, 소수 단계 내에서 수렴
    • “타자기”가 아닌 “편집자”처럼 전체 초안을 반복 수정하는 형태
  • 결과적으로 5배 이상 빠른 생성 속도새로운 속도 곡선을 구현
  • 확산 기반 추론은 지연(latency)과 비용을 최소화하면서 고품질 추론을 가능하게 함

성능 및 사양

  • 속도: NVIDIA Blackwell GPU에서 1,009 토큰/초
  • 가격: 입력 100만 토큰당 $0.25, 출력 100만 토큰당 $0.75
  • 품질: 주요 속도 최적화 모델과 경쟁 가능한 수준
  • 기능: 조정 가능한 추론(tunable reasoning), 128K 컨텍스트, 도구 사용, JSON 스키마 정렬 출력
  • 지연 최적화: p95 지연, 고동시성 환경에서의 일관된 응답성, 안정적 처리량 유지
  • NVIDIA 관계자는 Mercury 2가 NVIDIA AI 인프라와 결합해 1,000토큰/초를 초과 달성했다고 언급

프로덕션 활용 사례

1. 코딩 및 편집

  • 자동완성, 리팩터링, 코드 에이전트 등 개발자 루프 내에서 즉각적 응답 제공
  • Zed 공동창업자 Max Brunsfeld는 “생각의 일부처럼 빠른 제안 속도”를 강조

2. 에이전트 루프

  • 다단계 추론 호출이 필요한 에이전트 워크플로우에서 호출 지연 감소
  • Viant는 Mercury 2를 활용해 실시간 캠페인 최적화 및 자율 광고 시스템 강화
  • Wispr Flow는 실시간 대화 및 전사 정제에서 Mercury 2의 속도를 평가 중
  • Skyvern은 “GPT-5.2보다 최소 두 배 빠르다”고 언급

3. 실시간 음성 및 상호작용

  • 음성 인터페이스는 가장 엄격한 지연 한계를 가짐
  • Happyverse AI는 Mercury 2로 자연스러운 실시간 대화형 아바타 구현
  • OpenCall은 낮은 지연과 높은 품질로 더 반응성 높은 음성 에이전트 구축 가능성을 언급

4. 검색 및 RAG 파이프라인

  • 다중 검색·재순위·요약 과정의 누적 지연을 줄여 실시간 추론 가능
  • SearchBlox는 Mercury 2와의 협업으로 실시간 검색 AI를 구현,
    고객지원·리스크·전자상거래 등 다양한 분야에서 초단위 인텔리전스 제공

배포 및 통합

  • Mercury 2는 즉시 사용 가능, OpenAI API와 완전 호환
  • 기존 시스템에 코드 수정 없이 통합 가능
  • 엔터프라이즈 평가 시 워크로드 적합성, 성능 검증, 평가 설계 지원 제공
  • 공식 문구: “Mercury 2 is live. Welcome to diffusion.
Hacker News 의견들
  • 초당 지능(metric) 을 측정하는 개념이 흥미로움
    예를 들어 토큰당 지능, 그리고 초당 토큰 수를 함께 고려하는 방식임
    개인적으로 Sonnet 4.6이 Opus 4.6보다 5배 빠르다면 Sonnet을 주로 쓸 것 같음
    이전 세대에서는 Sonnet 계열이 충분히 좋지 않았지만, 이제는 속도가 주는 반복(iteration) 이점이 커서 상황이 달라짐
    예전엔 OpenAI Deep Research를 썼지만, o3-thinking + 웹 검색이 훨씬 빠르면서도 충분히 똑똑했음

    • 속도 자체가 품질의 한 축”이라고 생각함
      Cereberas나 Groq 같은 하드웨어로 API를 개발하면 반복 속도와 비용이 완전히 다른 수준임
      최근 작성한 연구 노트에서도, 계획은 AR 모델, 생성은 diffusion 모델로 나누면 성능이 크게 향상됨을 보여줌
    • 이 지표에 하드웨어 단위당 효율을 추가하면 더 현실적일 것 같음
      예를 들어 5톤의 석탄으로 충분한데 30톤을 써서 0.0000000001% 개선하는 건 진짜 발전이 아님
    • 빠른 에이전트 반복을 목표로 하는 모델군이 새로 등장 중임
      Composer나 Flash 버전 모델들이 그 예시이고, Mercury 2도 이 범주에서 강력한 모델로 포지셔닝함
    • 곧 실제 벤치마크를 해볼 수 있을 듯함
      빠른 모델은 반복이 빠르고, 큰 모델은 첫 시도에서 더 정확함
      현재는 Opus 4.6을 좋아하지만 Sonnet과의 효율 차이를 데이터로 보고 싶음
    • “Intelligence per second” 개념이 정말 마음에 듦
      Gemini 3 Flash를 좋아했던 이유가 바로 이것임 — 충분히 똑똑하면서 믿을 수 없을 만큼 빠름
  • 간단한 테스트를 해봤는데, “Maradona의 업적”을 물었더니 Mercury 2가 “Dieadona”라고 오타를 냈음
    로컬 3B 모델도 완벽히 답할 질문인데, Mercury 2는 느리고 오류가 많음

  • Mercury 2는 병렬 정제(parallel refinement) 방식으로 응답을 생성함
    여러 토큰을 동시에 생성해 몇 단계 내에 수렴하는 구조로, 타자기식이 아니라 편집기처럼 전체 초안을 다듬는 형태
    DDPM과 SGM이 SDE로 통합되는 연구가 진행 중인데, transformer의 각 레이어를 diffusion 단계로 볼 수 있을지 궁금함
    transformer의 L개 레이어가 diffusion의 L단계 정제와 대응된다면, 두 모델 간 상호 적합(fitting) 이 가능할지도 모름

  • Inception의 공동창업자이자 Chief Scientist로서 Mercury 2나 diffusion LM에 대한 기술 질문을 환영함

    • diffusion 모델에서 KV 캐시는 어떻게 작동하는지 궁금함
      latency나 비용 절감이 가능한지, autoregressive 캐싱과 유사한 곡선을 가지는지, 혹은 아예 적용되지 않는지 알고 싶음
    • diffusion 모델이 텍스트 블록 단위로 reasoning을 수행하는 것처럼 보이는데, 블록 간 정보 의존성이 있을 때는 어떻게 처리하는지 궁금함
      동적 블록 길이를 적용할 수 있는지도 흥미로움
    • 발표에서 언급된 Voice AI의 실제 동작이 궁금함
      대부분의 음성 시스템은 전체 응답 지연보다는 TTFT(time-to-first-token) 이 중요함
      Mercury 2의 TTFT 수치가 다른 reasoning 모델 대비 얼마나 개선되는지 알고 싶음
    • 약한 transformer 모델처럼 루프에 빠지는 현상을 겪었음
      사례 링크 참고
      이런 현상의 원인이 궁금함
    • 더 빠른 속도를 위해 drifting 모델로 발전할 계획이 있는지도 궁금함
  • 초당 수천 토큰을 생성하는 모델이 등장한 게 가장 흥미로움
    이렇게 되면 multi-shot prompting이나 nudging을 해도 사용자가 체감하지 못해, 환각이나 비결정적 응답 문제를 줄일 수 있음

    • 우리도 같은 생각임
      Mercury 2는 에이전트 작업의 빠른 반복을 가능하게 함
      한 번의 시도는 덜 정확할 수 있지만, 짧은 실행 시간 덕분에 훨씬 빠르게 개선 가능함
    • 일반 모델도 batch inference를 하면 꽤 빠름
      예를 들어 GPT-OSS 20B는 단일 3090에서 bs=64로 약 2k tok/s에 도달함
  • diffusion 모델에는 아직 확신이 없음
    Google 등도 시도했지만 대부분의 경우 Pareto frontier에서 뒤처졌음
    가격/성능 비교 링크 참고

    • Pareto 관점에는 반론이 있음
      동일 품질 기준에서 Mercury는 유사한 AR 모델보다 5배 이상 빠름
      절대적 지능은 아직 Opus나 Gemini Pro보다 낮지만, 추론 속도 면에서 큰 이점이 있음
    • 텍스트 diffusion은 아직 발전 여지가 많음
      autoregressive transformer보다 훨씬 미개척된 영역이라 기술적 헤드룸이 큼
    • 이 모델은 빠른 편집(edit) 용도로 완벽할 듯함
      Morph의 Fast Apply처럼 “Mercury Edit” 버전이 있다면 꼭 써보고 싶음
  • diffusion 기반 접근은 매우 흥미로움
    전통적인 transformer는 순차적으로 토큰을 생성하지만, diffusion은 전체 출력을 반복적으로 정제(refine) 할 수 있음
    만약 지연(latency) 문제를 해결했다면, 복잡한 reasoning 작업에 새로운 가능성을 열 수 있음

  • 로컬 하드웨어에서 실행 가능한 오픈웨이트 diffusion LLM이 있는지 궁금함
    소비자용 GPU 환경에서의 성능 차이를 직접 보고 싶음

  • Mercury 2가 Car Wash Test에서 실패했음
    범용 reasoning 모델보다는 특정 용도(예: 코딩 에이전트) 에 집중하고, 해당 분야의 SOTA 모델(Qwen3-Coder-Next 등)과 비교하는 게 더 나을 듯함

    • 개인적으로는 빠르지만 오류가 많은 모델보다 느리지만 정확한 모델을 선호함
      긴 세션을 돌리더라도 정확도가 더 중요함
  • 만약 이 모델이 Talaas 칩에 탑재된다면 초당 50,000개 이상의 토큰을 생성할 수도 있을까 궁금함

    • 메모리 지연이 없는 ASIC 스타일 회로로 내장된다면, 어떤 모델이든 엄청난 속도 향상이 가능할 것 같음