MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델

(mimo.xiaomi.com)

4P by GN⁺ 1달전 | ★ favorite | 댓글 1개

1조(1T) 파라미터 모델에서 디코딩 속도 1000 tokens/s를 처음으로 돌파한 모델
전용 하드웨어가 아닌 commodity GPU만으로 속도를 달성했으며, 단일 표준 8-GPU 노드에서 1000+ tps 출력 구현
FP4 양자화와 DFlash speculative decoding을 결합한 모델-시스템 codesign이 핵심 기술
API는 신청 기반·기간 한정으로 제공되며, 3배 가격에 약 10배 생성 속도를 표방
1000 tps 돌파는 단순 속도 향상이 아니라 Coding Agent·실시간 의사결정 등 AI 응용 패러다임 자체를 바꾸는 전환점

Xiaomi MiMo-V2.5-Pro-UltraSpeed 출시

TileRT와 협업해 1조 파라미터 모델에서 디코딩 속도 1000 tokens/s를 처음 돌파, 실시간 응답과 즉각적 반복이 가능한 수준의 속도 제공
실시간 생성 속도 비교에서 최대 약 1200 tokens/s 도달
모델이 충분히 빨라지면 기다리는 도구가 아니라 사고의 연장(extension of thinking)으로 작동한다는 관점 제시

기간 한정 · 신청 기반 제공

API는 한정 프로모션 가격으로 출시, MiMo-V2.5-Pro 대비 3배 비용에 약 10배 생성 속도 제공 (API 전용, Token Plan 미지원)
고속 추론 리소스 제약으로 신청 기반·기간 한정 운영, 승인 사용자만 2026년 6월 9일~6월 23일 23:59 (UTC+8) 동안 API 이용 가능
신청 방법
- API 플랫폼은 platform.xiaomimimo.com/ultraspeed, 신청해도 승인 보장되지 않으며 실제 비즈니스 수요가 있는 기업·전문 개발자 우선
- 표준 모델 접근은 MiMo-V2.5 시리즈를 통해 제공
Chat 체험 (트라이얼 중 무료)
- 승인 사용자에게 2주간 무료 Chat 접근 제공, 진입점은 ultraspeed.xiaomimimo.com
- 계정당 하루 최대 10회 대기열 진입, 세션당 최대 30분, 5분 이상 유휴 시 자동 해제

1000 tokens/s — 속도를 넘어선 패러다임 전환

1T 규모에서 1000 tps 돌파는 단순히 빠른 타자기가 아니라 AI 응용 패러다임 자체를 근본적으로 흔드는 변화
속도가 곧 지능으로 전환
- 동일한 실제 시간(wall-clock) 내에서 수십 개의 추론 경로를 병렬 실행(Best-of-N / Tree Search), 백그라운드에서 자동 검증·자가 수정해 추론 품질 직접 향상
Coding Agent의 생산성 한계 해제
- 기존에는 추론 지연(inference latency)이 병목이라 개발자가 화면 앞에서 대기, 1000 tps에서는 코드 생성 속도와 생산 효율이 패러다임 수준으로 가속
실시간 의사결정 루프 진입
- 밀리초 단위 "think-respond" 사이클로 1T 플래그십 모델이 고빈도 퀀트 트레이딩 신호 생성, 즉시 이상거래 차단, 지능형 입찰, 실시간 대화 등 시간 민감 시나리오에 결합 가능
- 수술 보조·의료 영상 분석 같은 생사 상황에 적용 시, 병변 분석·위험 예측을 단축한 매 초가 외과의에게 추가 자유도를 부여한다는 관점 제시

극한의 모델-시스템 Codesign

1T 모델에서 1000+ tps는 단일 기법이 아니라 MiMo 모델 팀과 TileRT 시스템 팀의 극한 codesign 결과물
유사 속도를 위해 업계가 흔히 의존하는 전용 하드웨어(Cerebras의 Wafer-Scale, Groq의 on-chip SRAM 커스텀 아키텍처)와 달리, commodity GPU에서 모델-시스템 codesign만으로 달성
모델 측은 대역폭 병목을 겨냥한 FP4 양자화로 모델 크기·메모리 접근 부담 축소, 동시에 블록 단위 마스킹 병렬 예측 기반 DFlash 도입으로 검증 단계당 수용 토큰 길이 증가
시스템 측 TileRT는 해당 알고리듬 특성에 맞춘 컴파일 엔진과 연산 커널 제공, 단일 표준 8-GPU commodity 노드에서 1000+ tps 출력 실현
3.1 FP4 Quantization
- 1T 규모에서 기존 8비트(FP8/INT8)·16비트 추론은 메모리 점유와 대역폭 압박이 과도, 비트 폭 축소가 디코딩 속도에 직접 기여
- 검증된 사실상 무손실 FP4(MXFP4) 포맷 채택, 전체 모델에 단순 적용 시 복잡한 추론·논리·코드 생성에서 성능 저하 발생
- MoE(Mixture of Experts) 아키텍처에서 파라미터 대부분을 차지하고 양자화 내성이 가장 높은 Experts만 선택적으로 FP4로 양자화, 그 외 모듈은 원래 정밀도 유지
- FP4 QAT(Quantization-Aware Training) 로 모델 크기 축소·하드웨어 대역폭 활용 극대화, 전반적 성능은 원본과 사실상 동등 수준 유지
3.2 DFlash Speculative Decoding
- 전통 speculative decoding은 작은 draft 모델이 후속 토큰을 추측하고 대형 모델이 검증하는 방식, draft 품질이 수용률을 좌우하지만 강한 draft일수록 연산 비용 증가라는 본질적 긴장 존재
- DFlash는 draft 모델이 단일 forward pass로 마스킹된 블록 전체를 채워 "autoregressive drafting"의 직렬 제약 제거
- Muon 2차 최적화기와 모델 self-distillation을 사용해 draft 단계 오버헤드를 이론적 최소치 근처까지 압축
  - draft 모델은 Sliding Window Attention(SWA) 만 사용, MiMo-V2 시리즈의 SWA 설계와 자연스럽게 정렬되고 완전한 prefix 의존 제거로 예측당 연산을 context 길이 비례에서 상수로 축소
  - 학습 시 mask-signal 샘플링을 GPU-local 샤드로 내려, 단일 시퀀스가 한 스텝에서 수만 개 독립 학습 신호 생성하면서 디바이스 간 통신 오버헤드 회피
- 블록 크기를 8로 제한해 검증 오버헤드 축소·동시성 증가, 높은 수용 길이가 곧바로 높은 추론 처리량으로 전환
- 시나리오별 평균 수용 길이(Acceptance Length)
  - Coding 6.30 (일부 샘플 최대 7.14, 8개 draft 토큰 중 6~7개 수용)
  - Math / Reasoning 5.56
  - Agent 4.29
- 의미적으로 더 분산되고 불확실성이 높은 일반 대화 시나리오에서는 현재 수용률이 아직 낮아 지속 최적화 진행 중
3.3 TileRT 초저지연 추론 커널 / 시스템
- 1000 tokens/s 동작 주파수에서 각 연산자의 수명이 마이크로초 단위로 압축, 전통 추론 시스템의 "operator boundaries"가 핵심 병목으로 부상
- 연산자 실행 시작·하드웨어 동기화·전역 메모리 왕복마다 실행 흐름이 끊겨 가시적 "Execution Gaps" 발생
- TileRT의 패러다임급 실행 모델 혁신
  - Persistent Engine Kernel: 연산자별 실행 시작 방식 폐기, 전체 연산 파이프라인을 GPU 내부에 상시 상주·흐르게 유지해 데이터 이동과 연산의 극한 중첩(overlap) 달성
  - Warp Specialization(이기종 파이프라인 협업): Tile 수준에서 통신·데이터 이동·텐서 연산을 더 세밀하게 물리적 분해, 동질적 lock-step 모델을 깨고 GPU를 정밀 조율된 이기종 실행 시스템으로 전환
- 마이크로초 단위 하드웨어-소프트웨어 심층 융합 (Codesign)
  - 모델 계층은 MoE Experts 혼합 FP4 양자화와 1조 파라미터 아키텍처용 SWA 정렬 DFlash speculative decoding 채택, TileRT는 이 알고리듬 특성·양자화 방식과 긴밀히 결합해 맞춤형 컴파일 엔진·연산 커널 제공
  - 두 팀이 하드웨어 물리에 기반한 공동 엔지니어링 트레이드오프를 통해 실행 압력을 하드웨어 경계 안에서 부드럽게 수렴
  - TileRT는 차세대 AI 인프라·초저지연 추론에 집중하는 시스템 아키텍처 팀으로, persistent kernel·tile 파이프라인·이기종 협업의 풀스택 돌파로 복잡한 이기종 환경에서 극한의 연산 활용 달성

추가 데모 영상

10초 만에 Snake 게임을 만드는 데모
MacOS 인터페이스를 1분만에 재생성하는 데모

오픈소스 및 전망

HuggingFace에 MiMo-V2.5-Pro-FP4-DFlash 체크포인트 오픈소스 공개, FP4 양자화 가중치와 DFlash 모델 파라미터 포함
MiMo-V2.5에 대한 UltraSpeed 지원 준비 중

GN⁺ 1달전 [-]

Hacker News 의견들

빠른 AI는 정말 흥미롭지만 꽤 불안하기도 함. 지금도 Claude가 일부 작업에서는 나보다 빠르지만 그래도 아직은 비슷한 선에 있음
PR 정리 프롬프트를 1시간째 돌리고 있고 몇 시간 더 걸릴 것 같은데, 이게 거의 즉시 끝난다면 워크플로가 어떻게 바뀔지 상상하기 어려움. 오래 걸리는 프롬프트 때문에 멀티태스킹을 시작했다가 나중에 후회하는 경우도 있음. 반대로 몇 시간·며칠 걸리던 일을 몇 초에서 몇 분 안에 끝내는 AI라면 판이 바뀌는 수준이고, 우리가 어디에 자리 잡을지 모르겠음
- Deepseek-v4-pro를 주 모델로 쓰는데 가끔 꽤 짜증남. 쉬운 잡일을 맡기고 “에이전트에게 시켜두고 낮잠이나 자야지”라고 생각해도, 컴퓨터 앞에서 일어나기도 전에 이미 코드를 다 써버림
- groq와 GPT OSS를 써봤는데 20B는 1000 TPS, 120B는 800 TPS로 돌아가서 속도가 꽤 마법처럼 느껴짐
  Cerebras의 3000 TPS는 아직 안 써봤지만, 이름이 기억나지 않는 15,000 TPS 모델 데모는 해봤음. 실제 업무에 의미 있는 차이를 주는지는 모르겠지만, 눈 깜짝할 사이에 화면 가득 텍스트가 생성되는 걸 보는 건 정말 놀라움. diff를 보여주고 변경이 의도에 맞는지 확인하는 식의 작은 검증에는 매우 유용하고, 이런 확인을 빠르게 여러 번 할 수 있으면 집중된 검사를 방해 없이 많이 할 수 있어 도움됨
- 지연 시간이 충분히 낮아지면 멀티태스킹할 이유가 없음. 한 번에 하나씩 시키고 바로 결과를 보면 되는데, 그게 꽤 좋은 작업 방식임
  계산 집약적이지 않은 작업에서는 원래 대화형 UI가 이런 식임. 프로그램은 대부분 사용자가 버튼을 누르길 기다리며 놀고 있음. 우리가 프로그램을 기다리거나 여러 접시를 돌리며 바쁘게 만들 필요는 없음. 다만 더 빠른 LLM만으로는 부족하고, 빠른 컴파일과 테스트도 필요함
- 다음 병목은 컴파일러인데, 이것도 LLM으로 모델링하면 됨. 단지 15% 정도 틀릴 뿐 :)
  진지하게 말하면 Cerebras를 약 2k tokens/s, 매우 낮은 지연 시간으로 쓰는 건 미래를 엿보는 느낌임. 성공 조건을 명시하는 식으로, 부담스러운 수동 검토 없이 일어날 수 있는 작업 중심으로 워크플로를 다시 짜게 됨. 내 문제 중 여기에 잘 맞는 건 드물지만, 앞으로는 이 방향으로 갈 것 같음. 물론 빠른 모델은 보통 최고 성능 모델은 아니지만, 고품질이면서 거의 즉시 사고가 가능해진다면 우리가 정말 준비되지 않은 게임 체인저가 됨
- 양면이 있음. Gemini 3.5 Flash에게 뭔가 시키면 거의 즉시 결과를 내고 잘 작동해서, 그 속도가 조금 무서울 때가 있음
  그런데 다른 일을 시키면 엉뚱한 길로 가기도 함. 예전에는 “잠깐, 그건 아니야” 하고 끼어들 수 있었는데, 화면에 텍스트가 보이고 반응할 때쯤이면 이미 대규모 변경을 해버림. 매 편집마다 커밋하게 하지 않는 한, 제대로 갈 때만큼 빠르게 잘못 가는 것도 막기 어렵고, 권한이 많으면 원격 API에서도 실수를 저지를 수 있음
생산성 얘기는 잘 이해가 안 됨. 일반 직원 입장에서는 예전에는 2일 걸리던 일을 이제 2시간 만에 할 수 있어도 별로 중요하지 않음. 남은 시간을 자기 마음대로 쓰는 게 아니라 여전히 하루 8시간 일해야 하기 때문임
예전에는 2일 동안 문제를 깊게 파고들며 만드는 즐거움이 있었는데, 이제는 올바른 프롬프트로 올바른 답이 나오길 바라며 슬롯머신을 당기는 패턴으로 바뀜. 우리에게는 오히려 나빠졌다고 봄. 물론 기업과 임원에게는 완전히 반대 상황이고, AI 상황을 엄청 좋아할 것임
- AI에게 줄 작업을 작은 덩어리로 나누면 아키텍처 통제권을 유지할 수 있고 슬롯머신이 아니게 됨. 여전히 코드를 읽고 가끔은 직접 쓰기도 함
  많이 쓰지는 않지만, 더 빠른 속도를 얻기 위해 치르는 대가임. 큰 작업을 AI에게 던져두고 한 시간 뒤에 돌아오면, 한 시간을 날리고 아무것도 못 얻었다는 걸 발견할 수도 있음
- 내 경우 느린 모델은 문맥과 작업 병렬 관리를 어렵게 만듦. 한 작업만 하다가 끝내고, 쉬고, 다음 작업으로 넘어가는 편이 훨씬 좋음
  지금은 세 작업을 병렬로 세 탭에서 돌리고 있는데, 계속 문맥 전환을 해야 해서 훨씬 고통스럽다. 더 빠른 모델이면 기다리는 동안 새 작업을 시작할 필요가 없어짐
- 어떤 기술이든 멍청하게 쓰는 방법과 똑똑하게 쓰는 방법이 있음. “올바른 답을 주는 슬롯머신”처럼 다루는 건 멍청한 방식임. 잠깐은 통할 수 있어도 모두가 똑같이 할 수 있으니 오래 못 감
  이 기술을 이용해서 예전보다 더 깊이 문제를 파고드는 걸 막는 사람은 없음. 그게 똑똑한 사용법임
- 직원들이 하루 8시간 일한다는 건 어느 세계 얘기인지 모르겠음. 8시간 출근 기록은 찍을지 몰라도 그 시간 내내 일하진 않음
- 우리가 결과물의 품질을 평가하는 능력은 결과물을 만들어내는 능력보다 더 뒤처지고 있음. “올바른 답”이 가장 그럴듯한 결과라고 보긴 어려움
중국 제공업체의 가격·속도 최적화와 미국 업체의 가격 인상이 합쳐지면 머지않아 판이 바뀔 것임. 이미 많은 회사가 AI 청구서에서 문제를 겪고 있음
- 중국 모델은 충분히 좋고 저렴함
  GitHub Copilot 연간 구독을 쓰고 있는데, Microsoft가 최근 과금을 토큰 기반으로 바꿨음. 아직 프리미엄 요청 단위로 청구되지만 GPT 5.4가 예전 1x에서 이제 6x가 됨
- 돈이 넉넉하지 않아서 최근에는 Claude나 GPT 대신 DeepSeek v4 Flash, GLM 5.1 등을 최대한 쓰고 있음
- 또 다른 문제는 미국 모델이 전부 폐쇄형 소스라는 점임. 대기업이라면 조직이 OpenAI나 Anthropic에 인질로 잡히는 걸 원하지 않을 수 있음
  미국 모델 연구소들이 어떤 해자를 갖고 있는지 정말 이해가 안 됨. 재귀적 자기 개선이 코앞이라고 하면서 중국 연구소들이 선두 미국 모델에 조금 뒤처진 정도라면, 미국 연구소의 해자는 뭘까? 미국 모델이 중국 오픈소스 모델보다 재귀적 자기 개선을 더 잘한다는 건가? 내가 완전히 틀릴 수도 있지만 OpenAI나 Anthropic에 돈을 넣었다면 지금 전부 빼고 싶음. 앞으로 몇 년 사이 거의 0에 가까워질 가능성이 꽤 크다고 봄
- 더 큰 문제는 모델 일관성임. Anthropic이 Opus 가격을 받으면서 요청을 더 싼 모델로 라우팅할지 알 수 없음
  그래서 작업 비용을 예측할 수 없음. 여러 번 다시 시작하고 매번 비용을 내야 할 수도 있기 때문임. 게다가 모델이 진짜인지 가짜인지 가늠하려고 프롬프트를 또 넣어야 해서 토큰 사용량도 늘어남
- 이런 가격 결정을 이끄는 경제 구조가 궁금함. 중국 회사들이 미국보다 모델을 더 많이 보조하는 건지, 아니면 국가 간 에너지 정책 차이에서 나오는 결과인지 모르겠음
MiMo가 Deepseek만큼 저렴하다면, 이전 논의 https://news.ycombinator.com/item?id=48282814 기준으로 초고속을 위해 3배를 곱해도 여전히 충격적으로 쌈
- MiMo와 DeepSeek가 싼 게 아니라, Anthropic과 OpenAI가 제공 가치 대비 비싼 것임
MiMo V2.5 Pro 일반 속도 버전은 우리가 테스트한 오픈 가중치 에이전트형 코딩 모델 중 여전히 가장 강함. 성능이 더 낮은 릴리스들보다 관심을 훨씬 덜 받는 게 흥미로움
여기서 “fast mode” 가격도 매우 경쟁력 있음. 데이터는 https://gertlabs.com/rankings에 있음
- 왜 deepseek v4 pro가 flash보다 훨씬 낮게 나오지? mimo 2.5는 어디 있음?
홍보처럼 들릴 수 있지만, 지수 성장이라는 게 있음. 우리는 프롬프트에서 거의 즉시 소프트웨어 여러 개를 만들고 그중 최선을 고르는 단계에 갈 것임
최고의 문법 설탕 메서드 이름을 가진 라이브러리를 고르는 논의는, 어셈블리로 입력하자고 제안하는 것만큼 이상하게 보일 것임
- 형편없는 소프트웨어의 지수 성장처럼 들림. 예전에도 소프트웨어 엔지니어링에 대량 생산된 쓰레기가 없었던 건 아니지만, 이제는 폭발적으로 넘쳐날 것임
- 예전에는 3개월마다 새 프론트엔드 프레임워크가 나오던 시절이 있었음. 이제는 거의 멈췄고 아무도 신경 쓰지 않음
- 잘 모르겠음. 엔지니어들은 여전히 옛 방식으로 소프트웨어를 만들 수 있음. 예를 들어 Obsidian이나 Ghostty 같은 걸 몇 달씩 걸려 만들면서, 코드 한 줄 한 줄과 의존성, 좋은 아키텍처를 챙기는 방식 말임
  진짜 옛 방식이고, 제품이 좋으면 성공할 것임
- 더 희망적으로 봄. AI가 좋아지고 빨라지면, 예전에는 작업량 때문에 피했던 코드를 더 빠르고 반복적으로 개선할 수 있음
  실제로 AI 덕분에 원래라면 말도 안 되는 수준의 리팩터링을 여러 번 했음. 작업량 때문만이 아니라, 때로는 성공할지조차 모르기 때문에 이중 마찰이 있음. AI가 있으면 커피 한 잔 마시는 동안 리팩터링을 던져보고 어디서 막히는지 확인할 수 있음. 전반적으로 AI는 인류가 자기 자신을 더 극단적으로 드러내게 만들 것임. 좋은 쪽으로도, 나쁜 쪽으로도. 다만 나쁜 쪽이 더 많을 것 같음
- 지수적 흐름은 몇 년 안에 완전한 메모리 내 연산으로 이어질 것이고, 이는 100배 더 효율적일 것임. 즉 최소 10배 큰 모델이 가능해지고 훨씬 똑똑하면서도 매우 빨라짐
  소규모 비즈니스에서는 코드를 아예 건너뛰고, 문맥 데이터와 프롬프트에서 대화형 속도로 UI를 바로 렌더링하게 될 것임. 게임에서 Google Genie가 하는 것과 비슷하지만 훨씬 더 정확한 형태임
이건 음성에서 정말 강력할 것임. 추론 능력 덕분에 LLM이 훨씬 똑똑해지지만, 음성은 지연 시간 예산이 너무 빡빡해서 보통 그 시간을 쓸 수 없음
Cerebras가 Kimi K2.6을 3000t/s로 시험 중임, 초대 전용임. 빠른 하드웨어가 프런티어 모델에서 더 보편화될 때가 기대됨
Nvidia에서 속도에 맞춰 설계된 모델들은 그 간극을 메울 수 있는 좋은 추가 요소임
- 원문에서는 지금까지 이런 속도에 도달하려면 Cerebras 같은 특수하고 매우 비싼 하드웨어가 필요했다고 말함
  이번 결과의 새로운 점은 표준 하드웨어, 즉 GPU 8개짜리 서버 하나만으로 1조 개 이상 매개변수 모델에서 1000 token/s를 넘겼다는 점임
- 출처가 궁금함. Cerebras 웹사이트에는 1000t/s라고 나와 있음 https://www.cerebras.ai/blog/which-is-faster-gemini-3-5-flas...
- Cerebras는 지난달에 상장해서 운이 좋았음. 지금이었다면 달랐을 것임
- Cerebras는 현재 프리픽스 캐싱 할인을 제공하지 않아서, 에이전트형 작업부하에서는 사용 비용이 sqr(n_turns)만큼 더 비싸짐
흥미로움. 프런티어 모델들은 꽤 인상적이 되었지만, 모두 대화형 휴먼 인 더 루프 코딩에는 조금 느림. 그래서 바이브 코딩과 여러 에이전트를 병렬로 돌리는 방향을 유도함. 빠른 에이전트는 파트너에 더 가깝게 느껴짐
한동안 Cerebras GLM 4.7을 여러 작업에 썼음. 아주 똑똑한 모델은 아니지만, 사이트의 라이브 프로토타입을 띄워두고 “폰트 좀 키워. 아니 그렇게 많이 말고”라고 입력하면 실시간으로 바뀌는 경험은 훌륭함. 그리고 MiMo 2.5는 GLM 4.7보다 훨씬 유능함
- GLM 4.7을 코드 작성 에이전트에 써봤는데, 200~1000줄짜리 간단한 스크립트에서도 극도로 나빴음. Cerebras 제공 모델을 포기해야 했고, 똑똑한 모델은 엔터프라이즈 플랜에만 있음
- MiMo 2.5는 MiMo 2.5 Pro와 같은 모델이 아님
  GLM 5.1은 z.ai의 최신 반복 버전이고 인기 있는 오픈 가중치 코딩 모델 중 하나임. 써봤다면, 최근 70% 가격 인하 뒤에도 MiMo 2.5 Pro보다 비싸진 GLM 5.1이 어떻게 비교되는지 궁금함
1k TPS도 훌륭하지만, 이 스레드에 AI가 생성한 댓글이 얼마나 많은지가 더 흥미로움

답변달기

MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델

Xiaomi MiMo-V2.5-Pro-UltraSpeed 출시

기간 한정 · 신청 기반 제공

신청 방법

Chat 체험 (트라이얼 중 무료)

1000 tokens/s — 속도를 넘어선 패러다임 전환

속도가 곧 지능으로 전환

Coding Agent의 생산성 한계 해제

실시간 의사결정 루프 진입

극한의 모델-시스템 Codesign

3.1 FP4 Quantization

3.2 DFlash Speculative Decoding

3.3 TileRT 초저지연 추론 커널 / 시스템

TileRT의 패러다임급 실행 모델 혁신

마이크로초 단위 하드웨어-소프트웨어 심층 융합 (Codesign)

추가 데모 영상

오픈소스 및 전망

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들