# MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델

> Clean Markdown view of GeekNews topic #30307. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30307](https://news.hada.io/topic?id=30307)
- GeekNews Markdown: [https://news.hada.io/topic/30307.md](https://news.hada.io/topic/30307.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-06-09T10:15:47+09:00
- Updated: 2026-06-09T10:15:47+09:00
- Original source: [mimo.xiaomi.com](https://mimo.xiaomi.com/blog/mimo-tilert-1000tps)
- Points: 4
- Comments: 1

## Topic Body

- **1조(1T) 파라미터 모델**에서 디코딩 속도 **1000 tokens/s**를 처음으로 돌파한 모델  
- 전용 하드웨어가 아닌 **commodity GPU**만으로 속도를 달성했으며, 단일 표준 **8-GPU 노드**에서 1000+ tps 출력 구현  
- **FP4 양자화**와 **DFlash speculative decoding**을 결합한 모델-시스템 codesign이 핵심 기술  
- API는 신청 기반·기간 한정으로 제공되며, **3배 가격에 약 10배 생성 속도**를 표방  
- 1000 tps 돌파는 단순 속도 향상이 아니라 **Coding Agent**·실시간 의사결정 등 AI 응용 패러다임 자체를 바꾸는 전환점  
  
---  
  
### Xiaomi MiMo-V2.5-Pro-UltraSpeed 출시  
  
- TileRT와 협업해 **1조 파라미터 모델**에서 디코딩 속도 1000 tokens/s를 처음 돌파, 실시간 응답과 즉각적 반복이 가능한 수준의 속도 제공  
- 실시간 생성 속도 비교에서 **최대 약 1200 tokens/s** 도달  
- 모델이 충분히 빨라지면 기다리는 도구가 아니라 사고의 연장(extension of thinking)으로 작동한다는 관점 제시  
  
### 기간 한정 · 신청 기반 제공  
  
- API는 한정 프로모션 가격으로 출시, **MiMo-V2.5-Pro 대비 3배 비용**에 약 **10배 생성 속도** 제공 (API 전용, Token Plan 미지원)  
- 고속 추론 리소스 제약으로 신청 기반·기간 한정 운영, 승인 사용자만 **2026년 6월 9일~6월 23일 23:59 (UTC+8)** 동안 API 이용 가능  
- ## 신청 방법  
  - API 플랫폼은 platform.xiaomimimo.com/ultraspeed, 신청해도 승인 보장되지 않으며 실제 비즈니스 수요가 있는 기업·전문 개발자 우선  
  - 표준 모델 접근은 MiMo-V2.5 시리즈를 통해 제공  
- ## Chat 체험 (트라이얼 중 무료)  
  - 승인 사용자에게 2주간 무료 Chat 접근 제공, 진입점은 ultraspeed.xiaomimimo.com  
  - 계정당 **하루 최대 10회** 대기열 진입, 세션당 **최대 30분**, **5분 이상 유휴** 시 자동 해제  
  
### 1000 tokens/s — 속도를 넘어선 패러다임 전환  
  
- 1T 규모에서 1000 tps 돌파는 단순히 빠른 타자기가 아니라 AI 응용 패러다임 자체를 근본적으로 흔드는 변화  
- ## 속도가 곧 지능으로 전환  
  - 동일한 실제 시간(wall-clock) 내에서 수십 개의 추론 경로를 병렬 실행(**Best-of-N / Tree Search**), 백그라운드에서 자동 검증·자가 수정해 추론 품질 직접 향상  
- ## Coding Agent의 생산성 한계 해제  
  - 기존에는 추론 지연(inference latency)이 병목이라 개발자가 화면 앞에서 대기, 1000 tps에서는 코드 생성 속도와 생산 효율이 패러다임 수준으로 가속  
- ## 실시간 의사결정 루프 진입  
  - 밀리초 단위 "think-respond" 사이클로 1T 플래그십 모델이 **고빈도 퀀트 트레이딩 신호 생성, 즉시 이상거래 차단, 지능형 입찰, 실시간 대화** 등 시간 민감 시나리오에 결합 가능  
  - 수술 보조·의료 영상 분석 같은 생사 상황에 적용 시, 병변 분석·위험 예측을 단축한 매 초가 외과의에게 추가 자유도를 부여한다는 관점 제시  
  
### 극한의 모델-시스템 Codesign  
  
- 1T 모델에서 1000+ tps는 단일 기법이 아니라 **MiMo 모델 팀과 TileRT 시스템 팀**의 극한 codesign 결과물  
- 유사 속도를 위해 업계가 흔히 의존하는 전용 하드웨어(**Cerebras의 Wafer-Scale**, **Groq의 on-chip SRAM 커스텀 아키텍처**)와 달리, commodity GPU에서 모델-시스템 codesign만으로 달성  
- 모델 측은 대역폭 병목을 겨냥한 **FP4 양자화**로 모델 크기·메모리 접근 부담 축소, 동시에 블록 단위 마스킹 병렬 예측 기반 **DFlash** 도입으로 검증 단계당 수용 토큰 길이 증가  
- 시스템 측 TileRT는 해당 알고리듬 특성에 맞춘 컴파일 엔진과 연산 커널 제공, 단일 표준 8-GPU commodity 노드에서 1000+ tps 출력 실현  
  
- ## 3.1 FP4 Quantization  
  - 1T 규모에서 기존 8비트(FP8/INT8)·16비트 추론은 메모리 점유와 대역폭 압박이 과도, 비트 폭 축소가 디코딩 속도에 직접 기여  
  - 검증된 사실상 무손실 **FP4(MXFP4)** 포맷 채택, 전체 모델에 단순 적용 시 복잡한 추론·논리·코드 생성에서 성능 저하 발생  
  - **MoE(Mixture of Experts)** 아키텍처에서 파라미터 대부분을 차지하고 양자화 내성이 가장 높은 Experts만 선택적으로 FP4로 양자화, 그 외 모듈은 원래 정밀도 유지  
  - **FP4 QAT(Quantization-Aware Training)** 로 모델 크기 축소·하드웨어 대역폭 활용 극대화, 전반적 성능은 원본과 사실상 동등 수준 유지  
- ## 3.2 DFlash Speculative Decoding  
  - 전통 speculative decoding은 작은 draft 모델이 후속 토큰을 추측하고 대형 모델이 검증하는 방식, draft 품질이 수용률을 좌우하지만 강한 draft일수록 연산 비용 증가라는 본질적 긴장 존재  
  - **DFlash**는 draft 모델이 단일 forward pass로 마스킹된 블록 전체를 채워 "autoregressive drafting"의 직렬 제약 제거  
  - **Muon 2차 최적화기**와 모델 self-distillation을 사용해 draft 단계 오버헤드를 이론적 최소치 근처까지 압축  
    - draft 모델은 **Sliding Window Attention(SWA)** 만 사용, MiMo-V2 시리즈의 SWA 설계와 자연스럽게 정렬되고 완전한 prefix 의존 제거로 예측당 연산을 context 길이 비례에서 상수로 축소  
    - 학습 시 mask-signal 샘플링을 GPU-local 샤드로 내려, 단일 시퀀스가 한 스텝에서 수만 개 독립 학습 신호 생성하면서 디바이스 간 통신 오버헤드 회피  
  - 블록 크기를 8로 제한해 검증 오버헤드 축소·동시성 증가, 높은 수용 길이가 곧바로 높은 추론 처리량으로 전환  
  - 시나리오별 평균 수용 길이(Acceptance Length)  
    - Coding 6.30 (일부 샘플 최대 7.14, 8개 draft 토큰 중 6~7개 수용)  
    - Math / Reasoning 5.56  
    - Agent 4.29  
  - 의미적으로 더 분산되고 불확실성이 높은 일반 대화 시나리오에서는 현재 수용률이 아직 낮아 지속 최적화 진행 중  
- ## 3.3 TileRT 초저지연 추론 커널 / 시스템  
  - 1000 tokens/s 동작 주파수에서 각 연산자의 수명이 마이크로초 단위로 압축, 전통 추론 시스템의 "operator boundaries"가 핵심 병목으로 부상  
  - 연산자 실행 시작·하드웨어 동기화·전역 메모리 왕복마다 실행 흐름이 끊겨 가시적 **"Execution Gaps"** 발생  
  - ### TileRT의 패러다임급 실행 모델 혁신  
    - **Persistent Engine Kernel**: 연산자별 실행 시작 방식 폐기, 전체 연산 파이프라인을 GPU 내부에 상시 상주·흐르게 유지해 데이터 이동과 연산의 극한 중첩(overlap) 달성  
    - **Warp Specialization(이기종 파이프라인 협업)**: Tile 수준에서 통신·데이터 이동·텐서 연산을 더 세밀하게 물리적 분해, 동질적 lock-step 모델을 깨고 GPU를 정밀 조율된 이기종 실행 시스템으로 전환  
  - ### 마이크로초 단위 하드웨어-소프트웨어 심층 융합 (Codesign)  
    - 모델 계층은 MoE Experts 혼합 FP4 양자화와 1조 파라미터 아키텍처용 SWA 정렬 DFlash speculative decoding 채택, TileRT는 이 알고리듬 특성·양자화 방식과 긴밀히 결합해 맞춤형 컴파일 엔진·연산 커널 제공  
    - 두 팀이 하드웨어 물리에 기반한 공동 엔지니어링 트레이드오프를 통해 실행 압력을 하드웨어 경계 안에서 부드럽게 수렴  
    - TileRT는 차세대 AI 인프라·초저지연 추론에 집중하는 시스템 아키텍처 팀으로, persistent kernel·tile 파이프라인·이기종 협업의 풀스택 돌파로 복잡한 이기종 환경에서 극한의 연산 활용 달성  
  
### 추가 데모 영상  
  
- 10초 만에 Snake 게임을 만드는 데모  
- MacOS 인터페이스를 1분만에 재생성하는 데모   
  
### 오픈소스 및 전망  
  
- HuggingFace에 **[MiMo-V2.5-Pro-FP4-DFlash](https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash)** 체크포인트 오픈소스 공개, FP4 양자화 가중치와 DFlash 모델 파라미터 포함  
- **MiMo-V2.5에 대한 UltraSpeed 지원** 준비 중

## Comments


### Comment 59241

- Author: neo
- Created: 2026-06-09T10:15:48+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48446639) 
- **빠른 AI**는 정말 흥미롭지만 꽤 불안하기도 함. 지금도 Claude가 일부 작업에서는 나보다 빠르지만 그래도 아직은 비슷한 선에 있음  
  PR 정리 프롬프트를 1시간째 돌리고 있고 몇 시간 더 걸릴 것 같은데, 이게 거의 즉시 끝난다면 워크플로가 어떻게 바뀔지 상상하기 어려움. 오래 걸리는 프롬프트 때문에 멀티태스킹을 시작했다가 나중에 후회하는 경우도 있음. 반대로 몇 시간·며칠 걸리던 일을 몇 초에서 몇 분 안에 끝내는 AI라면 **판이 바뀌는 수준**이고, 우리가 어디에 자리 잡을지 모르겠음
  - **Deepseek-v4-pro**를 주 모델로 쓰는데 가끔 꽤 짜증남. 쉬운 잡일을 맡기고 “에이전트에게 시켜두고 낮잠이나 자야지”라고 생각해도, 컴퓨터 앞에서 일어나기도 전에 이미 코드를 다 써버림
  - **groq**와 GPT OSS를 써봤는데 20B는 1000 TPS, 120B는 800 TPS로 돌아가서 속도가 꽤 마법처럼 느껴짐  
    Cerebras의 3000 TPS는 아직 안 써봤지만, 이름이 기억나지 않는 15,000 TPS 모델 데모는 해봤음. 실제 업무에 의미 있는 차이를 주는지는 모르겠지만, 눈 깜짝할 사이에 화면 가득 텍스트가 생성되는 걸 보는 건 정말 놀라움. diff를 보여주고 변경이 의도에 맞는지 확인하는 식의 작은 검증에는 매우 유용하고, 이런 확인을 빠르게 여러 번 할 수 있으면 집중된 검사를 방해 없이 많이 할 수 있어 도움됨
  - **지연 시간**이 충분히 낮아지면 멀티태스킹할 이유가 없음. 한 번에 하나씩 시키고 바로 결과를 보면 되는데, 그게 꽤 좋은 작업 방식임  
    계산 집약적이지 않은 작업에서는 원래 대화형 UI가 이런 식임. 프로그램은 대부분 사용자가 버튼을 누르길 기다리며 놀고 있음. 우리가 프로그램을 기다리거나 여러 접시를 돌리며 바쁘게 만들 필요는 없음. 다만 더 빠른 LLM만으로는 부족하고, **빠른 컴파일과 테스트**도 필요함
  - 다음 병목은 **컴파일러**인데, 이것도 LLM으로 모델링하면 됨. 단지 15% 정도 틀릴 뿐 :)  
    진지하게 말하면 Cerebras를 약 2k tokens/s, 매우 낮은 지연 시간으로 쓰는 건 미래를 엿보는 느낌임. 성공 조건을 명시하는 식으로, 부담스러운 수동 검토 없이 일어날 수 있는 작업 중심으로 워크플로를 다시 짜게 됨. 내 문제 중 여기에 잘 맞는 건 드물지만, 앞으로는 이 방향으로 갈 것 같음. 물론 빠른 모델은 보통 최고 성능 모델은 아니지만, **고품질이면서 거의 즉시 사고**가 가능해진다면 우리가 정말 준비되지 않은 게임 체인저가 됨
  - 양면이 있음. **Gemini 3.5 Flash**에게 뭔가 시키면 거의 즉시 결과를 내고 잘 작동해서, 그 속도가 조금 무서울 때가 있음  
    그런데 다른 일을 시키면 엉뚱한 길로 가기도 함. 예전에는 “잠깐, 그건 아니야” 하고 끼어들 수 있었는데, 화면에 텍스트가 보이고 반응할 때쯤이면 이미 대규모 변경을 해버림. 매 편집마다 커밋하게 하지 않는 한, 제대로 갈 때만큼 빠르게 잘못 가는 것도 막기 어렵고, 권한이 많으면 원격 API에서도 실수를 저지를 수 있음

- 생산성 얘기는 잘 이해가 안 됨. 일반 직원 입장에서는 예전에는 2일 걸리던 일을 이제 2시간 만에 할 수 있어도 별로 중요하지 않음. 남은 시간을 자기 마음대로 쓰는 게 아니라 여전히 하루 8시간 일해야 하기 때문임  
  예전에는 2일 동안 문제를 깊게 파고들며 만드는 즐거움이 있었는데, 이제는 올바른 프롬프트로 올바른 답이 나오길 바라며 **슬롯머신**을 당기는 패턴으로 바뀜. 우리에게는 오히려 나빠졌다고 봄. 물론 기업과 임원에게는 완전히 반대 상황이고, AI 상황을 엄청 좋아할 것임
  - AI에게 줄 작업을 **작은 덩어리**로 나누면 아키텍처 통제권을 유지할 수 있고 슬롯머신이 아니게 됨. 여전히 코드를 읽고 가끔은 직접 쓰기도 함  
    많이 쓰지는 않지만, 더 빠른 속도를 얻기 위해 치르는 대가임. 큰 작업을 AI에게 던져두고 한 시간 뒤에 돌아오면, 한 시간을 날리고 아무것도 못 얻었다는 걸 발견할 수도 있음
  - 내 경우 느린 모델은 **문맥과 작업 병렬 관리**를 어렵게 만듦. 한 작업만 하다가 끝내고, 쉬고, 다음 작업으로 넘어가는 편이 훨씬 좋음  
    지금은 세 작업을 병렬로 세 탭에서 돌리고 있는데, 계속 문맥 전환을 해야 해서 훨씬 고통스럽다. 더 빠른 모델이면 기다리는 동안 새 작업을 시작할 필요가 없어짐
  - 어떤 기술이든 멍청하게 쓰는 방법과 똑똑하게 쓰는 방법이 있음. “올바른 답을 주는 슬롯머신”처럼 다루는 건 멍청한 방식임. 잠깐은 통할 수 있어도 모두가 똑같이 할 수 있으니 오래 못 감  
    이 기술을 이용해서 예전보다 더 깊이 문제를 파고드는 걸 막는 사람은 없음. 그게 **똑똑한 사용법**임
  - 직원들이 하루 8시간 일한다는 건 어느 세계 얘기인지 모르겠음. 8시간 출근 기록은 찍을지 몰라도 그 시간 내내 일하진 않음
  - 우리가 결과물의 **품질을 평가하는 능력**은 결과물을 만들어내는 능력보다 더 뒤처지고 있음. “올바른 답”이 가장 그럴듯한 결과라고 보긴 어려움

- 중국 제공업체의 **가격·속도 최적화**와 미국 업체의 가격 인상이 합쳐지면 머지않아 판이 바뀔 것임. 이미 많은 회사가 AI 청구서에서 문제를 겪고 있음
  - 중국 모델은 충분히 좋고 저렴함  
    GitHub Copilot 연간 구독을 쓰고 있는데, Microsoft가 최근 과금을 토큰 기반으로 바꿨음. 아직 프리미엄 요청 단위로 청구되지만 GPT 5.4가 예전 1x에서 이제 6x가 됨
  - 돈이 넉넉하지 않아서 최근에는 Claude나 GPT 대신 **DeepSeek v4 Flash**, GLM 5.1 등을 최대한 쓰고 있음
  - 또 다른 문제는 미국 모델이 전부 **폐쇄형 소스**라는 점임. 대기업이라면 조직이 OpenAI나 Anthropic에 인질로 잡히는 걸 원하지 않을 수 있음  
    미국 모델 연구소들이 어떤 해자를 갖고 있는지 정말 이해가 안 됨. 재귀적 자기 개선이 코앞이라고 하면서 중국 연구소들이 선두 미국 모델에 조금 뒤처진 정도라면, 미국 연구소의 해자는 뭘까? 미국 모델이 중국 오픈소스 모델보다 재귀적 자기 개선을 더 잘한다는 건가? 내가 완전히 틀릴 수도 있지만 OpenAI나 Anthropic에 돈을 넣었다면 지금 전부 빼고 싶음. 앞으로 몇 년 사이 거의 0에 가까워질 가능성이 꽤 크다고 봄
  - 더 큰 문제는 **모델 일관성**임. Anthropic이 Opus 가격을 받으면서 요청을 더 싼 모델로 라우팅할지 알 수 없음  
    그래서 작업 비용을 예측할 수 없음. 여러 번 다시 시작하고 매번 비용을 내야 할 수도 있기 때문임. 게다가 모델이 진짜인지 가짜인지 가늠하려고 프롬프트를 또 넣어야 해서 토큰 사용량도 늘어남
  - 이런 가격 결정을 이끄는 **경제 구조**가 궁금함. 중국 회사들이 미국보다 모델을 더 많이 보조하는 건지, 아니면 국가 간 에너지 정책 차이에서 나오는 결과인지 모르겠음

- MiMo가 Deepseek만큼 저렴하다면, 이전 논의 [https://news.ycombinator.com/item?id=48282814](<https://news.ycombinator.com/item?id=48282814>) 기준으로 초고속을 위해 3배를 곱해도 여전히 충격적으로 쌈
  - **MiMo와 DeepSeek**가 싼 게 아니라, Anthropic과 OpenAI가 제공 가치 대비 비싼 것임

- **MiMo V2.5 Pro** 일반 속도 버전은 우리가 테스트한 오픈 가중치 에이전트형 코딩 모델 중 여전히 가장 강함. 성능이 더 낮은 릴리스들보다 관심을 훨씬 덜 받는 게 흥미로움  
  여기서 “fast mode” 가격도 매우 경쟁력 있음. 데이터는 [https://gertlabs.com/rankings](<https://gertlabs.com/rankings>)에 있음
  - 왜 **deepseek v4 pro**가 flash보다 훨씬 낮게 나오지? mimo 2.5는 어디 있음?

- 홍보처럼 들릴 수 있지만, 지수 성장이라는 게 있음. 우리는 프롬프트에서 거의 즉시 소프트웨어 여러 개를 만들고 그중 최선을 고르는 단계에 갈 것임  
  최고의 문법 설탕 메서드 이름을 가진 라이브러리를 고르는 논의는, 어셈블리로 입력하자고 제안하는 것만큼 이상하게 보일 것임
  - 형편없는 소프트웨어의 **지수 성장**처럼 들림. 예전에도 소프트웨어 엔지니어링에 대량 생산된 쓰레기가 없었던 건 아니지만, 이제는 폭발적으로 넘쳐날 것임
  - 예전에는 3개월마다 새 **프론트엔드 프레임워크**가 나오던 시절이 있었음. 이제는 거의 멈췄고 아무도 신경 쓰지 않음
  - 잘 모르겠음. 엔지니어들은 여전히 옛 방식으로 소프트웨어를 만들 수 있음. 예를 들어 Obsidian이나 Ghostty 같은 걸 몇 달씩 걸려 만들면서, 코드 한 줄 한 줄과 의존성, 좋은 아키텍처를 챙기는 방식 말임  
    진짜 옛 방식이고, 제품이 좋으면 성공할 것임
  - 더 희망적으로 봄. AI가 좋아지고 빨라지면, 예전에는 작업량 때문에 피했던 코드를 더 빠르고 반복적으로 개선할 수 있음  
    실제로 AI 덕분에 원래라면 말도 안 되는 수준의 **리팩터링**을 여러 번 했음. 작업량 때문만이 아니라, 때로는 성공할지조차 모르기 때문에 이중 마찰이 있음. AI가 있으면 커피 한 잔 마시는 동안 리팩터링을 던져보고 어디서 막히는지 확인할 수 있음. 전반적으로 AI는 인류가 자기 자신을 더 극단적으로 드러내게 만들 것임. 좋은 쪽으로도, 나쁜 쪽으로도. 다만 나쁜 쪽이 더 많을 것 같음
  - 지수적 흐름은 몇 년 안에 완전한 **메모리 내 연산**으로 이어질 것이고, 이는 100배 더 효율적일 것임. 즉 최소 10배 큰 모델이 가능해지고 훨씬 똑똑하면서도 매우 빨라짐  
    소규모 비즈니스에서는 코드를 아예 건너뛰고, 문맥 데이터와 프롬프트에서 대화형 속도로 UI를 바로 렌더링하게 될 것임. 게임에서 Google Genie가 하는 것과 비슷하지만 훨씬 더 정확한 형태임

- 이건 **음성**에서 정말 강력할 것임. 추론 능력 덕분에 LLM이 훨씬 똑똑해지지만, 음성은 지연 시간 예산이 너무 빡빡해서 보통 그 시간을 쓸 수 없음

- Cerebras가 **Kimi K2.6**을 3000t/s로 시험 중임, 초대 전용임. 빠른 하드웨어가 프런티어 모델에서 더 보편화될 때가 기대됨  
  Nvidia에서 속도에 맞춰 설계된 모델들은 그 간극을 메울 수 있는 좋은 추가 요소임
  - 원문에서는 지금까지 이런 속도에 도달하려면 Cerebras 같은 특수하고 매우 비싼 하드웨어가 필요했다고 말함  
    이번 결과의 새로운 점은 표준 하드웨어, 즉 GPU 8개짜리 서버 하나만으로 **1조 개 이상 매개변수 모델**에서 1000 token/s를 넘겼다는 점임
  - 출처가 궁금함. Cerebras 웹사이트에는 1000t/s라고 나와 있음 [https://www.cerebras.ai/blog/which-is-faster-gemini-3-5-flas...](<https://www.cerebras.ai/blog/which-is-faster-gemini-3-5-flash-or-kimi-k2-6-on-cerebras>)
  - Cerebras는 지난달에 상장해서 운이 좋았음. 지금이었다면 달랐을 것임
  - Cerebras는 현재 **프리픽스 캐싱** 할인을 제공하지 않아서, 에이전트형 작업부하에서는 사용 비용이 sqr(n_turns)만큼 더 비싸짐

- 흥미로움. 프런티어 모델들은 꽤 인상적이 되었지만, 모두 대화형 **휴먼 인 더 루프 코딩**에는 조금 느림. 그래서 바이브 코딩과 여러 에이전트를 병렬로 돌리는 방향을 유도함. 빠른 에이전트는 파트너에 더 가깝게 느껴짐  
  한동안 Cerebras GLM 4.7을 여러 작업에 썼음. 아주 똑똑한 모델은 아니지만, 사이트의 라이브 프로토타입을 띄워두고 “폰트 좀 키워. 아니 그렇게 많이 말고”라고 입력하면 실시간으로 바뀌는 경험은 훌륭함. 그리고 MiMo 2.5는 GLM 4.7보다 훨씬 유능함
  - **GLM 4.7**을 코드 작성 에이전트에 써봤는데, 200~1000줄짜리 간단한 스크립트에서도 극도로 나빴음. Cerebras 제공 모델을 포기해야 했고, 똑똑한 모델은 엔터프라이즈 플랜에만 있음
  - MiMo 2.5는 **MiMo 2.5 Pro**와 같은 모델이 아님  
    GLM 5.1은 z.ai의 최신 반복 버전이고 인기 있는 오픈 가중치 코딩 모델 중 하나임. 써봤다면, 최근 70% 가격 인하 뒤에도 MiMo 2.5 Pro보다 비싸진 GLM 5.1이 어떻게 비교되는지 궁금함

- **1k TPS**도 훌륭하지만, 이 스레드에 AI가 생성한 댓글이 얼마나 많은지가 더 흥미로움