# MiniMax M2.5 출시 - 실제 업무 생산성을 위해 설계된 모델

> Clean Markdown view of GeekNews topic #26658. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26658](https://news.hada.io/topic?id=26658)
- GeekNews Markdown: [https://news.hada.io/topic/26658.md](https://news.hada.io/topic/26658.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-02-13T16:35:51+09:00
- Updated: 2026-02-13T16:35:51+09:00
- Original source: [minimax.io](https://www.minimax.io/news/minimax-m25)
- Points: 7
- Comments: 1

## Summary

**MiniMax M2.5**는 강화학습 기반으로 실제 업무 환경에서 훈련된 모델로, **코딩·검색·오피스 작업 전반의 생산성 향상**에 초점을 맞추고 있습니다. SWE-Bench Verified에서 80.2%를 기록하며 이전 세대보다 37% 빠른 속도를 달성했고, **시간당 1달러 수준의 저비용**으로 운영할 수 있습니다. 내부적으로는 전체 업무의 30%, 신규 코드의 80%를 자동 수행하며, 실제 기업 환경에서의 **지속 가능한 자동화 모델**로 자리 잡고 있습니다.

## Topic Body

- **강화학습 기반 대규모 훈련**을 통해 실제 환경에서의 복잡한 작업 수행 능력을 높인 모델로, **코딩·검색·오피스 업무 등 경제적 가치가 높은 영역**에서 최고 수준 성능을 기록  
- SWE-Bench Verified에서 **80.2%** , Multi-SWE-Bench에서 **51.3%** , BrowseComp에서 **76.3%** 를 달성하며, 이전 세대 대비 **37% 빠른 속도**를 보임  
- **시간당 1달러(100TPS 기준)** 의 저비용으로 운영 가능하며, 성능은 Claude Opus 4.6과 유사 수준  
- **코딩·검색·오피스 작업** 전반에서 구조적 사고, 효율적 검색, 전문가 수준 문서 작성 능력을 강화  
- MiniMax 내부에서도 **전체 업무의 30%를 자동 수행**, 코드 생성의 80%를 담당하며 **실제 생산성 향상**을 입증  
  
---  
  
### M2.5 개요 및 주요 성능  
- M2.5는 수십만 개의 **복잡한 실제 환경에서 강화학습**으로 훈련된 모델로, **코딩·도구 활용·검색·사무 작업** 등에서 SOTA 수준 달성  
  - SWE-Bench Verified 80.2%, Multi-SWE-Bench 51.3%, BrowseComp(컨텍스트 관리 포함) 76.3% 기록  
- SWE-Bench Verified 평가에서 **M2.1보다 37% 빠른 속도**로 작업 완료, **Claude Opus 4.6과 동일한 처리 속도** 달성  
- **100TPS 기준 시간당 1달러**, **50TPS 기준 0.3달러**로 운영 가능, 비용 효율성이 극대화된 모델  
  
### 코딩 성능  
- 다국어 코딩 작업에서 **SOTA 수준**에 도달, 특히 **10개 이상 언어**(Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)에서 우수한 성능  
- 코드 작성 전 **시스템 설계·UI 구성·기능 분해**를 수행하는 **아키텍트형 사고 구조**를 보유  
- **200,000개 이상의 실제 환경**에서 훈련되어, 버그 수정뿐 아니라 **전체 개발 생애주기**(설계→개발→기능 반복→테스트) 지원  
- **VIBE-Pro 벤치마크**에서 Opus 4.5와 유사한 성능, SWE-Bench Verified에서  
  - Droid: 79.7(M2.5) > 78.9(Opus 4.6)  
  - OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)  
  
### 검색 및 도구 호출  
- BrowseComp, Wide Search 등에서 **업계 최고 수준 성능** 달성  
- **RISE(Realistic Interactive Search Evaluation)** 을 통해 실제 전문가 수준의 검색 능력 검증  
- 이전 세대 대비 **20% 적은 검색 라운드**로 동일 결과 도출, **토큰 효율성 향상**  
- 복잡한 에이전트 작업에서 **정확한 탐색 경로와 효율적 추론 과정**을 통해 결과 도출  
  
### 오피스 작업 능력  
- **금융·법률·사회과학 전문가**와 협업해 데이터 구축 및 피드백 반영  
- Word, PowerPoint, Excel 등에서 **전문 문서·재무 모델링** 수행 능력 강화  
- 내부 평가 프레임워크 **GDPval-MM**에서 평균 **59.0% 승률** 기록  
- **토큰 비용 대비 생산성 향상**을 실측해 실제 업무 효율성 검증  
  
### 효율성 및 속도  
- **100TPS의 기본 처리 속도**, 타 모델 대비 약 2배 빠름  
- SWE-Bench Verified 기준  
  - M2.5: 평균 3.52M 토큰, 22.8분 소요  
  - M2.1: 3.72M 토큰, 31.3분 소요  
  - **37% 속도 향상**, **Claude Opus 4.6(22.9분)** 과 동일 수준  
  - **비용은 Opus 4.6의 10%** 수준  
  
### 비용 구조  
- 두 가지 버전 제공: **M2.5-Lightning(100TPS)** , **M2.5(50TPS)**  
  - Lightning: 입력 100만 토큰당 $0.3, 출력 100만 토큰당 $2.4  
  - M2.5: 위 요금의 절반  
- **출력 기준 비용은 Opus, Gemini 3 Pro, GPT-5의 1/10~1/20 수준**  
- 100TPS로 1시간 연속 실행 시 $1, 50TPS 시 $0.3  
- **연간 $10,000으로 4개 인스턴스 상시 운영 가능**, 대규모 에이전트 운영에 적합  
  
### 모델 개선 속도  
- 3개월 반 동안 M2 → M2.1 → M2.5를 연속 출시, **개선 속도가 경쟁 모델군(Claude, GPT, Gemini)보다 빠름**  
- SWE-Bench Verified에서 **가파른 성능 향상률** 기록  
  
### 강화학습 확장 (RL Scaling)  
- **수십만 개의 RL 환경**을 구축해 모델 훈련에 활용  
- **에이전트형 RL 프레임워크 Forge**를 자체 개발  
  - 훈련·추론 엔진과 에이전트를 완전히 분리  
  - **비동기 스케줄링 최적화** 및 **트리 병합 전략**으로 **훈련 속도 40배 향상**  
- **CISPO 알고리듬**을 사용해 대규모 MoE 모델의 안정성 확보  
- **프로세스 보상 메커니즘**으로 긴 컨텍스트에서도 품질 모니터링  
- **지능과 응답 속도의 균형**을 위한 작업 시간 평가 체계 도입  
  
### MiniMax Agent 통합  
- M2.5는 **MiniMax Agent**에 완전 통합되어 **전문 직원 수준의 에이전트 경험** 제공  
- **Office Skills**(Word, PowerPoint, Excel 등)를 자동 로드해 문서 품질 향상  
- 사용자는 Office Skills와 **산업별 전문 지식**을 결합해 **맞춤형 Expert** 생성 가능  
  - 예: 연구 보고서 자동 작성, 재무 모델 자동 생성 및 검증  
- 현재 **10,000개 이상의 Expert**가 구축되어 빠르게 증가 중  
- MiniMax 내부에서 **전체 업무의 30%를 M2.5가 자동 수행**,  
  - R&D, 제품, 영업, 인사, 재무 등 전 부문 활용  
  - **신규 커밋 코드의 80%가 M2.5 생성 코드**  
  
### 부록: 평가 방법 요약  
- SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling 등 **다양한 내부·외부 벤치마크** 사용  
- 모든 테스트는 **통일된 파이프라인**과 **여러 차례 반복 실행 평균값**으로 산출  
- 평가 환경에는 **8코어 CPU, 16GB 메모리, 7200초 제한, 표준 도구 세트**가 포함됨

## Comments


### Comment 51123

- Author: neo
- Created: 2026-02-13T16:35:51+09:00
- Points: 2

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46991154) 
- 더 **좋고 저렴한 모델**이 많이 나오길 바람  
  경쟁이 활발해야 시장이 건강해짐  
  하지만 벤치마크 결과는 조심스럽게 봐야 함  
  MiniMax 2.1은 괜찮지만 “똑똑하다”고 하긴 어려움  
  특히 **테스트 통과를 위해 코드베이스를 조작**하는 경향이 있음  
  실제로 실패한 테스트를 성공한 것처럼 보고서를 꾸미기도 함  
  [Artificial Analysis의 지표](https://artificialanalysis.ai/models/minimax-m2-1)에 따르면 MiniMax 2.1의 코딩 점수는 33으로, 상위 모델들과 큰 차이가 있음
  - 나도 여러 LLM에서 비슷한 문제를 봄  
    알고리즘 문제를 풀게 하면, 못 풀 때 **테스트 케이스를 하드코딩**해버림  
    DeepSeek도 한때 이런 식으로 동작했음
  - MiniMax는 안 써봤지만 GPT-5.2-Codex에서도 같은 문제를 봄  
    단순한 타입 에러를 고치지 않고 **cast나 Any를 남발**해서 문제를 덮어버림  
    진짜 수정 대신 타입 검사를 회피하는 식이었음
  - MiniMax 2.1은 내 데이터 파싱 작업에서는 오류가 너무 많았음  
    대신 [MiMo v2 Flash](https://openrouter.ai/xiaomi/mimo-v2-flash)가 **가격 대비 성능**이 훨씬 좋았음

- Pelican 이미지는 알아볼 수는 있지만 완성도가 낮음  
  특히 **자전거 프레임의 바가 빠져 있음**  
  [관련 이미지](https://gist.github.com/simonw/61b7953f29a0b7fee1f232f6d9826b42?permalink_comment_id=5984793#gistcomment-5984793)
  - 앞 포크가 없는 게 오히려 나을 수도 있음  
    대부분 모델이 **조향 불가능한 앞바퀴 구조**를 만들어내는데, 이번 건 그보단 솔직한 “미해결 문제” 표시 같음  
    마치 코드에 “TODO” 주석을 남긴 느낌임  
    펠리컨의 다리 길이를 생각하면 자세도 의외로 해부학적으로 자연스러움  
  - 펠리컨 대신 **문어가 자전거 타는 그림**을 시도해보면 훨씬 어려울 듯함

- MiniMax M2.1은 내가 가장 자주 쓰는 모델임  
  **빠르고 저렴하며 툴 호출 능력**이 뛰어남  
  개발에는 Antigravity + Claude를 쓰지만, 워크플로우에서는 MiniMax를 먼저 씀  
  코드 작업엔 GLM, 영어 분석엔 Kimi K2.5를 씀  
  아직 self-hosting은 안 하지만, 중국 OSS 모델을 선호함  
  미래에 직접 호스팅할 수 있는 가능성이 있기 때문임  
  내 openclaw assistant도 MiniMax로 구동 중이며, **속도·품질·비용의 균형**이 가장 좋음  
  100 tokens/sec로 1시간 돌리면 $1, 50 tokens/sec면 $0.30 수준임
  - 이런 모델들이 **대형 연구소의 독점을 견제**해줘서 좋음  
    혹시 API로 쓰는지, 월 구독제인지 궁금함  
    월 플랜은 속도 제한이나 리셋이 있는지도 알고 싶음  
    나도 MM2.1이 가장 경제적이고, K2.5가 전반적으로 가장 강하다고 느낌
  - 너무 **저렴해서 놀람**  
    OpenRouter에서 바로 찾아봐야겠음

- 벤치마크가 너무 좋아 보여서 의심스러움  
  훈련 방식이 흥미롭긴 하지만 **진짜 혁신적인지는 불확실**함  
  나는 모델의 객관적 특성과 과거 경험을 기준으로 벤치마크 신뢰도를 판단함  
  예를 들어 Kimi K2.5는 실제로 **균형 잡히고 지능적인 느낌**이라 수치도 믿을 만함  
  GLM 5는 과거엔 과장된 벤치마크를 냈지만, 이번엔 모델 크기와 아키텍처를 크게 개선했기에 가능성은 있음  
  반면 MiniMax는 항상 **취약하고 오류 루프에 빠지기 쉬운 모델**이었음  
  단순한 JavaScript 코드도 자주 망가뜨렸고, 모델 크기도 너무 작아서 이번 성능 주장은 믿기 어려움

- M2는 **벤치마크 점수 부풀리기**의 대표 사례였음  
  SWE-B 결과와 실제 미훈련 과제 간의 격차가 컸음  
  2.5 버전은 [brokk.ai의 파워 랭킹](https://brokk.ai/power-ranking)에 추가 예정임

- 우리 회사는 Github Copilot에서 OpenAI, Anthropic, Google LLM만 허용함  
  덕분에 **크레딧이 한 주 만에 소진**됨  
  더 다양한 LLM을 쓸 수 있으면 좋겠음

- M2.5를 OpenCode에서 간단한 작업에 써봤는데 **결과가 형편없었음**  
  단 250줄짜리 독립 스크립트였는데도, Opus 4.6이 **힌트만으로 해결하는 수준**을 M2.5는 세세한 프롬프트 없이는 못 해냄  
  [테스트한 코드 링크](https://github.com/oxidecomputer/console/pull/3070/commits)

- 흥미로운 점은, **중간 규모(Tier-2) 기업**이 경쟁 모델을 거의 내놓지 않는다는 것임  
  결국 빅4 연구소와 중국 연구소의 대결 구도임
  - 그래도 **Mistral**은 예외로 볼 수 있음

- **언어별 LLM**이 일반 컴퓨터에서도 돌아가면 좋겠음  
  예를 들어 Python 3+와 특정 프레임워크, 코드 저장소만 학습한 모델 같은 것임  
  이렇게 하면 인터넷 검색용 모델과 분리해 **비용 절감**도 가능할 듯함  
  - 이런 **distillation 방식**은 가능하겠지만, 다국어 학습이 LLM의 성능에 큰 도움이 된다고 생각함

- 이 모델이 시간당 $1이라는데, 내가 쓰는 Claude Code의 $200/월 플랜과 비슷한 수준임  
  실제로는 하루에 3개 정도를 병렬로 돌리며 주 60시간 정도 사용함  
  **24/7로 계속 돌릴 만한 용도**가 있다면 흥미롭겠지만, 지금은 잘 모르겠음  
  혹시 누가 그런 식으로 쓰는 사례가 있는지 궁금함