3P by GN⁺ 15시간전 | ★ favorite | 댓글 1개
  • 강화학습 기반 대규모 훈련을 통해 실제 환경에서의 복잡한 작업 수행 능력을 높인 모델로, 코딩·검색·오피스 업무 등 경제적 가치가 높은 영역에서 최고 수준 성능을 기록
  • SWE-Bench Verified에서 80.2% , Multi-SWE-Bench에서 51.3% , BrowseComp에서 76.3% 를 달성하며, 이전 세대 대비 37% 빠른 속도를 보임
  • 시간당 1달러(100TPS 기준) 의 저비용으로 운영 가능하며, 성능은 Claude Opus 4.6과 유사 수준
  • 코딩·검색·오피스 작업 전반에서 구조적 사고, 효율적 검색, 전문가 수준 문서 작성 능력을 강화
  • MiniMax 내부에서도 전체 업무의 30%를 자동 수행, 코드 생성의 80%를 담당하며 실제 생산성 향상을 입증

M2.5 개요 및 주요 성능

  • M2.5는 수십만 개의 복잡한 실제 환경에서 강화학습으로 훈련된 모델로, 코딩·도구 활용·검색·사무 작업 등에서 SOTA 수준 달성
    • SWE-Bench Verified 80.2%, Multi-SWE-Bench 51.3%, BrowseComp(컨텍스트 관리 포함) 76.3% 기록
  • SWE-Bench Verified 평가에서 M2.1보다 37% 빠른 속도로 작업 완료, Claude Opus 4.6과 동일한 처리 속도 달성
  • 100TPS 기준 시간당 1달러, 50TPS 기준 0.3달러로 운영 가능, 비용 효율성이 극대화된 모델

코딩 성능

  • 다국어 코딩 작업에서 SOTA 수준에 도달, 특히 10개 이상 언어(Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)에서 우수한 성능
  • 코드 작성 전 시스템 설계·UI 구성·기능 분해를 수행하는 아키텍트형 사고 구조를 보유
  • 200,000개 이상의 실제 환경에서 훈련되어, 버그 수정뿐 아니라 전체 개발 생애주기(설계→개발→기능 반복→테스트) 지원
  • VIBE-Pro 벤치마크에서 Opus 4.5와 유사한 성능, SWE-Bench Verified에서
    • Droid: 79.7(M2.5) > 78.9(Opus 4.6)
    • OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

검색 및 도구 호출

  • BrowseComp, Wide Search 등에서 업계 최고 수준 성능 달성
  • RISE(Realistic Interactive Search Evaluation) 을 통해 실제 전문가 수준의 검색 능력 검증
  • 이전 세대 대비 20% 적은 검색 라운드로 동일 결과 도출, 토큰 효율성 향상
  • 복잡한 에이전트 작업에서 정확한 탐색 경로와 효율적 추론 과정을 통해 결과 도출

오피스 작업 능력

  • 금융·법률·사회과학 전문가와 협업해 데이터 구축 및 피드백 반영
  • Word, PowerPoint, Excel 등에서 전문 문서·재무 모델링 수행 능력 강화
  • 내부 평가 프레임워크 GDPval-MM에서 평균 59.0% 승률 기록
  • 토큰 비용 대비 생산성 향상을 실측해 실제 업무 효율성 검증

효율성 및 속도

  • 100TPS의 기본 처리 속도, 타 모델 대비 약 2배 빠름
  • SWE-Bench Verified 기준
    • M2.5: 평균 3.52M 토큰, 22.8분 소요
    • M2.1: 3.72M 토큰, 31.3분 소요
    • 37% 속도 향상, Claude Opus 4.6(22.9분) 과 동일 수준
    • 비용은 Opus 4.6의 10% 수준

비용 구조

  • 두 가지 버전 제공: M2.5-Lightning(100TPS) , M2.5(50TPS)
    • Lightning: 입력 100만 토큰당 $0.3, 출력 100만 토큰당 $2.4
    • M2.5: 위 요금의 절반
  • 출력 기준 비용은 Opus, Gemini 3 Pro, GPT-5의 1/10~1/20 수준
  • 100TPS로 1시간 연속 실행 시 $1, 50TPS 시 $0.3
  • 연간 $10,000으로 4개 인스턴스 상시 운영 가능, 대규모 에이전트 운영에 적합

모델 개선 속도

  • 3개월 반 동안 M2 → M2.1 → M2.5를 연속 출시, 개선 속도가 경쟁 모델군(Claude, GPT, Gemini)보다 빠름
  • SWE-Bench Verified에서 가파른 성능 향상률 기록

강화학습 확장 (RL Scaling)

  • 수십만 개의 RL 환경을 구축해 모델 훈련에 활용
  • 에이전트형 RL 프레임워크 Forge를 자체 개발
    • 훈련·추론 엔진과 에이전트를 완전히 분리
    • 비동기 스케줄링 최적화트리 병합 전략으로 훈련 속도 40배 향상
  • CISPO 알고리듬을 사용해 대규모 MoE 모델의 안정성 확보
  • 프로세스 보상 메커니즘으로 긴 컨텍스트에서도 품질 모니터링
  • 지능과 응답 속도의 균형을 위한 작업 시간 평가 체계 도입

MiniMax Agent 통합

  • M2.5는 MiniMax Agent에 완전 통합되어 전문 직원 수준의 에이전트 경험 제공
  • Office Skills(Word, PowerPoint, Excel 등)를 자동 로드해 문서 품질 향상
  • 사용자는 Office Skills와 산업별 전문 지식을 결합해 맞춤형 Expert 생성 가능
    • 예: 연구 보고서 자동 작성, 재무 모델 자동 생성 및 검증
  • 현재 10,000개 이상의 Expert가 구축되어 빠르게 증가 중
  • MiniMax 내부에서 전체 업무의 30%를 M2.5가 자동 수행,
    • R&D, 제품, 영업, 인사, 재무 등 전 부문 활용
    • 신규 커밋 코드의 80%가 M2.5 생성 코드

부록: 평가 방법 요약

  • SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling 등 다양한 내부·외부 벤치마크 사용
  • 모든 테스트는 통일된 파이프라인여러 차례 반복 실행 평균값으로 산출
  • 평가 환경에는 8코어 CPU, 16GB 메모리, 7200초 제한, 표준 도구 세트가 포함됨
Hacker News 의견들
  • 좋고 저렴한 모델이 많이 나오길 바람
    경쟁이 활발해야 시장이 건강해짐
    하지만 벤치마크 결과는 조심스럽게 봐야 함
    MiniMax 2.1은 괜찮지만 “똑똑하다”고 하긴 어려움
    특히 테스트 통과를 위해 코드베이스를 조작하는 경향이 있음
    실제로 실패한 테스트를 성공한 것처럼 보고서를 꾸미기도 함
    Artificial Analysis의 지표에 따르면 MiniMax 2.1의 코딩 점수는 33으로, 상위 모델들과 큰 차이가 있음

    • 나도 여러 LLM에서 비슷한 문제를 봄
      알고리즘 문제를 풀게 하면, 못 풀 때 테스트 케이스를 하드코딩해버림
      DeepSeek도 한때 이런 식으로 동작했음
    • MiniMax는 안 써봤지만 GPT-5.2-Codex에서도 같은 문제를 봄
      단순한 타입 에러를 고치지 않고 cast나 Any를 남발해서 문제를 덮어버림
      진짜 수정 대신 타입 검사를 회피하는 식이었음
    • MiniMax 2.1은 내 데이터 파싱 작업에서는 오류가 너무 많았음
      대신 MiMo v2 Flash가격 대비 성능이 훨씬 좋았음
  • Pelican 이미지는 알아볼 수는 있지만 완성도가 낮음
    특히 자전거 프레임의 바가 빠져 있음
    관련 이미지

    • 앞 포크가 없는 게 오히려 나을 수도 있음
      대부분 모델이 조향 불가능한 앞바퀴 구조를 만들어내는데, 이번 건 그보단 솔직한 “미해결 문제” 표시 같음
      마치 코드에 “TODO” 주석을 남긴 느낌임
      펠리컨의 다리 길이를 생각하면 자세도 의외로 해부학적으로 자연스러움
    • 펠리컨 대신 문어가 자전거 타는 그림을 시도해보면 훨씬 어려울 듯함
  • MiniMax M2.1은 내가 가장 자주 쓰는 모델임
    빠르고 저렴하며 툴 호출 능력이 뛰어남
    개발에는 Antigravity + Claude를 쓰지만, 워크플로우에서는 MiniMax를 먼저 씀
    코드 작업엔 GLM, 영어 분석엔 Kimi K2.5를 씀
    아직 self-hosting은 안 하지만, 중국 OSS 모델을 선호함
    미래에 직접 호스팅할 수 있는 가능성이 있기 때문임
    내 openclaw assistant도 MiniMax로 구동 중이며, 속도·품질·비용의 균형이 가장 좋음
    100 tokens/sec로 1시간 돌리면 $1, 50 tokens/sec면 $0.30 수준임

    • 이런 모델들이 대형 연구소의 독점을 견제해줘서 좋음
      혹시 API로 쓰는지, 월 구독제인지 궁금함
      월 플랜은 속도 제한이나 리셋이 있는지도 알고 싶음
      나도 MM2.1이 가장 경제적이고, K2.5가 전반적으로 가장 강하다고 느낌
    • 너무 저렴해서 놀람
      OpenRouter에서 바로 찾아봐야겠음
  • 벤치마크가 너무 좋아 보여서 의심스러움
    훈련 방식이 흥미롭긴 하지만 진짜 혁신적인지는 불확실
    나는 모델의 객관적 특성과 과거 경험을 기준으로 벤치마크 신뢰도를 판단함
    예를 들어 Kimi K2.5는 실제로 균형 잡히고 지능적인 느낌이라 수치도 믿을 만함
    GLM 5는 과거엔 과장된 벤치마크를 냈지만, 이번엔 모델 크기와 아키텍처를 크게 개선했기에 가능성은 있음
    반면 MiniMax는 항상 취약하고 오류 루프에 빠지기 쉬운 모델이었음
    단순한 JavaScript 코드도 자주 망가뜨렸고, 모델 크기도 너무 작아서 이번 성능 주장은 믿기 어려움

  • M2는 벤치마크 점수 부풀리기의 대표 사례였음
    SWE-B 결과와 실제 미훈련 과제 간의 격차가 컸음
    2.5 버전은 brokk.ai의 파워 랭킹에 추가 예정임

  • 우리 회사는 Github Copilot에서 OpenAI, Anthropic, Google LLM만 허용함
    덕분에 크레딧이 한 주 만에 소진
    더 다양한 LLM을 쓸 수 있으면 좋겠음

  • M2.5를 OpenCode에서 간단한 작업에 써봤는데 결과가 형편없었음
    단 250줄짜리 독립 스크립트였는데도, Opus 4.6이 힌트만으로 해결하는 수준을 M2.5는 세세한 프롬프트 없이는 못 해냄
    테스트한 코드 링크

  • 흥미로운 점은, 중간 규모(Tier-2) 기업이 경쟁 모델을 거의 내놓지 않는다는 것임
    결국 빅4 연구소와 중국 연구소의 대결 구도임

    • 그래도 Mistral은 예외로 볼 수 있음
  • 언어별 LLM이 일반 컴퓨터에서도 돌아가면 좋겠음
    예를 들어 Python 3+와 특정 프레임워크, 코드 저장소만 학습한 모델 같은 것임
    이렇게 하면 인터넷 검색용 모델과 분리해 비용 절감도 가능할 듯함

    • 이런 distillation 방식은 가능하겠지만, 다국어 학습이 LLM의 성능에 큰 도움이 된다고 생각함
  • 이 모델이 시간당 $1이라는데, 내가 쓰는 Claude Code의 $200/월 플랜과 비슷한 수준임
    실제로는 하루에 3개 정도를 병렬로 돌리며 주 60시간 정도 사용함
    24/7로 계속 돌릴 만한 용도가 있다면 흥미롭겠지만, 지금은 잘 모르겠음
    혹시 누가 그런 식으로 쓰는 사례가 있는지 궁금함