# MiniMax-M1 오픈-웨이트, 대규모 하이브리드 어텐션 추론 모델

> Clean Markdown view of GeekNews topic #21528. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=21528](https://news.hada.io/topic?id=21528)
- GeekNews Markdown: [https://news.hada.io/topic/21528.md](https://news.hada.io/topic/21528.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-06-19T09:53:14+09:00
- Updated: 2025-06-19T09:53:14+09:00
- Original source: [github.com/MiniMax-AI](https://github.com/MiniMax-AI/MiniMax-M1)
- Points: 5
- Comments: 1

## Summary

MiniMax-M1은 **하이브리드 Mixture-of-Experts 구조**와 **라이팅 어텐션**, 그리고 **CISPO 알고리듬**을 결합하여 긴 컨텍스트 지원과 복잡한 추론 수행 능력을 혁신적으로 강화하였습니다. 벤치마크에서 SWE-bench 및 OpenAI-MRCR 등 다양한 **SW 엔지니어링 및 장문 입력 작업** 분야에서 기존 최고 수준의 오픈 모델을 상회하는 성능을 입증하였습니다. **함수형 인터페이스, 챗봇, API** 등 개발자 친화적 도구와 다양한 환경 지원으로 차세대 언어모델 에이전트 실전 활용 가치를 높입니다.

## Topic Body

- MiniMax-M1은 **세계 최초의 오픈-웨이트 대규모 하이브리드 어텐션 기반 추론 모델**임  
- **4560억 파라미터** 규모의 하이브리드 MoE 구조와 라이팅 어텐션 메커니즘으로 긴 컨텍스트 처리에 탁월함  
- RL 기반 학습과 **CISPO 알고리듬** 도입으로 다양한 문제를 효율적으로 해결 가능함  
- 벤치마크 상에서 기존 **DeepSeek-R1, Qwen3-235B** 등과 비교해 복잡한 SW 엔지니어링, 툴 사용, 장문 입력 등에서 뛰어난 성능을 보임  
- 다양한 추론 환경 및 지원 도구, API, 챗봇 제공으로 **차세대 언어모델 에이전트**의 기반으로 활용 가치가 높음  
  
---  
  
### MiniMax-M1 오픈소스 프로젝트 개요  
  
- MiniMax-M1은 **세계 최초의 오픈-웨이트 대규모 하이브리드 어텐션 추론 모델**로, 기존 상용·오픈 모델 대비 강력한 장점과 실전 활용성을 보여줌  
- 대규모 하이브리드 Mixture-of-Experts(MoE) 구조와 라이팅 어텐션 메커니즘을 결합하여 긴 컨텍스트, 복잡한 추론, 소프트웨어 환경 문제 해결에 최적화  
- 긴 맥락(최대 100만 토큰)을 효율적으로 지원하고, 테스트 시 연산량(100K 기준 DeepSeek-R1 대비 25% FLOPs)을 대폭 절감  
- 최신 RL 기술, 신개념 CISPO 알고리듬과 하이브리드 어텐션 설계로 확장성과 추론 효율성 모두 극대화  
  
### 1. 모델 개요  
  
- MiniMax-M1은 **하이브리드 Mixture-of-Experts(MoE) 구조**와 **라이팅 어텐션**을 탑재함  
- 전신인 MiniMax-Text-01(4560억 파라미터, 토큰당 459억 파라미터 활성화) 기반으로 개발됨  
- **1백만 토큰의 컨텍스트 길이** 지원(DeepSeek R1의 8배 컨텍스트 크기)  
- 라이팅 어텐션으로 테스트 연산량 대폭 절감(DeepSeek R1 대비 25%)  
- 긴 입력과 복잡한 추론이 요구되는 과업에 적합함  
- 대규모 RL을 통한 수학적 추론, 실전 SW 엔지니어링 등 폭넓은 문제에 대한 학습 진행  
- MiniMax-M1만의 RL 스케일링 프레임워크 제시  
  - CISPO 기법: 기존 RL 방식보다 우수한 **중요도 샘플링 가중치 클리핑 알고리듬** 도입  
  - 하이브리드 어텐션 기반으로 RL 효율성 및 확장성 강화  
- **40K, 80K 사고 버짓** 두 가지 모델로 학습/공개  
- SW 엔지니어링, 툴 사용, 롱컨텍스트 작업 등에서 기존 DeepSeek-R1 및 Qwen3-235B 등 고성능 오픈모델 대비 **탁월한 성능**  
- 실전 도전과제 해결을 위한 차세대 언어모델 에이전트 구축 기반 제공  
  
### 2. 평가(Evaluation)  
  
#### 벤치마크 결과 주요 내용  
  
- **수학, 코드, SW 엔지니어링, 장문 컨텍스트 분야**에서 SOTA급 수준  
- 타 오픈모델 대비 전반적으로 높은 스코어 달성, 특히 **소프트웨어 벤치(SWE-bench)** 및 **롱컨텍스트**에서 차별적 경쟁력  
- 주목할 만한 항목 예시  
  - SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)  
  - OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)  
  - LiveCodeBench, FullStackBench 등 SW 개발 relevant task에서 견고함  
- **실행 환경**: temperature 1.0, top_p 0.95에서 평가  
- SWE-bench, TAU-bench 등 벤치마크에 대해 자체적인 절차와 설정(예: 파일 단위 이중 단계 로컬라이제이션, embedding 미사용) 기반 평가 시행  
  
### 3. MiniMax-M1 모델 사용 가이드  
  
#### 최적 성능을 위한 권장 설정  
  
##### 3.1. 추론 파라미터  
- Temperature: 1.0  
- Top_p: 0.95  
이 조합은 텍스트 다양성과 논리적 일관성을 동시에 확보하는 환경 제공  
  
##### 3.2. 시스템 프롬프트  
- **일반 업무**: "You are a helpful assistant."  
- **웹 개발**: UI 일체형 코드 산출 등 복잡한 웹 페이지 작업을 위한 특화 프롬프트 제시  
- **수학적 추론**: 단계별로 풀이 후 \boxed{}에 최종 답 기입  
  
### 4. 배포 가이드  
  
- HuggingFace에서 [MiniMax-M1-40k](https://huggingface.co/MiniMaxAI/MiniMax-M1-40k), [MiniMax-M1-80k](https://huggingface.co/MiniMaxAI/MiniMax-M1-80k) 모델 다운로드 가능  
- 실제 서비스에서는 [vLLM](https://docs.vllm.ai/en/latest/) 기반 배포 추천  
  - 효율적 메모리 관리, 뛰어난 배치 처리, 성능 최적화 등 대규모 모델 서빙에 적합함  
- 별도의 Transformers 기반 배포도 지원  
  
### 5. 함수 호출(함수형 인터페이스)  
  
- MiniMax-M1은 함수 호출 기능 지원  
  - 외부 함수 필요 시 파라미터를 구조화된 형식으로 자동 출력  
  - [함수 호출 가이드](./docs/function_call_guide.md) 제공  
  
### 6. Chatbot & API  
  
- [MiniMax Chatbot](https://chat.minimax.io/): 온라인 검색까지 포함된 채팅 인터페이스 제공  
- [API](https://www.minimax.io/platform/): 개발자용 온라인 API 및 [MiniMax MCP Server](https://github.com/MiniMax-AI/MiniMax-MCP) 등 개발자 활용 도구 제공  
  - AI 기반 비디오·이미지·음성 합성, 보이스 클로닝 등 포함

## Comments


### Comment 40320

- Author: neo
- Created: 2025-06-19T09:53:14+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44307290) 
- 혹시 이걸 구동하려면 뭘 써야 하는지 궁금하다면, 8개의 H200 141GB가 필요하고 가격은 약 25만 달러 수준임  
  [github 논의](https://github.com/MiniMax-AI/MiniMax-M1/issues/2#issuecomment-2982368797) / [eBay 제품 가격 정보](https://www.ebay.com/itm/335830302628)
  - 맥 스튜디오 512GB로 돌릴 수는 없는지 궁금함, 8,500달러 정도면 충분
  - 전량 양자화일 때 이야기고, Q4나 Q8로 돌린다면 1만 달러 이하의 장비로 구동 가능
  - 이 모델의 파라미터 수가 궁금

- 이번 주가 MiniMax의 '론치 위크'라고 알려져 있음  
  월요일에 M1을, 화요일에는 Hailuo 2를 공개함  
  [중국 모델 관련 소식](https://news.smol.ai/issues/25-06-16-chinese-models)  
  이번 주 내내 이런 발표가 계속될지 아직 미정이고, 현재로선 주로 LLM과 비디오 모델로 알려진 회사임  
  공식 발표는 [MiniMax의 X(구 트위터)](https://x.com/MiniMax__AI)에서 확인 가능  
  또, MiniMax M1의 기술 보고서도 유익함  
  [기술 보고서 PDF](https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf)  
  SOTA 오픈웨이트 모델은 아니지만, lightning attention과 GRPO 변형(CISPO)에 관해 매우 흥미롭고 큰 주장을 함  
  (나는 이 회사와 무관한 입장이고, 그냥 얻은 정보를 공유)
  - 월요일에 M1, 화요일에 Hailuo 2처럼 진행했다니 Apple 칩처럼 M1, M1 Pro, M1 Ultra로 이름을 붙이면 재밌었을 것 같음

- arXiv 논문에서 "We publicly release MiniMax-M1 at this https url"이라는 문구를 보고, 진짜 빈 저장소가 아닌 실질적인 코드 공개라서 이 회사가 마음에 듦

- 내 생각  
  * LinkedIn 기준 싱가포르 기반 회사로 보이고, 좋은 LLM을 만드는 데 진입 장벽이 크게 없어 보임  
  * 오픈 웨이트 모델과 Strix Halo / Ryzen AI Max 발전 덕분에 몇 년 안에 좋은 LLM을 로컬에서 저렴하게 돌릴 수 있을 거라 낙관
  - 앞으로 로컬 모델 구동이 불가피해지는 분위기고, 기대와 우려가 함께 따름  
    이 영역에 대해 신뢰할 만한 전문가나 흥미로운 논의를 하는 사람이 있다면 소개 받고 싶음
  - LinkedIn에 나와 있는 것과 달리 실은 상하이 기반 회사임
  - MiniMax가 약 50만 달러 예산으로 모델을 훈련했다는 [트위터 포스트](https://x.com/MiniMax__AI/status/1934637031193514237)를 봤음  
    > RL(강화학습)을 534,700달러에 훈련  
    어떻게 이런 비용으로 가능했는지 궁금
  - 이 회사는 실제로 상하이 소재의 중국 회사임  
    곧 홍콩주식거래소(HKEX) 상장도 계획 중임  
    [관련 기사](https://www.scmp.com/tech/tech-trends/article/3314819/deepseek-rival-minimax-says-its-first-ai-reasoning-model-halves-compute-r1?module=china_future_tech&pgtype=homepage)

- 공식 페이지에는 명시되어 있지 않지만, MiniMax는 중국 회사임  
  [위키피디아 참고](https://en.wikipedia.org/wiki/MiniMax_(company))
  - 많은 사람들이 MiniMax가 중국 기업인 걸 아는 이유는, 그들의 비디오 생성기 이름이 'Hailuo'처럼 중국적 색채가 강하고 지금까지도 그걸로 유명하기 때문
  - 굳이 자사 프로젝트 페이지에 중국 회사임을 밝힐 이유가 있냐는 의문

- 이런 모델 이름은 좀 더 잘 지었으면 좋겠음  
  맥 스튜디오 프로세서 같음
  - [Minimax 알고리즘](https://en.wikipedia.org/wiki/Minimax) 알고 있음  
    그 유명한 고전 AI 알고리즘 이름에서 따온 것임
  - 당신의 맥은 'Apple'에서 만들었고, 실제로 사과 품종 이름에서 유래함
  - Max라는 이름을 가진 내 오랜 잃어버린 강아지가 생각남, 이름이 정말 별로라 borderline criminal 수준이라는 생각

- 논문에서 "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"이라고 적혀 있음  
  즉, 전체의 87.5%는 linear attention, 12.5%는 full attention임  
  사실 'linear attention'이라는 용어가 혼란을 줌  
  softmax attention은 정보 라우팅 방법이고, 토큰 k를 계산할 때 1~k에서 정보를 받아들이지만 크기가 정해진 채널을 거쳐야 함  
  반면 linear attention은 각 layer에 고정 크기의 '레지스터 뱅크'가 있을 뿐임  
  진짜 attention이라기보다는 layer-at-once 연산에 호환된다는 것 빼고는 주목할만한 게 없음

- MiniMax가 IPO 상장 소문을 띄우고 있다는 이야기가 있음  
  [관련 기사](https://www.bloomberg.com/news/articles/2025-06-18/alibaba-backed-ai-dragon-minimax-is-said-to-plan-hong-kong-ipo)

- 이만한 규모를 서구권 클라우드 인프라 없이 훈련했다면, 토큰 처리 구조가 어떻게 되는지 궁금
  - 512개의 H800 GPU로 3주간 훈련했고, 약 50만 달러 수준임  
    [xcancel 참고](https://xcancel.com/MiniMax__AI)
  - 스니커넷(sneakernet, 물리적 이동 방식) 사용