4P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • MiniMax-M1은 세계 최초의 오픈-웨이트 대규모 하이브리드 어텐션 기반 추론 모델
  • 4560억 파라미터 규모의 하이브리드 MoE 구조와 라이팅 어텐션 메커니즘으로 긴 컨텍스트 처리에 탁월함
  • RL 기반 학습과 CISPO 알고리듬 도입으로 다양한 문제를 효율적으로 해결 가능함
  • 벤치마크 상에서 기존 DeepSeek-R1, Qwen3-235B 등과 비교해 복잡한 SW 엔지니어링, 툴 사용, 장문 입력 등에서 뛰어난 성능을 보임
  • 다양한 추론 환경 및 지원 도구, API, 챗봇 제공으로 차세대 언어모델 에이전트의 기반으로 활용 가치가 높음

MiniMax-M1 오픈소스 프로젝트 개요

  • MiniMax-M1은 세계 최초의 오픈-웨이트 대규모 하이브리드 어텐션 추론 모델로, 기존 상용·오픈 모델 대비 강력한 장점과 실전 활용성을 보여줌
  • 대규모 하이브리드 Mixture-of-Experts(MoE) 구조와 라이팅 어텐션 메커니즘을 결합하여 긴 컨텍스트, 복잡한 추론, 소프트웨어 환경 문제 해결에 최적화
  • 긴 맥락(최대 100만 토큰)을 효율적으로 지원하고, 테스트 시 연산량(100K 기준 DeepSeek-R1 대비 25% FLOPs)을 대폭 절감
  • 최신 RL 기술, 신개념 CISPO 알고리듬과 하이브리드 어텐션 설계로 확장성과 추론 효율성 모두 극대화

1. 모델 개요

  • MiniMax-M1은 하이브리드 Mixture-of-Experts(MoE) 구조라이팅 어텐션을 탑재함
  • 전신인 MiniMax-Text-01(4560억 파라미터, 토큰당 459억 파라미터 활성화) 기반으로 개발됨
  • 1백만 토큰의 컨텍스트 길이 지원(DeepSeek R1의 8배 컨텍스트 크기)
  • 라이팅 어텐션으로 테스트 연산량 대폭 절감(DeepSeek R1 대비 25%)
  • 긴 입력과 복잡한 추론이 요구되는 과업에 적합함
  • 대규모 RL을 통한 수학적 추론, 실전 SW 엔지니어링 등 폭넓은 문제에 대한 학습 진행
  • MiniMax-M1만의 RL 스케일링 프레임워크 제시
    • CISPO 기법: 기존 RL 방식보다 우수한 중요도 샘플링 가중치 클리핑 알고리듬 도입
    • 하이브리드 어텐션 기반으로 RL 효율성 및 확장성 강화
  • 40K, 80K 사고 버짓 두 가지 모델로 학습/공개
  • SW 엔지니어링, 툴 사용, 롱컨텍스트 작업 등에서 기존 DeepSeek-R1 및 Qwen3-235B 등 고성능 오픈모델 대비 탁월한 성능
  • 실전 도전과제 해결을 위한 차세대 언어모델 에이전트 구축 기반 제공

2. 평가(Evaluation)

벤치마크 결과 주요 내용

  • 수학, 코드, SW 엔지니어링, 장문 컨텍스트 분야에서 SOTA급 수준
  • 타 오픈모델 대비 전반적으로 높은 스코어 달성, 특히 소프트웨어 벤치(SWE-bench)롱컨텍스트에서 차별적 경쟁력
  • 주목할 만한 항목 예시
    • SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
    • OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
    • LiveCodeBench, FullStackBench 등 SW 개발 relevant task에서 견고함
  • 실행 환경: temperature 1.0, top_p 0.95에서 평가
  • SWE-bench, TAU-bench 등 벤치마크에 대해 자체적인 절차와 설정(예: 파일 단위 이중 단계 로컬라이제이션, embedding 미사용) 기반 평가 시행

3. MiniMax-M1 모델 사용 가이드

최적 성능을 위한 권장 설정

3.1. 추론 파라미터

  • Temperature: 1.0
  • Top_p: 0.95
    이 조합은 텍스트 다양성과 논리적 일관성을 동시에 확보하는 환경 제공

3.2. 시스템 프롬프트

  • 일반 업무: "You are a helpful assistant."
  • 웹 개발: UI 일체형 코드 산출 등 복잡한 웹 페이지 작업을 위한 특화 프롬프트 제시
  • 수학적 추론: 단계별로 풀이 후 \boxed{}에 최종 답 기입

4. 배포 가이드

  • HuggingFace에서 MiniMax-M1-40k, MiniMax-M1-80k 모델 다운로드 가능
  • 실제 서비스에서는 vLLM 기반 배포 추천
    • 효율적 메모리 관리, 뛰어난 배치 처리, 성능 최적화 등 대규모 모델 서빙에 적합함
  • 별도의 Transformers 기반 배포도 지원

5. 함수 호출(함수형 인터페이스)

  • MiniMax-M1은 함수 호출 기능 지원

6. Chatbot & API

  • MiniMax Chatbot: 온라인 검색까지 포함된 채팅 인터페이스 제공
  • API: 개발자용 온라인 API 및 MiniMax MCP Server 등 개발자 활용 도구 제공
    • AI 기반 비디오·이미지·음성 합성, 보이스 클로닝 등 포함
Hacker News 의견
  • 혹시 이걸 구동하려면 뭘 써야 하는지 궁금하다면, 8개의 H200 141GB가 필요하고 가격은 약 25만 달러 수준임
    github 논의 / eBay 제품 가격 정보

    • 맥 스튜디오 512GB로 돌릴 수는 없는지 궁금함, 8,500달러 정도면 충분
    • 전량 양자화일 때 이야기고, Q4나 Q8로 돌린다면 1만 달러 이하의 장비로 구동 가능
    • 이 모델의 파라미터 수가 궁금
  • 이번 주가 MiniMax의 '론치 위크'라고 알려져 있음
    월요일에 M1을, 화요일에는 Hailuo 2를 공개함
    중국 모델 관련 소식
    이번 주 내내 이런 발표가 계속될지 아직 미정이고, 현재로선 주로 LLM과 비디오 모델로 알려진 회사임
    공식 발표는 MiniMax의 X(구 트위터)에서 확인 가능
    또, MiniMax M1의 기술 보고서도 유익함
    기술 보고서 PDF
    SOTA 오픈웨이트 모델은 아니지만, lightning attention과 GRPO 변형(CISPO)에 관해 매우 흥미롭고 큰 주장을 함
    (나는 이 회사와 무관한 입장이고, 그냥 얻은 정보를 공유)

    • 월요일에 M1, 화요일에 Hailuo 2처럼 진행했다니 Apple 칩처럼 M1, M1 Pro, M1 Ultra로 이름을 붙이면 재밌었을 것 같음
  • arXiv 논문에서 "We publicly release MiniMax-M1 at this https url"이라는 문구를 보고, 진짜 빈 저장소가 아닌 실질적인 코드 공개라서 이 회사가 마음에 듦

  • 내 생각

    • LinkedIn 기준 싱가포르 기반 회사로 보이고, 좋은 LLM을 만드는 데 진입 장벽이 크게 없어 보임
    • 오픈 웨이트 모델과 Strix Halo / Ryzen AI Max 발전 덕분에 몇 년 안에 좋은 LLM을 로컬에서 저렴하게 돌릴 수 있을 거라 낙관
    • 앞으로 로컬 모델 구동이 불가피해지는 분위기고, 기대와 우려가 함께 따름
      이 영역에 대해 신뢰할 만한 전문가나 흥미로운 논의를 하는 사람이 있다면 소개 받고 싶음
    • LinkedIn에 나와 있는 것과 달리 실은 상하이 기반 회사임
    • MiniMax가 약 50만 달러 예산으로 모델을 훈련했다는 트위터 포스트를 봤음

      RL(강화학습)을 534,700달러에 훈련
      어떻게 이런 비용으로 가능했는지 궁금

    • 이 회사는 실제로 상하이 소재의 중국 회사임
      곧 홍콩주식거래소(HKEX) 상장도 계획 중임
      관련 기사
  • 공식 페이지에는 명시되어 있지 않지만, MiniMax는 중국 회사임
    위키피디아 참고

    • 많은 사람들이 MiniMax가 중국 기업인 걸 아는 이유는, 그들의 비디오 생성기 이름이 'Hailuo'처럼 중국적 색채가 강하고 지금까지도 그걸로 유명하기 때문
    • 굳이 자사 프로젝트 페이지에 중국 회사임을 밝힐 이유가 있냐는 의문
  • 이런 모델 이름은 좀 더 잘 지었으면 좋겠음
    맥 스튜디오 프로세서 같음

    • Minimax 알고리즘 알고 있음
      그 유명한 고전 AI 알고리즘 이름에서 따온 것임
    • 당신의 맥은 'Apple'에서 만들었고, 실제로 사과 품종 이름에서 유래함
    • Max라는 이름을 가진 내 오랜 잃어버린 강아지가 생각남, 이름이 정말 별로라 borderline criminal 수준이라는 생각
  • 논문에서 "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"이라고 적혀 있음
    즉, 전체의 87.5%는 linear attention, 12.5%는 full attention임
    사실 'linear attention'이라는 용어가 혼란을 줌
    softmax attention은 정보 라우팅 방법이고, 토큰 k를 계산할 때 1~k에서 정보를 받아들이지만 크기가 정해진 채널을 거쳐야 함
    반면 linear attention은 각 layer에 고정 크기의 '레지스터 뱅크'가 있을 뿐임
    진짜 attention이라기보다는 layer-at-once 연산에 호환된다는 것 빼고는 주목할만한 게 없음

  • MiniMax가 IPO 상장 소문을 띄우고 있다는 이야기가 있음
    관련 기사

  • 이만한 규모를 서구권 클라우드 인프라 없이 훈련했다면, 토큰 처리 구조가 어떻게 되는지 궁금

    • 512개의 H800 GPU로 3주간 훈련했고, 약 50만 달러 수준임
      xcancel 참고
    • 스니커넷(sneakernet, 물리적 이동 방식) 사용