# 샤오미 MiMo 추론 모델

> Clean Markdown view of GeekNews topic #20631. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20631](https://news.hada.io/topic?id=20631)
- GeekNews Markdown: [https://news.hada.io/topic/20631.md](https://news.hada.io/topic/20631.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-05-01T17:33:24+09:00
- Updated: 2025-05-01T17:33:24+09:00
- Original source: [github.com/XiaomiMiMo](https://github.com/XiaomiMiMo/MiMo)
- Points: 1
- Comments: 1

## Topic Body

- MiMo-7B는 **언어 모델의 추론 잠재력**을 최대한 발휘하기 위해 개발된 모델 시리즈임
- **사전 훈련**과 **사후 훈련** 전략을 통해 수학 및 코드 추론 작업에서 뛰어난 성능을 발휘함
- MiMo-7B는 **작은 모델**임에도 불구하고 더 큰 모델과 **비교할 만한 성능**을 보임
- **오픈 소스**로 제공되어 커뮤니티에 기여할 수 있는 가능성을 가짐
- **RL 인프라**를 통해 훈련 및 검증 속도를 크게 향상시킴

---

### I. 소개

- 대부분의 성공적인 강화 학습(RL) 연구는 **큰 모델**에 의존하며, 작은 모델에서 수학 및 코드 능력을 동시에 향상시키는 것은 어려움
- MiMo-7B는 **추론 작업**을 위해 처음부터 훈련된 모델로, 더 큰 모델을 능가하는 **추론 잠재력**을 보유함
- MiMo-7B 시리즈는 **오픈 소스**로 제공되며, 커뮤니티에 강력한 추론 언어 모델을 개발하는 데 기여할 수 있음

### 🌟 주요 내용

- **사전 훈련: 추론을 위한 기본 모델**
  - 데이터 전처리 파이프라인을 최적화하여 **추론 패턴 밀도**를 증가시킴
  - **다양한 합성 추론 데이터**를 생성하기 위한 여러 전략을 사용함
  - **다중 토큰 예측**을 추가적인 훈련 목표로 포함하여 모델 성능을 향상시킴

- **사후 훈련 레시피: 선구적인 추론 모델**
  - 130K의 수학 및 코드 문제를 RL 훈련 데이터로 사용함
  - **테스트 난이도 기반 코드 보상**을 도입하여 정책 최적화를 효과적으로 수행함
  - 쉬운 문제에 대한 **데이터 재샘플링 전략**을 구현하여 정책 업데이트를 안정화함

- **RL 인프라**
  - **Seamless Rollout Engine**을 개발하여 RL 훈련 및 검증을 가속화함
  - **MTP**를 vLLM에서 지원하고, RL 시스템의 추론 엔진의 견고성을 강화함

### II. 모델 세부 사항

- MiMo-7B 시리즈는 다양한 **모델 체크포인트**를 제공하며, HuggingFace에서 다운로드 가능함

### III. 평가 결과

- MiMo-7B-RL은 수학 및 코드 추론 작업에서 **우수한 성능**을 보임
- 다양한 벤치마크에서 **경쟁력 있는 결과**를 달성함

### IV. 배포

- vLLM 및 HuggingFace를 통한 **추론 지원**
- **권장 환경** 및 프롬프트 사용을 통해 최적의 성능을 발휘할 수 있음

### V. 인용

- MiMo-7B에 대한 인용 정보 제공

### VI. 연락처

- 문의 사항은 **mimo@xiaomi.com**으로 연락하거나 GitHub 이슈를 통해 문의 가능함

## Comments


### Comment 38067

- Author: neo
- Created: 2025-05-01T17:33:25+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43842683) 
- 논문에서 코드 데이터에 대한 강화 학습(RL) 단계 처리 방식이 흥미로웠음. 유닛 테스트를 실행하여 해결 가능한 코드 생성 작업에 대해 훈련함. 다른 모델들도 이 훈련 단계를 수행하는지 궁금함
  - 코드 데이터: 코딩 문제를 위해 오픈 소스 데이터셋과 새로 수집한 문제 세트를 포함하는 고품질 훈련 세트를 큐레이션함. 테스트 케이스가 없는 문제는 제거함. 골든 솔루션이 있는 문제 중 모든 테스트 케이스를 통과하지 못한 경우는 제외함. 골든 솔루션이 없는 문제는 고급 추론 모델의 16회 롤아웃에서 해결할 수 없는 경우 제외함. 수학 데이터와 유사하게, MiMo-7B의 SFT 버전을 사용하여 모든 16회 롤아웃에서 완벽하게 해결된 쉬운 문제를 필터링함. 이 엄격한 정리 과정으로 30,000개의 코드 문제가 생성됨
  - 각 RL 반복 동안 수천 개의 문제를 평가하여 보상을 계산함. 각 문제는 수백 개의 테스트 케이스를 포함할 수 있음. 보상 계산 효율성을 높이고 GPU 유휴 시간을 제거하기 위해, 매우 높은 볼륨의 유닛 테스트를 병렬로 실행할 수 있는 온라인 판사 환경을 개발함

- 중국에서 영어 우선 AI 모델이 많은 이유는 무엇인지 궁금함. 자국 인구에 관심이 없는 것인지, 아니면 중국어 우선 모델을 발표하면 서구에서 주목받지 못할 것이라고 생각하는 것인지 궁금함

- 7B 모델의 코딩 성능이 매우 강력함. Gemini Pro 2.5를 사용 중이며 67.8점을 얻었고, 이 모델은 57.8점을 얻어 Gemini 2.5 Flash의 60.6점에 매우 근접함
  - llama4에 대해 들은 것 때문에 평가 결과에 대해 회의적이 되었지만, 폐쇄형 평가에서 어디에 위치할지 지켜볼 것임. 그러나 매우 인상적임

- MiMo-7B는 Qwen-32B와 같은 더 큰 모델을 능가하고 OpenAI o1-mini와 수학/코드 벤치마크에서 동등한 성능을 주장함. 이는 사전 훈련 + RLHF 최적화가 규모를 능가하기 시작한 신호인지, 아니면 좁은 기능을 벤치마킹하는 데 더 능숙해진 것인지 궁금함

- O3와 같은 최고 성능 모델을 생략한 벤치마크를 보는 것이 재미있음. 현재 많은 벤치마크에서 최고의 모델임. Gemini Pro/Claude 3.7도 있음

- ollama에서 gguf 파일을 사용할 때, 보통 새로운 모델과 함께 사용할 modelfile을 생성하는지, 아니면 기본 ollama가 새로운 모델과 작동하기를 바라는지 궁금함

- README에 "RL"이라고만 적혀 있고 어떤 종류의 RL이 사용되는지 명시되지 않음. 연구자들에게: 바쁘신 건 알지만, 이런 세부 사항을 생략하지 말아주길 바람

- 조금 테스트해봤는데 전반적으로 꽤 견고함. 긴 생각 시간 때문에 기다려야 하는 시간이 꽤 길지만, 최근의 qwen moe와 같은 더 큰 모델보다 더 긴 시간이 걸림
  - moe가 전반적으로 더 나은 절충안으로 보임

- 이 모델을 Xiaomi 15 시리즈 폰의 AI 어시스턴트로 사용할지 궁금함. 아마도 사용할 것 같음. 기대할 것이 무엇인지 확신이 서지 않음

- 와우. 훌륭한 벤치마크임. 이 모델과 대화하는 것이 기대됨
  - 몇 가지 눈에 띄는 점이 있음. 첫째, 7B 모델이 25T 토큰으로 훈련되었음(!). 이는 Meta 규모의 훈련임. Llama 4 Maverick은 약 22T로 훈련되었음. (Scout, 더 작은 모델: 40T)
  - 둘째, 다른 모델에서 추론을 얻기 위한 증류 모델이나 RL 레이어가 아닌, 처음부터 추론이 내장된 RL 모델로 가는 흥미로운 경로임. 이 방법으로 매개변수당 많은 추가 효율성을 얻을 수 있다는 주장임
  - Xiaomi 모델에 대한 경험이 없어 이 모델에 대해 조심스럽지만, 통계적으로 매우 유망한 로컬 추론 모델로 보임