샤오미 MiMo 추론 모델
(github.com/XiaomiMiMo)- MiMo-7B는 언어 모델의 추론 잠재력을 최대한 발휘하기 위해 개발된 모델 시리즈임
- 사전 훈련과 사후 훈련 전략을 통해 수학 및 코드 추론 작업에서 뛰어난 성능을 발휘함
- MiMo-7B는 작은 모델임에도 불구하고 더 큰 모델과 비교할 만한 성능을 보임
- 오픈 소스로 제공되어 커뮤니티에 기여할 수 있는 가능성을 가짐
- RL 인프라를 통해 훈련 및 검증 속도를 크게 향상시킴
I. 소개
- 대부분의 성공적인 강화 학습(RL) 연구는 큰 모델에 의존하며, 작은 모델에서 수학 및 코드 능력을 동시에 향상시키는 것은 어려움
- MiMo-7B는 추론 작업을 위해 처음부터 훈련된 모델로, 더 큰 모델을 능가하는 추론 잠재력을 보유함
- MiMo-7B 시리즈는 오픈 소스로 제공되며, 커뮤니티에 강력한 추론 언어 모델을 개발하는 데 기여할 수 있음
🌟 주요 내용
-
사전 훈련: 추론을 위한 기본 모델
- 데이터 전처리 파이프라인을 최적화하여 추론 패턴 밀도를 증가시킴
- 다양한 합성 추론 데이터를 생성하기 위한 여러 전략을 사용함
- 다중 토큰 예측을 추가적인 훈련 목표로 포함하여 모델 성능을 향상시킴
-
사후 훈련 레시피: 선구적인 추론 모델
- 130K의 수학 및 코드 문제를 RL 훈련 데이터로 사용함
- 테스트 난이도 기반 코드 보상을 도입하여 정책 최적화를 효과적으로 수행함
- 쉬운 문제에 대한 데이터 재샘플링 전략을 구현하여 정책 업데이트를 안정화함
-
RL 인프라
- Seamless Rollout Engine을 개발하여 RL 훈련 및 검증을 가속화함
- MTP를 vLLM에서 지원하고, RL 시스템의 추론 엔진의 견고성을 강화함
II. 모델 세부 사항
- MiMo-7B 시리즈는 다양한 모델 체크포인트를 제공하며, HuggingFace에서 다운로드 가능함
III. 평가 결과
- MiMo-7B-RL은 수학 및 코드 추론 작업에서 우수한 성능을 보임
- 다양한 벤치마크에서 경쟁력 있는 결과를 달성함
IV. 배포
- vLLM 및 HuggingFace를 통한 추론 지원
- 권장 환경 및 프롬프트 사용을 통해 최적의 성능을 발휘할 수 있음
V. 인용
- MiMo-7B에 대한 인용 정보 제공
VI. 연락처
- 문의 사항은 mimo@xiaomi.com으로 연락하거나 GitHub 이슈를 통해 문의 가능함
Hacker News 의견
-
논문에서 코드 데이터에 대한 강화 학습(RL) 단계 처리 방식이 흥미로웠음. 유닛 테스트를 실행하여 해결 가능한 코드 생성 작업에 대해 훈련함. 다른 모델들도 이 훈련 단계를 수행하는지 궁금함
- 코드 데이터: 코딩 문제를 위해 오픈 소스 데이터셋과 새로 수집한 문제 세트를 포함하는 고품질 훈련 세트를 큐레이션함. 테스트 케이스가 없는 문제는 제거함. 골든 솔루션이 있는 문제 중 모든 테스트 케이스를 통과하지 못한 경우는 제외함. 골든 솔루션이 없는 문제는 고급 추론 모델의 16회 롤아웃에서 해결할 수 없는 경우 제외함. 수학 데이터와 유사하게, MiMo-7B의 SFT 버전을 사용하여 모든 16회 롤아웃에서 완벽하게 해결된 쉬운 문제를 필터링함. 이 엄격한 정리 과정으로 30,000개의 코드 문제가 생성됨
- 각 RL 반복 동안 수천 개의 문제를 평가하여 보상을 계산함. 각 문제는 수백 개의 테스트 케이스를 포함할 수 있음. 보상 계산 효율성을 높이고 GPU 유휴 시간을 제거하기 위해, 매우 높은 볼륨의 유닛 테스트를 병렬로 실행할 수 있는 온라인 판사 환경을 개발함
-
중국에서 영어 우선 AI 모델이 많은 이유는 무엇인지 궁금함. 자국 인구에 관심이 없는 것인지, 아니면 중국어 우선 모델을 발표하면 서구에서 주목받지 못할 것이라고 생각하는 것인지 궁금함
-
7B 모델의 코딩 성능이 매우 강력함. Gemini Pro 2.5를 사용 중이며 67.8점을 얻었고, 이 모델은 57.8점을 얻어 Gemini 2.5 Flash의 60.6점에 매우 근접함
- llama4에 대해 들은 것 때문에 평가 결과에 대해 회의적이 되었지만, 폐쇄형 평가에서 어디에 위치할지 지켜볼 것임. 그러나 매우 인상적임
-
MiMo-7B는 Qwen-32B와 같은 더 큰 모델을 능가하고 OpenAI o1-mini와 수학/코드 벤치마크에서 동등한 성능을 주장함. 이는 사전 훈련 + RLHF 최적화가 규모를 능가하기 시작한 신호인지, 아니면 좁은 기능을 벤치마킹하는 데 더 능숙해진 것인지 궁금함
-
O3와 같은 최고 성능 모델을 생략한 벤치마크를 보는 것이 재미있음. 현재 많은 벤치마크에서 최고의 모델임. Gemini Pro/Claude 3.7도 있음
-
ollama에서 gguf 파일을 사용할 때, 보통 새로운 모델과 함께 사용할 modelfile을 생성하는지, 아니면 기본 ollama가 새로운 모델과 작동하기를 바라는지 궁금함
-
README에 "RL"이라고만 적혀 있고 어떤 종류의 RL이 사용되는지 명시되지 않음. 연구자들에게: 바쁘신 건 알지만, 이런 세부 사항을 생략하지 말아주길 바람
-
조금 테스트해봤는데 전반적으로 꽤 견고함. 긴 생각 시간 때문에 기다려야 하는 시간이 꽤 길지만, 최근의 qwen moe와 같은 더 큰 모델보다 더 긴 시간이 걸림
- moe가 전반적으로 더 나은 절충안으로 보임
-
이 모델을 Xiaomi 15 시리즈 폰의 AI 어시스턴트로 사용할지 궁금함. 아마도 사용할 것 같음. 기대할 것이 무엇인지 확신이 서지 않음
-
와우. 훌륭한 벤치마크임. 이 모델과 대화하는 것이 기대됨
- 몇 가지 눈에 띄는 점이 있음. 첫째, 7B 모델이 25T 토큰으로 훈련되었음(!). 이는 Meta 규모의 훈련임. Llama 4 Maverick은 약 22T로 훈련되었음. (Scout, 더 작은 모델: 40T)
- 둘째, 다른 모델에서 추론을 얻기 위한 증류 모델이나 RL 레이어가 아닌, 처음부터 추론이 내장된 RL 모델로 가는 흥미로운 경로임. 이 방법으로 매개변수당 많은 추가 효율성을 얻을 수 있다는 주장임
- Xiaomi 모델에 대한 경험이 없어 이 모델에 대해 조심스럽지만, 통계적으로 매우 유망한 로컬 추론 모델로 보임