1P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • MiMo-7B는 언어 모델의 추론 잠재력을 최대한 발휘하기 위해 개발된 모델 시리즈임
  • 사전 훈련사후 훈련 전략을 통해 수학 및 코드 추론 작업에서 뛰어난 성능을 발휘함
  • MiMo-7B는 작은 모델임에도 불구하고 더 큰 모델과 비교할 만한 성능을 보임
  • 오픈 소스로 제공되어 커뮤니티에 기여할 수 있는 가능성을 가짐
  • RL 인프라를 통해 훈련 및 검증 속도를 크게 향상시킴

I. 소개

  • 대부분의 성공적인 강화 학습(RL) 연구는 큰 모델에 의존하며, 작은 모델에서 수학 및 코드 능력을 동시에 향상시키는 것은 어려움
  • MiMo-7B는 추론 작업을 위해 처음부터 훈련된 모델로, 더 큰 모델을 능가하는 추론 잠재력을 보유함
  • MiMo-7B 시리즈는 오픈 소스로 제공되며, 커뮤니티에 강력한 추론 언어 모델을 개발하는 데 기여할 수 있음

🌟 주요 내용

  • 사전 훈련: 추론을 위한 기본 모델

    • 데이터 전처리 파이프라인을 최적화하여 추론 패턴 밀도를 증가시킴
    • 다양한 합성 추론 데이터를 생성하기 위한 여러 전략을 사용함
    • 다중 토큰 예측을 추가적인 훈련 목표로 포함하여 모델 성능을 향상시킴
  • 사후 훈련 레시피: 선구적인 추론 모델

    • 130K의 수학 및 코드 문제를 RL 훈련 데이터로 사용함
    • 테스트 난이도 기반 코드 보상을 도입하여 정책 최적화를 효과적으로 수행함
    • 쉬운 문제에 대한 데이터 재샘플링 전략을 구현하여 정책 업데이트를 안정화함
  • RL 인프라

    • Seamless Rollout Engine을 개발하여 RL 훈련 및 검증을 가속화함
    • MTP를 vLLM에서 지원하고, RL 시스템의 추론 엔진의 견고성을 강화함

II. 모델 세부 사항

  • MiMo-7B 시리즈는 다양한 모델 체크포인트를 제공하며, HuggingFace에서 다운로드 가능함

III. 평가 결과

  • MiMo-7B-RL은 수학 및 코드 추론 작업에서 우수한 성능을 보임
  • 다양한 벤치마크에서 경쟁력 있는 결과를 달성함

IV. 배포

  • vLLM 및 HuggingFace를 통한 추론 지원
  • 권장 환경 및 프롬프트 사용을 통해 최적의 성능을 발휘할 수 있음

V. 인용

  • MiMo-7B에 대한 인용 정보 제공

VI. 연락처

  • 문의 사항은 mimo@xiaomi.com으로 연락하거나 GitHub 이슈를 통해 문의 가능함
Hacker News 의견
  • 논문에서 코드 데이터에 대한 강화 학습(RL) 단계 처리 방식이 흥미로웠음. 유닛 테스트를 실행하여 해결 가능한 코드 생성 작업에 대해 훈련함. 다른 모델들도 이 훈련 단계를 수행하는지 궁금함

    • 코드 데이터: 코딩 문제를 위해 오픈 소스 데이터셋과 새로 수집한 문제 세트를 포함하는 고품질 훈련 세트를 큐레이션함. 테스트 케이스가 없는 문제는 제거함. 골든 솔루션이 있는 문제 중 모든 테스트 케이스를 통과하지 못한 경우는 제외함. 골든 솔루션이 없는 문제는 고급 추론 모델의 16회 롤아웃에서 해결할 수 없는 경우 제외함. 수학 데이터와 유사하게, MiMo-7B의 SFT 버전을 사용하여 모든 16회 롤아웃에서 완벽하게 해결된 쉬운 문제를 필터링함. 이 엄격한 정리 과정으로 30,000개의 코드 문제가 생성됨
    • 각 RL 반복 동안 수천 개의 문제를 평가하여 보상을 계산함. 각 문제는 수백 개의 테스트 케이스를 포함할 수 있음. 보상 계산 효율성을 높이고 GPU 유휴 시간을 제거하기 위해, 매우 높은 볼륨의 유닛 테스트를 병렬로 실행할 수 있는 온라인 판사 환경을 개발함
  • 중국에서 영어 우선 AI 모델이 많은 이유는 무엇인지 궁금함. 자국 인구에 관심이 없는 것인지, 아니면 중국어 우선 모델을 발표하면 서구에서 주목받지 못할 것이라고 생각하는 것인지 궁금함

  • 7B 모델의 코딩 성능이 매우 강력함. Gemini Pro 2.5를 사용 중이며 67.8점을 얻었고, 이 모델은 57.8점을 얻어 Gemini 2.5 Flash의 60.6점에 매우 근접함

    • llama4에 대해 들은 것 때문에 평가 결과에 대해 회의적이 되었지만, 폐쇄형 평가에서 어디에 위치할지 지켜볼 것임. 그러나 매우 인상적임
  • MiMo-7B는 Qwen-32B와 같은 더 큰 모델을 능가하고 OpenAI o1-mini와 수학/코드 벤치마크에서 동등한 성능을 주장함. 이는 사전 훈련 + RLHF 최적화가 규모를 능가하기 시작한 신호인지, 아니면 좁은 기능을 벤치마킹하는 데 더 능숙해진 것인지 궁금함

  • O3와 같은 최고 성능 모델을 생략한 벤치마크를 보는 것이 재미있음. 현재 많은 벤치마크에서 최고의 모델임. Gemini Pro/Claude 3.7도 있음

  • ollama에서 gguf 파일을 사용할 때, 보통 새로운 모델과 함께 사용할 modelfile을 생성하는지, 아니면 기본 ollama가 새로운 모델과 작동하기를 바라는지 궁금함

  • README에 "RL"이라고만 적혀 있고 어떤 종류의 RL이 사용되는지 명시되지 않음. 연구자들에게: 바쁘신 건 알지만, 이런 세부 사항을 생략하지 말아주길 바람

  • 조금 테스트해봤는데 전반적으로 꽤 견고함. 긴 생각 시간 때문에 기다려야 하는 시간이 꽤 길지만, 최근의 qwen moe와 같은 더 큰 모델보다 더 긴 시간이 걸림

    • moe가 전반적으로 더 나은 절충안으로 보임
  • 이 모델을 Xiaomi 15 시리즈 폰의 AI 어시스턴트로 사용할지 궁금함. 아마도 사용할 것 같음. 기대할 것이 무엇인지 확신이 서지 않음

  • 와우. 훌륭한 벤치마크임. 이 모델과 대화하는 것이 기대됨

    • 몇 가지 눈에 띄는 점이 있음. 첫째, 7B 모델이 25T 토큰으로 훈련되었음(!). 이는 Meta 규모의 훈련임. Llama 4 Maverick은 약 22T로 훈련되었음. (Scout, 더 작은 모델: 40T)
    • 둘째, 다른 모델에서 추론을 얻기 위한 증류 모델이나 RL 레이어가 아닌, 처음부터 추론이 내장된 RL 모델로 가는 흥미로운 경로임. 이 방법으로 매개변수당 많은 추가 효율성을 얻을 수 있다는 주장임
    • Xiaomi 모델에 대한 경험이 없어 이 모델에 대해 조심스럽지만, 통계적으로 매우 유망한 로컬 추론 모델로 보임