GN⁺ 12달전 | parent | ★ favorite | on: 샤오미 MiMo 추론 모델(github.com/XiaomiMiMo)
Hacker News 의견
  • 논문에서 코드 데이터에 대한 강화 학습(RL) 단계 처리 방식이 흥미로웠음. 유닛 테스트를 실행하여 해결 가능한 코드 생성 작업에 대해 훈련함. 다른 모델들도 이 훈련 단계를 수행하는지 궁금함

    • 코드 데이터: 코딩 문제를 위해 오픈 소스 데이터셋과 새로 수집한 문제 세트를 포함하는 고품질 훈련 세트를 큐레이션함. 테스트 케이스가 없는 문제는 제거함. 골든 솔루션이 있는 문제 중 모든 테스트 케이스를 통과하지 못한 경우는 제외함. 골든 솔루션이 없는 문제는 고급 추론 모델의 16회 롤아웃에서 해결할 수 없는 경우 제외함. 수학 데이터와 유사하게, MiMo-7B의 SFT 버전을 사용하여 모든 16회 롤아웃에서 완벽하게 해결된 쉬운 문제를 필터링함. 이 엄격한 정리 과정으로 30,000개의 코드 문제가 생성됨
    • 각 RL 반복 동안 수천 개의 문제를 평가하여 보상을 계산함. 각 문제는 수백 개의 테스트 케이스를 포함할 수 있음. 보상 계산 효율성을 높이고 GPU 유휴 시간을 제거하기 위해, 매우 높은 볼륨의 유닛 테스트를 병렬로 실행할 수 있는 온라인 판사 환경을 개발함
  • 중국에서 영어 우선 AI 모델이 많은 이유는 무엇인지 궁금함. 자국 인구에 관심이 없는 것인지, 아니면 중국어 우선 모델을 발표하면 서구에서 주목받지 못할 것이라고 생각하는 것인지 궁금함

  • 7B 모델의 코딩 성능이 매우 강력함. Gemini Pro 2.5를 사용 중이며 67.8점을 얻었고, 이 모델은 57.8점을 얻어 Gemini 2.5 Flash의 60.6점에 매우 근접함

    • llama4에 대해 들은 것 때문에 평가 결과에 대해 회의적이 되었지만, 폐쇄형 평가에서 어디에 위치할지 지켜볼 것임. 그러나 매우 인상적임
  • MiMo-7B는 Qwen-32B와 같은 더 큰 모델을 능가하고 OpenAI o1-mini와 수학/코드 벤치마크에서 동등한 성능을 주장함. 이는 사전 훈련 + RLHF 최적화가 규모를 능가하기 시작한 신호인지, 아니면 좁은 기능을 벤치마킹하는 데 더 능숙해진 것인지 궁금함

  • O3와 같은 최고 성능 모델을 생략한 벤치마크를 보는 것이 재미있음. 현재 많은 벤치마크에서 최고의 모델임. Gemini Pro/Claude 3.7도 있음

  • ollama에서 gguf 파일을 사용할 때, 보통 새로운 모델과 함께 사용할 modelfile을 생성하는지, 아니면 기본 ollama가 새로운 모델과 작동하기를 바라는지 궁금함

  • README에 "RL"이라고만 적혀 있고 어떤 종류의 RL이 사용되는지 명시되지 않음. 연구자들에게: 바쁘신 건 알지만, 이런 세부 사항을 생략하지 말아주길 바람

  • 조금 테스트해봤는데 전반적으로 꽤 견고함. 긴 생각 시간 때문에 기다려야 하는 시간이 꽤 길지만, 최근의 qwen moe와 같은 더 큰 모델보다 더 긴 시간이 걸림

    • moe가 전반적으로 더 나은 절충안으로 보임
  • 이 모델을 Xiaomi 15 시리즈 폰의 AI 어시스턴트로 사용할지 궁금함. 아마도 사용할 것 같음. 기대할 것이 무엇인지 확신이 서지 않음

  • 와우. 훌륭한 벤치마크임. 이 모델과 대화하는 것이 기대됨

    • 몇 가지 눈에 띄는 점이 있음. 첫째, 7B 모델이 25T 토큰으로 훈련되었음(!). 이는 Meta 규모의 훈련임. Llama 4 Maverick은 약 22T로 훈련되었음. (Scout, 더 작은 모델: 40T)
    • 둘째, 다른 모델에서 추론을 얻기 위한 증류 모델이나 RL 레이어가 아닌, 처음부터 추론이 내장된 RL 모델로 가는 흥미로운 경로임. 이 방법으로 매개변수당 많은 추가 효율성을 얻을 수 있다는 주장임
    • Xiaomi 모델에 대한 경험이 없어 이 모델에 대해 조심스럽지만, 통계적으로 매우 유망한 로컬 추론 모델로 보임