논문에서 코드 데이터에 대한 강화 학습(RL) 단계 처리 방식이 흥미로웠음. 유닛 테스트를 실행하여 해결 가능한 코드 생성 작업에 대해 훈련함. 다른 모델들도 이 훈련 단계를 수행하는지 궁금함
코드 데이터: 코딩 문제를 위해 오픈 소스 데이터셋과 새로 수집한 문제 세트를 포함하는 고품질 훈련 세트를 큐레이션함. 테스트 케이스가 없는 문제는 제거함. 골든 솔루션이 있는 문제 중 모든 테스트 케이스를 통과하지 못한 경우는 제외함. 골든 솔루션이 없는 문제는 고급 추론 모델의 16회 롤아웃에서 해결할 수 없는 경우 제외함. 수학 데이터와 유사하게, MiMo-7B의 SFT 버전을 사용하여 모든 16회 롤아웃에서 완벽하게 해결된 쉬운 문제를 필터링함. 이 엄격한 정리 과정으로 30,000개의 코드 문제가 생성됨
각 RL 반복 동안 수천 개의 문제를 평가하여 보상을 계산함. 각 문제는 수백 개의 테스트 케이스를 포함할 수 있음. 보상 계산 효율성을 높이고 GPU 유휴 시간을 제거하기 위해, 매우 높은 볼륨의 유닛 테스트를 병렬로 실행할 수 있는 온라인 판사 환경을 개발함
중국에서 영어 우선 AI 모델이 많은 이유는 무엇인지 궁금함. 자국 인구에 관심이 없는 것인지, 아니면 중국어 우선 모델을 발표하면 서구에서 주목받지 못할 것이라고 생각하는 것인지 궁금함
7B 모델의 코딩 성능이 매우 강력함. Gemini Pro 2.5를 사용 중이며 67.8점을 얻었고, 이 모델은 57.8점을 얻어 Gemini 2.5 Flash의 60.6점에 매우 근접함
llama4에 대해 들은 것 때문에 평가 결과에 대해 회의적이 되었지만, 폐쇄형 평가에서 어디에 위치할지 지켜볼 것임. 그러나 매우 인상적임
MiMo-7B는 Qwen-32B와 같은 더 큰 모델을 능가하고 OpenAI o1-mini와 수학/코드 벤치마크에서 동등한 성능을 주장함. 이는 사전 훈련 + RLHF 최적화가 규모를 능가하기 시작한 신호인지, 아니면 좁은 기능을 벤치마킹하는 데 더 능숙해진 것인지 궁금함
O3와 같은 최고 성능 모델을 생략한 벤치마크를 보는 것이 재미있음. 현재 많은 벤치마크에서 최고의 모델임. Gemini Pro/Claude 3.7도 있음
ollama에서 gguf 파일을 사용할 때, 보통 새로운 모델과 함께 사용할 modelfile을 생성하는지, 아니면 기본 ollama가 새로운 모델과 작동하기를 바라는지 궁금함
README에 "RL"이라고만 적혀 있고 어떤 종류의 RL이 사용되는지 명시되지 않음. 연구자들에게: 바쁘신 건 알지만, 이런 세부 사항을 생략하지 말아주길 바람
조금 테스트해봤는데 전반적으로 꽤 견고함. 긴 생각 시간 때문에 기다려야 하는 시간이 꽤 길지만, 최근의 qwen moe와 같은 더 큰 모델보다 더 긴 시간이 걸림
moe가 전반적으로 더 나은 절충안으로 보임
이 모델을 Xiaomi 15 시리즈 폰의 AI 어시스턴트로 사용할지 궁금함. 아마도 사용할 것 같음. 기대할 것이 무엇인지 확신이 서지 않음
와우. 훌륭한 벤치마크임. 이 모델과 대화하는 것이 기대됨
몇 가지 눈에 띄는 점이 있음. 첫째, 7B 모델이 25T 토큰으로 훈련되었음(!). 이는 Meta 규모의 훈련임. Llama 4 Maverick은 약 22T로 훈련되었음. (Scout, 더 작은 모델: 40T)
둘째, 다른 모델에서 추론을 얻기 위한 증류 모델이나 RL 레이어가 아닌, 처음부터 추론이 내장된 RL 모델로 가는 흥미로운 경로임. 이 방법으로 매개변수당 많은 추가 효율성을 얻을 수 있다는 주장임
Xiaomi 모델에 대한 경험이 없어 이 모델에 대해 조심스럽지만, 통계적으로 매우 유망한 로컬 추론 모델로 보임
Hacker News 의견
논문에서 코드 데이터에 대한 강화 학습(RL) 단계 처리 방식이 흥미로웠음. 유닛 테스트를 실행하여 해결 가능한 코드 생성 작업에 대해 훈련함. 다른 모델들도 이 훈련 단계를 수행하는지 궁금함
중국에서 영어 우선 AI 모델이 많은 이유는 무엇인지 궁금함. 자국 인구에 관심이 없는 것인지, 아니면 중국어 우선 모델을 발표하면 서구에서 주목받지 못할 것이라고 생각하는 것인지 궁금함
7B 모델의 코딩 성능이 매우 강력함. Gemini Pro 2.5를 사용 중이며 67.8점을 얻었고, 이 모델은 57.8점을 얻어 Gemini 2.5 Flash의 60.6점에 매우 근접함
MiMo-7B는 Qwen-32B와 같은 더 큰 모델을 능가하고 OpenAI o1-mini와 수학/코드 벤치마크에서 동등한 성능을 주장함. 이는 사전 훈련 + RLHF 최적화가 규모를 능가하기 시작한 신호인지, 아니면 좁은 기능을 벤치마킹하는 데 더 능숙해진 것인지 궁금함
O3와 같은 최고 성능 모델을 생략한 벤치마크를 보는 것이 재미있음. 현재 많은 벤치마크에서 최고의 모델임. Gemini Pro/Claude 3.7도 있음
ollama에서 gguf 파일을 사용할 때, 보통 새로운 모델과 함께 사용할 modelfile을 생성하는지, 아니면 기본 ollama가 새로운 모델과 작동하기를 바라는지 궁금함
README에 "RL"이라고만 적혀 있고 어떤 종류의 RL이 사용되는지 명시되지 않음. 연구자들에게: 바쁘신 건 알지만, 이런 세부 사항을 생략하지 말아주길 바람
조금 테스트해봤는데 전반적으로 꽤 견고함. 긴 생각 시간 때문에 기다려야 하는 시간이 꽤 길지만, 최근의 qwen moe와 같은 더 큰 모델보다 더 긴 시간이 걸림
이 모델을 Xiaomi 15 시리즈 폰의 AI 어시스턴트로 사용할지 궁금함. 아마도 사용할 것 같음. 기대할 것이 무엇인지 확신이 서지 않음
와우. 훌륭한 벤치마크임. 이 모델과 대화하는 것이 기대됨