샤오미의 MiMo-7B: 추론 능력의 혁신


샤오미가 발표한 MiMo-7B는 사전 및 사후 훈련 단계 모두에서 최적화된 추론 전문 대규모 언어 모델로, 25조 토큰의 데이터와 강화 학습을 통해 32B 모델을 능가하는 성능을 달성했습니다. 수학, 코딩, 일반 추론 과제에서 뛰어난 결과를 보이며, 대규모 언어 모델 분야의 새로운 가능성을 제시합니다.

related iamge

샤오미의 놀라운 도약: MiMo-7B의 등장

최근 샤오미 LLM-Core 팀은 추론 능력에 초점을 맞춘 새로운 대규모 언어 모델 MiMo-7B를 발표했습니다. 단순히 큰 모델이 아닌, 사전 훈련(Pre-training)과 사후 훈련(Post-training) 단계 모두에서 혁신적인 최적화를 거친 모델이라는 점이 특징입니다. 이는 단순히 매개변수의 양을 늘리는 것만으로는 한계가 있는 기존의 접근 방식에서 벗어난, 매우 중요한 시도라 할 수 있습니다.

사전 훈련의 비밀: 데이터와 목표의 조화

MiMo-7B는 무려 25조 토큰의 방대한 데이터셋으로 사전 훈련되었습니다. 단순히 많은 데이터를 사용한 것이 아니라, 세 단계의 데이터 믹싱 전략을 통해 데이터의 질적 향상을 도모했습니다. 여기에 더해 멀티 토큰 예측(Multi-Token Prediction) 목표를 추가하여 모델의 추론 능력 향상과 추론 속도 향상이라는 두 마리 토끼를 모두 잡았습니다. 이는 단순히 모델의 크기만 키우는 것이 아닌, 효율성까지 고려한 전략적인 접근법이라는 것을 보여줍니다.

사후 훈련의 마법: 강화 학습과 전략적 데이터 활용

사전 훈련된 MiMo-7B-Base 모델은 여기서 멈추지 않습니다. 13만 개 이상의 검증 가능한 수학 및 프로그래밍 문제로 구성된 데이터셋을 이용하여 강화 학습(Reinforcement Learning)을 수행했습니다. 특히 난이도 기반 코드 보상 체계를 도입하여 희소 보상 문제를 해결하고, 전략적 데이터 재샘플링을 통해 훈련의 안정성을 확보했습니다. 이러한 정교한 사후 훈련 과정은 모델의 성능을 한 단계 더 끌어올리는 핵심이 되었습니다.

놀라운 성과: 32B 모델을 뛰어넘다

결과는 놀랍습니다. MiMo-7B-Base는 이미 32B 모델보다 우수한 추론 능력을 선보였고, 강화 학습을 거친 최종 모델 MiMo-7B-RL은 수학, 코딩, 일반 추론 과제에서 OpenAI o1-mini를 뛰어넘는 성능을 달성했습니다. 이러한 성과는 샤오미의 끊임없는 연구와 혁신의 결실이며, 앞으로 대규모 언어 모델의 발전 방향을 제시하는 중요한 이정표가 될 것입니다. 모델 체크포인트는 GitHub 에서 확인할 수 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

Published:  (Updated: )

Author: Xiaomi LLM-Core Team, :, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue

http://arxiv.org/abs/2505.07608v1