두 명의 전문가만 있으면 충분합니다: 추가 훈련 없이 MoE 추론 모델의 인지 노력 강화
본 논문은 추가 훈련 없이 MoE 기반 대규모 추론 모델의 인지 효율성을 향상시키는 RICE라는 새로운 방법론을 제시합니다. nPMI를 이용하여 '인지 전문가'를 식별하고 강화함으로써 추론 정확도와 효율성을 높였으며, 기존 방법보다 우수한 성능을 보였습니다.

최근 발표된 논문 "Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training"은 대규모 추론 모델(LRM)의 인지 효율성을 획기적으로 향상시키는 새로운 방법을 제시합니다. 이는 혼합 전문가(MoE) 아키텍처를 기반으로 하는 LRM에서 과도한 사고(overthinking)나 부족한 사고(underthinking)와 같은 문제를 해결하는 데 초점을 맞추고 있습니다.
논문의 핵심은 RICE(Reinforcing Cognitive Experts) 라는 새로운 추론 시간 조정 방법론입니다. RICE는 추가적인 훈련이나 복잡한 휴리스틱 없이, 정규화된 점별 상호 정보(nPMI) 를 이용하여 '메타 수준 추론' 작업을 담당하는 특수 전문가, 즉 **'인지 전문가'**를 식별하는 데 있습니다. 이러한 인지 전문가는 “<think>”와 같은 토큰을 통해 메타 수준 추론 과정을 조율하는 역할을 합니다.
연구팀은 DeepSeek-R1과 Qwen3-235B와 같은 최첨단 MoE 기반 LRM을 사용하여 엄격한 정량적 및 과학적 추론 벤치마크에서 RICE의 효과를 평가했습니다. 그 결과, 추론 정확도, 인지 효율성, 그리고 도메인 간 일반화 능력이 눈에 띄게 향상되었음을 확인했습니다. 특히, RICE는 프롬프트 디자인이나 디코딩 제약과 같은 기존의 추론 조정 기술보다 훨씬 우수한 성능을 보였으며, 모델의 일반적인 지시 사항 따르기 능력도 유지했습니다.
이는 추가 훈련 없이도 인지 전문가를 강화함으로써 고급 추론 모델의 인지 효율성을 향상시킬 수 있다는 것을 보여주는 중요한 결과입니다. RICE는 실용적이고 해석 가능한 접근 방식으로, 향후 LRM의 발전에 큰 기여를 할 것으로 기대됩니다. 단, '인지 전문가'의 정확한 식별 및 선택 기준에 대한 추가적인 연구가 필요할 것으로 예상됩니다. 또한, 다양한 유형의 LRM 및 추론 과제에 대한 광범위한 실험을 통해 RICE의 일반화 성능을 더욱 검증하는 연구가 필요합니다.
주요 연구진: Mengru Wang, Xingyu Chen, Yue Wang 외 12명
핵심 내용:
- RICE: 추가 훈련 없이 MoE 추론 모델의 인지 효율성을 높이는 새로운 추론 시간 조정 방법론
- nPMI 활용: 메타 수준 추론을 담당하는 '인지 전문가' 식별
- DeepSeek-R1, Qwen3-235B 등 최첨단 모델에서 효과 검증
- 추론 정확도, 인지 효율성, 도메인 간 일반화 능력 향상
- 기존 추론 조정 기술 대비 우수한 성능
Reference
[arxiv] Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training
Published: (Updated: )
Author: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu
http://arxiv.org/abs/2505.14681v1