언제든지 추론 최적화: 예산 상대 정책 최적화(BRPO)의 등장
본 기사는 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 프레임워크인 AnytimeReasoner와 예산 상대 정책 최적화(BRPO) 기법에 대해 소개합니다. AnytimeReasoner는 다양한 토큰 예산에서 효율적인 추론을 가능하게 하며, BRPO는 학습 과정의 강건성과 효율성을 향상시킵니다. 실험 결과는 제시된 방법이 기존 방법보다 우수한 성능을 보임을 입증합니다.

대규모 언어 모델의 추론 능력 향상: AnytimeReasoner의 혁신적인 접근
최근 몇 년 동안, 대규모 언어 모델(LLM)은 괄목할 만한 발전을 이루었습니다. 하지만 LLM의 추론 능력을 더욱 향상시키기 위해서는 테스트 시간 계산의 확장성을 확보하는 것이 매우 중요한 과제로 남아있습니다. 기존의 강화 학습(Reinforcement Learning, RL) 기반 접근 방식들은 주로 고정된 토큰 예산 하에서 최종 성능만을 최적화하는 데 집중했습니다. 이는 훈련 과정의 효율성을 저해하고, 다양한 상황에 유연하게 대처할 수 있는 능력을 제한하는 결과를 초래했습니다.
Qi 등의 연구진은 이러한 문제를 해결하기 위해 AnytimeReasoner라는 혁신적인 프레임워크를 제시했습니다. AnytimeReasoner는 다양한 토큰 예산 제약 조건 하에서도 최적의 추론 성능을 달성하는 것을 목표로 합니다. 핵심 아이디어는 사전 분포에서 추출된 다양한 토큰 예산을 사용하여 추론 과정을 여러 번 잘라내고, 각각의 잘린 추론에 대해 최적의 답변을 요약하고 검증하는 것입니다. 이를 통해 추론 과정 전반에 걸쳐 검증 가능한 밀집 보상(dense reward)을 도입함으로써 강화 학습 과정에서 보다 효과적인 크레딧 할당을 가능하게 합니다.
더욱이, 연구진은 추론 정책(thinking policy)과 요약 정책(summary policy)을 분리하여 최적화하는 방법을 제시했습니다. 이러한 분리된 최적화는 각 정책의 역할을 명확히 구분하여 학습 효율을 높입니다. 또한, 예산 상대 정책 최적화(Budget Relative Policy Optimization, BRPO) 라는 새로운 분산 감소 기법을 도입하여 강화 학습 과정의 강건성과 효율성을 크게 향상시켰습니다.
수학적 추론 과제를 이용한 실험 결과는 AnytimeReasoner가 기존의 GRPO 방법을 압도적으로 능가함을 보여줍니다. 이는 다양한 토큰 예산 및 사전 분포 하에서 일관되게 높은 성능을 보여주며, 훈련 효율성과 토큰 효율성 모두를 향상시켰다는 것을 의미합니다. 이러한 성과는 LLM의 추론 능력 향상에 있어서 중요한 이정표가 될 것으로 기대됩니다.
결론적으로, AnytimeReasoner와 BRPO는 LLM의 추론 능력을 향상시키는 데 있어 새로운 가능성을 제시합니다. 이는 단순히 최종 성능만을 고려하는 기존 방식에서 벗어나, 다양한 상황에 유연하게 대처하고 효율적인 자원 관리를 가능하게 하는 중요한 발전입니다. 앞으로 이러한 연구는 LLM의 실제 적용 분야를 더욱 확장하는 데 크게 기여할 것으로 전망됩니다.
Reference
[arxiv] Optimizing Anytime Reasoning via Budget Relative Policy Optimization
Published: (Updated: )
Author: Penghui Qi, Zichen Liu, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
http://arxiv.org/abs/2505.13438v1