수학적 추론의 혁신: KTAE 알고리즘의 등장


Wei Sun 등의 연구는 기존 강화학습 알고리즘의 한계를 극복하는 새로운 알고리즘 KTAE를 제시합니다. KTAE는 추가 모델 없이 토큰 단위의 중요도를 정량화하여 더욱 정교한 강화학습을 가능하게 하며, 수학적 추론 벤치마크에서 우수한 성능을 보였습니다.

related iamge

최근 대규모 언어 모델(LLM)의 추론 능력 향상에 대한 연구가 활발히 진행되고 있습니다. 특히, 규칙 기반 보상을 활용한 강화 학습(Reinforcement Learning)의 접목은 지도 학습 없이도 성능 향상을 가져왔습니다. 그러나 기존의 GRPO 및 DAPO와 같은 강화 학습 알고리즘은 과립도(Granularity) 문제를 안고 있습니다. 이 알고리즘들은 시퀀스 내 모든 토큰에 동일한 값을 할당하는 rollout-level advantage를 계산하여 토큰별 기여도를 제대로 반영하지 못하는 한계가 있었습니다.

Sun 등(2025) 의 연구는 이러한 문제를 해결하기 위해 Key-token Advantage Estimation (KTAE) 알고리즘을 제시합니다. KTAE는 추가적인 모델 없이도 미세한 토큰 단위의 advantage를 추정하는 혁신적인 알고리즘입니다. 샘플링된 rollout의 정확성을 활용하고 통계적 분석을 통해 시퀀스 내 개별 토큰의 중요도를 정량화합니다. 이렇게 정량화된 토큰 수준의 중요도는 rollout-level advantage와 결합되어 더욱 정교한 토큰 단위 advantage 추정치를 제공합니다.

실험 결과, GRPO+KTAE와 DAPO+KTAE로 학습된 모델은 다섯 가지 수학적 추론 벤치마크에서 기존 방법들을 능가하는 성능을 보였습니다. 특히, 더 짧은 응답으로 높은 정확도를 달성했으며, 동일한 기본 모델을 사용하는 R1-Distill-Qwen-1.5B를 뛰어넘는 성과를 거두었습니다. 이는 KTAE가 토큰 수준의 중요도를 효과적으로 학습에 반영함으로써 모델의 효율성과 정확성을 크게 향상시켰음을 의미합니다.

KTAE의 등장은 수학적 추론 분야에 새로운 가능성을 제시합니다. 추가 모델 없이도 정교한 토큰 수준의 학습을 가능하게 함으로써, 향후 LLM의 추론 능력 향상에 크게 기여할 것으로 기대됩니다. 하지만, KTAE의 성능이 특정 벤치마크에 국한될 가능성과 다양한 유형의 수학 문제에 대한 일반화 능력은 추가적인 연구를 통해 검증되어야 합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning

Published:  (Updated: )

Author: Wei Sun, Wen Yang, Pu Jian, Qianlong Du, Fuwei Cui, Shuo Ren, Jiajun Zhang

http://arxiv.org/abs/2505.16826v1