똑똑한 AI, 이젠 생각도 효율적으로! 적응형 추론 방식의 혁신
중국과학원 자동화연구소 연구팀이 대규모 추론 모델의 효율성을 높이는 '적응형 자가 회복 추론(ASRR)' 프레임워크를 개발했습니다. ASRR은 모델의 내부 자가 회복 메커니즘을 활용, 불필요한 추론을 줄이고 문제 난이도에 따라 추론 노력을 조절합니다. 실험 결과, 추론 비용을 최대 32.5% 절감하면서 정확도 손실은 최소화하고 안전성을 향상시켰습니다.

최근 괄목할 만한 성능을 보이는 대규모 추론 모델(LRM)들이 있지만, 복잡하지 않은 문제에도 과도한 계산 자원을 소모하는 문제점이 있습니다. 마치 굳이 복잡한 계산을 거쳐 간단한 답을 구하는 것과 같습니다. 중국과학원 자동화연구소의 장샤오윈(Xiaoyun Zhang) 박사 연구팀은 이러한 문제를 해결하기 위해 '적응형 자가 회복 추론(Adaptive Self-Recovery Reasoning, ASRR)' 이라는 혁신적인 프레임워크를 제시했습니다.
연구팀은 LRM이 '장시간 사고(Long-Thinking)' 모드와 '사고하지 않음(No-Thinking)' 모드에서 각각 어느 정도의 성능 상한선을 가질 수 있는지 체계적으로 측정했습니다. 그 과정에서 놀라운 사실을 발견했습니다. 모델이 답을 생성하는 동안 내부적으로 추론 과정을 보완하는 '내부 자가 회복 메커니즘(Internal Self-Recovery Mechanism)' 이 존재한다는 것입니다! 이는 마치 사람이 문제 해결 과정에서 무의식적으로 추가적인 사고를 거치는 것과 유사합니다.
ASRR은 바로 이러한 메커니즘에 착안하여 개발되었습니다. 불필요한 추론을 억제하고 필요할 때만 내부 자가 회복 메커니즘을 활용하여 효율성을 극대화하는 것입니다. 더불어, 정확도를 고려한 길이 보상 규제(accuracy-aware length reward regulation)를 도입하여 문제의 난이도에 따라 추론 노력을 적응적으로 배분합니다. 이는 마치 숙련된 장인이 문제의 복잡성을 파악하고 효율적인 방법으로 작업하는 것과 같습니다.
다양한 벤치마크와 모델에 대한 실험 결과는 ASRR의 놀라운 효율성을 보여줍니다. 기존의 GRPO와 비교하여 추론 비용을 최대 32.5%(1.5B 모델) 및 25.7%(7B 모델)까지 줄이면서 정확도 손실은 1.2% 및 0.6% pass@1로 최소화했습니다. 더 나아가 안전성 벤치마크에서도 무해율(harmless rates)을 최대 21.7%까지 향상시켰습니다. 이는 ASRR이 LRM의 효율성, 적응성, 안전성을 동시에 향상시킬 수 있는 잠재력을 가짐을 보여주는 획기적인 결과입니다.
이 연구는 단순히 AI의 효율성을 높이는 것을 넘어, AI가 더욱 안전하고 지능적으로 작동하는 새로운 가능성을 제시합니다. ASRR의 등장은 AI 연구의 새로운 이정표가 될 것으로 기대됩니다. 앞으로 ASRR을 기반으로 더욱 발전된 적응형 추론 기술들이 개발되어 AI가 인류 사회에 더 큰 기여를 할 수 있기를 기대해봅니다.
Reference
[arxiv] When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning
Published: (Updated: )
Author: Xiaoyun Zhang, Jingqing Ruan, Xing Ma, Yawen Zhu, Haodong Zhao, Hao Li, Jiansong Chen, Ke Zeng, Xunliang Cai
http://arxiv.org/abs/2505.15400v1