중국 연구진, 사회적 언어 에이전트의 ‘적응형 사고’ 혁신: AML 프레임워크
중국 연구진이 개발한 AML 프레임워크는 사회적 언어 에이전트의 적응형 사고 능력을 향상시켜, 기존 모델보다 높은 성능과 효율성을 달성했습니다. 상황에 맞는 추론 깊이 조절을 통해 토큰 사용을 줄이고, 사회적 상호작용에서의 유연성을 높였습니다.

최근 중국 연구진(Minzheng Wang 외)이 사회적 상호작용에서 언어 에이전트의 사고 능력을 획기적으로 향상시키는 새로운 프레임워크를 발표했습니다. 바로 적응형 모드 학습(Adaptive Mode Learning, AML) 입니다.
기존의 언어 에이전트들은 모든 상황에서 일정한 수준의 추론을 수행하거나, 추론 능력 자체가 부족하여 효율성이 떨어지고 사회적 상황에 대한 유연한 대처가 어려웠습니다. 하지만 AML은 상황에 따라 추론 깊이를 동적으로 조절하는 적응형 사고 능력을 구현하여 이러한 문제점을 해결하고자 합니다.
AML의 핵심은 무엇일까요?
AML은 인지 제어 이론에 기반하여 직관적 반응부터 심층적 숙고까지 다양한 사고 모드를 계층적으로 구분합니다. 그리고 적응형 모드 정책 최적화(Adaptive Mode Policy Optimization, AMPO) 알고리즘을 통해 상황에 맞는 모드를 선택하고 추론 과정을 최적화합니다. 이는 마치 사람이 상황에 따라 생각의 깊이를 조절하는 것과 유사합니다.
AML의 주요 성과는 다음과 같습니다.
- 다양한 사고 모드 설계: 직관적 반응부터 심층적 숙고까지 다양한 수준의 사고 모드를 제공합니다.
- 상황 인식 모드 전환: 사회적 상호작용 상황에 따라 적절한 사고 모드를 동적으로 전환합니다.
- 토큰 효율적 추론: 추론 깊이를 조절하여 불필요한 토큰 사용을 줄입니다.
실제 실험 결과, AML은 기존의 GPT-4o보다 15.6% 높은 성능을 기록했습니다. 또한, AMPO는 GRPO에 비해 7.0% 높은 성능을 보였을 뿐만 아니라, 추론 체인 길이도 32.8% 단축시켰습니다. 이는 AML의 적응형 사고 메커니즘이 효율성과 성능 향상에 크게 기여함을 보여주는 결과입니다.
이번 연구는 사회적 언어 에이전트의 발전에 중요한 이정표를 제시했습니다. 앞으로 AML과 같은 적응형 사고 기술이 더욱 발전한다면, 인공지능이 인간과 더욱 자연스럽고 효율적으로 상호작용하는 미래를 앞당길 것으로 기대됩니다.
Reference
[arxiv] Adaptive Thinking via Mode Policy Optimization for Social Language Agents
Published: (Updated: )
Author: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao
http://arxiv.org/abs/2505.02156v4