사회적 언어 에이전트의 적응적 사고: AML 프레임워크의 혁신
Wang et al.(2025)의 연구는 사회적 언어 에이전트의 적응적 사고 능력 향상을 위한 AML 프레임워크를 제시합니다. 인지 제어 이론에 기반한 다층적 사고 모드와 AMPO 알고리즘을 통해 상황에 맞는 추론 깊이 조절 및 효율적인 토큰 사용을 가능하게 합니다. 실험 결과, GPT-4o 대비 15.6%, GRPO 대비 7.0% 향상된 성능을 달성하며 적응적 사고 모드의 우수성을 입증했습니다.

사회적 언어 에이전트의 지능 향상을 위한 새로운 지평: AML 프레임워크
최근 사회적 지능을 가진 언어 에이전트 개발에 대한 관심이 높아지고 있습니다. 하지만 기존 모델들은 상황에 따라 추론 깊이를 조절하는 능력이 부족하여 효율성이 떨어지고 유연성이 부족한 한계를 보였습니다. Wang et al.(2025)의 연구는 이러한 문제점을 해결하기 위해 적응적 모드 학습(Adaptive Mode Learning, AML) 프레임워크를 제시하며 주목을 받고 있습니다.
AML 프레임워크는 인지 제어 이론에 기반하여 직관적 반응부터 심층적 숙고까지 다양한 사고 모드를 정의합니다. 이는 상황에 따라 가장 적절한 사고 방식을 선택하여 효율적인 추론을 가능하게 합니다. 핵심 알고리즘인 적응적 모드 정책 최적화(Adaptive Mode Policy Optimization, AMPO) 는 상황 인식 기반의 모드 전환과 추론을 최적화하여 토큰 사용량을 줄이고 사회적 상호 작용을 보다 자연스럽게 만듭니다.
이 연구의 핵심 기여는 다음과 같습니다:
- 다층적 사고 모드 설계: 직관적 반응부터 심층적 숙고까지 다양한 수준의 사고 모드를 구분하여 상황에 맞는 추론을 가능하게 합니다.
- 상황 인식 기반 모드 전환: 사회적 상호 작용 중 상황에 따라 적절한 사고 모드를 동적으로 전환합니다.
- 토큰 효율적인 추론: 적응적 추론 깊이 처리를 통해 불필요한 토큰 사용을 줄입니다.
실험 결과는 AML 프레임워크의 우수성을 보여줍니다. GPT-4o 대비 15.6% 향상된 작업 성능을 달성했으며, 기존의 GRPO 알고리즘보다 7.0% 높은 성능을 32.8% 더 짧은 추론 체인으로 달성했습니다. 이는 AMPO 알고리즘의 적응적 사고 모드 선택 및 최적화 메커니즘이 고정된 추론 깊이를 사용하는 GRPO보다 효율적임을 증명합니다.
이 연구는 사회적 지능을 갖춘 언어 에이전트 개발에 있어 중요한 발걸음을 내딛었습니다. 향후 연구는 더욱 다양한 사회적 상황에서의 적용 및 더욱 정교한 사고 모드 설계를 통해 더욱 발전된 모델을 개발할 수 있을 것으로 기대됩니다. AML 프레임워크는 더욱 유연하고 효율적인 사회적 언어 에이전트 개발의 새로운 가능성을 열었습니다. 🎉
Reference
[arxiv] Adaptive Thinking via Mode Policy Optimization for Social Language Agents
Published: (Updated: )
Author: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao
http://arxiv.org/abs/2505.02156v3