두 개의 머리가 더 낫다: 다중 에이전트 협업 추론의 테스트 시간 확장
Can Jin 등 연구진이 개발한 적응형 다중 에이전트 프레임워크와 CEO 에이전트는 다중 에이전트 협업 추론의 효율성을 크게 향상시켜 다양한 작업에서 기존 최고 성능 모델을 능가하는 결과를 보였습니다. 이 연구는 LLM 기반 MAS의 실제 문제 해결 능력을 한 단계 끌어올리는 획기적인 성과입니다.

최근 급격한 발전을 거듭하는 인공지능 분야에서, 대규모 언어 모델(LLM) 기반의 다중 에이전트 시스템(MAS)은 단일 에이전트 시스템이 해결하기 어려운 복잡한 실제 문제들을 해결할 수 있는 유망한 방법으로 떠오르고 있습니다. 하지만, 테스트 시간 확장(TTS) 기술의 발전에도 불구하고, MAS에서의 협업과 추론을 효과적으로 확장하는 방법은 여전히 미해결 과제로 남아있었습니다.
Can Jin 등 연구진이 주도한 최신 연구는 이러한 문제에 대한 혁신적인 해결책을 제시합니다. 연구진은 모델 수준 훈련과 시스템 수준 조정을 통해 협업 추론을 향상시키는 적응형 다중 에이전트 프레임워크를 개발했습니다. 이를 위해 500개의 다중 에이전트 협업 추론 기록을 포함하는 고품질 데이터셋 M500을 새롭게 구축하고, 이를 사용하여 다중 에이전트 협업에 최적화된 모델 M1-32B를 학습시켰습니다.
더 나아가, 연구진은 CEO 에이전트라는 혁신적인 개념을 도입했습니다. CEO 에이전트는 에이전트 간의 토론 과정을 동적으로 관리하여 협업을 유도하고, 문제 해결을 위해 필요한 추론의 깊이를 조절하는 역할을 합니다. 이를 통해 더욱 효과적인 문제 해결이 가능해졌습니다.
다양한 작업(일반적인 이해, 수학적 추론, 코딩 등)에 대한 실험 결과는 이 시스템의 뛰어난 성능을 보여줍니다. M1-32B는 기존 최고 성능 모델들과 비교하여 상당한 성능 향상을 기록했습니다. 구체적으로, GPQA-Diamond에서 12%, AIME2024에서 41%, MBPP-Sanitized에서 10%의 성능 향상을 달성하여, 일부 작업에서는 DeepSeek-R1과 같은 최첨단 모델과 동등한 성능을 보였습니다. 이러한 결과는 학습된 협업과 적응형 조정이 다중 에이전트 추론 확장에 중요한 역할을 한다는 것을 강조합니다. 연구 코드는 GitHub에서 확인할 수 있습니다.
이 연구는 다중 에이전트 시스템의 발전에 중요한 이정표를 제시하며, 향후 더욱 복잡하고 어려운 문제들을 해결하는 데 기여할 것으로 기대됩니다. 특히, CEO 에이전트와 같은 적응형 조정 메커니즘의 도입은 다중 에이전트 시스템의 실용성을 크게 높일 수 있는 핵심 요소로 평가됩니다.
Reference
[arxiv] Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning
Published: (Updated: )
Author: Can Jin, Hongwu Peng, Qixin Zhang, Yujin Tang, Dimitris N. Metaxas, Tong Che
http://arxiv.org/abs/2504.09772v1