APIGen-MT: 시뮬레이션 기반의 멀티턴 데이터 생성으로 AI 에이전트 성능 향상
Salesforce 연구팀이 개발한 APIGen-MT는 시뮬레이션 기반 멀티턴 데이터 생성을 통해 고품질의 AI 에이전트 훈련 데이터를 생성하고, 기존 모델을 능가하는 xLAM-2-fc-r 모델을 개발했습니다. 생성된 데이터와 모델은 오픈소스로 공개되어 AI 에이전트 연구 발전에 기여할 것으로 기대됩니다.

인간-에이전트 상호작용 시뮬레이션으로 AI 에이전트의 혁신을 이끌다: APIGen-MT
실제 인간과 AI 에이전트의 상호작용 데이터를 얻는 것은 어렵고 비용이 많이 듭니다. 이 문제를 해결하기 위해 Salesforce 연구팀이 주도한 연구에서 혁신적인 프레임워크, APIGen-MT가 등장했습니다. APIGen-MT는 시뮬레이션을 통해 현실적인 멀티턴 상호작용 데이터를 생성하는데 초점을 맞춘 획기적인 시스템입니다.
두 단계로 구성된 APIGen-MT는 다음과 같이 작동합니다.
- 에이전트 파이프라인: LLM(대규모 언어 모델) 검토자 위원회와 반복적인 피드백 루프를 통해 상세한 작업 청사진과 정답 행동을 생성합니다. 마치 여러 전문가가 함께 검토하고 수정하며 완벽한 계획을 세우는 것과 같습니다.
- 시뮬레이션: 생성된 청사진을 기반으로 인간-에이전트 간의 상호작용을 시뮬레이션하여 완전한 상호작용 경로를 만들어냅니다. 이를 통해 다양하고 현실적인 데이터셋을 확보할 수 있습니다.
이렇게 생성된 데이터를 사용하여 xLAM-2-fc-r 시리즈 모델(1B~70B 파라미터)을 훈련한 결과, 놀라운 성과가 나타났습니다. 기존 최첨단 모델인 GPT-4o와 Claude 3.5를 $\tau$-bench 및 BFCL 벤치마크에서 능가하였습니다. 특히, 더 작은 모델들조차도 멀티턴 설정에서 뛰어난 성능을 보이며 여러 번의 시도에서 일관된 결과를 제공했습니다. 이는 APIGen-MT가 고품질의 훈련 데이터를 생성하는데 성공했음을 의미합니다.
더욱 고무적인 것은, Salesforce 연구팀이 생성된 합성 데이터와 훈련된 xLAM-2-fc-r 모델을 Hugging Face(https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4)와 프로젝트 웹사이트(https://apigen-mt.github.io)를 통해 오픈소스로 공개했다는 점입니다. 이는 AI 에이전트 연구 분야의 발전에 크게 기여할 것으로 기대됩니다.
결론적으로, APIGen-MT는 멀티턴 상호작용 AI 에이전트 개발의 난제를 해결하는 데 중요한 전기를 마련했습니다. 시뮬레이션 기반의 데이터 생성과 오픈소스 공개라는 두 가지 측면에서 괄목할 만한 성과를 거두었으며, 앞으로 AI 에이전트 연구의 새로운 지평을 열 것으로 예상됩니다.
Reference
[arxiv] APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay
Published: (Updated: )
Author: Akshara Prabhakar, Zuxin Liu, Ming Zhu, Jianguo Zhang, Tulika Awalgaonkar, Shiyu Wang, Zhiwei Liu, Haolin Chen, Thai Hoang, Juan Carlos Niebles, Shelby Heinecke, Weiran Yao, Huan Wang, Silvio Savarese, Caiming Xiong
http://arxiv.org/abs/2504.03601v2