APIGen-MT: 시뮬레이션 기반의 멀티턴 데이터 생성을 통한 차세대 AI 에이전트 개발


Salesforce 연구팀이 개발한 APIGen-MT는 LLM 리뷰어와 시뮬레이션 기반 데이터 생성을 통해 고품질 멀티턴 에이전트 데이터를 생성합니다. 다양한 크기의 xLAM-2-fc-r 모델은 기존 최첨단 모델들을 능가하는 성능을 보였으며, 생성된 데이터와 모델은 오픈소스로 공개되어 AI 에이전트 연구에 기여할 것으로 기대됩니다.

related iamge

AI 에이전트의 혁신: APIGen-MT의 등장

최근 AI 분야에서 멀티턴(multi-turn) 상호작용을 위한 효과적인 AI 에이전트 개발이 화두입니다. 하지만 현실적인 인간-에이전트 상호작용 데이터는 부족하고 수집 비용이 높다는 어려움이 있습니다.

Salesforce 연구팀은 이 문제를 해결하기 위해 APIGen-MT라는 획기적인 프레임워크를 개발했습니다. Akshara Prabhakar 등 15명의 연구원은 LLM(Large Language Model) 리뷰어와 반복적인 피드백 루프를 활용하여 고품질의 멀티턴 에이전트 데이터를 생성하는 방법을 제시했습니다. 먼저, 세부적인 작업 청사진(task blueprints)을 생성하고, 이를 바탕으로 시뮬레이션된 인간-에이전트 상호작용을 통해 완전한 상호작용 경로를 만들어내는 2단계 프로세스입니다. 이는 마치 실제 상황처럼 인간과 AI가 대화하는 시나리오를 만들고, 그 데이터를 학습에 사용하는 혁신적인 접근 방식입니다.

xLAM-2-fc-r 시리즈: 연구팀은 10억에서 700억 개의 파라미터를 가진 xLAM-2-fc-r 시리즈 모델을 훈련했습니다. 놀랍게도, 이 모델들은 GPT-4o나 Claude 3.5와 같은 최첨단 모델들을 $\tau$-bench와 BFCL 벤치마크에서 능가했습니다. 특히, 소규모 모델들이 멀티턴 설정에서 더 우수한 성능을 보였으며, 여러 시도에서 일관된 결과를 유지했습니다. 이는 단순히 모델의 크기만이 성능을 결정하지 않음을 보여주는 중요한 결과입니다. 크기가 작은 모델이 더 효율적일 수 있음을 시사하며, 자원 효율적인 AI 에이전트 개발에 대한 새로운 가능성을 열었습니다.

오픈소스 공개: 연구팀은 생성된 합성 데이터와 훈련된 xLAM-2-fc-r 모델을 HuggingFace (https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4) 와 프로젝트 웹사이트 (https://apigen-mt.github.io) 에서 오픈소스로 공개했습니다. 이는 AI 에이전트 연구의 발전에 크게 기여할 것으로 예상됩니다. 다른 연구자들이 이 데이터와 모델을 활용하여 더욱 발전된 AI 에이전트를 개발할 수 있도록 지원하는 것입니다.

결론: APIGen-MT는 고품질의 멀티턴 데이터를 생성하고, 효율적인 AI 에이전트를 개발하는 새로운 패러다임을 제시합니다. 오픈소스 공개를 통해 AI 연구 커뮤니티에 중요한 기여를 했을 뿐 아니라, 실제 세계 문제 해결에 적용될 수 있는 더욱 발전된 AI 에이전트 개발을 위한 중요한 발걸음이 될 것입니다. 이 연구는 단순히 기술적 진보를 넘어, AI 에이전트 연구의 미래를 밝히는 등대와 같은 존재가 될 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

Published:  (Updated: )

Author: Akshara Prabhakar, Zuxin Liu, Weiran Yao, Jianguo Zhang, Ming Zhu, Shiyu Wang, Zhiwei Liu, Tulika Awalgaonkar, Haolin Chen, Thai Hoang, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Silvio Savarese, Caiming Xiong

http://arxiv.org/abs/2504.03601v1