#단일 모델이 대화와 툴 사용을 모두 마스터하다! CoALM의 혁신적인 도약


단일 모델로 복수 턴 대화와 도구 사용을 모두 가능하게 하는 CoALM 모델이 개발되어 기존 최고 성능 모델들을 뛰어넘는 성과를 달성했습니다. 이는 대화형 에이전트 기술 발전에 큰 기여를 할 것으로 예상됩니다.

related iamge

단일 모델이 대화와 툴 사용을 모두 마스터하다! CoALM의 혁신적인 도약

최근, 인공지능(AI) 분야에서 획기적인 연구 결과가 발표되었습니다. Emre Can Acikgoz를 비롯한 9명의 연구진이 발표한 논문 "Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model" 에서는 단일 모델로 복수 턴 대화와 도구 사용을 모두 마스터하는 CoALM(Conversational Agentic Language Model)이라는 혁신적인 모델을 소개했습니다.

기존 모델의 한계: 특화된 모델의 딜레마

기존의 대규모 언어 모델(LLM)은 API 호출 기능을 통해 효과적인 언어 에이전트(LA)를 구축하는 데 기여했고, 과업 중심 대화(TOD) 패러다임에도 혁명을 일으켰습니다. 하지만 TOD 시스템은 제한된 대상 API에 대해 훈련되기 때문에 새로운 서비스와 인터페이스할 때 품질을 유지하기 위해 새로운 데이터가 필요하다는 한계가 있었습니다. 반면, LA는 복수 턴 대화에서 사용자 의도를 유지하도록 훈련되지 않았습니다. 강력한 복수 턴 관리와 고급 기능 호출은 효과적인 대화형 에이전트에 필수적이지만, 기존 모델들은 한 영역에서는 뛰어나지만 다른 영역에서는 성능이 저조했습니다.

CoALM: 대화와 에이전트 기능을 통합한 혁신적인 해결책

연구진은 이러한 한계를 극복하기 위해 대화와 에이전트 기능을 통합한 CoALM을 제시했습니다. CoALM-IT라는 새로운 다중 작업 데이터셋을 통해 복수 턴 ReAct 추론과 복잡한 API 사용을 병렬적으로 처리하도록 훈련했습니다. CoALM 8B, CoALM 70B, CoALM 405B 세 가지 모델을 훈련한 결과, GPT-4o를 포함한 기존 최고 성능의 도메인 특화 모델들을 MultiWOZ 2.4 (TOD), BFCL V3 (LA), API-Bank (LA) 세 가지 벤치마크에서 모두 뛰어넘는 성과를 달성했습니다.

CoALM의 의미: 새로운 대화형 에이전트의 기준 제시

이 연구는 단일 모델로 TOD와 LA 모두를 처리할 수 있음을 보여주는 획기적인 결과입니다. CoALM은 단순히 기능을 추가한 것이 아니라, 대화와 도구 사용을 통합적으로 처리하는 새로운 패러다임을 제시하며, 대화형 에이전트의 새로운 기준을 제시했습니다. 이는 앞으로 더욱 발전된 AI 기반 대화 시스템 개발에 중요한 이정표가 될 것으로 예상됩니다. 🎉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model

Published:  (Updated: )

Author: Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur

http://arxiv.org/abs/2502.08820v2