ToLeaP: 거대 언어 모델의 도구 학습, 새로운 도약을 위한 4가지 과제
중국과학원 자동화연구소 연구진이 개발한 ToLeaP 플랫폼을 통해 41개의 LLM의 도구 학습 능력을 평가한 결과, 벤치마크의 한계, 자율 학습 부족, 일반화 능력 부족, 장기간 과제 해결 능력 부족 등 4가지 주요 과제가 도출되었습니다. 연구진은 실제 세계 벤치마크 구축, 호환성 인식 자율 학습, 추론 학습, 중요 단서 식별 및 상기 등의 해결 방향을 제시했습니다.

최근 급부상하고 있는 거대 언어 모델(LLM)은 외부 도구를 활용하는 '도구 학습' 능력을 통해 산업 전반의 생산성 혁신을 이끌 것으로 기대되고 있습니다. 하지만, 중국과학원 자동화연구소 연구진(Haotian Chen, Zijun Song 외)의 연구에 따르면, 도구 학습의 핵심 과제와 기회는 아직 충분히 연구되지 않아 심층적인 통찰과 미래 발전에 제약이 되고 있습니다.
연구진은 41개의 주요 LLM을 대상으로 33개의 벤치마크를 재현하고 7개에 대한 원클릭 평가를 가능하게 하는 도구 학습 플랫폼 'ToLeaP'을 개발했습니다. 또한, 33개 중 21개의 잠재적 훈련 데이터셋을 수집하여 향후 연구를 위한 기반을 마련했습니다.
ToLeaP 기반으로 41개 LLM의 3,000개 이상의 오류 사례를 분석한 결과, 다음과 같은 4가지 주요 과제가 도출되었습니다.
- 벤치마크의 한계: 기존 벤치마크는 LLM의 능력을 제대로 평가하지 못하고 있습니다.
- 자율 학습 부족: LLM은 스스로 학습하고 발전하는 능력이 부족합니다.
- 일반화 능력 부족: 특정 상황에만 적용 가능하고, 새로운 상황에 적응하지 못합니다.
- 장기간 과제 해결 능력 부족: 복잡하고 장기적인 과제를 해결하는 데 어려움을 겪습니다.
연구진은 이러한 과제를 해결하기 위해 다음과 같은 해결 방향을 제시했습니다.
- 실제 세계 벤치마크 구축: 현실적인 문제를 반영한 벤치마크를 개발해야 합니다.
- 호환성 인식 자율 학습: 다양한 도구와의 호환성을 고려한 자율 학습 능력을 향상시켜야 합니다.
- 추론 학습: LLM이 문제 해결 과정에 대한 추론 능력을 향상시켜야 합니다.
- 중요 단서 식별 및 상기: 문제 해결에 필요한 중요한 단서를 식별하고 기억하는 능력을 강화해야 합니다.
예비 실험 결과, 이러한 방향이 효과적임을 확인했습니다. 향후 지속적인 연구와 탐구를 통해 LLM의 도구 학습 능력을 한 단계 더 발전시켜야 할 것입니다. ToLeaP는 이러한 노력에 중요한 이정표가 될 것입니다. 이는 AI 기술 발전에 있어 중요한 전환점이 될 것이며, 우리가 AI와 공존하는 미래 사회를 설계하는 데 있어서도 중요한 의미를 지닙니다.
Reference
[arxiv] ToLeaP: Rethinking Development of Tool Learning with Large Language Models
Published: (Updated: )
Author: Haotian Chen, Zijun Song, Boye Niu, Ke Zhang, Litu Ou, Yaxi Lu, Zhong Zhang, Xin Cong, Yankai Lin, Zhiyuan Liu, Maosong Sun
http://arxiv.org/abs/2505.11833v1