AgentCPM-GUI: 모바일 혁신을 위한 80억 파라미터의 지능형 GUI 에이전트 등장!


중국 연구진이 개발한 80억 파라미터의 GUI 에이전트 AgentCPM-GUI는 모바일 환경에서의 지능형 상호작용을 혁신적으로 개선합니다. 다국어 지원 및 강화 학습 기반의 훈련 파이프라인을 통해 기존의 한계를 극복하고, 다양한 벤치마크에서 최첨단 성능을 달성했습니다. 공개된 코드와 데이터는 향후 연구의 발전에 크게 기여할 것으로 예상됩니다.

related iamge

중국 연구진, 모바일 환경 혁신 주도할 GUI 에이전트 AgentCPM-GUI 개발

최근 대규모 언어 모델(LLM) 에이전트의 발전은 그래픽 사용자 인터페이스(GUI)를 통한 작업 자동화에 새로운 가능성을 열었습니다. 특히, 지능형 상호작용이 사용성을 크게 향상시킬 수 있는 모바일 환경에서 그 중요성이 더욱 커지고 있습니다. 하지만, 이러한 에이전트의 실제 배포에는 여러 가지 어려움이 존재합니다.

기존의 훈련 데이터는 종종 잡음이 많고 의미적 다양성이 부족하여 정확한 접지(grounding)와 계획 학습을 어렵게 만들었습니다. 모방 학습만으로 훈련된 모델은 관찰된 인터페이스 패턴에 과적합되어 익숙하지 않은 상황에서는 일반화에 실패하는 경우가 많았습니다. 게다가, 대부분의 이전 연구는 영어 인터페이스에 집중하여 중국 모바일 생태계와 같은 비영어권 애플리케이션의 증가하는 다양성을 간과했습니다.

이러한 문제를 해결하고자, 중국 연구진(Zhang et al.)은 AgentCPM-GUI를 개발했습니다. AgentCPM-GUI는 강력하고 효율적인 온디바이스 GUI 상호작용을 위해 설계된 80억 파라미터의 GUI 에이전트입니다. 그들의 훈련 파이프라인은 다음과 같은 핵심 요소를 포함합니다.

  • 접지 인식 사전 훈련: 인식 능력 향상
  • 고품질 중국어 및 영어 경로에 대한 지도 학습 미세 조정: 사람과 같은 행동 모방
  • GRPO를 사용한 강화 학습 미세 조정: 추론 능력 향상
  • 압축된 행동 공간: 출력 길이 단축 및 모바일 장치에서의 저지연 실행 지원

AgentCPM-GUI는 다섯 개의 공개 벤치마크와 새로운 중국어 GUI 벤치마크인 CAGUI에서 최첨단 성능을 달성했습니다. Type-Match 정확도 96.9%, Exact-Match 정확도 91.3%를 기록하며 그 성능을 입증했습니다. 더 나아가, 재현성을 높이고 추가 연구를 촉진하기 위해 모든 코드, 모델 체크포인트 및 평가 데이터를 공개했습니다.

AgentCPM-GUI는 단순한 기술적 진보를 넘어, 모바일 환경에서의 인간-컴퓨터 상호작용 방식에 대한 혁신적인 변화를 예고합니다. 다국어 지원과 강화 학습을 통한 뛰어난 성능은 다양한 모바일 애플리케이션의 사용성을 크게 향상시킬 뿐만 아니라, 더욱 발전된 지능형 모바일 경험을 제공할 것으로 기대됩니다. 이 연구는 앞으로 모바일 AI 분야의 발전에 중요한 이정표가 될 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning

Published:  (Updated: )

Author: Zhong Zhang, Yaxi Lu, Yikun Fu, Yupeng Huo, Shenzhi Yang, Yesai Wu, Han Si, Xin Cong, Haotian Chen, Yankai Lin, Jie Xie, Wei Zhou, Wang Xu, Yuanheng Zhang, Zhou Su, Zhongwu Zhai, Xiaoming Liu, Yudong Mei, Jianming Xu, Hongyan Tian, Chongyi Wang, Chi Chen, Yuan Yao, Zhiyuan Liu, Maosong Sun

http://arxiv.org/abs/2506.01391v1