UI-R1: 규칙 기반 강화 학습으로 GUI 에이전트의 지능 향상시키다!
중국과학원 자동화연구소 연구진이 개발한 UI-R1 모델은 규칙 기반 강화 학습을 통해 GUI 에이전트의 행동 예측 능력을 크게 향상시켰습니다. 소규모 고품질 데이터셋을 활용한 데이터 효율적인 학습 방식으로 기존 모델 대비 상당한 성능 향상을 달성, GUI 이해 및 제어 분야의 새로운 가능성을 제시했습니다.

최근 딥러닝 분야에서 규칙 기반 강화 학습(RL)의 놀라운 발전이 주목받고 있습니다. 중국과학원 자동화연구소(IA CAS)의 연구진은 이러한 흐름을 타고, UI-R1이라는 혁신적인 모델을 개발했습니다. UI-R1은 규칙 기반 강화 학습을 통해 그래픽 사용자 인터페이스(GUI) 에이전트의 행동 예측 능력을 향상시키는 데 성공했습니다.
기존의 DeepSeek-R1 모델에서 영감을 얻은 UI-R1은 규칙 기반 보상을 이용한 강화 학습을 통해 다중 모달 대규모 언어 모델(MLLM) 의 추론 능력을 향상시키는 데 초점을 맞췄습니다. 특히, 모바일 기기에서의 다섯 가지 일반적인 행동 유형을 포함하는 136개의 까다로운 과제로 구성된 소규모 고품질 데이터셋을 활용하여 데이터 효율성을 극대화했습니다.
연구진은 Group Relative Policy Optimization (GRPO) 와 같은 정책 기반 알고리즘을 통해 모델 최적화를 수행했습니다. 그 결과, UI-R1-3B 모델은 기존 모델(Qwen2.5-VL-3B) 대비 놀라운 성능 향상을 보였습니다. AndroidControl 벤치마크에서 행동 유형 정확도는 15%, 근거 정확도는 10.3% 향상되었으며, ScreenSpot-Pro 벤치마크에서는 76,000개의 데이터로 감독 학습을 통해 훈련된 대형 모델(예: OS-Atlas-7B)과 경쟁할 만한 성능을 보이며 기존 모델보다 6.0% 높은 정확도를 기록했습니다.
이러한 결과는 규칙 기반 강화 학습이 GUI 이해 및 제어 기술 발전에 큰 잠재력을 가지고 있음을 보여줍니다. UI-R1은 데이터 효율성과 성능 향상이라는 두 마리 토끼를 모두 잡은 셈입니다. 앞으로 GUI 관련 연구에 새로운 지평을 열어줄 것으로 기대됩니다. 특히, 소규모 고품질 데이터를 사용하여 우수한 성능을 달성한 점은 향후 연구 방향에 시사하는 바가 크다고 할 수 있습니다.
Zhengxi Lu 등 8명의 연구진이 이룬 이 쾌거는 AI 분야의 괄목할 만한 성과로, 앞으로 더욱 발전된 GUI 에이전트 기술을 기대하게 만듭니다.
Reference
[arxiv] UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
Published: (Updated: )
Author: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
http://arxiv.org/abs/2503.21620v1