UIShift: 자기 지도 강화 학습으로 VLM 기반 GUI 에이전트 성능 향상


고룡희, 장리, 서맹위 연구팀이 개발한 UIShift 프레임워크는 자기 지도 역동성 학습을 통해 VLM 기반 GUI 에이전트의 성능을 획기적으로 향상시켰습니다. 단 2,000개의 훈련 샘플로 경쟁력 있는 성능을 달성, 향후 자기 지도 학습 데이터 확장을 통한 더 큰 발전 가능성을 제시합니다.

related iamge

GUI 에이전트의 혁신: 자기 지도 학습의 힘

GUI(Graphical User Interface) 에이전트는 사용자 인터페이스와 상호 작용하는 인공지능 시스템입니다. 기존에는 Vision Language Model(VLM) 기반 GUI 에이전트를 훈련시키기 위해 대규모 주석 데이터를 필요로 하는 지도 학습 방식이 주로 사용되었습니다. 하지만, 이는 데이터 수집 과정의 어려움과 높은 비용이라는 큰 단점을 가지고 있었습니다.

고룡희, 장리, 서맹위 연구팀은 이러한 한계를 극복하기 위해 UIShift라는 획기적인 프레임워크를 제안했습니다. UIShift는 자기 지도 역동성 학습(self-supervised inverse dynamics task) 을 활용하여 VLM이 GUI 전환 쌍으로부터 학습하도록 합니다. 즉, 어떤 행동이 특정 GUI 변화를 야기했는지 추론하는 방식입니다.

이 방법은 두 가지 주요 장점을 제공합니다. 첫째, 복잡한 GUI 내에서 버튼이나 입력 필드와 같은 실제 기능(affordances)에 집중하여 배경 갱신이나 광고와 같은 사용자 행동과 무관한 변화는 무시합니다. 둘째, 인간의 주석 없이 기존 GUI 경로로부터 쉽게 훈련 데이터를 얻을 수 있으며, 자동 오프라인 탐색을 통해 쉽게 확장할 수 있습니다.

UIShift는 자기 지도 강화 학습(self-supervised reinforcement learning)을 통해 VLM 기반 GUI 에이전트를 향상시킵니다. 놀랍게도, 기존 데이터셋에서 얻은 단 2,000개의 훈련 샘플만을 사용하여 Qwen2.5-VL-3B와 Qwen2.5-VL-7B 두 가지 VLM을 훈련시킨 결과, ScreenSpot-series 벤치마크와 AndroidControl과 같은 과제에서 지도 학습 기반 모델 및 GUI 특화 모델들과 비교하여 경쟁력 있는 또는 더 우수한 성능을 달성했습니다.

이 연구는 향후 더 많은 자기 지도 학습 데이터를 활용하여 VLM 기반 GUI 에이전트를 더욱 발전시킬 수 있는 가능성을 보여줍니다. 이는 GUI 에이전트 분야에 있어서 획기적인 진전이며, 데이터 효율성과 성능 향상이라는 두 마리 토끼를 모두 잡은 훌륭한 사례입니다. 앞으로 UIShift가 어떻게 더 발전하고, 다양한 분야에 적용될지 기대됩니다!


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] UIShift: Enhancing VLM-based GUI Agents through Self-supervised Reinforcement Learning

Published:  (Updated: )

Author: Longxi Gao, Li Zhang, Mengwei Xu

http://arxiv.org/abs/2505.12493v1