GUI-G1: GUI 에이전트를 위한 R1-Zero 유사 훈련의 이해와 혁신적인 개선
Zhou Yuqi 등 연구진의 GUI-G1 논문은 R1-Zero 방식을 GUI 에이전트에 적용하는 과정에서 발생하는 문제점들을 분석하고, Fast Thinking Template, Box Size Constraint, 난이도 고려 RL 목적 함수 수정 등의 혁신적인 해결책을 제시하여 GUI grounding 분야에서 새로운 최첨단 기술을 달성했습니다.

최근, 그래픽 사용자 인터페이스(GUI) 에이전트 분야에서 R1-Zero 패러다임을 모방한 연구가 활발하게 진행되고 있습니다. 온라인 강화 학습(RL)과 명시적인 chain-of-thought 추론을 결합하여 객체 grounding 성능을 크게 향상시키는 것이 주요 목표입니다. Zhou Yuqi 등 연구진이 발표한 논문 "GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents"는 이러한 흐름 속에서 기존 연구의 한계를 날카롭게 지적하고, 획기적인 개선 방안을 제시하여 주목받고 있습니다.
기존 연구의 한계: R1-Zero의 단순 적용의 어려움
연구진은 R1-Zero 방식을 GUI grounding 작업에 단순히 적용하는 데 따른 세 가지 주요 문제점을 밝혔습니다.
- 입력 설계(Input Design): 기존의 템플릿은 모델이 chain-of-thought 추론을 생성하도록 유도하지만, 오히려 추론 과정이 길어질수록 grounding 성능이 저하되는 역설적인 현상이 발견되었습니다. 더 긴 추론이 항상 더 나은 결과를 보장하는 것은 아니라는 점을 시사합니다.
- 출력 평가(Output Evaluation): hit signals 또는 box area 기반의 보상 함수는 모델이 box 크기를 악용하여 보상을 극대화하는 ‘reward hacking’ 문제를 야기하고, 정확한 위치 파악(localization) 성능을 저하시키는 것으로 나타났습니다.
- 정책 업데이트(Policy Update): 온라인 RL은 길이와 샘플 난이도의 편향성으로 인해 쉬운 예시에 과적합되는 경향이 있으며, 어려운 예시에 대한 최적화가 부족한 문제점이 지적되었습니다.
혁신적인 해결책: GUI-G1의 세 가지 개선
연구진은 상기 문제점들을 해결하기 위해 세 가지 표적화된 해결책을 제시합니다.
- Fast Thinking Template: 과도한 추론을 줄이고 직접적인 답변 생성을 유도하는 새로운 템플릿을 도입했습니다. 이는 chain-of-thought의 장점을 유지하면서도 효율성을 높이는 전략입니다.
- Box Size Constraint: 보상 함수에 box 크기 제약 조건을 추가하여 reward hacking 문제를 완화했습니다. 이는 보상 함수 설계의 중요성을 보여주는 좋은 예시입니다.
- 난이도 고려 RL 목적 함수 수정: 길이 정규화 조정과 난이도 인식 스케일링 요소 추가를 통해 어려운 샘플에 대한 최적화를 개선했습니다. 균형있는 학습을 통해 성능 향상을 도모하는 전략입니다.
놀라운 성능: 새로운 최첨단 기술 달성
Qwen2.5-VL-3B-Instruct를 사용하여 17,000개의 공개 샘플로 훈련된 GUI-G1-3B 모델은 ScreenSpot에서 90.3%, ScreenSpot-Pro에서 37.1%의 정확도를 달성했습니다. 이는 유사한 크기의 이전 모델들을 능가하며, 더 큰 UI-TARS-7B 모델보다도 우수한 성능을 보여주는 획기적인 결과입니다. 이 연구는 GUI 에이전트 grounding 분야에서 새로운 최첨단 기술을 확립했습니다. (GitHub: https://github.com/Yuqi-Zhou/GUI-G1)
이 연구는 GUI 에이전트의 성능 향상에 대한 귀중한 통찰력을 제공하며, 향후 관련 연구에 중요한 기여를 할 것으로 기대됩니다.
Reference
[arxiv] GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents
Published: (Updated: )
Author: Yuqi Zhou, Sunhao Dai, Shuai Wang, Kaiwen Zhou, Qinqlin Jia, Junxu
http://arxiv.org/abs/2505.15810v1