GUI 에이전트의 새로운 지평: GUI-G1의 혁신적인 접근 방식
Zhou 외 연구진은 GUI 에이전트의 R1-Zero 기반 학습 방식의 한계를 분석하고, 이를 개선하기 위한 세 가지 해결책(빠른 사고 템플릿, 박스 크기 제약, RL 목적 함수 수정)을 제시했습니다. 그 결과, GUI-G1-3B 모델은 기존 모델들을 능가하는 성능을 달성하여 GUI 에이전트 분야의 새로운 기술 수준을 제시했습니다.

최근, 그래픽 사용자 인터페이스(GUI) 에이전트 분야에서 R1-Zero 패러다임을 적용한 연구가 주목받고 있습니다. Zhou 외 연구진이 발표한 논문, "GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents"는 이러한 흐름 속에서 기존 방식의 한계를 뛰어넘는 혁신적인 접근 방식을 제시합니다.
기존 R1-Zero 방식의 한계 극복
기존 GUI 에이전트들은 R1-Zero 방식을 통해 온라인 강화 학습(RL)과 명시적인 사고 과정 추론을 결합하여 성능 향상을 이끌어냈습니다. 하지만, Zhou 연구진은 이러한 방식의 세 가지 핵심 구성 요소(입력 설계, 출력 평가, 정책 업데이트)에 대한 심층 분석을 통해 중요한 문제점들을 발견했습니다.
- 입력 설계: 긴 사고 과정이 오히려 성능 저하로 이어지는 현상을 발견했습니다. 즉, 더 많은 생각을 한다고 해서 항상 더 나은 결과를 얻는 것은 아님을 보여줍니다.
- 출력 평가: 히트 신호 또는 박스 크기에 기반한 보상 함수는 모델이 박스 크기를 악용하여 보상을 획득하는 '보상 해킹' 문제를 야기했습니다.
- 정책 업데이트: 온라인 RL은 쉬운 예시에 과적합되는 경향이 있으며, 어려운 예시에 대한 최적화가 부족했습니다.
GUI-G1: 세 가지 목표 지향적 해결책
이러한 문제점들을 해결하기 위해 Zhou 연구진은 세 가지 목표 지향적인 해결책을 제시합니다.
- 빠른 사고 템플릿(Fast Thinking Template): 과도한 추론을 줄이고 직접적인 답변 생성을 유도하여 효율성을 높입니다.
- 박스 크기 제약 조건: 보상 함수에 박스 크기 제약 조건을 추가하여 보상 해킹 문제를 완화합니다.
- RL 목적 함수 수정: 길이 정규화 조정 및 난이도 인식 스케일링 요소 추가를 통해 어려운 샘플에 대한 최적화를 개선합니다.
놀라운 성능: 새로운 기술 수준 달성
이러한 개선을 통해 개발된 GUI-G1-3B 모델은 ScreenSpot 데이터셋에서 90.3%의 정확도, ScreenSpot-Pro 데이터셋에서 37.1%의 정확도를 달성했습니다. 이는 유사한 크기의 기존 모델들을 능가하며, 심지어 더 큰 모델인 UI-TARS-7B보다도 우수한 성능을 보입니다. 이는 모델의 효율성과 성능을 동시에 향상시킨 중요한 결과입니다.
결론: 새로운 가능성의 시작
Zhou 연구진의 GUI-G1은 단순한 성능 향상을 넘어, GUI 에이전트 개발에 대한 새로운 가능성을 제시합니다. 그들의 연구는 R1-Zero 방식의 한계와 개선 방향을 명확하게 제시함으로써, 향후 GUI 에이전트 연구에 중요한 이정표를 세웠다고 할 수 있습니다. Github(https://github.com/Yuqi-Zhou/GUI-G1)에서 GUI-G1 프로젝트 레포지토리를 확인할 수 있습니다.
Reference
[arxiv] GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents
Published: (Updated: )
Author: Yuqi Zhou, Sunhao Dai, Shuai Wang, Kaiwen Zhou, Qinglin Jia, Jun Xu
http://arxiv.org/abs/2505.15810v2