GUI 자동화의 혁명: 훈련 없는 GUI 에이전트, GUI-explorer 등장!


본 기사는 훈련이 필요없는 혁신적인 GUI 자동화 에이전트 GUI-explorer를 소개합니다. 기능 인식 목표 생성기와 전이 인식 지식 추출기를 통해 높은 성공률을 달성하였으며, 오픈소스로 공개되어 향후 GUI 자동화 분야에 큰 영향을 미칠 것으로 예상됩니다.

related iamge

끊임없이 변화하는 동적 환경 속에서 GUI 자동화는 늘 어려운 과제였습니다. 기존의 대규모 언어 모델(MLLM)들은 UI 요소 오인식과 정보의 노후화 문제에 직면했고, 앱 특정 지식 업데이트를 위한 기존의 미세 조정 방식은 비용이 많이 들었습니다.

하지만 이제, Xie Bin 등 8명의 연구진이 개발한 GUI-explorer가 이러한 문제들을 해결할 혁신적인 해결책으로 등장했습니다! GUI-explorer는 훈련이 필요 없는 GUI 에이전트로, 두 가지 핵심 메커니즘을 통해 작동합니다.

첫째, 기능 인식 목표 생성기(Function-aware Task Goal Generator) 입니다. GUI의 구조적 정보(스크린샷, 활동 계층 구조 등)를 분석하여 자동으로 탐색 목표를 생성합니다. 이를 통해 앱의 모든 기능을 포괄적으로 탐색하고 다양한 경로를 수집할 수 있습니다. 마치 스스로 학습하는 탐험가처럼 말이죠!

둘째, 전이 인식 지식 추출기(Transition-aware Knowledge Extractor) 입니다. 구조화된 상호 작용 3중항(관찰, 행동, 결과)의 상태 전이를 비지도 학습 방식으로 분석하여 정확한 화면 조작 로직을 추출합니다. 이를 통해 사람의 개입 없이도 지식 추출이 가능해집니다. 마치 마법처럼 말이죠!

그 결과는 놀랍습니다! SPA-Bench에서 53.7%, AndroidWorld에서 47.4%의 작업 성공률을 달성하며 기존 최고 성능(SOTA) 에이전트들을 능가했습니다. 더욱 놀라운 것은 새로운 앱에 적용하기 위해 매개변수 업데이트가 필요 없다는 점입니다. 즉, 훈련 없이도 새로운 앱에 바로 적용할 수 있다는 뜻이죠!

GUI-explorer는 https://github.com/JiuTian-VL/GUI-explorer 에서 오픈소스로 공개되어 있습니다. 이제 GUI 자동화의 미래는 GUI-explorer와 함께 열립니다!


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent

Published:  (Updated: )

Author: Bin Xie, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Jie Liu, Min Zhang, Liqiang Nie

http://arxiv.org/abs/2505.16827v1