ScaleTrack: GUI 자동화 에이전트의 스케일링 및 역추적 학습 프레임워크


황징 등 8명의 연구진이 개발한 ScaleTrack은 GUI 자동화 에이전트의 성능 향상을 위한 새로운 프레임워크로, 기존의 데이터 부족 및 과거 행동 무시 문제를 해결하기 위해 다양한 데이터 소스 통합 및 역추적 전략을 도입했습니다. 실험 결과 ScaleTrack의 효과성을 입증했으며, 향후 GUI 자동화 에이전트 발전에 크게 기여할 것으로 예상됩니다.

related iamge

웹, 모바일, 데스크탑 환경의 자동화된 미래를 여는 ScaleTrack

최근, 사용자 상호작용을 자동화하여 복잡한 작업을 수행하는 자동화 GUI(Graphical User Interface) 에이전트가 주목받고 있습니다. 텍스트 기반의 작업 지시와 GUI 설명을 받아 실행 가능한 동작(예: 클릭) 및 조작 박스를 단계적으로 생성하는 기술이죠. 하지만 기존 GUI 에이전트는 데이터 부족과거 행동 무시라는 두 가지 큰 난관에 직면했습니다. GUI grounding(작업에 따른 실행 좌표 찾기)을 위한 충분한 학습 데이터가 부족했고, planning(이전 행동 기반의 다음 행동 예측) 단계에서 과거 행동을 고려하지 않았던 것이죠.

황징(Jing Huang) 등 8명의 연구진이 개발한 ScaleTrack: 혁신적인 접근 방식

이러한 문제점을 해결하기 위해, 황징(Jing Huang)을 비롯한 8명의 연구진은 ScaleTrack이라는 혁신적인 학습 프레임워크를 제안했습니다. ScaleTrack은 GUI grounding 스케일링과 planning 단계에서의 역추적을 통해 자동화된 GUI 에이전트의 성능을 향상시키는 것을 목표로 합니다. 연구진은 다양한 출처에서 GUI 샘플을 수집하여 통합된 학습 데이터셋을 구축했습니다. 이를 통해 GUI grounding 모델 학습에 필요한 데이터 부족 문제를 해결했습니다. 더 나아가, 현재 GUI 이미지뿐만 아니라 이미지 생성에 이르기까지의 과거 행동까지 고려하는 획기적인 학습 전략을 설계했습니다. 이를 통해 GUI 이미지와 행동 간의 상관관계를 설명하고 GUI 환경의 진화 규칙을 효과적으로 기술하는 것이 가능해졌습니다.

실험 결과와 미래 전망

광범위한 실험 결과는 ScaleTrack의 효과성을 명확하게 보여주었습니다. ScaleTrack은 데이터와 코드를 공개하여 다른 연구자들의 활용을 지원할 예정입니다. 이 연구는 GUI 자동화 에이전트의 발전에 크게 기여할 것으로 기대되며, 더욱 효율적이고 정교한 자동화 시스템 구축의 가능성을 열어줄 것입니다. 앞으로 ScaleTrack을 기반으로 더욱 발전된 기술들이 등장하여 우리의 디지털 라이프를 더욱 편리하게 만들어 줄 것을 기대해봅니다.

ScaleTrack: GUI 자동화의 새로운 지평을 열다. 더욱 스마트하고 효율적인 자동화 시스템으로 나아가는 중요한 발걸음입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] ScaleTrack: Scaling and back-tracking Automated GUI Agents

Published:  (Updated: )

Author: Jing Huang, Zhixiong Zeng, Wenkang Han, Yufeng Zhong, Liming Zheng, Shuai Fu, Jingyuan Chen, Lin Ma

http://arxiv.org/abs/2505.00416v1