컴퓨터 사용 기반 지식 확장: 사용자 인터페이스 분해 및 합성을 통한 획기적인 발전

Tianbao Xie 등 14명의 연구진은 GUI grounding의 한계를 극복하기 위해 4백만 개의 예제를 포함하는 거대한 데이터셋 Jedi와 새로운 벤치마크 OSWorld-G를 개발했습니다. Jedi를 통해 훈련된 모델은 기존 모델들을 능가하는 성능을 보였으며, 복잡한 컴퓨터 작업에서 AI 에이전트의 성능을 크게 향상시켰습니다.

Tianbao Xie 외 14명의 연구진이 발표한 논문 "Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis"는 자연어 명령을 그래픽 사용자 인터페이스(GUI)의 특정 동작에 매핑하는 GUI grounding 분야에서 획기적인 발전을 이루었습니다. 기존 벤치마크들이 단순한 참조 표현에 국한되어 실제 세계의 복잡한 상호 작용을 제대로 포착하지 못했던 한계를 극복하기 위해, 연구진은 텍스트 매칭, 요소 인식, 레이아웃 이해, 정밀 조작 등 다양한 유형의 작업을 포함하는 564개의 세밀하게 주석이 달린 샘플로 구성된 포괄적인 벤치마크 OSWorld-G를 도입했습니다.

하지만 연구진의 야심은 여기서 그치지 않았습니다. 그들은 4백만 개의 예제를 포함하는 방대한 컴퓨터 사용 기반 지식 데이터셋 Jedi를 새롭게 합성하여 공개했습니다. 이는 다양한 관점에서 작업을 분리함으로써 가능해졌습니다. Jedi를 사용하여 훈련된 다중 스케일 모델은 ScreenSpot-v2, ScreenSpot-Pro, 그리고 OSWorld-G에서 기존 접근 방식을 능가하는 성능을 보여주었습니다. 더 나아가, Jedi를 통해 향상된 grounding이 복잡한 컴퓨터 작업에서 일반적인 기반 모델의 에이전트 기능을 5%에서 27%까지 향상시키는 놀라운 결과를 가져왔습니다.

연구진은 또한, 세부적인 ablation 연구를 통해 grounding 성능에 기여하는 주요 요소를 파악하고, 다양한 인터페이스 요소에 대한 특수 데이터를 결합하면 새로운 인터페이스에 대한 구성적인 일반화가 가능함을 확인했습니다. 이 모든 벤치마크, 데이터, 체크포인트, 코드는 https://osworld-grounding.github.io 에서 공개적으로 접근 가능합니다. 이 연구는 AI 에이전트가 실제 세계의 복잡한 GUI와 상호 작용하는 능력을 크게 향상시키는 중요한 이정표가 될 것으로 기대됩니다. 이는 단순한 명령어 수행을 넘어, 인간과 같은 수준의 유연하고 지능적인 컴퓨터 사용을 가능하게 하는 초석이 될 것입니다.

결론적으로: 이 연구는 방대한 데이터셋 Jedi와 새로운 벤치마크 OSWorld-G를 통해 GUI grounding 분야의 새로운 기준을 제시했습니다. 이는 AI 에이전트의 실제 세계 적용 가능성을 크게 높이는 혁신적인 성과입니다. 특히 다양한 인터페이스 요소에 대한 특수 데이터의 결합을 통한 구성적인 일반화는 향후 연구의 중요한 방향을 제시합니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

Published: (Updated: )

Author: Tianbao Xie, Jiaqi Deng, Xiaochuan Li, Junlin Yang, Haoyuan Wu, Jixuan Chen, Wenjing Hu, Xinyuan Wang, Yuhui Xu, Zekun Wang, Yiheng Xu, Junli Wang, Doyen Sahoo, Tao Yu, Caiming Xiong

http://arxiv.org/abs/2505.13227v1