에이전트 S2: GUI 자동화의 새로운 지평을 열다


Agent S2는 GUI 자동화 에이전트로, 혼합 지정과 사전적 계층적 계획을 통해 기존 한계를 극복하고 SOTA 성능을 달성했습니다. 다양한 운영체제와 애플리케이션에서 우수한 일반화 성능을 보였습니다.

related iamge

컴퓨터와 모바일 기기의 그래픽 사용자 인터페이스(GUI)를 직접 조작하여 디지털 작업을 자동화하는 컴퓨터 사용 에이전트가 인간의 생산성 향상에 큰 잠재력을 제공하고 있습니다. 하지만 기존 에이전트들은 GUI 요소의 부정확한 파악, 장기간 작업 계획의 어려움, 다양한 인지 작업에 단일 일반 모델에 의존함으로써 발생하는 성능 병목 현상과 같은 어려움에 직면해 왔습니다.

이러한 문제를 해결하기 위해 Saaket Agashe를 비롯한 6명의 연구원은 Agent S2 라는 혁신적인 구성형 프레임워크를 개발했습니다. Agent S2는 다양한 일반 및 전문 모델에 인지적 책임을 위임하는 독창적인 접근 방식을 채택했습니다. 특히, 혼합 지정(Mixture-of-Grounding) 기법을 통해 GUI 위치 파악의 정확성을 높였고, 사전적 계층적 계획(Proactive Hierarchical Planning) 을 도입하여 변화하는 관찰 결과에 따라 여러 시간 척도에서 동적으로 작업 계획을 개선합니다.

평가 결과, Agent S2는 세 가지 주요 컴퓨터 사용 벤치마크에서 최첨단(SOTA) 성능을 달성했습니다. OSWorld 15단계 및 50단계 평가에서 Claude Computer Use 및 UI-TARS와 같은 주요 기준 에이전트보다 각각 18.9%와 32.7%의 상대적 성능 향상을 보였습니다. 뿐만 아니라, WindowsAgentArena에서는 기존 최고 성능 방법보다 52.8%, AndroidWorld에서는 16.52%의 상대적 성능 향상을 달성하며 다른 운영 체제와 애플리케이션으로의 효과적인 일반화 능력을 입증했습니다. 코드는 GitHub에서 확인할 수 있습니다.

Agent S2는 단순한 성능 향상을 넘어, 컴퓨터 사용 에이전트의 새로운 가능성을 제시합니다. 복잡하고 다양한 사용자 쿼리를 효율적으로 처리하는 Agent S2의 능력은 앞으로 더욱 발전된 인공지능 기반 자동화 시스템 개발에 중요한 이정표가 될 것입니다. 향후 연구에서는 Agent S2의 범용성과 안전성을 더욱 개선하고, 다양한 실제 응용 분야에 적용하는 방안을 모색할 필요가 있을 것입니다.

요약: Agent S2는 혼합 지정과 사전적 계층적 계획을 통해 GUI 자동화의 정확성과 효율성을 크게 향상시켰으며, 다양한 플랫폼에서 뛰어난 성능을 보여주는 획기적인 에이전트입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

Published:  (Updated: )

Author: Saaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang

http://arxiv.org/abs/2504.00906v1