UFO2: 데스크탑 자동화의 새로운 지평을 여는 멀티에이전트 AgentOS
본 기사는 멀티에이전트 기반의 혁신적인 데스크탑 AgentOS인 UFO2를 소개합니다. UFO2는 기존 CUA의 한계를 극복하고, 하이브리드 제어 감지, 사전 예측적 멀티 액션 플래닝, PiP 인터페이스 등 첨단 기술을 통해 강력하고 효율적인 데스크탑 자동화를 실현합니다. 20개 이상의 실제 Windows 애플리케이션에서 검증된 성능을 통해 데스크탑 자동화의 새로운 지평을 열 것으로 기대됩니다.

혁신적인 데스크탑 자동화 시대의 도래: UFO2 소개
최근 멀티모달 대규모 언어 모델(LLM) 기반의 컴퓨터 사용 에이전트(CUA)가 자연어를 통한 복잡한 데스크탑 워크플로 자동화에 대한 새로운 가능성을 제시하고 있습니다. 하지만 기존 CUA들은 OS 통합의 부족, 취약한 스크린샷 기반 상호 작용, 실행의 방해 등의 문제로 인해 개념적 프로토타입 수준에 머물러 있었습니다.
이러한 한계를 극복하고자 등장한 것이 바로 UFO2입니다. UFO2는 Windows 데스크탑을 위한 멀티에이전트 AgentOS로, CUA를 실질적이고 시스템 레벨의 자동화 도구로 끌어올립니다. 핵심은 중앙 집중식 HostAgent와 애플리케이션 특화 AppAgent의 조화입니다. HostAgent는 작업 분해 및 조정을 담당하고, 각 AppAgent는 네이티브 API, 도메인 특화 지식, 통합된 GUI-API 액션 계층을 갖춰 강력하면서도 모듈화된 시스템을 구축합니다.
핵심 기술: 강력한 로버스트성과 효율성
UFO2의 뛰어난 성능은 다음과 같은 핵심 기술에서 비롯됩니다.
- 하이브리드 제어 감지 파이프라인: Windows UI Automation (UIA)과 비전 기반 파싱을 결합하여 다양한 인터페이스 스타일을 지원, 로버스트성을 극대화합니다. 이는 기존 CUA의 취약점을 획기적으로 개선한 부분입니다.
- 사전 예측적 멀티 액션 플래닝: 단계별 LLM 오버헤드를 줄여 실행 효율성을 높입니다. 보다 빠르고 효율적인 자동화를 가능하게 합니다.
- Picture-in-Picture (PiP) 인터페이스: 격리된 가상 데스크톱에서 자동화를 실행하여 에이전트와 사용자의 동시 작업을 가능하게 합니다. 작업 간섭 없이 원활한 협업 환경을 제공합니다.
실제 적용 결과: 20개 이상의 Windows 애플리케이션에서 검증된 성능
20개 이상의 실제 Windows 애플리케이션을 대상으로 한 평가 결과, UFO2는 기존 CUA에 비해 로버스트성과 실행 정확도가 크게 향상되었음을 보여줍니다. 깊이 있는 OS 통합을 통해 신뢰할 수 있고 사용자 중심의 데스크탑 자동화를 위한 확장 가능한 경로를 제시합니다.
결론적으로 UFO2는 단순한 자동화 도구를 넘어, 데스크탑 환경을 혁신적으로 변화시킬 잠재력을 가진 획기적인 기술입니다. 향후 데스크탑 자동화 분야의 발전에 중요한 이정표가 될 것으로 기대됩니다.
Reference
[arxiv] UFO2: The Desktop AgentOS
Published: (Updated: )
Author: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
http://arxiv.org/abs/2504.14603v1