UFO2: 데스크톱 에이전트OS의 혁신
UFO2는 멀티에이전트 아키텍처와 혁신적인 기능들을 통해 기존 CUA의 한계를 극복하고, 강력하고 확장성 있는 데스크톱 자동화를 제공하는 획기적인 AgentOS입니다. 실제 애플리케이션 평가 결과, 향상된 강력성과 정확성을 입증했습니다.

최근 멀티모달 대규모 언어 모델(LLM) 기반의 컴퓨터 사용 에이전트(CUA)는 자연어를 통해 복잡한 데스크톱 워크플로우를 자동화할 수 있는 유망한 방향을 제시하고 있습니다. 하지만 대부분의 기존 CUA는 OS 통합 부족, 취약한 스크린샷 기반 상호작용, 중단적인 실행 등의 문제로 개념적 프로토타입 수준에 머물러 있습니다.
중국과학기술대학교를 비롯한 여러 기관의 연구진은 이러한 한계를 극복하기 위해 UFO2를 발표했습니다. UFO2는 윈도우 데스크톱을 위한 멀티에이전트 AgentOS로, CUA를 실용적이고 시스템 수준의 자동화로 끌어올리는 혁신적인 시스템입니다.
UFO2의 핵심은 다음과 같습니다.
- 중앙 집중식 HostAgent: 작업 분해 및 조정 역할을 수행합니다.
- 애플리케이션 특화 AppAgent: 네이티브 API, 도메인 특화 지식, 통합 GUI-API 액션 계층을 갖춰 각 애플리케이션에 최적화된 자동화를 제공합니다.
- 하이브리드 제어 감지 파이프라인: Windows UI 자동화(UIA)와 비전 기반 파싱을 결합하여 다양한 인터페이스 스타일을 지원합니다.
- 사전 예측 멀티-액션 계획: LLM 오버헤드를 줄여 실행 효율성을 높입니다.
- Picture-in-Picture(PiP) 인터페이스: 에이전트와 사용자가 동시에 작업할 수 있도록 격리된 가상 데스크톱에서 자동화를 실행합니다.
20개 이상의 실제 Windows 애플리케이션을 대상으로 한 평가 결과, UFO2는 기존 CUA 대비 강력성과 실행 정확도가 크게 향상된 것으로 나타났습니다. 이는 심층적인 OS 통합을 통해 신뢰할 수 있고 사용자 중심적인 데스크톱 자동화를 위한 확장 가능한 경로를 열었다는 것을 의미합니다.
UFO2는 단순한 자동화 도구를 넘어, OS와 긴밀하게 통합된 지능형 에이전트 시스템으로서 데스크톱 자동화의 새로운 지평을 열었습니다. 앞으로 UFO2의 발전과 활용이 어떤 모습으로 나타날지 기대됩니다. 향후 연구를 통해 더욱 발전된 기능과 확장성을 기대할 수 있으며, 이는 생산성 향상 및 사용자 경험 개선에 크게 기여할 것으로 예상됩니다. 더불어, UFO2의 기술적 진보는 관련 분야의 다른 연구에도 영감을 줄 것으로 기대됩니다.
Reference
[arxiv] UFO2: The Desktop AgentOS
Published: (Updated: )
Author: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
http://arxiv.org/abs/2504.14603v2