macOSWorld: macOS GUI 에이전트를 위한 다국어 상호작용 벤치마크 등장!

Pei Yang, Hai Ci, Mike Zheng Shou 연구팀이 발표한 macOSWorld 벤치마크는 macOS 환경에서 GUI 에이전트를 평가하기 위한 최초의 종합적인 벤치마크로, 다국어 지원과 안전성 평가를 통해 AI 모델의 강점과 약점을 명확히 드러냅니다. 특히 상용 모델과 오픈소스 모델 간의 성능 격차와 아랍어와 같은 언어에서의 성능 저하는 향후 연구 방향을 제시합니다.

맥OS 정복을 위한 새로운 도전: macOSWorld 벤치마크

GUI(Graphical User Interface) 에이전트는 컴퓨터 사용 자동화와 접근성 향상에 큰 잠재력을 가지고 있습니다. 하지만 기존 벤치마크는 대부분 영어에만 국한되거나, Windows, Linux, Android 환경에 집중되어 macOS를 간과하는 경향이 있었습니다.

Pei Yang, Hai Ci, Mike Zheng Shou 연구팀은 이러한 한계를 극복하고자 macOSWorld를 발표했습니다. macOSWorld는 macOS에서 GUI 에이전트를 평가하기 위한 최초의 포괄적인 벤치마크입니다.

macOSWorld가 가진 특징

다국어 지원: 영어, 중국어, 아랍어, 일본어, 러시아어 등 5개 언어를 지원하여 다국어 환경에서의 AI 모델 성능을 평가합니다.
macOS 전용 애플리케이션: 30개의 애플리케이션(28개는 macOS 전용)에서 202개의 다국어 상호작용 과제를 제공합니다. macOS의 독특한 GUI 패턴을 반영한 과제들이 포함되어 있습니다.
안전성 평가: GUI 에이전트의 기만 공격 취약성을 평가하기 위한 전용 안전성 벤치마킹 하위 집합을 포함하고 있습니다.

놀라운 결과: 오픈소스 모델과 상용 모델의 격차

6개의 GUI 에이전트를 대상으로 실시한 평가 결과는 충격적입니다. 상용 컴퓨터 사용 에이전트는 30% 이상의 성공률을 보인 반면, 오픈소스 경량 연구 모델은 2% 미만의 성공률에 그쳤습니다. 이는 macOS 환경에 대한 적응의 필요성을 강력하게 시사합니다.

특히 다국어 지원은 AI 모델의 약점을 드러내는 데 중요한 역할을 했습니다. 아랍어에서의 평균 성능 저하는 영어 대비 27.5%에 달했습니다. 이는 언어 간 차이에 대한 모델의 민감성을 보여주는 중요한 지표입니다.

안전성 평가: 기만 공격의 심각성

안전성 벤치마킹 결과는 기만 공격이 매우 일반적이며 즉각적인 대응이 필요함을 강조합니다. GUI 에이전트의 안전성 향상은 앞으로 연구의 중요한 과제가 될 것입니다.

macOSWorld는 https://github.com/showlab/macosworld 에서 확인할 수 있습니다. macOSWorld는 GUI 에이전트 연구의 새로운 장을 열고, 더욱 안전하고 효율적인 AI 시스템 개발을 위한 중요한 이정표가 될 것으로 기대됩니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] macOSWorld: A Multilingual Interactive Benchmark for GUI Agents

Published: (Updated: )

Author: Pei Yang, Hai Ci, Mike Zheng Shou

http://arxiv.org/abs/2506.04135v2