모바일 에이전트의 새로운 기준: Mobile-Bench-v2 등장

본 기사는 기존 모바일 에이전트 벤치마크의 한계를 극복하고 더욱 현실적인 평가를 가능하게 하는 Mobile-Bench-v2에 대한 소개입니다. 다양한 상황을 고려한 설계와 공개된 코드 및 데이터를 통해 모바일 에이전트 연구 발전에 크게 기여할 것으로 예상됩니다.

스마트폰 GUI와 XML 구조의 텍스트를 상호 작용하고 일상적인 작업을 수행하는 VLM 기반 모바일 에이전트가 점점 인기를 얻고 있습니다. 하지만 기존 온라인 벤치마크는 역동적인 환경 변화로 안정적인 보상 신호를 얻는 데 어려움을 겪고 있으며, 오프라인 벤치마크는 단일 경로만을 평가하여 GUI 작업의 다양한 해결책 특성을 제대로 반영하지 못했습니다.

Xu Weikai 등 연구진은 이러한 한계를 극복하기 위해 Mobile-Bench-v2라는 현실적이고 종합적인 새로운 벤치마크를 개발했습니다. Mobile-Bench-v2는 다음과 같은 특징을 가지고 있습니다.

슬롯 기반 지시 생성 방식: 보다 현실적인 상황을 반영합니다.
오프라인 다중 경로 평가: 작업 실행 중 에이전트의 단계별 보상 획득 능력을 평가합니다.
잡음이 포함된 분할(Pop-up 및 광고 앱 기반): 실제 잡음 환경을 모방합니다.
AITZ-Noise 컨테이네이티드 분할: 실제 잡음 환경을 더욱 정교하게 구성합니다.
모호한 지시 분할(사전 설정 Q&A 상호 작용): 에이전트의 적극적인 상호 작용 능력 평가합니다.

연구진은 AppAgent-v1, Mobile-Agent-v2, UI-Tars, OS-Atlas 등 다양한 모바일 에이전트를 사용하여 Mobile-Bench-v2를 평가했습니다. 이는 벤치마크의 신뢰성을 높이는 데 기여합니다. 더욱 중요한 것은, 코드와 데이터가 Hugging Face에서 공개되어 다른 연구자들의 활용과 연구 확장을 지원한다는 점입니다.

Mobile-Bench-v2는 모바일 에이전트 연구의 새로운 기준을 제시하며, 보다 현실적이고 다양한 상황을 고려한 에이전트 개발을 촉진할 것으로 기대됩니다. 이는 향후 더욱 강력하고 실용적인 모바일 에이전트 개발에 중요한 이정표가 될 것입니다. 🎉

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents

Published: (Updated: )

Author: Weikai Xu, Zhizheng Jiang, Yuxuan Liu, Wei Liu, Jian Luan, Yuanchun Li, Yunxin Liu, Bin Wang, Bo An

http://arxiv.org/abs/2505.11891v1