혁신적인 모바일 GUI 에이전트 계획 모듈 SPlanner 등장: 실행 성공률 63.8% 달성


본 기사는 모바일 GUI 에이전트의 작업 계획 문제를 해결하기 위해 제안된 SPlanner 계획 모듈에 대해 소개합니다. SPlanner는 EFSM과 LLM을 활용하여 효율적인 실행 계획을 생성하며, AndroidWorld 벤치마크에서 높은 작업 성공률을 기록했습니다.

related iamge

모바일 GUI 에이전트의 난관 돌파: SPlanner의 탄생

사용자 편의성 증대를 위한 혁신적인 기술로 주목받는 모바일 GUI 에이전트. 하지만 GUI를 지속적으로 분석하고 단계별 작동 지시를 생성해야 하는 과정에서 정확한 작업 계획 수립에 어려움을 겪고 있습니다. 특히, 타겟 애플리케이션의 효율적인 사용법에 대한 깊이 있는 이해가 부족하여 작업 실행 중 '길을 잃는' 현상이 발생하는 것이 주요 문제였습니다.

SPlanner: 확장 유한 상태 기계(EFSM) 기반의 안정적인 계획 모듈

이러한 문제 해결을 위해 등장한 것이 바로 SPlanner입니다. SPlanner는 비전 언어 모델(VLMs)의 작업 실행을 안내하는 실행 계획을 생성하는 플러그 앤 플레이 방식의 계획 모듈입니다. 핵심은 확장 유한 상태 기계(EFSM) 를 활용하여 모바일 애플리케이션의 제어 로짓 및 설정을 모델링하는 것입니다.

SPlanner는 사용자 지시를 EFSM에 모델링된 주요 기능들의 순차적인 시퀀스로 분해하고, EFSM을 순회하여 실행 경로를 생성합니다. 더 나아가, LLM(대규모 언어 모델) 을 사용하여 실행 경로를 간결하고 실행 가능한 자연어 계획으로 다듬습니다. 이렇게 생성된 계획은 VLMs가 사용자 작업을 수행하기 위한 대화형 GUI 작업을 생성하는 데 효과적으로 활용됩니다.

놀라운 성능: AndroidWorld 벤치마크 결과

실제 모바일 사용 환경을 반영하는 동적 벤치마크에서 SPlanner는 뛰어난 성능을 입증했습니다. 특히, AndroidWorld 벤치마크에서 Qwen2.5-VL-72B를 VLM 실행기로 사용했을 때, 63.8%의 작업 성공률을 달성했습니다. 이는 계획 지원 없이 Qwen2.5-VL-72B를 사용했을 때보다 28.8%p 향상된 놀라운 결과입니다. 이는 SPlanner가 모바일 GUI 에이전트의 효율성을 크게 향상시킬 수 있음을 보여주는 강력한 증거입니다.

미래 전망: 더욱 발전된 모바일 상호작용

SPlanner의 개발은 모바일 GUI 에이전트 기술의 발전에 중요한 이정표를 세웠습니다. 앞으로 SPlanner는 더욱 다양한 애플리케이션과 환경에서 사용자에게 더욱 편리하고 효율적인 모바일 경험을 제공할 것으로 기대됩니다. 특히, LLM과의 협업을 통해 자연스럽고 직관적인 사용자 인터페이스 구현에 크게 기여할 것으로 예상됩니다. 이 연구는 단순한 기술적 발전을 넘어, 사용자 중심의 모바일 기술 발전에 한 걸음 더 나아가는 중요한 성과로 평가받을 만합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Building a Stable Planner: An Extended Finite State Machine Based Planning Module for Mobile GUI Agent

Published:  (Updated: )

Author: Fanglin Mo, Junzhe Chen, Haoxuan Zhu, Xuming Hu

http://arxiv.org/abs/2505.14141v1