모바일 에이전트의 사고력 혁신: 반복적 선호 학습(IPL)의 등장
Kun Huang 등 연구진이 개발한 반복적 선호 학습(IPL)은 모바일 에이전트의 사고 과정을 향상시키는 혁신적인 방법으로, 기존 한계를 극복하고 최첨단 성능을 달성했습니다. GPT-4를 활용한 3단계 지침 발전 과정은 과적합을 방지하고 일반화 능력을 향상시켰습니다.

최근, Kun Huang 등 연구진이 발표한 논문 "Enhance Mobile Agents Thinking Process Via Iterative Preference Learning"은 모바일 에이전트의 사고 과정을 획기적으로 향상시키는 새로운 방법을 제시했습니다. 이들은 기존의 행동-계획 사고 체인(CoaT) 패러다임을 기반으로 하지만, 기존 방식의 한계를 극복하기 위해 반복적 선호 학습(IPL) 이라는 혁신적인 기술을 도입했습니다.
기존 VLM 기반 모바일 에이전트는 GUI 작업에서 추론 성능 향상에 CoaT 패러다임이 효과적임을 보여주었지만, 다양한 CoaT 경로의 부족으로 표현력과 일반화 능력이 제한적이었습니다. 자기 학습을 통해 데이터 부족 문제를 해결하려는 시도가 있었지만, 중간 추론 단계의 정확성을 간과하거나 비용이 많이 드는 프로세스 수준 주석에 의존하는 문제점이 있었습니다.
연구진은 이러한 문제를 해결하기 위해 IPL을 제안했습니다. IPL은 반복적인 샘플링을 통해 CoaT 트리를 구성하고, 규칙 기반 보상을 사용하여 리프 노드를 평가하며, 피드백을 역전파하여 사고 수준 직접 선호도 최적화(T-DPO) 쌍을 도출합니다. 또한, GPT-4를 활용한 3단계 지침 발전 과정을 통해 초기 지도 학습 과정에서의 과적합을 방지하고, 실제 모바일 UI 스크린샷을 기반으로 다양한 질문과 답변 쌍을 생성하여 일반화 능력과 레이아웃 이해도를 향상시켰습니다.
세 가지 표준 모바일 GUI 에이전트 벤치마크에 대한 실험 결과, MobileIPL 에이전트는 OS-ATLAS 및 UI-TARS와 같은 지속적 사전 학습 모델을 포함한 강력한 기준 모델보다 우수한 성능을 보였으며, 세 가지 표준 벤치마크에서 최첨단 성능을 달성하고 도메인 외 시나리오에 대한 강력한 일반화 능력을 보여주었습니다.
이 연구는 모바일 에이전트의 지능 수준을 한 단계 끌어올리는 획기적인 성과이며, 앞으로 AI 기반 모바일 애플리케이션 개발에 큰 영향을 미칠 것으로 예상됩니다. 특히, GPT-4와 같은 대규모 언어 모델과의 결합을 통해 더욱 발전된 모바일 에이전트 기술이 등장할 것으로 기대됩니다. 🔑
Reference
[arxiv] Enhance Mobile Agents Thinking Process Via Iterative Preference Learning
Published: (Updated: )
Author: Kun Huang, Weikai Xu, Yuxuan Liu, Quandong Wang, Pengzhi Gao, Wei Liu, Jian Luan, Bin Wang, Bo An
http://arxiv.org/abs/2505.12299v1