인공지능 기반 GUI 에이전트의 혁신: InfiGUI-R1의 등장


InfiGUI-R1은 멀티모달 대규모 언어 모델 기반의 GUI 에이전트로, Actor2Reasoner 프레임워크를 통해 반응형 행위자에서 숙고형 추론자로 발전합니다. 공간 추론 증류와 강화 학습을 활용하여 GUI 작업에서 높은 성능을 달성하며, 미래의 자동화된 컴퓨팅 환경 구축에 기여할 것으로 기대됩니다.

related iamge

최근 멀티모달 대규모 언어 모델(MLLM) 기반의 그래픽 사용자 인터페이스(GUI) 에이전트가 컴퓨팅 기기에서의 작업 자동화에 대한 가능성을 보여주고 있습니다. 하지만 기존의 많은 접근 방식은 수동으로 설계된 추론 템플릿에 의존하여 복잡한 GUI 환경에 대한 적응력이 부족하다는 한계를 지니고 있었습니다. 또한 일부 에이전트는 단순히 반응형 행위자(Reactive Actor)로 작동하여 계획 및 오류 복구가 필요한 GUI 작업에는 부족한 면모를 보였습니다.

이러한 문제점을 해결하기 위해, Liu Yuhang 등 8명의 연구자들은 InfiGUI-R1을 개발했습니다. InfiGUI-R1은 Actor2Reasoner 프레임워크를 통해 반응형 행위자에서 숙고형 추론자로 발전하는 것을 목표로 하는 MLLM 기반 GUI 에이전트입니다. Actor2Reasoner는 추론 중심의 2단계 학습 접근 방식으로, 각 단계는 에이전트의 진화에 중요한 역할을 합니다.

첫 번째 단계인 추론 주입(Reasoning Injection) 은 기본적인 추론자를 구축하는 데 초점을 맞춥니다. 여기서 핵심 기술은 공간 추론 증류(Spatial Reasoning Distillation) 입니다. 이는 명시적인 추론 단계를 포함하는 궤적을 통해 교사 모델로부터 MLLM으로 크로스 모달 공간 추론 능력을 전이하여 모델이 GUI의 시각적 공간 정보와 논리적 추론을 행동 생성 전에 통합할 수 있도록 합니다.

두 번째 단계인 숙고 향상(Deliberation Enhancement) 은 강화 학습(Reinforcement Learning)을 사용하여 기본 추론자를 숙고형 추론자로 다듬는 과정입니다. 이 단계에서는 하위 목표 안내(Sub-goal Guidance)오류 복구 시나리오 구성(Error Recovery Scenario Construction) 이라는 두 가지 접근 방식을 도입합니다. 하위 목표 안내는 모델이 정확한 중간 하위 목표를 생성하도록 보상하며, 오류 복구 시나리오 구성은 식별된 오류 발생 단계로부터 실패 및 복구 훈련 시나리오를 생성합니다.

실험 결과, InfiGUI-R1은 GUI 접지 및 궤적 작업에서 강력한 성능을 달성했습니다. 자세한 내용은 GitHub에서 확인할 수 있습니다. InfiGUI-R1은 단순한 반응을 넘어, 복잡한 상황에서도 스스로 판단하고 계획을 세우는 진정한 지능형 GUI 에이전트로 나아가는 중요한 발걸음입니다. 이러한 발전은 앞으로 더욱 자동화되고 사용자 친화적인 컴퓨팅 환경을 구축하는 데 크게 기여할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

Published:  (Updated: )

Author: Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu

http://arxiv.org/abs/2504.14239v1