STEVE: 컴퓨터 사용 AI 에이전트 훈련의 혁신적인 단계 검증 파이프라인
본 기사는 STEVE, 컴퓨터 사용 AI 에이전트 훈련을 위한 혁신적인 단계 검증 파이프라인에 대해 다룹니다. GPT-4와 Kahneman and Tversky Optimization을 활용하여 데이터 품질을 높이고 에이전트 성능을 최적화하는 STEVE는 7B 비전-언어 모델을 사용하여 WinAgentArena에서 최고 수준의 성능을 달성했습니다. 이는 효율성과 비용 절감을 동시에 달성하는 획기적인 결과입니다.

컴퓨터 사용 AI 에이전트 훈련의 새로운 지평을 열다: STEVE
컴퓨터 그래픽 사용자 인터페이스(GUI)를 자율적으로 조작하는 AI 에이전트 개발은 오랫동안 어려운 과제였습니다. 데이터 스케일링 법칙의 최근 발전은 대규모 명령어 집합을 사용하여 에이전트를 훈련할 수 있는 가능성을 제시했지만, 여전히 행동 복제(Behavior Cloning) 방식은 고품질의 방대한 궤적 데이터를 필요로 합니다.
이러한 문제를 해결하기 위해, Fanbin Lu 등 연구진이 개발한 STEVE (Step Verification Pipeline for Computer-use Agent Training) 은 혁신적인 단계 검증 파이프라인을 제시합니다. STEVE는 크게 세 가지 단계로 구성됩니다.
첫째, 컴퓨터 사용 에이전트를 위한 대규모 명령어 집합을 구축하고, 일부 최적화되지 않은 에이전트를 사용하여 궤적 데이터를 수집합니다.
둘째, GPT-4를 활용하여 각 궤적의 단계별 정확성을 검증합니다. 행동 실행 전후의 화면을 기반으로 각 단계에 이진 레이블(정확/부정확)을 할당합니다. 이는 부정확한 데이터를 걸러내고 훈련 데이터의 질을 높이는 핵심 단계입니다.
셋째, Kahneman and Tversky Optimization을 사용하여 이진 단계별 레이블을 바탕으로 에이전트를 최적화합니다. 이는 단순히 정확한 행동만 학습하는 것이 아니라, 부정확한 행동으로부터도 학습하여 더욱 강건한 에이전트를 만드는 데 기여합니다.
실험 결과, STEVE 기반 에이전트는 지도 학습 미세 조정 방식보다 뛰어난 성능을 보였습니다. 특히, 궤적 내의 긍정적 및 부정적 행동을 모두 활용하여 학습 효율을 높였습니다. 또한, STEVE를 통해 7B 비전-언어 모델을 컴퓨터 사용 에이전트로 훈련하여, 까다로운 실제 데스크톱 환경인 WinAgentArena에서 최고 수준의 성능을 달성했습니다. 이는 비용 절감과 효율성 향상이라는 추가적인 이점을 제공합니다. 자세한 내용은 GitHub 에서 확인할 수 있습니다.
STEVE는 대규모 데이터셋 기반 AI 에이전트 훈련의 새로운 가능성을 제시하며, 더욱 효율적이고 강력한 컴퓨터 사용 AI 에이전트 개발의 획기적인 전환점이 될 것으로 기대됩니다.
Reference
[arxiv] STEVE: A Step Verification Pipeline for Computer-use Agent Training
Published: (Updated: )
Author: Fanbin Lu, Zhisheng Zhong, Ziqin Wei, Shu Liu, Chi-Wing Fu, Jiaya Jia
http://arxiv.org/abs/2503.12532v2