REAL: 현실 웹사이트 시뮬레이션을 통한 자율 에이전트 벤치마크
Divyansh Garg 등이 개발한 REAL 벤치마크는 현실 웹사이트를 시뮬레이션하여 자율 에이전트의 성능을 평가하는 새로운 기준을 제시합니다. 11개 웹사이트와 112개의 실제 작업을 통해 에이전트의 능력을 객관적으로 측정하며, 최첨단 모델의 낮은 성공률은 향후 연구의 중요성을 강조합니다.

REAL: 현실 웹사이트의 결정론적 시뮬레이션을 통한 자율 에이전트 벤치마크
최근, Divyansh Garg 등 18명의 연구원이 발표한 논문에서 획기적인 벤치마크 프레임워크인 REAL이 소개되었습니다. REAL은 실제 웹사이트의 결정론적 시뮬레이션을 기반으로 다중 턴 에이전트의 성능을 평가하는 혁신적인 시스템입니다. 이 연구는 자율 에이전트의 실제 웹 사용 능력을 정확하게 측정하고 개선하는 데 중요한 전환점을 마련합니다.
REAL은 전자상거래(e-commerce), 여행(travel), 커뮤니케이션(communication), 전문 네트워킹(professional networking) 등 다양한 분야에서 널리 사용되는 11개의 웹사이트를 고충실도로 복제했습니다. 단순한 모방이 아닌, 실제 웹사이트의 복잡한 동작까지 고려한 정교한 시뮬레이션을 통해 현실적인 테스트 환경을 제공합니다.
또한, 연구팀은 일상적인 복잡한 사용자 상호 작용을 반영하는 112개의 실제 작업을 벤치마크에 포함했습니다. 단순한 정보 검색을 넘어, 웹사이트의 상태를 변경하는 행위까지 포함하는 복합적인 작업들은 에이전트의 진정한 능력을 평가하는 데 필수적입니다. 이러한 모든 상호작용은 완벽하게 통제된 환경에서 이루어지므로 안전 문제를 제거하고, 재현 가능한 객관적인 평가를 가능하게 합니다.
평가 프레임워크는 행동 기반 작업에 대한 프로그래밍 방식의 웹사이트 상태 확인과 정보 검색을 위한 규칙 기반 LLM 기반 판단을 결합하여 정확성과 효율성을 높였습니다. 또한, 브라우저 환경 내에서 블랙박스 명령을 수용하는 유연한 평가 시스템을 통해 오픈소스 및 독점 에이전트 시스템 모두를 지원합니다. 연구실은 시스템 수정 없이 에이전트 시스템을 테스트할 수 있습니다.
흥미롭게도, 실험 결과 최첨단 언어 모델조차도 REAL에서 41%의 성공률에 그쳤습니다. 이는 자율적인 웹 탐색 및 작업 완료 능력에 여전히 상당한 기술적 한계가 있음을 시사합니다. 이는 앞으로 연구가 더욱 필요한 부분을 명확히 보여주는 결과입니다.
REAL은 새로운 작업의 손쉬운 통합, 재현 가능한 평가, 그리고 확장 가능한 사후 학습 데이터 생성을 지원하여 에이전트 기술의 발전에 상당한 기여를 할 것으로 기대됩니다. 이는 자율 에이전트 기술의 발전에 중요한 이정표가 될 뿐 아니라, 더욱 안전하고 효율적인 인공지능 시스템 개발을 위한 견고한 기반을 제공할 것입니다.
이 연구는 단순한 기술 발전을 넘어, 인공지능의 실제 세계 적용 가능성을 더욱 현실적으로 평가하고, 개선하는 데 중요한 의미를 지닙니다.
Reference
[arxiv] REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites
Published: (Updated: )
Author: Divyansh Garg, Shaun VanWeelden, Diego Caples, Andis Draguns, Nikil Ravi, Pranav Putta, Naman Garg, Tomas Abraham, Michael Lara, Federico Lopez, James Liu, Atharva Gundawar, Prannay Hebbar, Youngchul Joo, Jindong Gu, Charles London, Christian Schroeder de Witt, Sumeet Motwani
http://arxiv.org/abs/2504.11543v2