REAL: 현실 웹사이트의 결정적 시뮬레이션을 통한 자율 에이전트 벤치마킹
Divyansh Garg 등 17명의 연구진이 개발한 REAL 벤치마크는 실제 웹사이트 시뮬레이션을 통해 AI 에이전트의 성능을 평가하는 획기적인 시스템입니다. 11개 웹사이트의 고정밀도 복제와 112개의 실제 과제는 AI 에이전트의 현실 세계 적용 가능성을 평가하는 새로운 기준을 제시하며, 최첨단 모델의 성공률이 41%에 불과하다는 결과는 자율 웹 탐색 기술의 개선 필요성을 강조합니다.

혁신적인 AI 에이전트 평가 벤치마크, REAL 등장
최근, AI 분야에서 주목할 만한 연구 결과가 발표되었습니다. Divyansh Garg 등 17명의 연구진이 개발한 REAL (Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites) 벤치마크는 실제 웹사이트의 결정적 시뮬레이션을 기반으로 자율 에이전트의 성능을 평가하는 새로운 기준을 제시합니다. 이는 단순한 실험 환경을 넘어, 실제 웹 환경과 유사한 복잡성을 갖춘 평가 시스템이라는 점에서 큰 의미를 가집니다.
현실 세계의 복잡성을 반영한 벤치마크
REAL은 이커머스, 여행, 커뮤니케이션, 전문 네트워킹 등 다양한 분야의 11개 실제 웹사이트를 고정밀도로 복제했습니다. 단순히 웹사이트의 외형만 복제한 것이 아니라, 사용자의 행동에 따라 동적으로 변화하는 웹사이트의 특성까지 고려하여, 실제 웹 환경과 유사한 결정적 시뮬레이션 환경을 구축했습니다. 이를 통해 안전하고 재현 가능한 에이전트 평가가 가능해졌습니다.
112가지 실제 과제: 정보 검색과 상태 변경 능력의 종합 평가
REAL은 일상적인 복잡한 사용자 상호작용을 반영한 112개의 실제 과제를 제공합니다. 이 과제들은 단순한 정보 검색뿐만 아니라, 웹사이트의 상태를 변경하는 행위까지 포함합니다. 예를 들어, 상품 구매, 예약 변경, 계정 설정 변경 등의 다양한 작업을 수행해야 합니다. 이를 통해 AI 에이전트의 정보 검색 능력과 상태 변경 능력을 종합적으로 평가할 수 있습니다.
최첨단 모델의 한계와 미래의 가능성
연구 결과는 놀랍게도 최첨단 언어 모델의 성공률이 41%에 불과함을 보여줍니다. 이는 자율 웹 탐색 및 작업 완료 기능에 대한 중요한 기술적 격차를 시사합니다. 하지만 REAL은 새로운 과제 통합, 재현 가능한 평가, 그리고 웹 에이전트 훈련을 위한 확장 가능한 데이터 생성을 지원하므로, 향후 AI 에이전트의 발전에 크게 기여할 것으로 예상됩니다.
REAL: 더 나은 AI 에이전트를 위한 발걸음
REAL 벤치마크와 프레임워크는 https://realevals.xyz 와 https://github.com/agi-inc/REAL 에서 확인할 수 있습니다. 이 연구는 더욱 현실적이고 복잡한 환경에서 AI 에이전트를 평가하고 발전시키기 위한 중요한 첫걸음으로 평가받고 있습니다. 앞으로 REAL을 통해 더욱 강력하고 신뢰할 수 있는 AI 에이전트의 개발이 가속화될 것으로 기대됩니다.
Reference
[arxiv] REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites
Published: (Updated: )
Author: Divyansh Garg, Shaun VanWeelden, Diego Caples, Andis Draguns, Nikil Ravi, Pranav Putta, Naman Garg, Tomas Abraham, Michael Lara, Federico Lopez, James Liu, Atharva Gundawar, Prannay Hebbar, Youngchul Joo, Charles London, Christian Schroeder de Witt, Sumeet Motwani
http://arxiv.org/abs/2504.11543v1