멀티모달 AI 에이전트의 안전성 평가: RiOSWorld 벤치마크의 등장
본 기사는 멀티모달 대규모 언어 모델(MLLM) 기반 컴퓨터 사용 에이전트의 안전 위험 평가를 위한 새로운 벤치마크 RiOSWorld에 대해 소개합니다. RiOSWorld는 다양한 컴퓨터 애플리케이션에서 492개의 위험 작업을 포함하며, 사용자 기반 및 환경 기반 위험을 평가하여 실제 세계 시나리오에서의 안전성 문제를 다룹니다. 이 연구는 안전한 AI 시스템 개발의 중요성을 강조하며, RiOSWorld 벤치마크의 공개를 통해 더욱 안전하고 신뢰할 수 있는 AI 에이전트 개발을 위한 발전을 기대하게 합니다.

최근 급속도로 발전하는 멀티모달 대규모 언어 모델(MLLM)은 복잡한 컴퓨터 작업을 수행할 수 있는 자율적인 컴퓨터 사용 에이전트로 점차 활용되고 있습니다. 하지만 중요한 질문이 제기됩니다. 대화 시나리오에서 일반 MLLM을 위해 설계되고 정렬된 안전 위험 원칙을 실제 컴퓨터 사용 시나리오에 효과적으로 적용할 수 있을까요?
기존 MLLM 기반 컴퓨터 사용 에이전트의 안전 위험 평가에 대한 연구는 몇 가지 한계를 가지고 있습니다. 현실적인 상호 작용 환경이 부족하거나, 특정 위험 유형에만 초점을 맞추는 경우가 많습니다. 이러한 한계는 실제 환경의 복잡성, 변동성 및 다양성을 무시하여 컴퓨터 사용 에이전트에 대한 포괄적인 위험 평가를 제한합니다.
Jingyi Yang, Shuai Shao, Dongrui Liu, 그리고 Jing Shao가 이끄는 연구팀은 이러한 문제를 해결하기 위해 RiOSWorld라는 벤치마크를 도입했습니다. RiOSWorld는 실제 컴퓨터 조작 중 MLLM 기반 에이전트의 잠재적 위험을 평가하도록 설계되었습니다. 이 벤치마크는 웹, 소셜 미디어, 멀티미디어, OS, 이메일 및 오피스 소프트웨어를 포함한 다양한 컴퓨터 애플리케이션에 걸쳐 492개의 위험한 작업을 포함합니다.
위험의 근원에 따라 (i) 사용자 기반 위험과 (ii) 환경 기반 위험의 두 가지 주요 범주로 분류됩니다. 평가는 (i) 위험 목표 의도와 (ii) 위험 목표 달성의 두 가지 관점에서 이루어집니다. RiOSWorld에 대한 멀티모달 에이전트를 이용한 광범위한 실험은 현재 컴퓨터 사용 에이전트가 실제 시나리오에서 상당한 안전 위험에 직면함을 보여줍니다.
연구 결과는 실제 컴퓨터 조작에서 컴퓨터 사용 에이전트에 대한 안전 정렬의 필요성과 긴급성을 강조하며, 신뢰할 수 있는 컴퓨터 사용 에이전트 개발을 위한 귀중한 통찰력을 제공합니다. RiOSWorld 벤치마크는 https://yjyddq.github.io/RiOSWorld.github.io/ 에서 공개적으로 이용 가능합니다.
결론적으로, RiOSWorld는 멀티모달 AI 에이전트의 안전성 평가에 새로운 기준을 제시하며, 더욱 안전하고 신뢰할 수 있는 AI 시스템 개발을 위한 중요한 발걸음입니다. 향후 연구는 RiOSWorld를 활용하여 다양한 MLLM 기반 에이전트의 안전성을 평가하고, 실제 세계 위험을 완화하기 위한 효과적인 안전 정렬 기술을 개발하는 데 집중될 것으로 예상됩니다.
Reference
[arxiv] RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents
Published: (Updated: )
Author: Jingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao
http://arxiv.org/abs/2506.00618v2