획기적인 AI 에이전트 평가 시스템 등장: AgentAuditor


Luo Hanjun 등 8명의 연구진이 개발한 AgentAuditor는 LLM 기반 에이전트의 안전성 및 보안성 평가를 위한 혁신적인 프레임워크입니다. 경험적 메모리와 다단계 상황 인식 프로세스를 통해 인간 수준의 정확도를 달성하며, 새로운 벤치마크 데이터셋 AgentAuditor Data와 함께 AI 안전성 평가 분야에 새로운 기준을 제시합니다.

related iamge

AI 에이전트의 안전성과 보안성 평가의 혁신: AgentAuditor

최근 LLM(대규모 언어 모델) 기반 에이전트의 발전 속도가 놀랍습니다. 하지만 이러한 에이전트의 안전성과 보안성을 신뢰할 수 있게 평가하는 것은 여전히 큰 과제였습니다. 기존의 규칙 기반 또는 LLM 기반 평가 방식은 에이전트의 단계별 행동에서 위험을 놓치거나, 미묘한 의미를 간과하거나, 작은 문제들이 어떻게 복합적으로 작용하는지 파악하지 못하고, 모호한 안전 또는 보안 규칙에 혼란을 느끼는 등의 한계를 보였습니다.

하지만 이러한 평가의 어려움을 극복하기 위해 Luo Hanjun을 비롯한 8명의 연구진이 개발한 AgentAuditor가 등장했습니다. AgentAuditor는 범용적이고, 학습이 필요없는, 메모리 증강 추론 프레임워크로, LLM 평가자의 능력을 인간 전문가 수준으로 끌어올립니다.

AgentAuditor의 핵심은 경험적 메모리입니다. LLM은 상호작용 과정에서 시나리오, 위험, 행동 등의 구조화된 의미 특징을 적응적으로 추출하고, 관련 사고 과정 추적을 생성합니다. 그리고 다단계 상황 인식 검색 증강 생성 프로세스를 통해 새로운 사례를 평가할 때 가장 관련성이 높은 추론 경험을 동적으로 검색하여 LLM 평가자를 안내합니다.

또한 연구진은 LLM 기반 평가자가 안전 위험과 보안 위협을 얼마나 잘 감지하는지 확인하기 위해 AgentAuditor Data라는 새로운 벤치마크 데이터셋을 개발했습니다. 이 데이터셋에는 2293개의 주의 깊게 주석이 달린 상호 작용 기록이 포함되어 있으며, 29개의 애플리케이션 시나리오에 걸쳐 15개의 위험 유형을 다룹니다. 특히 모호한 위험 상황에 대해서는 '엄격한' 및 '관대한' 판단 기준을 사용하여 세분화된 접근 방식을 채택하고 있습니다.

실험 결과, AgentAuditor는 모든 벤치마크에서 LLM의 평가 성능을 일관되게 향상시킬 뿐만 아니라, 에이전트의 안전성과 보안성을 평가하는 'LLM-as-a-judge' 분야에서 새로운 최첨단 기술을 제시하며, 인간 수준의 정확도를 달성했습니다. 이 연구 결과는 공개적으로 접근 가능합니다.

AgentAuditor는 AI 에이전트의 안전성과 보안성 평가에 대한 새로운 지평을 열었습니다. 이는 더욱 안전하고 신뢰할 수 있는 AI 시스템의 개발을 위한 중요한 발걸음이 될 것입니다. 앞으로 이 기술이 어떻게 발전하고 활용될지 주목할 필요가 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents

Published:  (Updated: )

Author: Hanjun Luo, Shenyu Dai, Chiming Ni, Xinfeng Li, Guibin Zhang, Kun Wang, Tongliang Liu, Hanan Salam

http://arxiv.org/abs/2506.00641v1