측정을 통한 안전: AI 안전성 평가 방법론에 대한 체계적 문헌 검토


Markov Grey와 Charbel-Raphaël Segerie의 논문은 AI 안전성 평가의 새로운 체계를 제시합니다. 능력, 성향, 제어 가능성 세 가지 측면을 평가하고, 기존 벤치마크의 한계를 극복하며 AI 거버넌스에 기여할 핵심 연구입니다.

related iamge

급변하는 AI 기술 발전 속도에 발맞춰, Markov Grey와 Charbel-Raphaël Segerie는 "측정을 통한 안전: AI 안전성 평가 방법론에 대한 체계적 문헌 검토" 논문에서 AI 시스템의 안전성을 평가하고 거버넌스를 위한 새로운 틀을 제시합니다. 기존의 벤치마크 방식은 모델의 실제 능력을 완벽히 반영하지 못하고, 실제 배포 환경에서의 행동을 예측하는 데 한계를 보입니다. 이에 연구진은 AI 안전성 평가 분야의 급속한 발전을 종합적으로 분석하여, 무엇을 측정할 것인가, 어떻게 측정할 것인가, 그리고 이러한 측정 결과를 어떻게 프레임워크에 통합할 것인가 라는 세 가지 차원을 중심으로 체계적인 분류체계를 제안합니다.

AI 시스템 안전성 평가의 세 가지 차원

연구는 기존 벤치마크를 넘어, AI 시스템의 능력(capabilities), 성향(propensities), 그리고 제어 가능성(control)이라는 세 가지 중요한 측면을 평가합니다.

  • 능력(Capabilities): AI 시스템이 한계까지 밀어붙였을 때 무엇을 할 수 있는지 측정합니다. 사이버 보안 침해, 속임수, 자율 복제, 상황 인식 등 안전에 중요한 능력들을 자세히 설명합니다.
  • 성향(Propensities): AI 시스템이 기본적으로 보이는 행동 경향을 평가합니다. 권력 추구나 음모 등 우려되는 성향들을 분석합니다.
  • 제어 가능성(Control): 적대적인 AI에 직면했을 때 안전성 측정이 여전히 효과적인지 평가합니다.

이러한 속성들은 스캐폴딩, 레드 티밍, 감독된 미세 조정과 같은 행동 기술과 표현 분석, 기계적 해석 가능성과 같은 내부 기술을 통해 측정됩니다.

평가 방법 및 거버넌스 프레임워크

연구는 이러한 평가 방법이 거버넌스 프레임워크에 어떻게 통합되어 구체적인 개발 결정으로 이어지는지 탐구합니다. 또한, 능력의 부재를 증명하는 것, 모델의 '샌드백킹'(능력을 감추는 행위), '세이프티워싱'(안전성을 과장하는 행위)과 같은 안전성 평가의 어려움과 유망한 연구 방향을 제시합니다.

결론

본 문헌 검토는 분산된 자료들을 종합하여 AI 안전성 평가에 대한 중심적인 참고 자료를 제공하고자 합니다. AI의 안전성 확보를 위한 핵심적인 질문에 답하고, 향후 연구 방향을 제시함으로써 더 안전하고 책임감 있는 AI 개발을 위한 중요한 이정표를 제시합니다. AI의 발전과 더불어 지속적인 안전성 평가 및 개선이 필수적이며, 이를 위한 체계적인 접근법은 AI 기술의 윤리적이고 안전한 발전에 크게 기여할 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods

Published:  (Updated: )

Author: Markov Grey, Charbel-Raphaël Segerie

http://arxiv.org/abs/2505.05541v1