범용 AI 시스템의 안전을 위한 새로운 패러다임: 제3자 결함 공개의 중요성
본 기사는 범용 AI 시스템의 결함 보고 및 공개 시스템의 미흡함을 지적하고, 표준화된 보고서, 광범위한 결함 공개 프로그램, 개선된 보고 인프라 구축 등의 해결책을 제시하는 연구 결과를 소개합니다. 다양한 분야 전문가들의 협력을 통해 AI 시스템의 안전성과 책임성을 높이기 위한 노력이 중요함을 강조합니다.

최근 범용 AI (GPAI) 시스템의 광범위한 배포로 인해 새로운 위험이 발생하고 있습니다. 하지만 GPAI 시스템의 결함을 보고하고 공개하는 인프라, 관행 및 규범은 소프트웨어 보안과 같은 기존 분야에 비해 크게 미흡한 실정입니다. Shayne Longpre 등 32명의 연구진은 소프트웨어 보안, 머신러닝, 법률, 사회과학 및 정책 분야 전문가들의 협력을 통해 GPAI 시스템의 결함 평가 및 보고 과정에서 나타나는 주요 문제점을 밝혀냈습니다.
연구진은 GPAI 시스템의 안전성을 높이기 위해 다음과 같은 세 가지 중요한 개입을 제안합니다.
표준화된 AI 결함 보고서 및 규칙 제정: 연구자들이 GPAI 시스템의 결함을 제출, 재현 및 분류하는 과정을 간소화하기 위해 표준화된 AI 결함 보고서와 참여 규칙을 사용할 것을 제안합니다. 이는 마치 소프트웨어 개발에서 버그 보고서의 표준화와 유사한 접근 방식입니다. 이를 통해 결함 정보의 일관성을 확보하고, 효율적인 분석 및 대응이 가능해집니다.
광범위한 결함 공개 프로그램 도입: GPAI 시스템 제공업체가 버그 바운티 프로그램에서 차용한 광범위한 결함 공개 프로그램을 채택하고, 연구자들을 보호하기 위한 법적 안전 장치를 마련할 것을 제안합니다. 이는 책임감 있는 공개를 장려하고, 시스템의 안전성을 높이는 선순환 구조를 만들 수 있습니다. 기존의 소프트웨어 보안 분야에서 검증된 방법론을 AI 분야에 적용하는 것이 핵심입니다.
결함 보고 배포 인프라 개선: 많은 이해 관계자들에게 결함 보고서를 배포하기 위한 인프라를 개선할 것을 주장합니다. 이는 결함 정보의 신속하고 효과적인 전달을 보장하며, 여러 이해관계자 간의 협력을 증진시켜 문제 해결에 도움을 줄 수 있습니다.
시사점: 최근 다양한 제공업체의 GPAI 시스템에서 탈옥 및 기타 결함이 빈번하게 발생하는 것을 고려할 때, 연구진의 제안은 시급성을 갖습니다. AI 생태계에서 강력한 보고 및 조정을 촉진함으로써 GPAI 시스템의 안전성, 보안 및 책임성을 크게 향상시킬 수 있습니다. 이는 단순히 기술적인 문제가 아니라 법적, 윤리적, 사회적 문제를 모두 고려해야 하는 복합적인 과제임을 시사합니다. 앞으로 AI 시스템의 발전과 함께 이러한 제안들이 얼마나 효과적으로 구현될지, 그리고 그 결과가 어떻게 나타날지 주목할 필요가 있습니다.
Reference
[arxiv] In-House Evaluation Is Not Enough: Towards Robust Third-Party Flaw Disclosure for General-Purpose AI
Published: (Updated: )
Author: Shayne Longpre, Kevin Klyman, Ruth E. Appel, Sayash Kapoor, Rishi Bommasani, Michelle Sahar, Sean McGregor, Avijit Ghosh, Borhane Blili-Hamelin, Nathan Butters, Alondra Nelson, Amit Elazari, Andrew Sellars, Casey John Ellis, Dane Sherrets, Dawn Song, Harley Geiger, Ilona Cohen, Lauren McIlvenny, Madhulika Srikumar, Mark M. Jaycox, Markus Anderljung, Nadine Farid Johnson, Nicholas Carlini, Nicolas Miailhe, Nik Marda, Peter Henderson, Rebecca S. Portnoff, Rebecca Weiss, Victoria Westerhoff, Yacine Jernite, Rumman Chowdhury, Percy Liang, Arvind Narayanan
http://arxiv.org/abs/2503.16861v1