안전한 AI 비서의 탄생: Safe RLHF-V와 BeaverTails-V 데이터셋
본 기사는 다중 모달 대규모 언어 모델(MLLM)의 안전성을 향상시키기 위한 새로운 프레임워크 Safe RLHF-V와 오픈소스 데이터셋 BeaverTails-V에 대해 소개합니다. Safe RLHF-V는 유용성과 안전성을 동시에 최적화하며, BeaverTails-V는 다단계 안전 레이블을 통해 안전성 평가를 지원합니다. 이 연구는 더 안전하고 유용한 AI 시스템 개발에 기여할 것으로 기대됩니다.

인공지능(AI) 비서가 우리 생활 깊숙이 들어오면서 안전성에 대한 우려도 커지고 있습니다. 특히 다중 모달 대규모 언어 모델(MLLM)은 차세대 AI 비서 개발에 핵심적이지만, 차별, 허위 정보 유포, 윤리적 기준 위반 등의 위험성을 내포하고 있습니다. Jiaming Ji 등 15명의 연구진이 발표한 논문 "Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models"은 이러한 문제에 대한 해결책을 제시합니다.
Safe RLHF-V: 안전과 유용성의 조화
연구진은 유용성과 안전성을 동시에 최적화하는 최초의 다중 모달 안전 정렬 프레임워크인 Safe RLHF-V를 개발했습니다. 이는 라그랑주 기반 제약 최적화 프레임워크 내에서 별도의 다중 모달 보상 및 비용 모델을 사용하여 유용성과 안전성을 공동으로 최적화하는 혁신적인 접근 방식입니다. 이는 단순히 유용성만을 추구하는 기존 방식의 한계를 넘어, 안전성을 중요한 요소로 고려한 최초의 시도라는 점에서 의미가 큽니다.
BeaverTails-V: 안전성 평가를 위한 새로운 데이터셋
하지만, 다중 모달 환경에서 유용성과 안전성을 분리하는 선호도 데이터셋이 부족하다는 문제가 있었습니다. 이를 해결하기 위해 연구진은 BeaverTails-V라는 새로운 오픈소스 데이터셋을 공개했습니다. BeaverTails-V는 유용성과 안전성에 대한 이중 선호도 주석과 다단계 안전 레이블(경미, 중간, 심각)을 포함하고 있어, MLLM의 안전성을 더욱 정교하게 평가하고 개선하는 데 기여합니다.
Multi-level Guardrail System: 안전한 질문과 답변을 위한 방어 시스템
연구진은 또한 다중 안전 장치 시스템(Multi-level Guardrail System) 을 설계하여 안전하지 않은 쿼리와 적대적 공격으로부터 사전에 방어하는 시스템을 구축했습니다. 5라운드의 필터링 및 재생성 과정을 거쳐 기존 모델의 안전성을 평균 40.9% 향상시켰다는 점은 주목할 만합니다. 이를 통해 Safe RLHF-V는 모델의 유용성을 34.3% 향상시키면서 동시에 안전성을 34.2% 향상시키는 놀라운 성과를 달성했습니다.
결론: 더 안전하고 유용한 AI 미래를 향하여
Safe RLHF-V와 BeaverTails-V 데이터셋은 MLLM의 안전한 개발을 지원하고 잠재적인 사회적 위험을 줄이는 데 크게 기여할 것으로 기대됩니다. Github (https://github.com/SafeRLHF-V)에서 모든 데이터셋, 모델 및 코드를 확인할 수 있습니다. 이 연구는 더욱 안전하고 유용한 AI 미래를 향한 중요한 발걸음을 내디뎠습니다. 앞으로도 안전성과 유용성을 균형 있게 고려한 AI 기술 개발이 지속적으로 이루어져야 할 것입니다.
Reference
[arxiv] Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models
Published: (Updated: )
Author: Jiaming Ji, Xinyu Chen, Rui Pan, Han Zhu, Conghui Zhang, Jiahao Li, Donghai Hong, Boyuan Chen, Jiayi Zhou, Kaile Wang, Juntao Dai, Chi-Min Chan, Sirui Han, Yike Guo, Yaodong Yang
http://arxiv.org/abs/2503.17682v1