획기적인 AI 안전 기술 등장: 추론 기반 VLM 보호 모델 'GuardReasoner-VL'
중국 연구진이 개발한 GuardReasoner-VL은 강화학습 기반 추론으로 VLM의 안전성을 크게 향상시킨 모델입니다. 방대한 데이터셋과 혁신적인 보상 시스템을 통해 경쟁모델 대비 19.27% 향상된 F1점수를 기록했으며, 코드와 모델을 공개하여 지속적인 발전에 기여하고 있습니다.

AI 안전의 새로운 지평을 열다: GuardReasoner-VL
최근 거대 비전-언어 모델(VLM)의 발전과 함께 안전성에 대한 우려가 커지고 있습니다. 중국과학원, 칭화대학교 등 여러 기관의 연구진이 공동으로 개발한 GuardReasoner-VL은 이러한 문제에 대한 혁신적인 해결책을 제시합니다. 이 모델은 단순한 안전 검열을 넘어, 추론 기반의 섬세한 판단을 통해 VLM의 안전성을 보장하는 것을 목표로 합니다.
핵심 전략: 강화 학습과 추론의 조화
GuardReasoner-VL의 핵심은 온라인 강화 학습(online RL) 입니다. 이는 모델이 스스로 학습하며 더욱 정교한 안전 기준을 확립하도록 유도합니다. 단순히 기존 데이터에 의존하는 대신, 모델은 다양한 상황과 입력에 대해 스스로 판단하고 학습하는 것입니다. 이를 위해 연구진은 텍스트, 이미지, 그리고 텍스트-이미지 결합 등 12만 3천 개의 샘플과 63만 1천 개의 추론 단계로 구성된 방대한 데이터셋, GuardReasoner-VLTrain을 구축했습니다.
안전성과 효율성의 균형: 똑똑한 보상 시스템
모델의 안전성을 향상시키기 위한 노력은 여기서 그치지 않습니다. 연구진은 거부 샘플링(rejection sampling) 과 안전 인식 데이터 연결(safety-aware data concatenation) 을 통해 데이터의 다양성과 난이도를 높였습니다. 또한, 동적 클리핑 매개변수(dynamic clipping parameter) 를 사용하여 초기 단계에서는 탐색(exploration), 후기 단계에서는 활용(exploitation)을 효과적으로 조절합니다. 더 나아가, 길이 인식 안전 보상(length-aware safety reward) 을 설계하여 정확성, 형식, 토큰 비용을 통합적으로 고려하여 성능과 토큰 효율성 사이의 균형을 맞췄습니다.
놀라운 성과: 압도적인 성능 향상
GuardReasoner-VL의 성능은 실험을 통해 명확하게 입증되었습니다. 경쟁 모델 대비 평균 19.27%의 F1 점수 향상이라는 놀라운 결과를 달성했습니다. 이러한 성과는 GuardReasoner-VL의 우수성을 확실하게 보여줍니다.
개방과 공유: 지속적인 발전을 위한 초석
연구진은 GuardReasoner-VL의 데이터, 코드, 그리고 3B/7B 모델을 https://github.com/yueliu1999/GuardReasoner-VL/ 에서 공개했습니다. 이는 연구의 재현성을 높이고, AI 안전 분야의 지속적인 발전에 기여할 것으로 기대됩니다.
GuardReasoner-VL은 AI 안전 분야의 새로운 이정표를 세웠습니다. 강화 학습과 추론을 결합한 혁신적인 접근 방식은 향후 AI 기술의 안전한 발전에 중요한 역할을 할 것으로 예상됩니다.
Reference
[arxiv] GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning
Published: (Updated: )
Author: Yue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi
http://arxiv.org/abs/2505.11049v1