중국어 맥락에서 DeepSeek-R1 모델의 안전성 평가 및 향상 연구


본 연구는 중국어 맥락에서 DeepSeek-R1 모델의 안전성 문제를 심층적으로 분석하고, 안전성 향상을 위한 구체적인 해결책을 제시하는 동시에 안전성이 개선된 모델을 오픈소스로 공개하여 AI 모델의 안전성 확보에 크게 기여했습니다.

related iamge

중국어 AI 모델의 안전성, 심각한 문제 제기 및 해결책 제시

최근, 뛰어난 추론 능력과 오픈소스 전략으로 주목받는 DeepSeek-R1 모델의 안전성 문제가 심각하게 제기되었습니다. Cisco 자회사인 Robust Intelligence와 University of Pennsylvania의 공동 연구 결과, DeepSeek-R1은 악의적인 프롬프트에 대해 100% 공격 성공률을 보이는 것으로 나타났습니다. 여러 보안 업체 및 연구 기관들 또한 이 모델의 심각한 보안 취약성을 확인했습니다. 중국 Unicom 역시 중국어 맥락에서 R1의 안전성 취약점을 발견했지만, 나머지 R1 시리즈 증류 모델들의 안전성은 아직 포괄적으로 평가되지 않았습니다.

중국어 안전성 벤치마크 CHiSafetyBench 활용한 심층 분석

이러한 문제점을 해결하기 위해, 연구팀은 포괄적인 중국어 안전성 벤치마크인 CHiSafetyBench를 사용하여 DeepSeek-R1 시리즈 증류 모델에 대한 심층적인 안전성 평가를 수행했습니다. 연구의 목표는 증류 전후의 중국어 맥락에서 이들 모델의 안전성을 평가하고, 증류가 모델 안전성에 미치는 부정적인 영향을 명확히 밝히는 것이었습니다.

안전성 향상 및 오픈소스 공개

연구 결과를 바탕으로, 연구팀은 6개의 증류 모델에 대해 표적화된 안전성 향상을 구현했습니다. 평가 결과, 향상된 모델들은 안전성이 크게 개선되었으며, 추론 능력 저하는 거의 없었습니다. 더욱 중요한 것은, 이렇게 안전성이 향상된 모델들이 https://github.com/UnicomAI/DeepSeek-R1-Distill-Safe/tree/main 에서 오픈소스로 공개되어, DeepSeek 모델의 미래 연구와 최적화에 귀중한 자료로 활용될 수 있다는 점입니다.

결론적으로, 이 연구는 중국어 맥락에서 DeepSeek-R1 모델의 안전성 문제를 명확히 제시하고, 실질적인 해결책을 제시함으로써 AI 모델의 안전성 확보에 중요한 기여를 했습니다. 향후 AI 모델 개발에 있어 안전성을 최우선으로 고려해야 할 필요성을 다시 한번 강조하는 연구 결과라 할 수 있습니다. 특히, 오픈소스 공개를 통해 연구 결과의 공유와 지속적인 발전을 도모한 점은 높이 평가할 만합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Safety Evaluation and Enhancement of DeepSeek Models in Chinese Contexts

Published:  (Updated: )

Author: Wenjing Zhang, Xuejiao Lei, Zhaoxiang Liu, Limin Han, Jiaojiao Zhao, Beibei Huang, Zhenhong Long, Junting Guo, Meijuan An, Rongjia Du, Ning Wang, Kai Wang, Shiguo Lian

http://arxiv.org/abs/2503.16529v1