SafeDialBench: 다중 턴 대화에서의 LLM 안전성을 위한 새로운 척도


중국과학원 연구진이 개발한 SafeDialBench는 다중 턴 대화와 다양한 탈옥 공격을 고려한 새로운 LLM 안전성 벤치마크입니다. 6가지 안전성 차원과 4000개 이상의 다중 턴 대화를 활용하여 17개의 LLM을 평가한 결과, Yi-34B-Chat과 GLM4-9B-Chat의 우수한 안전성이 확인되었습니다.

related iamge

급변하는 AI 시대, 대규모 언어 모델의 안전성 확보가 최대 관건!

최근 대규모 언어 모델(LLM)의 발전 속도가 놀랍습니다. 하지만 그 빛나는 성능 뒤에는 안전성이라는 어두운 그림자가 도사리고 있습니다. 기존의 안전성 평가는 단일 턴 대화나 단순한 탈옥 공격에만 초점을 맞춰, LLM의 안전성을 정확하게 평가하기에는 부족했습니다.

중국과학원의 연구진은 이러한 문제점을 해결하기 위해 SafeDialBench라는 새로운 벤치마크를 개발했습니다. SafeDialBench는 다양한 탈옥 공격을 활용한 다중 턴 대화를 통해 LLM의 안전성을 세밀하게 평가할 수 있도록 설계되었습니다. 단순히 안전성 여부만 평가하는 것이 아니라, LLM이 위험 정보를 감지하고 처리하며, 일관성을 유지하는 능력까지 꼼꼼하게 평가하는 것이 특징입니다.

SafeDialBench의 핵심 기능:

  • 6가지 안전성 차원을 고려한 계층적 분류 체계: 안전성 평가의 깊이와 범위를 확장했습니다.
  • 중국어 및 영어, 22가지 대화 시나리오, 4000개 이상의 다중 턴 대화: 다양한 상황과 언어에 대한 적용성을 높였습니다.
  • 참조 공격 및 목적 반전 등 7가지 탈옥 공격 전략: LLM의 안전성 취약점을 다각적으로 파악할 수 있습니다.
  • 위험 정보 감지, 처리, 일관성 유지 능력 평가: LLM의 안전성을 종합적으로 평가하는 혁신적인 프레임워크를 제시했습니다.

놀라운 결과! 어떤 LLM이 안전성 테스트를 통과했을까요?

17개의 LLM을 대상으로 실험한 결과, Yi-34B-ChatGLM4-9B-Chat이 뛰어난 안전성을 보였습니다. 반면, Llama3.1-8B-Instructo3-mini는 안전성 취약점을 보였습니다. 이러한 결과는 향후 LLM 개발 방향에 중요한 시사점을 제공할 것으로 예상됩니다.

결론적으로, SafeDialBench는 LLM의 안전성을 보다 정확하고 포괄적으로 평가하는 새로운 기준을 제시하여, AI 기술의 안전하고 책임감 있는 발전에 기여할 것으로 기대됩니다. 앞으로 더욱 발전된 안전성 평가 방법론의 등장을 기대하며, AI 시대의 안전한 미래를 향한 여정을 계속 이어가야 할 것입니다. 🙏


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks

Published:  (Updated: )

Author: Hongye Cao, Yanming Wang, Sijia Jing, Ziyue Peng, Zhixin Bai, Zhe Cao, Meng Fang, Fan Feng, Boyan Wang, Jiaheng Liu, Tianpei Yang, Jing Huo, Yang Gao, Fanyu Meng, Xi Yang, Chao Deng, Junlan Feng

http://arxiv.org/abs/2502.11090v2