딥러닝의 새로운 지평: 저장대학교 ZJUKLAB의 '민감 정보 제거' 기술
저장대학교 ZJUKLAB 연구팀은 SemEval-2025 Task 4에서 혁신적인 모델 병합 기법을 활용, 대규모 언어 모델의 민감 정보 제거 기술을 선보였습니다. 26개 팀 중 2위를 기록하며 기술력을 인정받았지만, 평가 지표의 한계와 향후 연구 방향에 대한 중요한 시사점도 제시했습니다.

최근 급속도로 발전하는 인공지능(AI) 기술은 그 편리함만큼이나 윤리적 문제에 대한 우려를 불러일으키고 있습니다. 특히, 대규모 언어 모델(LLM)이 민감한 정보를 학습하고 이를 재생산할 가능성은 심각한 사회적 문제로 이어질 수 있습니다. 이러한 문제를 해결하기 위해, 중국 저장대학교(Zhejiang University)의 ZJUKLAB 연구팀이 혁신적인 기술을 선보였습니다.
ZJUKLAB은 SemEval-2025 Task 4: '대규모 언어 모델에서 민감한 콘텐츠 제거' 과제에 참여하여 놀라운 성과를 거두었습니다. 단순히 기존 모델에서 민감한 정보를 삭제하는 것이 아니라, **'모델 병합(Model Merging)'**이라는 새로운 접근 방식을 제시한 것입니다. 특히 TIES-Merging 기법을 활용하여, 민감한 정보에 대한 지식을 최소화하도록 특화된 두 개의 모델을 결합함으로써, 과도한 정보 손실(over-forgetting)과 부족한 정보 손실(under-forgetting) 문제를 동시에 해결했습니다.
그 결과, 26개 팀이 참가한 경쟁에서 2위를 차지하며, Task Aggregate 기준 0.944, 전체 Aggregate 기준 0.487의 온라인 점수를 기록했습니다. 이는 ZJUKLAB의 기술이 실제 환경에서도 효과적으로 작동함을 의미합니다.
하지만 ZJUKLAB 연구팀은 이 연구에서 평가 지표의 한계를 명확하게 지적했습니다. MIA 점수와 ROUGE 기반 지표만으로는 성공적인 민감 정보 제거를 완벽하게 평가하기 어렵다는 것입니다. 향후 연구에서는 보다 포괄적인 평가 방법론의 개발과 민감 정보 제거 목표에 대한 재고가 필요하다는 점을 강조했습니다.
본 연구는 단순히 기술적 성과를 넘어, AI 윤리와 사회적 책임에 대한 중요한 메시지를 던집니다. ZJUKLAB의 '모델 병합' 기법은 대규모 언어 모델의 안전하고 윤리적인 활용에 기여할 뿐만 아니라, AI 기술 발전에 있어서 윤리적 고려의 중요성을 다시 한번 일깨워줍니다. 연구팀은 GitHub (https://github.com/zjunlp/unlearn/tree/main/semeval25) 에서 코드를 공개하여, 학계와 산업계의 지속적인 연구와 발전을 독려하고 있습니다. 앞으로 이 기술이 어떻게 발전하고 적용될지, 그리고 AI 윤리 문제에 어떤 영향을 미칠지 지켜볼 필요가 있습니다.
Reference
[arxiv] ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging
Published: (Updated: )
Author: Haoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang
http://arxiv.org/abs/2503.21088v2