잊는 법을 배우는 AI: 진정한 지식 삭제란 무엇일까?
본 기사는 AI 모델의 '잊기' 능력에 대한 최신 연구 결과를 소개합니다. 기존의 '은폐' 방식과 달리, 진정한 '잊기'를 가능하게 하는 DF-MCQ 방법론을 제시하고, 이를 통해 개인정보 보호 및 윤리적 AI 개발에 대한 새로운 가능성을 제시합니다.

최근 AI 분야에서 가장 뜨거운 감자 중 하나는 바로 '잊는 능력'입니다. 대규모 언어 모델(LLM)이 개인정보 보호, 규제 준수, 윤리적 AI 배포를 위해서는 학습한 정보를 '잊는' 능력이 필수적이기 때문입니다. 하지만 지금까지의 '잊기' 기술은 대부분 잘못된 정보나 무관한 정보를 주입하여 기존 지식을 덮어쓰는 '은폐(Obfuscation)'에 그쳤습니다. 이는 진정한 의미의 지식 삭제가 아닌, '덧붙임'에 가까웠고, 교묘한 질문에는 여전히 기존 지식이 드러날 위험성을 안고 있었습니다.
그렇다면, 진정한 '잊음'이란 무엇일까요?
Sun, Manakul, Zhan, 그리고 Gales 연구팀은 이러한 문제의식에서 출발하여, '잊기(Unlearning)'와 '은폐(Obfuscation)'를 엄격하게 구분하고, 기존 방법들이 실제로 목표 정보를 제거하는지 평가하는 새로운 탐색 기반 평가 프레임워크를 제시했습니다. 그리고 그들은 혁신적인 '잊기' 방법, DF-MCQ를 소개합니다.
DF-MCQ는 자동 생성된 객관식 질문에 대한 모델의 예측 분포를 KL-divergence를 사용하여 평평하게 만드는 방식으로 작동합니다. 이는 표적 개인에 대한 지식을 효과적으로 제거하고, 모델이 적절하게 응답을 거부하도록 유도합니다. 실험 결과, DF-MCQ는 90% 이상의 거부율과 은폐 방법보다 훨씬 높은 불확실성 수준을 달성하여, 진정한 '잊기'에 성공했다는 것을 보여줍니다.
이는 단순한 기술적 진보를 넘어, AI의 윤리적이고 안전한 활용을 위한 중요한 이정표가 될 것입니다. 개인정보 보호에 대한 우려가 커지는 현 시대에, AI가 진정으로 '잊는 법'을 배움으로써, 우리는 더욱 안전하고 신뢰할 수 있는 AI 시대를 열어갈 수 있을 것입니다. 앞으로 이 연구를 바탕으로 더욱 발전된 '잊기' 기술이 개발되어 AI의 사회적 책임을 강화하는 데 기여할 것으로 기대됩니다.
Reference
[arxiv] Unlearning vs. Obfuscation: Are We Truly Removing Knowledge?
Published: (Updated: )
Author: Guangzhi Sun, Potsawee Manakul, Xiao Zhan, Mark Gales
http://arxiv.org/abs/2505.02884v1