잊는다는 것은 지우는 것이 아니다: 거대 언어 모델의 언러닝 가역성에 대한 심층 분석
본 연구는 기존의 토큰 수준 평가의 한계를 극복하고 표현 수준 평가 프레임워크를 제시하여 LLM 언러닝의 가역성을 심층적으로 분석했습니다. 가역적/비가역적 망각의 차이를 밝히고, 언러닝의 신뢰성 향상을 위한 새로운 진단 기반을 마련했습니다.

최근 거대 언어 모델(LLM)의 발전과 함께, 특정 데이터의 영향을 제거하는 '언러닝' 기술에 대한 관심이 높아지고 있습니다. 하지만 기존의 정확도나 퍼플렉서티 같은 토큰 수준의 평가 지표는 언러닝의 효과를 제대로 반영하지 못한다는 지적이 꾸준히 제기되어 왔습니다.
Xu Xiaoyu를 비롯한 연구팀은 이러한 문제점을 해결하기 위해, PCA 기반 유사도 및 변화량, 중심 커널 정렬, 피셔 정보를 활용한 표현 수준 평가 프레임워크를 제시했습니다. 이를 통해 언러닝 과정에서 모델의 표현 변화를 더욱 정확하게 분석하고, 언러닝의 가역성 여부를 판단할 수 있게 된 것입니다. 이는 마치 컴퓨터의 파일 삭제가 실제로는 데이터를 완전히 지우는 것이 아니라, 해당 위치에 대한 접근 권한만 제거하는 것과 유사한 개념입니다. 모델이 '잊은 것처럼 보이지만', 최소한의 미세 조정만으로 원래의 행동을 빠르게 복원할 수 있다는 사실을 밝혀낸 것이죠.
연구팀은 6가지 언러닝 방법, 텍스트, 코드, 수학 세 가지 도메인, 그리고 두 가지 오픈소스 LLM을 대상으로 실험을 진행했습니다. 그 결과, 가역적 망각과 비가역적 망각의 중요한 차이를 발견했습니다. 가역적 망각에서는 토큰 수준의 붕괴가 발생하지만 잠재적인 특징은 유지되는 반면, 비가역적 망각에서는 더욱 심층적인 표현 수준의 손상이 발생하는 것을 확인했습니다. 이는 마치 사진의 일부분을 지우는 것과, 사진 자체를 파괴하는 것의 차이와 같습니다.
또한, 출력 계층 근처의 얕은 가중치 변화가 오해의 소지가 있는 언러닝 신호로 이어진다는 이론적 근거를 제시하고, 가역성이 작업 유형 및 하이퍼파라미터에 따라 조절된다는 것을 보여주었습니다. 이러한 연구 결과는 기존 언러닝 평가 방식의 근본적인 한계를 드러내고, LLM에서 신뢰할 수 있는 언러닝을 위한 새로운 진단 기반을 마련했습니다.
연구팀은 LLM 표현 변화를 분석하는 통합 툴킷을 공개했습니다. (https://github.com/XiaoyuXU1/Representational_Analysis_Tools.git)
이 연구는 단순히 기술적인 발전을 넘어, AI 모델의 신뢰성과 윤리적인 측면까지 고려해야 함을 시사합니다. 언러닝의 실제 효과를 정확하게 평가하는 것은 AI 모델의 안전하고 책임감 있는 사용을 위해 필수적이며, 이번 연구는 그 첫걸음이 될 것입니다.
Reference
[arxiv] Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs
Published: (Updated: )
Author: Xiaoyu Xu, Xiang Yue, Yang Liu, Qingqing Ye, Haibo Hu, Minxin Du
http://arxiv.org/abs/2505.16831v1