잊는 법을 배우는 AI: 샘플 수준 언러닝 난이도 해석


본 연구는 LLM의 언러닝 과정에서 샘플별 언러닝 난이도를 고려한 새로운 지표 MRD와 가중치 샘플링 기법을 제시하고, 신경과학적 관점을 도입하여 그 효과를 검증함으로써 LLM 언러닝의 효율성과 효과성을 향상시키는 데 기여합니다.

related iamge

개인정보보호 법규 강화로 인해 대규모 언어 모델(LLM)에서의 언러닝(unlearning) 이 주목받고 있습니다. 하지만 기존 연구는 언러닝 과정의 해석 가능성, 특히 샘플 수준의 언러닝 난이도를 간과하는 경향이 있었습니다. 쉽게 말해, AI가 특정 정보를 얼마나 쉽게 잊는지에 대한 연구가 부족했던 것이죠. 기존 연구들은 모든 샘플의 언러닝 난이도가 동일하다고 가정했는데, 이는 언러닝 알고리즘의 성능을 알고리즘 자체의 설계보다는 샘플 선택에 기인하는 것으로 잘못 해석할 위험이 있습니다. 이는 LLM 언러닝 연구의 방향을 잘못 설정할 수 있다는 것을 의미합니다.

중국과학원의 Xiaohua Feng 등 연구진은 이러한 문제의식에서 출발하여, LLM 언러닝과 샘플 특성 간의 관계를 심층적으로 조사했습니다. 특히 언러닝 난이도에 초점을 맞추어 연구를 진행했는데, 여기서 흥미로운 점은 바로 신경과학적 관점을 도입했다는 것입니다.

연구진은 신경과학에서 영감을 얻어 Memory Removal Difficulty (MRD) 라는 새로운 지표를 제안했습니다. MRD는 샘플 수준의 언러닝 난이도를 정량적으로 측정하는 지표입니다. 이를 통해 어떤 샘플은 쉽게 잊히고, 어떤 샘플은 잊기 어려운지 분석할 수 있게 된 것이죠. 이는 마치 인간의 기억처럼, 어떤 기억은 쉽게 사라지지만 어떤 기억은 오랫동안 남는 것과 유사합니다.

더 나아가 연구진은 MRD를 기반으로 한 가중치 샘플링 기법을 제안했습니다. 쉽게 잊히는 샘플을 우선적으로 처리하여 언러닝의 효율성과 효과를 높이는 방법입니다. 이는 마치 중요하지 않은 정보부터 먼저 지우는 것과 같습니다. 마치 컴퓨터의 하드디스크 정리와 같은 원리입니다.

연구진은 공개 벤치마크와 데이터셋을 사용하여 제안된 지표와 방법론의 효과를 검증했습니다. 그 결과는 제안된 방법의 효과를 뒷받침하며, LLM 언러닝 분야의 새로운 가능성을 제시합니다. 이 연구는 단순히 새로운 알고리즘을 제시하는 데 그치지 않고, 언러닝 과정에 대한 깊이 있는 이해를 제공하고, 향후 LLM의 발전에 중요한 방향을 제시하는 의미를 가집니다. AI가 정보를 ‘잊는’ 방법을 더욱 효율적으로 개선함으로써, AI의 안전성과 윤리적 문제 해결에 크게 기여할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] A Neuro-inspired Interpretation of Unlearning in Large Language Models through Sample-level Unlearning Difficulty

Published:  (Updated: )

Author: Xiaohua Feng, Yuyuan Li, Chengye Wang, Junlin Liu, Li Zhang, Chaochao Chen

http://arxiv.org/abs/2504.06658v1