뜻밖의 발견! LLM 언러닝의 놀라운 '코어셋 효과'
LLM 언러닝 연구에서 전체 삭제 데이터셋의 5%만으로도 효과적인 언러닝이 가능한 '코어셋 효과'가 발견되었습니다. 이 효과는 다양한 언러닝 방법 및 데이터 선택 방법에 대해서도 강력하게 유지되며, 소수의 중요 토큰에 의해 언러닝이 주도됨을 시사합니다. 코어셋 기반 언러닝 모델은 모드 연결성과 탈옥 공격에 대한 강건성 측면에서도 기존 모델과 유사한 성능을 보였습니다.

최근 인공지능 분야에서 가장 주목받는 연구 중 하나는 바로 대규모 언어 모델(LLM)의 언러닝입니다. 원치 않는 데이터의 영향을 제거하여 모델의 안전성과 제어 가능성을 높이는 기술이죠. Soumyadeep Pal 등 연구진은 LLM 언러닝 벤치마크인 WMDP와 MUSE를 이용한 연구에서 흥미로운 현상을 발견했습니다. 바로 **'코어셋 효과'**입니다.
놀라운 효율성: 전체의 5%만으로도 충분하다?
연구진은 기존의 전체 삭제 데이터셋을 이용한 언러닝 결과와, 그 중 단 5%의 작은 부분집합(코어셋) 만을 사용한 결과를 비교했습니다. 놀랍게도, 무작위로 선택한 5%의 코어셋만으로도 거의 동일한 언러닝 효과를 달성할 수 있었습니다! 이는 기존의 믿음과 달리, LLM 언러닝이 매우 적은 데이터만으로도 가능하다는 것을 시사합니다.
방법과 데이터에 상관없이 강력한 효과
더욱 놀라운 점은 이 코어셋 효과가 NPO(Negative Preference Optimization)와 RMU(Representation Misdirection Unlearning) 등 다양한 언러닝 방법과, 무작위 선택부터 정교한 휴리스틱 기법까지 다양한 데이터 선택 방법에 대해서도 강력하게 유지된다는 것입니다. 이는 코어셋 효과가 매우 견고한 현상임을 보여줍니다.
비밀은 '키워드'에 있다?
연구진은 이러한 코어셋 효과의 원인을 분석하기 위해 키워드 기반 접근 방식을 사용했습니다. 분석 결과, 삭제 데이터셋에서 추출한 키워드만으로도 상당한 언러닝 효과를 달성할 수 있다는 사실을 발견했습니다. 즉, LLM 언러닝은 전체 데이터셋이 아닌, 소수의 영향력 있는 키워드(토큰) 에 의해 주로 이루어진다는 것을 의미합니다.
신뢰성 검증: 모드 연결성과 탈옥 공격에 대한 강건성
마지막으로 연구진은 코어셋 기반 언러닝 모델의 신뢰성을 다양한 측면에서 검증했습니다. 모드 연결성과 탈옥 공격에 대한 강건성을 평가한 결과, 코어셋 기반 모델이 기존 모델과 비슷한 수준의 성능을 보이는 것을 확인했습니다.
결론: 효율적인 LLM 언러닝을 위한 새로운 가능성
이 연구는 LLM 언러닝의 효율성을 극대화할 수 있는 새로운 가능성을 제시합니다. 향후 연구에서는 코어셋을 효과적으로 선택하는 방법 및 코어셋 효과의 이론적 배경에 대한 더욱 심도있는 연구가 필요할 것으로 예상됩니다. 자세한 내용은 Github에서 확인할 수 있습니다.
Reference
[arxiv] LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks
Published: (Updated: )
Author: Soumyadeep Pal, Changsheng Wang, James Diffenderfer, Bhavya Kailkhura, Sijia Liu
http://arxiv.org/abs/2504.10185v2