잊는 법을 배우다: 대규모 언어 모델의 '학습을 통한 잊기'(ReLearn) 등장
중국 저장대학교 연구진이 발표한 ReLearn은 기존 LLM '잊기' 방식의 한계를 극복하고, 학습을 통해 효과적으로 정보를 잊는 새로운 방법을 제시합니다. 새로운 평가 지표를 통해 망각과 생성 품질을 균형 있게 평가하고, 실험을 통해 ReLearn의 효과를 입증했습니다.

인공지능(AI) 시대, 대규모 언어 모델(LLM)의 발전은 눈부십니다. 하지만 LLM이 모든 것을 기억하는 것은 아닙니다. 오히려 잘못된 정보나 편향된 데이터를 '잊는' 능력 또한 중요합니다. 최근, 중국 저장대학교 연구진(Haoming Xu, Ningyuan Zhao 외)이 발표한 논문 "ReLearn: Unlearning via Learning for Large Language Models"은 이러한 문제에 대한 혁신적인 해결책을 제시합니다.
기존 방법의 한계: 역전 최적화의 딜레마
기존의 LLM '잊기' 방법들은 주로 역전 최적화(reverse optimization)에 의존했습니다. 이는 특정 토큰의 확률을 낮추는 방식으로, 마치 기억을 지우는 것처럼 작동합니다. 하지만 이 방법은 후속 토큰 예측에 심각한 악영향을 미쳐, 모델 성능 저하와 문장의 비일관성을 초래하는 단점이 있었습니다. 더욱이, 기존 평가 지표는 문맥적 망각에만 집중하여, 응답의 유창성과 관련성은 제대로 평가하지 못했습니다.
ReLearn: 학습을 통한 효과적인 잊기
연구진은 이러한 문제를 해결하기 위해 ReLearn이라는 새로운 방법을 제안합니다. ReLearn은 데이터 증강과 미세 조정(fine-tuning)을 결합한 파이프라인으로, '학습을 통해 잊는다'는 독특한 접근 방식을 취합니다. 단순히 정보를 지우는 것이 아니라, 모델의 성능과 언어적 일관성을 유지하면서 특정 정보를 잊도록 설계되었습니다.
균형 잡힌 평가: 새로운 지표의 도입
ReLearn의 효과를 객관적으로 평가하기 위해, 연구진은 새로운 평가 지표들을 도입했습니다. 지식 유지율(KRR) 과 지식 망각률(KFR) 은 지식 수준의 보존 정도를 측정하고, 언어적 점수(LS) 는 생성된 텍스트의 질을 평가합니다. 이를 통해 단순히 망각 여부뿐 아니라, 모델의 전반적인 성능과 응답의 질까지 종합적으로 평가할 수 있습니다.
실험 결과: 성공적인 '학습을 통한 잊기'
실험 결과, ReLearn은 목표한 정보를 효과적으로 잊으면서 동시에 높은 수준의 출력 품질을 유지하는 것으로 나타났습니다. 역전 최적화 방식이 일관된 텍스트 생성을 방해하는 것과 달리, ReLearn은 이러한 필수적인 능력을 보존하는 것으로 확인되었습니다. 이는 ReLearn이 단순한 '잊기'를 넘어, LLM의 지능적인 학습 능력을 향상시키는 데 기여할 수 있음을 시사합니다.
ReLearn 코드 공개: https://github.com/zjunlp/unlearn
본 연구는 LLM의 '잊는 능력' 향상에 새로운 가능성을 제시합니다. ReLearn은 향후 LLM의 성능 개선과 안전성 향상에 중요한 역할을 할 것으로 기대됩니다. 연구진이 공개한 코드를 통해, 더 많은 연구자들이 ReLearn을 활용하고 발전시킬 수 있기를 기대합니다.
Reference
[arxiv] ReLearn: Unlearning via Learning for Large Language Models
Published: (Updated: )
Author: Haoming Xu, Ningyuan Zhao, Liming Yang, Sendong Zhao, Shumin Deng, Mengru Wang, Bryan Hooi, Nay Oo, Huajun Chen, Ningyu Zhang
http://arxiv.org/abs/2502.11190v1