잊는 법을 배우는 AI: 선택적 망각을 통한 LLM의 데이터 프라이버시 강화


Saransh Agrawal과 Kuan-Hao Huang의 연구는 LLM의 민감한 정보 암기 문제를 해결하기 위해 인과 매개 분석과 계층별 최적화를 결합한 선택적 망각(unlearning) 기법을 제시합니다. OLMo 아키텍처를 활용한 실험 결과, 초기 트랜스포머 계층의 중요성을 밝히고, 10억 매개변수 모델 부문에서 2위를 차지하며 높은 성능과 데이터 프라이버시 보호를 동시에 달성했습니다.

related iamge

인공지능(AI)의 눈부신 발전과 함께, 대규모 언어 모델(LLM)은 그 어느 때보다 강력한 능력을 선보이고 있습니다. 하지만 이러한 발전과 함께, LLM이 훈련 과정에서 민감한 정보를 기억하는 문제가 심각한 우려를 불러일으키고 있습니다. 공개적으로 접근 가능한 모델에 민감한 정보가 남아있다는 것은 심각한 데이터 프라이버시 위협으로 이어질 수 있습니다.

Saransh Agrawal과 Kuan-Hao Huang은 SemEval-2025 Task 4에서 이 문제에 대한 혁신적인 해결책을 제시했습니다. 그들의 논문 "SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation"은 기존의 기계 학습 unlearning 방법의 한계를 극복하고, 특정 데이터 연관성을 선택적으로 제거하는 방법을 제시합니다. 이는 모델의 전반적인 성능 저하 없이 달성 가능하다는 점에서 주목할 만합니다.

핵심은 인과 매개 분석과 계층별 최적화의 결합입니다. 연구팀은 OLMo 아키텍처(10억 및 70억 매개변수)를 사용하여 체계적인 인과 추적 실험을 수행했습니다. 그 결과, 초기 트랜스포머 계층(0-5 계층)의 MLP 모듈이 주어진 속성 연관성을 저장하는 데 중요한 역할을 한다는 것을 밝혀냈습니다. 이러한 통찰력을 바탕으로, 연구팀은 상위 계층을 고정하고 하위 계층에 새로운 결합 손실 함수를 적용하는 제약 최적화 기법을 개발했습니다. 이 방법은 출력 토큰 교차 엔트로피 패널티를 통해 잊어야 할 정보에 대한 손실을 최대화하는 동시에, 적응적 정규화를 통해 유지해야 할 정보에 대한 편차를 최소화합니다.

그 결과는 놀랍습니다. 10억 매개변수 모델 부문에서 2위를 차지하며 뛰어난 성능을 입증했습니다. 동시에 기준 MMLU 정확도의 88%를 유지하며 데이터 프라이버시 문제 해결에 크게 기여했습니다. 이 연구는 인과 관계를 고려한 계층 최적화가 LLM에서 효율적이고 정확한 unlearning을 위한 유망한 패러다임임을 보여주는 획기적인 결과입니다.

이는 단순한 기술적 진보를 넘어, AI 시스템의 데이터 프라이버시 문제에 대한 새로운 해결책을 제시하는 중요한 발걸음입니다. 앞으로 이 연구가 LLM의 안전성과 신뢰성을 높이고, AI 기술의 윤리적 발전에 기여할 것으로 기대됩니다. 😉


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation

Published:  (Updated: )

Author: Saransh Agrawal, Kuan-Hao Huang

http://arxiv.org/abs/2504.12996v1