LLM 안전성의 미스터리: 하위 공간은 별개가 아니다
LLM의 안전성을 위한 기존의 하위 공간 기반 접근 방식의 한계를 지적하고, 안전성이 모델의 복잡한 학습 역학과 밀접하게 관련되어 있음을 실험적으로 증명한 연구 결과를 소개합니다. 이는 LLM 안전성 확보에 대한 새로운 접근 방식의 필요성을 강조합니다.

대규모 언어 모델(LLM)은 사회적으로 용인 가능한 응답을 생성하기 위해 안전성 정렬(safety alignment)에 의존합니다. 이는 일반적으로 instruction tuning 및 강화 학습을 통해 인간의 피드백으로 달성됩니다. 그러나 이러한 정렬은 취약한 것으로 알려져 있습니다. 양성 또는 약하게 오염된 데이터로 추가적인 미세 조정을 하더라도 안전성이 저하되고 유해한 행동이 다시 나타날 수 있습니다.
최근 연구들은 정렬이 가중치 공간에서 식별 가능한 기하학적 방향에 해당하며, 원칙적으로 격리 또는 보존하여 오정렬을 방지할 수 있는 하위 공간을 형성할 수 있다는 것을 시사합니다. Kaustubh Ponkshe, Shaan Shah, Raghav Singhal, Praneeth Vepakomma가 진행한 연구는 이러한 기하학적 관점에 대한 포괄적인 경험적 연구를 수행했습니다. 이 연구는 안전 관련 행동이 특정 하위 공간에 집중되어 있는지, 일반적인 목적의 학습과 분리될 수 있는지, 그리고 유해성이 내부 표현의 구별 가능한 패턴에서 발생하는지 여부를 조사했습니다.
매개변수 및 활성화 공간 모두에서 연구 결과는 일관적입니다. 안전한 행동을 증폭하는 하위 공간은 안전하지 않은 행동도 증폭시키며, 안전성에 대한 영향이 다른 프롬프트는 중복된 표현을 활성화합니다. 안전성을 선택적으로 제어하는 하위 공간에 대한 증거는 발견되지 않았습니다. 이러한 결과는 정렬이 기하학적으로 국한된다는 가정에 도전합니다. 안전성은 별개의 방향에 있는 것이 아니라 모델의 광범위한 학습 역학의 얽혀 있는 고영향 구성 요소에서 나타나는 것으로 보입니다.
이는 하위 공간 기반 방어가 근본적인 한계에 직면할 수 있음을 시사하며, 지속적인 훈련에서 정렬을 유지하기 위한 대안 전략의 필요성을 강조합니다. 연구진은 5개의 오픈소스 LLM에 대한 여러 실험을 통해 이러한 결과를 확인했습니다. 연구 코드는 GitHub에서 공개적으로 이용 가능합니다. 이 연구는 LLM의 안전성 확보에 대한 새로운 패러다임을 제시하며, 향후 연구의 방향을 제시하는 중요한 발견입니다. 단순히 하위 공간에 의존하는 방식이 아닌, LLM의 학습 역학에 대한 더욱 깊이 있는 이해와 새로운 안전성 확보 전략의 개발이 필요함을 시사합니다. 🤔
Reference
[arxiv] Safety Subspaces are Not Distinct: A Fine-Tuning Case Study
Published: (Updated: )
Author: Kaustubh Ponkshe, Shaan Shah, Raghav Singhal, Praneeth Vepakomma
http://arxiv.org/abs/2505.14185v1