생성 모델 제어의 혁신: 활성화 벡터 스티어링을 통한 효율적이고 안전한 콘텐츠 생성
본 연구는 생성 모델의 출력을 효율적으로 제어하기 위해 활성화 벡터에 대한 스파스 간섭을 학습하는 새로운 방법인 LinEAS를 제안합니다. LinEAS는 전역 손실 함수와 스파스 정규화를 통해 기존 방법의 한계를 극복하고, 다양한 생성 모델에 적용 가능성을 보여줍니다.

일상생활에서 생성 모델의 사용이 증가함에 따라, 안전한 콘텐츠 생성이나 사용자에게 스타일 변경 탐색 도구 제공 등 생성 과정을 효율적으로 제어하는 메커니즘이 필요해졌습니다. 이러한 메커니즘은 학습 및 추론 시간 모두에서 저렴해야 하며, 출력 품질을 유지해야 합니다.
최근 연구에서는 모델 활성화에만 개입하여 소스와 타겟 세트 간의 활성화 분포 차이를 수정하는 방법이 제시되었습니다 (예: 유해 및 비유해 문장). 하지만 이러한 방법은 국소적으로 조정되어 하위 계층에 미치는 영향을 고려하지 않아 샘플 외 적용 시 의도치 않은 변화를 야기하는 단점이 있습니다.
본 연구에서는 이러한 문제점을 해결하기 위해, 모든 계층의 분포 변화를 동시에 고려하는 전역 손실 함수를 사용한 선형 엔드-투-엔드 활성화 스티어링(LinEAS)을 제안합니다. LinEAS는 더욱 견고할 뿐만 아니라, 스파스 정규화를 통해 뉴런 및 계층 선택을 자동으로 수행하여 효율성을 높입니다.
실험 결과, LinEAS는 소량의 샘플만으로도 효과적이며, 유해성 완화에서 유사한 기존 방법보다 우수한 성능을 보였습니다. 또한, 훨씬 복잡한 미세 조정 방법과 동등한 수준의 성능을 보였습니다. 더 나아가, LinEAS 개입은 조합이 가능하며, 스파스성이 성능에 미치는 영향을 연구하고, 텍스트-이미지 확산 모델과 같은 다양한 응용 분야에 적용 가능성을 보여주었습니다.
LinEAS의 주요 특징:
- 전역 손실 함수를 통한 견고한 성능
- 스파스 정규화를 통한 효율적인 계산
- 소량의 샘플로 높은 효과 달성
- 텍스트-이미지 확산 등 다양한 생성 모델에 적용 가능
본 연구는 생성 모델 제어 분야에 중요한 진전을 이루었으며, 안전하고 효율적인 생성 모델 활용을 위한 새로운 가능성을 제시합니다. 향후 연구에서는 LinEAS의 다양한 응용 분야와 성능 개선에 대한 추가적인 연구가 필요할 것으로 예상됩니다.
Reference
[arxiv] End-to-end Learning of Sparse Interventions on Activations to Steer Generation
Published: (Updated: )
Author: Pau Rodriguez, Michal Klein, Eleonora Gualdoni, Arno Blaas, Luca Zappella, Marco Cuturi, Xavier Suau
http://arxiv.org/abs/2503.10679v2