멀티-어트리뷰트 조정으로 LLM의 한계를 뛰어넘다: MAT-Steer의 등장
Duy Nguyen 등 연구진이 개발한 MAT-Steer는 다중 속성을 동시에 조정하여 LLM의 성능을 향상시키는 새로운 프레임워크입니다. 질문 응답과 생성 작업 모두에서 기존 방법보다 우수한 성능을 보였으며, LLM의 안전성과 유용성 향상에 기여할 것으로 기대됩니다.

대규모 언어 모델(LLM)의 행동 제어는 인공지능 분야의 핵심 과제입니다. 최근, 모델 파라미터를 업데이트하지 않고도 토큰 표현에 개입하여 LLM의 성능을 향상시키는 추론 시간 개입(ITI) 기법이 주목받고 있습니다. 하지만 기존 ITI는 유용성 향상과 독성 감소 등 상반되는 여러 속성을 동시에 조정하는 데 어려움을 겪었습니다.
이러한 한계를 극복하기 위해, Duy Nguyen 등 연구진은 MAT-Steer(Multi-Attribute Targeted Steering) 라는 혁신적인 프레임워크를 개발했습니다. MAT-Steer는 여러 속성에 걸쳐 선택적인 토큰 수준 개입을 수행하도록 설계되었습니다. 핵심은 다양한 속성에 대한 조정 벡터를 학습하는 '정렬 목표'입니다. 이 목표는 모델의 내부 표현을 바람직한 출력에 가깝게 이동시키면서 동시에 벡터 간의 희소성과 직교성을 강화하여 속성 간의 충돌을 최소화합니다.
연구진은 질문 응답(QA) 작업과 생성 작업이라는 두 가지 상황에서 MAT-Steer를 평가했습니다. QA 작업에서는 진실성, 편향성, 독성과 같은 속성의 균형을 맞추는 데 초점을 맞추었습니다. 생성 작업에서는 유용성, 정확성, 일관성을 동시에 개선하는 것을 목표로 했습니다.
결과는 놀라웠습니다. MAT-Steer는 QA 작업에서 평균 3%의 정확도 향상을 달성했고, 생성 작업에서는 최고의 ITI 기준 모델에 비해 55.82%의 승률을 기록하며 기존 ITI 및 파라미터 효율적인 미세 조정 접근 방식을 능가했습니다. 이는 MAT-Steer가 다중 속성 제어라는 어려운 과제에 효과적으로 대처할 수 있음을 보여줍니다.
MAT-Steer의 성공은 단순한 성능 향상을 넘어, LLM의 윤리적 문제 해결에도 중요한 의미를 지닙니다. 독성 감소와 유용성 향상을 동시에 추구하는 것은 LLM을 안전하고 유익하게 사용하기 위한 필수적인 요소입니다. MAT-Steer는 이러한 목표 달성에 한 걸음 더 다가가게 해주는 획기적인 기술이라고 할 수 있습니다. 앞으로 MAT-Steer가 다양한 LLM 응용 분야에 적용되어 더욱 안전하고 유용한 인공지능 시스템 구축에 기여할 것으로 기대됩니다.
단, MAT-Steer의 성능은 사용되는 데이터셋과 작업의 특성에 따라 달라질 수 있으므로, 실제 적용 시에는 주의 깊은 검토가 필요합니다.
Reference
[arxiv] Multi-Attribute Steering of Language Models via Targeted Intervention
Published: (Updated: )
Author: Duy Nguyen, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal
http://arxiv.org/abs/2502.12446v1