퓨전 스티어링: 프롬프트 특정 활성화 제어로 LLM의 정확도를 높이다
Waldemar Chang과 Alhassan Yasin의 'Fusion Steering' 연구는 LLM의 사실 정확도를 향상시키는 혁신적인 활성화 제어 방법을 제시합니다. 모든 Transformer 계층에 프롬프트 특정 활성화 델타를 동적으로 주입하고, Optuna를 이용한 최적화를 통해 사실 정확성과 유창성을 균형 있게 조정합니다. 실험 결과, 분할 스티어링은 기존 방식보다 월등히 높은 정확도를 달성했으며, 희소 표현에도 적용 가능하여 향후 LLM 발전에 큰 기여를 할 것으로 기대됩니다.

Waldemar Chang과 Alhassan Yasin이 제시한 획기적인 연구, **'Fusion Steering: Prompt-Specific Activation Control'**이 대규모 언어 모델(LLM)의 질적 도약을 예고하고 있습니다. 이 논문은 질문 답변(QA) 작업에서 LLM의 사실 정확도를 크게 향상시키는 새로운 활성화 제어 방법론을 제시합니다.
기존 방식의 한계를 넘어서다
기존의 활성화 제어 방법들은 단일 계층 또는 고정된 계층에서만 작동하는 제한점을 가지고 있었습니다. 하지만 Fusion Steering은 이러한 한계를 극복하고, 모든 Transformer 계층에 걸쳐 프롬프트 특정 활성화 델타를 동적으로 주입합니다. 이를 통해 보다 유연하고 효과적인 제어가 가능해졌습니다.
의미적으로 풍부한 조향
Fusion Steering의 핵심은 정답과 모델이 생성한 설명을 결합한 참조 완성본을 활용한다는 점입니다. 이는 단순한 정답만을 사용하는 기존 방식과 달리, 의미적으로 풍부하고 예시 특유의 조향을 가능하게 합니다. 모델은 이 참조 완성본을 통해 더욱 정확하고 일관성 있는 답변을 생성할 수 있게 됩니다.
최적화된 주입 가중치
프롬프트별 주입 가중치는 Optuna를 사용하여 최적화됩니다. 목표는 토큰 중복(사실적 정렬) 과 당혹감(유창성 대리) 사이의 균형을 맞추는 것입니다. 즉, 사실 정확성과 문장의 자연스러움을 동시에 고려하여 최적의 결과를 도출하는 것입니다.
놀라운 실험 결과
260개의 SimpleQA 프롬프트를 대상으로 한 실험 결과는 Fusion Steering의 효과를 명확하게 보여줍니다. 특히 분할 스티어링은 Gemma-2-2B-IT 모델(8비트 양자화)에서 25.4%의 정확도(0.6 이상 점수)를 달성, 기준선보다 3.5%, 전계층 스티어링보다 16.2%나 높은 성능을 기록했습니다. 더욱 엄격한 SimpleQA 기준에서는 완전 정답 비율을 0.0%에서 13.1%로 획기적으로 향상시켰습니다.
미래를 향한 발걸음
Fusion Steering은 Neuronpedia나 sparse crosscoders와 같은 희소 표현에도 적용 가능합니다. 이는 LLM의 활성화 수준 제어에 있어 해석 가능성과 확장성을 모두 갖춘 새로운 가능성을 제시합니다. 이 연구는 LLM의 발전에 중요한 이정표가 될 뿐 아니라, 앞으로 더욱 발전된 AI 시스템 구축을 위한 중요한 토대를 마련했습니다.
Reference
[arxiv] Fusion Steering: Prompt-Specific Activation Control
Published: (Updated: )
Author: Waldemar Chang, Alhassan Yasin
http://arxiv.org/abs/2505.22572v1